小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

IBMが作った複数話者の文字起こしがきれいにできる「議事録スマート・スピーカー」の革新性

2021.02.02

IBM Digital Makers Lab.が開発した議事録スマートスピーカー「Integrated Spatial Assistant Console(ISAC)」がCES 2021 Innovation Awardを受賞した。

今回、日本IBMがこの画期的なソリューションの開発秘話を、開発責任者の松永氏と Digital Makers Lab. を率いる嶋田氏にインタビューした。

CES 2021 Innovation Awardと受賞内容について

松永:CES 2021は、全米民生技術協会(CTA:Consumer Technology Association)が開催する、50年以上続く家電見本市です。最近では、世界最大かつ最先端のテクノロジーが集まるカンファレンスとして認識され、世界各国の企業から有識者が17万人以上集結し世界最先端の動向が共有されます。

CES Innovation Award は、出展企業・製品の中から、特にデザインとエンジニアリングにおいて優れたものに贈られます。

そして、この度、議事録スマート・スピーカーは、Computer Peripherals & Accessories分野でこのCES Innovation Awardを受賞しました。

過去にIBM Corporationが受賞したことがありますが、日本IBMとしては初の受賞です。テクノロジー企業であるIBMがなぜ?と思われるかもしれません。その辺りは、後ほどご説明します。

議事録スマート・スピーカー(ISAC: Integrated Spatial Assistant Console)とは


Photo by Michinori Aoki

嶋田:会議の議事録作成において、話者を特定して記録をするのはかなり難しいです。録音して書き起こす場合は、聞き直したりすると、実際の会議の何倍も時間がかかりますし、音声だけで話者を判別するのは難易度が高く、同時に話していたら、お手上げです。また、人間が議事録をとると、どうしても恣意的になり、その文章を、読み手が、さらに自分なりに解釈するとなると、公平性の観点からも看過できません。

松永:それらの問題点を解決するのが、「議事録スマート・スピーカー(ISAC)」です。複数話者の文字起こしを可能にする会議ソリューションで、会議出席者の特定および複数話者が同時に会話するシーンでの発話内容のテキスト化を可能にし、「誰が何を話したのか」を記録します。最先端の音声処理、画像処理、Cloud技術を組み合わせた世界初のソリューションです。

議事録スマートスピーカー(ISAC)開発の背景

嶋田:2年半ほど前に、某社のスマート・スピーカーが日本でも発売され、実際に使ってみたところ、言葉のやり取りの面で改善の余地があると、漠然と感じていました。

その時、前職で、会議に若手社員が議事録を取っていた時、会議に出席はしているものの、参加はできていないこと、議事録の精度も人により左右されることを悩んでいたことなどを思い出し、エンジニアの松永さんに相談したところ、面白い!と開発が始まりました。

まさか実現できるなんて思っていなかったので、嬉しい限りです。

松永:将来的に会議の場では議事録以外にもプロジェクターへの資料投影を音声で行うなど、個人を特定しないとなしえない機能が求められていると思いました。

今回はその基礎になるソリューションですが、IBM のエンジニア、デザイナーに加え、ハードウェアのベンダー、音響特性のスペシャリスト、大学院生時代に勤務していた産総研など、組織を超えた人との繋がりと能力の結集の成果です。

議事録スマートスピーカーの特徴と想定するビジネス利用シーン

松永:前述の通り、話者を特定して文字を書き起こせること、複数話者が同時に話した場合も分話ができること、そして、ビジネスのためのAIであるIBM Watson のSpeech to Textを活用することで、複雑な業界用語や社内用語の聞き取りも可能になります。専門用語が飛び交う会議で必死に議事録を取っている若手社員に朗報です。

嶋田:ビジネスでの利用シーンは、「会議用議事録の作成」、話した内容がテキスト・データとして記録されるので「会話内容のデータマイニング」ができ、また、「ガバナンスが問われる会議や業務のモニタリング」にも有効です。

モニタリングの例は、保険や投資などの窓口業務で、お客様とのやり取りが適切に行われているか、監査の際に、手作業でサンプリングして調べて提出する場合、かなりの工数がかかっていますが、このソリューションを使うと、全ての会話データから、必要な情報を検索するなどもでき、作業効率が格段に上がります。

今後の展開について

嶋田:昨今、物理的スペースで個人を認識してパーソナライズした体験が求められています。今回実現した、個人の特定と音声のインタフェースの基礎となる技術は、今後、様々な分野での利用が考えられます。

松永:例えば、会議中に、クラウドファイル管理サービスに保存されているファイルをプロジェクターに投影するには、誰が指示しているかなど、個人の認識と認証が必要です。

登壇してファイルへのアクセス、投影、スライド送り、字幕などの自動生成ができるようになるかもしれません。このように音声で指示したユーザーの個人を特定できれば、様々なフィジカル環境でユニークなサービスの開発に繋がり、エンドユーザーの利便性を向上させることができます。

こういったスマート・スピーカーが会議で必要な全ての機能を備え、PCなど持ち込む必要もない世界が来るのではないでしょうか。

IoT/画像解析/音声解析/クラウド技術や私たちの知見を元に、お客様の商品やサービスにお役立てしたいと考えています。

https://www.ibm.com/blogs/think/jp-ja/ces2021-innovation-award/

構成/ino.

新型コロナウイルス対策、在宅ライフを改善するヒントはこちら

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2021年7月15日(木) 発売

DIME最新号の特別付録は「LEDリングライトPREMIUM」! 特集は「今、読むべき 観るべきマンガとアニメ」、「2021上半期ヒット商品大検証」

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 10401024号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。