
東芝は、処理能力に制約があるエッジデバイス上でも高速に動作する音声キーワード検出機能付き話者認識AIを世界で初めて開発した。
この技術を家電に搭載すれば、家電がネットワークに接続していなくても、3回の発話で完了する話者登録に加え、音声による操作、話者に合わせて機器の動きを変更することが可能となる。
音声認識技術の市場規模は、2024年には世界で約2兆3千億円になると予想されている。
企業等においては業務効率化や人手不足の問題解決に向けて活用が進む一方、家庭においてはユーザーが話しかけるだけで自動的にキーワードを検出し家電等のエッジデバイスの操作につなげる機器が増加している。
音声による機器操作においては、キーワード検出のみならず、話者を認識し、話者に合わせて機器の動きを変更する機能も出てきており、今後需要が拡大するとみられている。
例えば、エアコンに対して「エアコンつけて」と発話したときに、その音声から話者を認識し、その人に合った温度でエアコンを起動するといった機能が挙げられる(図1)。
キーワード検出と話者認識機能の両立には膨大な計算が必要となるため、スマートフォンのような高性能な機器か、操作するエッジデバイスをネットワークに接続してクラウド上で計算を行なうのが一般的。
身近にあるさまざまな機器で手軽にこうした機能を使うためには、処理能力に制約のあるエッジデバイスの機能(組込みシステム)の中で高速に動作するAIが必要。
図1:ユーザーを認識し、ユーザーに合わせた機器動作をする例
そこで東芝は、ネットワークに接続していなくてもエッジデバイス上で、キーワード検出と話者認識を同時に行なうAI技術を開発した。この技術の特徴は2つあるという。
1つ目の特徴は、キーワード検出で用いる情報の活用。
音声が入力されると、キーワード検出のニューラルネットワークで周辺雑音などの影響を吸収しつつ音声処理を行なうが、このニューラルネットワークの中間出力を使って話者登録・話者認識を行なう(図2)。
中間出力を使うことで、話者認識の際にも周辺の雑音の影響を抑えることが可能となる。
また、話者認識のための音声処理の時間を大幅に削減できるため、限られた機能上で高速な動作が可能だ。
図2:キーワード検出で用いた情報の活用
2つ目の特徴は、ニューラルネットワークのデータ拡張手法の活用。
データ拡張手法とは少ないデータ(発話)で学習する手法の1つで、ニューラルネットワークのノード間の接続の重みをランダムにゼロにすることで、同じ話者がさまざまなしゃべり方で発話したような音声情報を模擬的に生成することができる(図3)。
話者を識別するためには、AIに話者を学習させる必要があるが、この手法を使うことで、話者の発話数が少なくても話者を学習でき、話者登録時の必要発話数の削減を実現する。
図3:ニューラルネットワークのデータ拡張手法の活用
本手法を各話者3回の発話を登録に用いるという条件で比較評価を行なった結果、話者認識の一般的な手法であるi-vectorでは話者100名の識別精度が71%だったが、本手法では89%という結果が得られた。
実際に家電等のエッジデバイスを操作する場面では、登録話者は5名から10名程度と想定され、十分に実用性能があると考えられる。
また、サーバーで計算量、処理速度の計測を行なったところ、ともに組込みシステムでも問題なく動作するという結果が得られた。
東芝は、本技術を実際の組込みシステムに搭載し、家電などのユースケースで実用性の検証を進める。
また、東芝コミュニケーションAI「RECAIUS(リカイアス)」での活用について、東芝デジタルソリューションズと連携して検討を進めるという。
■東芝コミュニケーションAI「RECAIUS(リカイアス)」とは
人の活動現場の知見を効率よく集めてナレッジとし、状況に適した人の活動の意思決定を支援するサービス。自然言語処理技術と知識処理技術を融合することで、人とシステムとのコミュニケーションを活性化する。
RECAIUSは、誰もが心地よく業務を遂行できる仕組みと効率の良い働き方の実現を目指すと共に、生活の快適化を図る。
RECAIUST (リカイアス)ホームページ:https://www.toshiba-sol.co.jp/pro/recaius/
構成/DIME編集部