人気のタグ
おすすめのサイト
企業ニュース

東芝が対話中のキーワードや文脈から未知語を学習する「未知語理解AI」を開発

2019.09.25

東芝は、音声対話システム向けに、ユーザーの発話の中に、システム辞書中に存在しない単語(未知語)が含まれる場合でも、未知語を検出し、キーワードや文脈から未知語の属性を推定し学習していく未知語理解AIを開発した。

本技術を用い、公開データベース(※1)を使った検証を行ったところ、世界トップの0.883の推定精度を達成した。

東芝は本技術を9月15~19日にオーストリア グラーツで開催される音声言語に関する国際会議INTERSPEECH2019で発表した。

近年、労働力不足が課題となっており、2023年からは労働力人口の減少が加速すると言われている。

労働力不足を補うため、AI技術による業務代行や自動化が推進されており、その中でも音声対話システムを利用した業務支援サポートの要望が高まっている。

例えば、保守点検や営業活動などの現場では、日報や報告書の作成が担当者の負担となるケースがあるが、日報や報告書の作成を音声対話システムで行えば、人手による業務の低減が期待できる。

しかし、現場では業界特有の専門用語や表現、または略語が使われることが多く、これらすべてをあらかじめシステムに学習させることは困難。

未知語のまま残ると現在の音声対話システムでは「わかりません」と答えて対話が終わってしまうか、別の単語と間違えて、対話が破たんしてしまう。

そこで東芝は、未知のキーワードを正確に抜き出し、その意味を理解することによって、ユーザーに既知のキーワードに近い発話を促すことや、未知のキーワードをその場で学習する未知語理解AIを開発した。

例えば、分かりやすい事例を用いるとユーザーが「ふわっとリング(※2)が食べたい」と言った場合には、未知語である「ふわっとリング」というキーワードを抽出し、「~が食べたい」という文脈から、それが食べ物であるという属性に分類して未知語を理解し、その結果を踏まえてユーザーへ応答することが可能(図1)。

図1:未知のキーワードに対する音声対話システム

人間は、「ふわっとリングが食べたい」と聞いた時に、「ふわっとリング」が何なのか分からなくても、「~が食べたい」という文脈からその属性が食べ物であることを予測することができる。

一方、「和食がいい」と言ったときには「和食」というキーワードから属性が食べ物であると判断できる。

今回開発した未知語理解AIは、こうした人間の考え方に基づき、発話された文章をキーワード部分と文脈部分に意図的に切り分けて処理することによって、既知、未知のキーワードに対して属性を判断し、高精度な発話理解を実現できるようになった。

従来、属性の判断にはキーワードを重視する手法が用いられていた。「和食が食べたい」という文章の場合、既知のキーワードである「和食」をシステムが認識し、属性が食べ物であることが分かる。

しかし、「ふわっとリングが食べたい」という文章の場合、未知のキーワードである「ふわっとリング」をシステムが認識することができず、属性を判別できずに終わるか、キーワードを「リング」と認識し、属性がアクセサリーであると誤った判断をする可能性がある。

そこで東芝は、未知のキーワードでも検出可能とし、その属性を判断する手法を開発した。

まず、学習時に文章のキーワード部分をランダムにさまざまな言葉に置き換え、キーワード位置を検出するニューラルネットワークを学習することによって、文脈を重視したモデルを学習し、未知語であってもその部分がキーワードであることを検出(図2)。

検出したキーワードの属性は、「キーワードの特徴を抽出」「文脈の特徴を抽出」「その特徴を統合して属性を推定」する3つのニューラルネットワークを用いて推定。

キーワード検出の結果を使って発話された文章をキーワード部分と文脈部分に切り分け、キーワードの特徴と、文脈の特徴を抽出。

そして、これらを統合するニューラルネットワークで、どちらの特徴を重視するかといった重みを計算し属性を判定する。

「ふわっとリングが食べたい」という文章の場合は、「~が食べたい」という文脈が重視され、「ふわっとリング」の属性が食べ物であると判別される。

図2:未知キーワードの検出方法

本技術をレストラン検索の音声対話公開データベースを使って、キーワードの検出とその属性推定精度を評価指標F値(※3)で評価したところ、既知キーワードのみで構成される文章の推定精度を維持したまま、未知語を含む文章に対する推定精度が既存手法の0.764から実用レベルの0.883に大きく向上し、未知語を理解する音声対話システム実現に向けて大きく前進した。

東芝は今後、本技術を、同社コミュニケーションAI「RECAIUS(リカイアス)」が提供する各種の音声対話サービスに適用していくことを検討していくという。

図3:本技術を活用した保守点検の対話例

※1:英語のレストラン検索音声対話の性能を評価する公開データベース Dialog State Tracking Challenge (DSTC) 2,3
※2:架空のドーナツの名前
※3:キーワードの検出と推定属性の精度を測る指標。0から1の値をとり、1に近いほど高精度になる。

関連情報:https://www.toshiba.co.jp/

構成/DIME編集部

新型コロナウイルス対策、在宅ライフを改善するヒントはこちら

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2020年5月15日 発売

最新号のDIMEは年間300万円節約するサブスク活用術!特別付録は「デジタルポケットスケール」!

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 10401024号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。