パートナーのように知識応答や共感応答をする対話AI
NTTはこのほど、クルマから見える移り変わる景色を話題として、パートナーのように知識応答や共感応答をする対話AIを実現した。
従来の大半の対話システムは、話者の発話から得られるテキスト情報のみを入力とすることが多く、その周囲のリアルタイムな画像情報や位置情報などを取り込めないことが課題となっていた。
一方、この対話AIでは、NTTが構築した深層学習に基づく大規模テキスト対話モデルを、ドライブ中の対話データ・周辺情報データを用いて追加学習することで、景色として見える画像情報および関連する外部知識に基づく、自然な対話を実現しているとのこと。常に自己位置が変化する状況下で、自己の周囲の景色やそこに紐づく情報に基づく雑談対話を行う対話AIは、世界で初めて実現された成果だという。
技術のポイント
(1)世界最大規模の対話データで学習した深層学習ベース対話モデルの利用
NTTは、超大規模Web対話データ・高品質対話データと、近年進展が著しい深層学習技術(Transformer Encoder-decoderモデル)を組み合わせることで、日本語最大規模の対話モデルを構築した。
構築した対話モデルは、ルールや係り受け関係などの統計情報に基づく従来のモデルに比べ、抜本的に異なるレベルで複雑な文脈の理解や自然な発話の生成を実現しており、雑談AIの性能を競う対話システムライブコンペティション3でも圧倒的な成績で優勝するなどの成果を挙げている。
(2)自己位置周辺の景色画像・外部知識の同時導入
上記大規模対話モデルは、テキスト情報のみを入力として扱っている。そのため、テキストに閉じた対話では非常に自然な雑談を実現できものの、私たちの実際の周辺の状況に即した対話を行うことは困難だ。人とドライブを楽しむ対話AIを実現するには、自己位置周辺の景色画像や外部のスポット情報を適切に処理しながら、対話に反映させる必要がある。
NTTはこの課題に対し、画像内の物体の情報と、自己位置周辺のスポット情報を大規模対話モデルに導入する技術を開発した。画像内に写っている物体群については、物体検出と呼ばれる技術を用いて抜き出し、それぞれを大規模対話モデルで扱える数値情報(埋め込みベクトル)に変換して入力するという。
またスポット情報については、自己位置近傍のレストラン等のスポットに関する情報(ジャンル・名称等)をテキスト形式で取り出し、対話の文脈と同様の形式で入力。大規模対話モデルはこれらの入力情報に基づき、それらを反映した対話AIの発話を出力するとのことだ。
このように設計したモデルを、ドライブ対話データ(運転画像を見ながらガイド役・ドライバー役の間で行った対話)で学習することにより、自己位置周辺の景色画像・スポット情報に基づく発話生成を実現したという。
(3)連続的に変化する画像情報に基づくリアルタイム対話制御
ドライブ中の自己位置は逐次的・連続的に変化する。対話AIは、人がどの時点の画像やスポット情報を話題としているのかを理解しつつ、新規に入力された情報にも適切なタイミングで触れながら対話する必要がある。
本成果では、対話文脈からの話題画像推定と、逐次的に入力される画像に対する発話の話題強度の推定技術を開発し、それらを適切にタイミング制御に組み込むことで、上記課題を解決したという。ユーザの発話に自然に応じながら、ユーザが強く興味を惹かれるであろう情報を適切なタイミングで提供する、新感覚のドライビング・パートナーとなる対話AIを実現したとしている。
関連情報
https://group.ntt/jp/corporate/overview/
構成/こじへい