Zero/Few-shot音声合成技術
図3 Zero-shot音声合成技術(上)、Few-shot音声合成技術(下)
従来技術では、声を作りたい話者・口調ごとに数十分程度の音声データを用意する(収録に要する時間はその数倍)必要があり、万人の音声の再現やキャラクタの多彩な口調を実現するにはコストが高くなる課題があったが、今回より少ない音声データからでも高品質かつ多様な表現の生成を可能にする2つの技術を実現した。
1つ目は、「Zero-shot音声合成技術」だ。話者のほんの数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をすることなくその特徴を再現した音声を生成。多忙な方や声を失った人など極少量の音声しか得られない方を含む、万人の音声の簡易な再現をめざすものだ。
2つ目は、「Few-shot音声合成技術」だ。著名人や有名キャラクタ等の声色・口調をより高い再現度で反映させることをめざし、再現したい口調の音声を含む数分~10分程度の音声データから音声合成モデルを学習。従来に比べ必要な音声データ量を大きく削減しながらも、再現性の高い音声を合成可能な「Few-shot音声合成技術」だ。
これらの技術を実現するためには多くのパラメータを持つ深層学習モデルを必要とするが、すでに演算処理の高速化により一般的なスペックのCPUで動作させることに成功しており、本技術を用いた音声合成サービスの運用コストを低く抑えることを実現している。
技術の効果
図4 本技術によるデジタル分身プロトタイプのユーザ体験イメージ
これら技術により、自分の代わりに他人とコミュニケーションをするデジタル分身を誰もが持つことができるようになり、その主な適用先としてメタバースのような新たなデジタルコミュニケーションサービスが考えられる。
サービスを使いこなして物理空間では会えない様々な人と交流している先進的なユーザがいる一方、多くの新規ユーザは誰と話せばよいか、何をすればよいか、最初は戸惑うことが多いのも実情だ。
それに対して本技術によるデジタル分身は、ユーザ自身がログインしていなくても自律的に活動するNPC(Non-Player Character)として他のユーザやそのデジタル分身とコミュニケーションし、その内容をユーザ本人に持ち帰って共有する。
そうすることで、全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザと友達になるきっかけが得られる。
また、趣味や関心が共通する人々のコミュニティに分身が代理参加してユーザに橋渡しすることで、コミュニティ活動を活性化することが可能になる。
有名人やインフルエンサーのデジタル分身をサービス内に常時配置することで、ファンコミュニティの拡大・活性化も期待できる。
このようなデジタル分身のプロトタイプをNTTドコモのメタコミュニケーションサービス「MetaMe」上に実装し、2024年1月17日~18日に東京国際フォーラムにて開催されたdocomo Open House’24にて展示された。
今後の展望
ユーザーのデジタル分身を通じた人間関係の創出効果に関してMetaMe上でのフィールド実験を2023年度中に開始予定。このような取り組みを通して、NTT版大規模言語モデルtsuzumiによる個人性再現機能の提供に向け、2024年度中に技術の精度向上を図っていくという。
同社では「それにより、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員等との関係性を築けるデジタルヒューマンやチャットボットの実現につなげていきます」と述べている。
関連情報
https://group.ntt/jp/newsrelease/2024/01/17/240117a.html
構成/清水眞希