ディー・エヌ・エー(以下DeNA)は、スマートフォンでリアルタイム音声変換を実現できる生成AI技術を独自に開発したことを発表した。
VTuberなどの個人利用のほか、高い品質を大前提とする商用利用などにも活用
DeNAでは、2019年から自分の声が別人の声になる音声変換技術の開発を進めてきた。2021年に公開した「VOICE AVATAR 七声ニーナ」(公開は終了)を皮切りに、社内事業での技術検証を経て、誰でも手軽にリアルタイム音声変換を実現できるAI技術を開発した。
リアルタイム音声変換AIは、音声を受け取るAIと変換音声を出力するAIのペアからなる。これらをリアルタイムで動くようにチューニングすることで同技術を実現している。
これまでエッジデバイスと称されるスマートフォン上ではAIを動かすための計算量を担保できず、特にリアルタイムで動かすことが困難だったが、今回、計算量を小さくする技術を独自開発することで、高品質かつ遅延100ミリ秒未満のリアルタイム性を維持しながらスマートフォン上で動作させることに成功した。
スマートフォン上で動作するため、プラグイン形式で様々なサービスのアプリやプロダクトに組み込むことが可能になり、これにより、音声変換をしたいとき別個に準備が必要だったPC向けソフトウェアや専用機器、それらのアプリへの統合をユーザーに求める必要がなくなる。
また、多種多様な声への変換を実現する同技術では、ビジネスニーズに応じて新たな種類の声を追加することも可能。 ゲームやライブ配信といったサービスでは、多様な人が利用しているため、特定話者だけでなく誰でもなりたい話者の声になれることを目指しているという。
■同技術の特徴
今回提供するリアルタイム音声変換AIでは、「スマホで低遅延」「高品質」「低コスト」を同時に実現。低遅延であるほど入力した音声と変換して出力される音声のタイムラグが小さくなるため、応用範囲が非常に広くなる。通常は低遅延にするほど音声の品質が犠牲になるが、今回の技術によりそれらを両立することが可能になったという。
品質が高くなることで、入力した音声に対する声色、声質、抑揚、イントネーションなど声にまつわる特徴を安定して維持することができる。また、高い品質で、なるべく低遅延にするためには、従来、高価なGPUを搭載したPCが必要だったが、今回開発した技術ではGPUを積んでいないノートパソコンはもちろん、スマートフォンでも低遅延、高品質で動作するため、低コストで利用することが可能になった。さらに、オフライン環境で動作するため、音声変換をするためにクラウドサーバーと通信する必要がないことも広い応用範囲に繋がっている。
本来であれば相反する速度・品質・コストをそれぞれ改良することに成功したことで、誰でも手軽にリアルタイム音声変換ができるようになり、VTuberなどの個人利用から、高い品質を大前提とする商用利用などにも活用が見込まれる。
■今後の展開予定
近年、VTuber配信やゲームにおけるボイスチャットなど、リアルタイムに声でコミュニケーションする市場が拡大している。新たなユーザー体験の重要性は高まってきており、市場拡大と併せて音声変換ニーズも高まることが予測される。同社では、活用領域の課題を捉えた中長期の事業戦略を策定し、プロダクトやサービスとシナジーを生み出す事業開発体制を強化するとしている。
また、事業戦略に基づくリアルタイム音声変換AIの技術開発も強化する。明瞭性や頑健性の向上、処理負荷の軽減だけでなく、対応デバイスの増加、動作環境に適したAIモデルやプラグインなどニーズに根差した開発を進めるとのこと。
さらに、将来的に、声が価値となるプロダクトを運営する企業・個人に対するサービス化も視野に入れて検討を進めていくとしている。
関連情報
https://dena.com/jp/
構成/立原尚子