NTTテクノクロスは、音声合成ソリューション「FutureVoice Crayon」に話者の声質を損なわずに多言語の合成音声を実現するクロスリンガル音声合成技術を搭載し、商用提供を開始した。なお、同技術の商用提供は国内初(※1)となる。
ひとつの言語音声データがあれば他言語の音声の合成が可能に
人の音声を機械的に生成する音声合成技術は、コールセンターをはじめ公共交通機関やスマートスピーカーなどに幅広く活用されている。
こうした背景から、合成音声の多言語展開のニーズも高まってきている。だが、多言語の合成音声を生成するには、言語ごとの音声収録だけでなく、その前提として多言語を話せる話者を選出する必要があるなどの課題があり実現は難しかった。
この度、NTT人間情報研究所が開発したクロスリンガル音声合成技術を「FutureVoice Crayon」に搭載することにより、話者の声質を損なわずに一言語の音声から多言語の合成音声を生成できるようになった。
「FutureVoice Crayon」でクロスリンガル音声合成技術を活用した例
NTT人間情報研究所が長年蓄積した膨大な音声データとDNN*2音声合成のノウハウを活用し、一言語の音声から日本語、英語、標準中国語、韓国語の合成音声の生成を実現した。(2023年1月時点)
これにより、キャラクターなどの特定の声質を損なうことなく、吹き替えを多言語で展開することができるなど、さまざまなシーンでの活用が図れる。
また、声の特徴を示す情報の抽出精度を向上させ、話者の声質の再現性を向上させた。
想定される利用シーン
・翻訳技術との連携によるプレゼンターの声での同時通訳のプレゼンテーション
・自身の声の合成音声による多言語での音声コミュニケーション
・好きな声優の多言語の合成音声による外国語学習 など
FutureVoice Crayonとは
クレヨンのいろいろな色を使い分けるように、いろいろな声を創ることができる音声合成ソリューション。コンタクトセンターでの自動応答・バーチャルアイドル・ロボット・電子書籍・動画コンテンツ・ゲーム・スマホアプリなど、多岐にわたる分野で活用され、豊富な導入実績がある。
*1:NTTテクノクロス調べ
*2:DNN
Deep Neural Networkの略。機械学習の一種であるニューラルネットワークの階層を深くしたアルゴリズムで、画像認識や音声認識などの分野で活用されている。
*「FutureVoice」はNTTテクノクロスの登録商標。
* 記載されている商品名・会社名などの固有名詞は一般に該当する会社もしくは組織の商標または登録商標。
関連情報:https://www.futurevoice.jp/
構成/Ara