NVIDIAがテキストから音楽や音声を生成できるAI研究モデル「Fugatto」を開発

2024.11.29

テクノロジー

NVIDIAの生成AIの研究者チームから、オーディオの生成と変換のための画期的な新しいAI研究モデル、Fugattoが発表された。

このFugatto、あらゆるテキストプロンプトを音声に変換して音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、さらにこれまで聞いたことのないサウンドを生成したりすることも可能だという。

同社は、「Fugattoのような基盤モデルは、最終的に開発者やクリエイターがテキストプロンプトを入力するだけで、音に命を吹き込むことを可能にし、より高い創造性と効率性を実現します」と説明している。

本稿では同社発表ブログをベースに、その概要をお伝えする。

ユーザーがテキストだけで音声出力を制御できる音の万能ツール

生成AIの研究者チームが、ユーザーがテキストだけで音声出力を制御できる音の万能ツールを開発した。これまでの AI モデルの中には、曲を作曲したり、音声を変更したりするものも存在していたが、この新しいモデルほど多機能なモデルはないという。

モデルの名称はFugatto。「Foundational Generative Audio Transformer Opus 1」の略称で、キストと音声ファイルの任意の組み合わせを使用して、プロンプトで記入された音楽、音声、サウンドの任意の組み合わせを生成、または変換する。

前述したように、テキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、これまで聞いたことのないサウンドを生成したりすることも可能だ。

マルチプラチナムプロデューサー兼ソングライターであり、最先端のスタートアップ企業向けの NVIDIA InceptionプログラムのメンバーであるOne Take Audioの共同創設者、Ido Zmishlany氏は、以下のように述べている。

「これは素晴らしいです。サウンドは私のインスピレーションであり、私が音楽を作る原動力です。スタジオで、まったく新しいサウンドを即座に作成できるというアイデアは斬新です」

■オーディオの生成および変換をサポート

「私たちは、人間のようにサウンドを理解して生成するモデルを作りたかったのです」と、NVIDIA の応用オーディオ研究マネージャーであり、Fugatto の開発に携わった 10 人以上のスタッフの 1 人で、さらにオーケストラの指揮者兼作曲家でもある Rafael Valle （ラファエルヴァレ）氏は語る。

多数のオーディオ生成および変換タスクをサポートする Fugatto は、様々なトレーニング済みの能力の相互作用から生じる創発特性と、自由形式の指示を組み合わせる機能を備えた、最初の基盤生成 AI モデルでもある。

「Fugatto は、大規模なデータとモデルからオーディオ合成および変換における教師なしマルチタスク学習が生まれる未来に向けた第一歩です」（Valle氏）

＜実際の作業状況は動画でチェック＞

■ユースケースのサンプルプレイリスト

例えば、音楽プロデューサーは Fugatto を使用して、様々なスタイル、声、楽器を試しながら、歌のアイデアをすばやく試作したり編集したりできる。また、エフェクトを追加したり、既存のトラックの全体的なオーディオ品質を向上させたりすることも可能だ。

広告代理店は、Fugatto を適用して、既存のキャンペーンを複数の地域や状況にすばやくターゲティングして、ナレーションに様々なアクセントや感情を適用することができる。

言語学習ツールは、話者が選択した任意の声を使用するようにパーソナライズできる。例えば、家族や友人の声で話されるオンラインのコースを想像していただきたい。

ビデオゲーム開発者は、このモデルを使用して、タイトル内の録音済みアセットを変更し、ユーザーがゲームをプレイするときに変化するアクションに合わせることができる。または、テキストの説明とオプションの音声入力から新しいアセットをその場で作成することに対応する。

■楽しい音を生み出すために

「このモデルの機能の中で、特に誇りに思っているのは、アボカドチェアと呼んでいるものです」と、Valle氏は語る。これは、画像生成 AI モデルによって作成された、斬新なビジュアルにちなんだ言葉だ。

例えば、Fugatto はトランペットが犬のように吠える音や、サックスが猫のように鳴く音を出すことができる。ユーザーが説明できるものなら何でも、このモデルは作成できるというのだ。

研究者は、ファインチューンと少量の歌唱データにより、テキストプロンプトから高品質の歌声を生成するなど、事前トレーニングされていないタスクを処理できることを既に発見している。

Fugattoの構成要素

Fugatto は音声モデリング、オーディオボコーディング、オーディオ理解などの分野でのチームのこれまでの取り組みを基に構築された、基盤生成 Transformer モデルだ。

フルバージョンでは 25 億のパラメーターが使用され、32基の NVIDIA H100 Tensor コア GPU を搭載した複数台の NVIDIA DGX システムでトレーニングされた。

Fugatto はインド、ブラジル、中国、ヨルダン、韓国など、世界中の様々な人々によって作成された。彼らのコラボレーションにより、Fugatto の多アクセントおよび多言語機能が強化された。

この取り組みで最も困難だったのは、トレーニングに使用する何百万ものオーディオサンプルを含む混合データセットを生成することだった。

チームは多面的な戦略を採用してデータと指示を生成し、モデルが実行できるタスクの範囲を大幅に拡大するとともに、より正確なパフォーマンスを実現。追加データを必要とせずに新しいタスクを実行できるようにした。

また、既存のデータセットを精査して、データ間の新しい関係を明らかにした。全体的な作業は1年以上を要したという。

Valle氏は、チームが手応えを感じた2度の瞬間を覚えていると話す。

「プロンプトから初めて音楽を生成したとき、私たちは心底驚いたものです」

その後、チームはビートに合わせて犬が吠える電子音楽というプロンプトをFugatt に与え、Fugatto はそれに応答した。

「Fugatto の応答でグループが笑いに包まれたとき、本当に心が温かくなりました」と、Valle氏は当時の心情を回顧してくれた。

関連情報
https://www.nvidia.com/ja-jp/

構成／清水眞希

NVIDIAがテキストから音楽や音声を生成できるAI研究モデル「Fugatto」を開発