NVIDIAは2024年7月28日から8月1日までアメリカ・コロラドで開催された SIGGRAPH2024において、感情やユーモアなどを使って人々とつながることができるインタラクティブなデジタル ヒューマンであるJamesを公開した。
また、没入型のテレプレゼンス エクスペリエンスを実現する Maxine 3DやAudio2Face-2Dなど、NVIDIA Maxine AIプラットフォームの最新の進歩も紹介した。
本稿では同社リリースを元に、その概要をお伝えする。
デジタル ブランド アンバサダーのJamesが登場
◎動画:https://blogs.nvidia.com/wp-content/uploads/2024/07/AceCut-2.mp4?_=1
NVIDIA NIM マイクロサービス上に構築された Jamesは、文脈に沿って正確な応答を提供できる仮想アシスタントだ。
Retrieval-Augmented Generation (RAG) を使用することで、Jamesは最新のNVIDIA テクノロジについてユーザーに正確に伝えることができる。
ACE を使用すると、開発者は独自のデータを使用して、顧客に関連情報を伝えることができるドメイン固有のアバターを作成できる。
Jamesは、最新のNVIDIA RTX レンダリング テクノロジを使用しており、高度でリアルなアニメーションを実現する。その自然な音声はElevenLabsにより作られている。
NVIDIA ACE を使用すると、開発者はさまざまなユースケースに合わせてアバターを作成する際に、アニメーション、音声、言語をカスタマイズできる。
■NVIDIA Maxine がテレプレゼンスにおけるデジタルヒューマンを強化
デジタルヒューマンのオーディオと、ビデオの品質を強化する最先端のAI機能を導入するプラットフォームであるMaxineは、ビデオ会議デバイスにおいてはリアルタイムでフォトリアルな2D、および3Dアバターの使用を可能にする。
Maxine 3Dは、2Dビデオポートレート入力を3Dアバターに変換して、非常にリアルなデジタルヒューマンをビデオ会議やその他の双方向通信アプリケーションに統合できるようにする。
このテクノロジはまもなく早期アクセスで利用可能になる。
現在早期アクセス中のAudio2Face-2Dは、オーディオ入力に基づいて静的ポートレートをアニメーション化し、1 つの画像から動的な会話するデジタル ヒューマンを作成する。
■デジタルヒューマン アプリケーションを採用している企業
HTC、Looking Glass、Reply、UneeQ は、カスタマーサービス エージェントや、エンターテイメント、小売、サービス業におけるテレプレゼンス エクスペリエンスなど、幅広いユースケースで NVIDIA ACE と Maxineを使用している最新の企業だ。
SIGGRAPHでは、デジタル ヒューマン テクノロジ開発企業のUneeQが2つの新しいデモを披露した。
1 つ目のデモでは、拡張性とプライバシーを強化するローカルのブラウザー内コンピュータービジョンを備えたNVIDIA GPUによりクラウドレンダリングされ、Audio2Face-3D NVIDIA NIMマイクロサービスを使用してアニメーション化されたデジタルヒューマンに焦点を当てている。
UneeQ の Synapseテクノロジは、匿名化されたユーザーデータを処理し、それを大規模言語モデル (LLM) にフィードして、より正確で応答性の高いインタラクションを実現する。
2つ目のデモは、NVIDIA RTX GPU搭載のノート PC 1 台で実行され、Gemma 7B LLM、RAG、NVIDIA Audio2Face-3D NIMマイクロサービスによって実行される高度なデジタルヒューマンをフィーチャーしている。
どちらのデモも、UneeQのNVIDIAを活用した取り組みを紹介している。
■ユーザーの表情や動作に反応できるデジタルヒューマンを開発、仮想カスタマーサービスの限界を拡張
これは、ユーザーの表情や動作に反応できるデジタルヒューマンを開発し、仮想カスタマーサービス エクスペリエンスのリアリズムの限界を押し広げるものだ。
https://www.youtube.com/watch?v=LD4ak_O0oLk
HTC Viverseは、Audio2Face-3D NVIDIA NIMマイクロサービスをVIVERSE AIエージェントに統合して、ダイナミックなフェイシャルアニメーションとリップシンクを実現。より自然で没入感のあるユーザーインタラクションを具現化している。
ホログラム技術企業 Looking Glass が SIGGRAPHで行なった Magic Mirrorデモでは、シンプルなカメラセットアップとMaxineの高度な3D AI機能を使用して、新たに発売されたグループ表示可能なLooking Glass 16インチおよび 32インチ空間ディスプレイに、ユーザーの顔のリアルタイム ホログラフィック フィードが生成された。
Replyは、Costa Crociereのクルーズ船Costa Smeralda向けに開発された最先端のデジタル ヒューマンであるFuturaの強化版を発表した。
Audio2Face-3D NVIDIA NIMおよびRiva ASR NIMマイクロサービスを搭載したFuturaの音声合成機能は、GPT-4o、RAG 向けLlamaIndex、Microsoft Azureテキスト読み上げサービスなどの高度なテクノロジを活用している。
Futuraには、包括的な感情認識のために、Reply独自の感情コンピューティングテクノロジとHume AIおよびMorphCastも組み込まれている。
Unreal Engine 5.4.3 と MetaHuman Creatorを使用して構築され、NVIDIA ACE搭載のフェイシャルアニメーションを備えたFuturaは、6つの言語をサポートしている。
インテリジェント アシスタントは、個別の港訪問の計画、カスタマイズされた旅程の提案、ツアーの予約の円滑化に役立つ。
さらに、Futuraはゲストのフィードバックに基づいて推奨事項を改良し、特別に作成されたナレッジ ベースを使用して有益な都市情報を提供し、観光客の旅程を充実させる。
Futuraは、顧客サービスを強化し、現実世界のシナリオで没入型のインタラクションを提供することで、業務の合理化とビジネスの成長を促進することを目指している。
関連情報(英文)
https://blogs.nvidia.com/blog/digital-humans-siggraph-2024/
構成/清水眞希