小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

NVIDIAが1枚の2D画像からリアルな表情をした会話ビデオを合成できる技術「Vid2Vid Cameo」を開発

2021.07.16

NVIDIA「Vid2Vid Cameo」

NVIDIAは、先日開催された世界的な学会「Conference on Computer Vision and Pattern Recognition」(CVPR)においてVid2Vid Cameoを発表した。

Vid2Vid Cameoは、GTC Fall 2020で発表れた、ビデオ会議用のNVIDIA Maxine SDKを支えるディープラーニング モデルの1つ。生成的敵対ネットワークを使用し、180,000の高品質な会話画面ビデオのデータセットを使用してトレーニングされた。人の2D画像1枚から、人が話している顔のリアルな会話ビデオを合成できるほか、デジタルアバターをリアルタイムで合成したり、帯域幅を最大10倍まで削減することができる。詳細は以下の通り。

ベッドから起きて、ノートPCを起動し、ウェブカメラをオンに—すると、ビデオカメラに写っているのは、身支度の整った姿。そんなことを可能にするのが、NVIDIAの研究者が開発したAIだ。

ビデオ会議用のNVIDIA Maxine SDKを支えるディープラーニングモデルの1つであるVid2Vid Cameoは、敵対的生成ネットワーク(GAN)を使用して、人の2D画像1枚から、人が話している顔のリアルな会話ビデオを合成する。

これを使用するために、参加者はビデオ通話に参加する前に、自分の実際の顔写真または漫画のアバターのいずれかを参照画像として送信する。ミーティング中、AIモデルが各参加者のリアルタイムの動きをキャプチャーし、あらかじめアップロードされた参照画像に適用する。

つまり、あらかじめ正装姿の自分の写真をアップロードしておけば、ミーティングの参加者は髪の毛がぼさぼさであったりパジャマ姿であっても、ユーザーの顔の動きが参照写真にマッピングされるので、オフィススタイルで会話画面に映ることができる。もし被写体が左に向いたとしても、テクノロジによって視線が補正され、参加者がウェブカメラに直接向いているように見せることが可能となる。

このAI技術は、ミーティング参加者をベストな状態で映すだけでなく、ビデオ会議に必要な帯域幅を最大10分の1に縮小し、画面の揺らぎ(ジッター)やラグの発生を防ぐ。NVIDIA Video Codec SDKのA IFace Codecという機能としてまもなく利用できるようになる。

NVIDIAの研究者であり、同プロジェクトに関する論文の共同執筆者でもあるミンユウ リュウ(Ming-YuLiu)氏は次のように述べている。

「インターネット帯域幅に制限があっても、友人や家族とスムーズなビデオ通話をしたいと思っている人は多いはずです。このプロジェクトの基盤となるテクノロジはこうした人々に役立つだけでなく、アニメーター、写真編集者、ゲーム開発者の仕事を支援するためにも使用できます」

Vid2Vid Cameoは、先日開催された世界的な学会である CVPR (Conference on Computer Vision and Pattern Recognition) で発表された。この論文をはじめ、CVPRでは28のNVIDIAの論文が採択されている。AI Playgroundで利用することもでき、誰でも NVIDIA の研究デモを直接体験できる。

NVIDIA Maxine SDKにVid2Vid Cameoの機能がまもなく登場

強盗映画の傑作(およびNetflixでヒットした映画)を参考に、NVIDIAの研究者はビデオ会議のための会話画面GANモデルを試してみた。デモでは、顔の向きの修正、アバターのアニメーション、データ圧縮など、Vid2VidCameoの主要な機能に焦点を当てている。

動画:NVIDIA Vid2Vid Cameo Mission AI Possible: NVIDIA Researchers Stealing the Show

https://youtu.be/xzLHZbBvKNQ

これらの機能はNVIDIA Maxine SDKでまもなく提供され、開発者はビデオ会議やライブストリーミングにおけるビデオ、音声、および拡張現実エフェクト向けに最適化された事前トレーニング済みモデルを利用できるようになる。

開発者はすでに、インテリジェントなノイズ除去、ビデオのアップスケーリング、姿勢推定など、Maxine AIのエフェクト機能を利用できる。このSDKは無料でダウンロードでき、文字起こしや翻訳などの対話型AIアプリケーション向けプラットフォーム、NVIDIA Jarvisと組み合わせて利用することもできる。

Vid2Vid Cameoを実現するテクノロジ

Vid2Vid Cameoがビデオ会議用のリアルなAI会話画面を構築するために必要とするのは、人物の容姿がわかるように一人で映った画像1枚と、その画像をアニメーション化する方法を指示するビデオストリームという2つの要素だけ。

NVIDIA DGXシステムで開発されたこのモデルは、180,000の高品質な会話画面ビデオのデータセットを使用してトレーニングされた。ネットワークは、人間の注釈なしで顔の動きをモデル化するために、主要ポイント20カ所を特定すればよいことを学んだ。そのキーポイントは、目、口、鼻など、顔を特徴づける位置をエンコードする。

次に、画面に映る人の参照画像からキーポイントを抽出する。抽出されたポイントは、他のビデオ会議参加者にあらかじめ送信でき、以前に開催したミーティングから再利用することもできる。こうすることで、ビデオ会議プラットフォームは大量のライブビデオストリームを他の参加者に送信するのではなく、話す人の顔のキーポイントがどのように動いているかに関するデータの送信だけで済む。

受信者側では、GANモデルがこの情報を使用して、参照画像の外観を模倣したビデオを合成する。この手法では、完全なビデオストリームではなく、頭の位置とキーポイントだけを圧縮して相互に送信するため、ビデオ会議に必要な帯域幅を10分の1に減らし、よりスムーズなユーザーエクスペリエンスをもたらす。モデルを調整して、さまざまなキーポイントを送信することで、視覚的な品質を損なうことなく、さまざまな帯域幅環境に適応させることができる。

その結果、会話画面に映る顔の視点を横向きや真っ直ぐに調整でき、カメラアングルの高低を自由に調整してユーザーを表示することもできる。また、静止画像を操作する写真編集者がこの機能を応用することもできる。

動画:Inventing Virtual Meetings of Tomorrow with NVIDIA AI Research

https://youtu.be/NqmMnjJ6GEg

NVIDIAの研究者は、参照画像と同一人物がビデオに映る場合にも、またはAIがある人物の動きを別の人物の参照画像に転送するタスクを行う場合にも、Vid2Vid Cameoがよりリアルで鮮明な結果を生成し、これまで最高の精度を持つAIモデルを凌駕することを発見した。

後者の機能を使用することで、ビデオ会議で話者の顔の動きをデジタルアバター適用して動かしたり、ビデオゲームや漫画のキャラクターにリアルな表情や動きを付けたりすることができる。

Vid2Vid Cameoの論文は、NVIDIAの研究者であるティン チュンワン(Ting-ChunWang)氏、アルン マリヤ(Arun Mallya)氏、ミンユウ リュウ氏によって執筆されている。NVIDIA Researchチームには世界中の200人以上の科学者が在籍し、AI、コンピュータービジョン、自動運転車、ロボティクス、グラフィックスなどの分野に焦点を当てて研究を進めている。

出典元:NVIDIAブログ
https://blogs.nvidia.com/blog/2021/06/24/vid2vid-cameo-ai-research-video-conferencing/

構成/こじへい

新型コロナウイルス対策、在宅ライフを改善するヒントはこちら

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2021年7月15日(木) 発売

DIME最新号の特別付録は「LEDリングライトPREMIUM」! 特集は「今、読むべき 観るべきマンガとアニメ」、「2021上半期ヒット商品大検証」

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 10401024号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。