小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

【CES2025】NVIDIAがフィジカルAIシステムの開発を推進するプラットフォーム「Cosmos」を発表

2025.01.10

NVIDIAは米国時間2025年1月6日、翌7日より米国ネバダ州ラスベガスにて開催されている「CES2025」を前に、自動運転車 (AV) や ロボットなどのフィジカル AI システムの開発を促進するために構築された最先端の生成世界基盤モデル、高度なトークナイザー、ガードレール、および高速ビデオ処理パイプラインで構成されるプラットフォーム、NVIDIA Cosmosを発表した。

自動運転車やロボットなどのフィジカルAIシステム開発を促進

フィジカル AI モデルの開発にはコストがかかり、膨大な量の実世界のデータとテストが必要になる。

そこでCosmos 世界基盤モデル (WFM) は、開発者が既存のモデルをトレーニングおよび評価するための、大量のフォトリアルな物理ベースの合成データを簡単に生成する方法を提供。開発者は、Cosmos WFM をファインチューニングしてカスタム モデルを構築することも可能だ。

Cosmos モデルは、ロボティクスおよび AV コミュニティの作業を加速するために、オープン モデル ライセンスの下で提供される。開発者は、NVIDIA API カタログで最初のモデルをプレビューするか、NVIDIA NGCカタログまたは Hugging Face から一連のモデルとファインチューニング フレームワークをダウンロードできる。

■大手ロボティクスや自動車会社、ライドシェアリングのUber が採用

1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi、XPENG などの大手ロボティクスや自動車会社、およびライドシェアリング大手の Uber が、Cosmos を最初に採用する企業に含まれている。

NVIDIA の創業者・CEO であるジェンスン フアン氏 は、今回の発表に際して次のように述べている。

「ロボティクスに ChatGPT の時代が到来しつつあります。大規模言語モデルと同様に、世界基盤モデルはロボットおよび AV 開発の進歩に不可欠ですが、すべての開発者が独自のモデルをトレーニングするための専門知識とリソースを持っているわけではありません。NVIDIAは、フィジカル AI を民主化し、一般的なロボティクスをすべての開発者が利用できるようにするために Cosmosを作成しました」

オープンな世界基盤モデルで AI の次の波を加速

NVIDIA Cosmos のオープン モデル スイートでは、開発者が対象アプリケーションのニーズに応じて、走行するAV や倉庫内を移動するロボットの録画映像などのデータセットを使用し、WFM をカスタマイズすることができる。

Cosmos WFM は、フィジカル AI の研究開発専用に構築されており、テキスト、画像、ビデオなどの入力とロボット センサーまたはモーション データの組み合わせから物理ベースのビデオを生成できる。

モデルは、物理ベースのインタラクション、オブジェクトの永続性、倉庫や工場などのシミュレートされた産業環境やさまざまな道路状況を含む運転環境の高品質な生成を目的として構築されている。

CES の基調講演で、NVIDIA の創業者・CEO であるジェンスン フアン氏は、フィジカル AI 開発者による Cosmos モデルの使用例を紹介した。これには以下のものが含まれている。

<ビデオ検索と理解>
開発者は、雪道の状況や倉庫の混雑など、ビデオ データから特定のトレーニング シナリオを簡単に見つけることが可能になる。

<物理ベースのフォトリアルな合成データ生成>
Cosmos モデルを使用し、NVIDIA Omniverseプラットフォームで開発された制御された 3D シナリオからフォトリアルなビデオを生成することができる。

<フィジカル AI モデルの開発と評価>
基盤モデル上にカスタム モデルを構築したり、強化学習のために Cosmos を使用してモデルを改善したり、または特定のシミュレーション シナリオでのパフォーマンスをテストする場合などに活用できる。

<先見性と「マルチバース」シミュレーション>
Cosmos と Omniverse を使用して、AI モデルが取る可能性のあるすべての将来の結果を生成し、最善かつ最も正確なパスを選択可能にする。

高度な世界モデル開発ツール

フィジカル AI モデルを構築するには、ペタバイト単位のビデオ データと、そのデータの処理、キュレーション、ラベル付けに数万時間の計算時間が必要だ。データのキュレーション、トレーニング、モデルのカスタマイズにかかる膨大なコストを節約するために、Cosmos には次の機能が含まれている。

<NVIDIA NeMo Curatorを搭載したNVIDIA AIおよびCUDAアクセラレーテッドデータ処理パイプライン>
これにより、開発者は CPU のみのパイプラインを使用した場合に 3年以上かかる 2000万時間分のビデオの処理、キュレーション、ラベル付けを、NVIDIA Blackwell プラットフォームを使用して14日間で行なえる。

<NVIDIA Cosmos Tokenizer>
画像やビデオをトークンに変換する最先端のビジュアル トークナイザー。今日の主要なトークナイザーよりも8倍の総圧縮率と12倍の処理速度を実現している。

<NVIDIA NeMo>
非常に効率的なモデルのトレーニング、カスタマイズ、最適化のためのフレームワーク。

世界最大のフィジカルAI業界がCosmosを採用

フィジカル AI 業界のパイオニアたちはすでに Cosmosテクノロジを採用している。

AI およびヒューマノイド ロボット企業である1Xは、Cosmos Tokenizerを使用して 1X World Model Challengeデータセットを立ち上げた。

XPENG は Cosmos を使用してヒューマノイド ロボットの開発を加速。また、Hillbot と SkildAI は Cosmos を使用して汎用ロボットの開発を加速している。

Agilityの最高技術責任者である Pras Velagapudi 氏は次のように述べている。

「データの不足と変動性は、ロボット環境での学習を成功させる上で重要な課題です。Cosmos のテキスト、画像、ビデオを世界に変換する機能により、さまざまなタスクでフォトリアルなシナリオを生成および拡張でき、高価な現実世界のデータ キャプチャをそれほど必要とせずにモデルのトレーニングに使用可能になります」

■交通業界のリーダーたちもAV 向けのフィジカル AI の構築にCosmos を使用

・物理世界向けの生成 AI のパイオニアである Waabi は、AV ソフトウェアの開発とシミュレーション用のビデオ データの検索とキュレーションに Cosmosを使用している。

・自動運転用の AI 基盤モデルを開発している Wayve は、安全性と検証に使用されるエッジ ケースとコーナー ケースの運転シナリオを検索するツールとして Cosmos を評価している。

・AV ツールチェーン プロバイダーの Foretellix は、忠実度の高いテスト シナリオとトレーニング データを大規模に評価、および生成するため、NVIDIA Omniverse Sensor RTX APIとCosmosを使用している。

・世界的なライドシェアリング大手のUberは、自律移動を加速するため NVIDIAと提携している。Uberの豊富な運転データセットと、Cosmosプラットフォームおよび NVIDIA DGX Cloudの機能を組み合わせることで、AVパートナーはより強力な AIモデルをさらに効率的な状態で構築可能となる。

Uber のCEOである Dara Khosrowshahi氏は次のように述べている。

「生成 AI は、豊富なデータと非常に強力なコンピューティングの両方を必要とするモビリティの未来を推進します。NVIDIA と協力することで、業界向けの安全でスケーラブルな自動運転ソリューションのタイムラインを大幅に加速できると確信しています」

オープンで安全、かつ責任ある AI の開発

NVIDIA Cosmosは、プライバシー、安全性、セキュリティ、透明性、不要な偏見の削減を優先する NVIDIA の信頼できるAIの原則に沿って開発された。

信頼できる AI は、開発者コミュニティ内でイノベーションを促進して、ユーザーの信頼を維持するために不可欠だ。NVIDIA は、米国政府の自主的な AI コミットメントやその他のグローバル AI 安全イニシアチブに沿って、安全で信頼できる AI に取り組んでいる。

オープンな Cosmos プラットフォームには、有害なテキストや画像を軽減するように設計されたガードレールが含まれており、テキスト プロンプトの精度を高めるツールを備えている。

NVIDIA API カタログの Cosmos 自己回帰モデルと拡散モデルで生成されたビデオには、AI によって生成されたコンテンツを識別するための目に見えない透かしが含まれており、誤報や誤帰属のリスクを減らすのに役立つ。

NVIDIA は、開発者が信頼できる AI プラクティスを採用して、アプリケーションのガードレールと透かしソリューションをさらに強化することを推奨している。

提供予定について

Cosmos WFM は、Hugging Face および NVIDIA NGC カタログで NVIDIA のオープン モデル ライセンスに基づいて現在提供されている。Cosmos モデルは、完全に最適化された NVIDIA NIM マイクロサービスとしてまもなく提供される予定だ。

開発者は、NVIDIA NeMo Curator にアクセスしてビデオ処理を高速化。NVIDIA NeMo を使用して独自の世界モデルをカスタマイズできる。

NVIDIA DGX Cloud は、これらのモデルを迅速かつ簡単に展開する方法を提供。NVIDIA AI Enterprise ソフトウェア プラットフォームを通じてエンタープライズ サポートを利用できる。

NVIDIA はさらに、開発者がヘルスケア、金融サービス、製造などのエンタープライズ AI ユース ケースに使用できる新しい NVIDIA Llama Nemotron 大規模言語モデルとNVIDIA Cosmos Nemotron 視覚言語モデル を発表した。

本リリースに記載されている製品や機能の多くはまだ様々な段階にあり、利用可能になった時点で提供される予定です。記述は、コミットメント、約束、または法的義務として意図されたものではなく、またそう解釈されるべきでもありません。また、NVIDIA製品について説明された特徴や機能の開発、リリース、および時期は変更される可能性があり、NVIDIA単独の裁量に委ねられます。NVIDIAは、ここに記載された製品、特徴または機能の不提供または遅延について、いかなる責任も負いません。

関連情報
https://www.nvidia.com/ja-jp/events/ces/

構成/清水眞希

 

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2024年12月16日(月) 発売

DIME最新号は、「大谷翔平研究!」。今年を象徴するDIMEトレンド大賞の発表や、Aぇ!group、こっちのけんと他豪華インタビューも満載!

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 第6091713号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。