NVIDIAは、2024年7月28日から8月1日までアメリカのデンバーで開催中のコンピュータグラフィクス分野のトップカンファレンスSIGGRAPH2024において、インタラクティブなビジュアルAIエージェントを構築するための NVIDIA Metropolis リファレンス ワークフローや、開発者が物理的なマシンをトレーニングし、複雑なタスクの処理方法を改善するのに役立つ新しいNVIDIA NIM マイクロサービスなど、生成物理AIの進歩を発表した。
これらには、3Dワールド向けの NVIDIAの新しいディープラーニング フレームワークをサポートする 3 つの fVDB NIMマイクロサービス、Universal Scene Description (OpenUSD) を扱うための USD Code、USD Search、USD Validate NIMマイクロサービスが含まれる。
本稿では、同社発表リリースを元に、その概要をお伝えする。
NVIDIA NIMマイクロサービスが物理AI環境を変革
物理AIは、高度なシミュレーションと学習方法を使用して、ロボットや他の産業オートメーションが周囲の環境をより効果的に認識、推論、ナビゲートできるようにする。
このテクノロジは、製造業やヘルスケアなどの業界を変革し、ロボット、工場や倉庫のテクノロジ、外科用AIエージェント、より自律的かつ正確に動作できる自動車など、スマート スペースを進化させている。
NVIDIA は、特定のモデルや業界ドメインに合わせてカスタマイズされた幅広いNIMマイクロサービスを提供している。物理 AI 向けにカスタマイズされたNVIDIAのNIMスイートは、音声と翻訳、視覚とインテリジェンス、リアルなアニメーションと動作のための機能をサポートしている。
■NVIDIA NIMでビジュアルAIエージェントをビジョナリーに変える
ビジュアルAIエージェントは、コンピューター ビジョン機能を使用して、物理世界を認識して対話し、推論タスクを実行する。
非常に知覚的でインタラクティブなビジュアル AI エージェントは、ビジョン言語モデル (VLM) と呼ばれる新しいクラスの生成AIモデルによって駆動される。
これは、物理的なAIワークロードにおけるデジタル認識と現実世界の対話を橋渡しして、意思決定、精度、対話性、パフォーマンスの向上を可能にする。VLMを使用すると、開発者は複雑な環境でも困難なタスクをより効果的に処理できるビジョンAIエージェントを構築できる。
生成AIを搭載したビジュアルAIエージェントは、病院、工場、倉庫、小売店、空港、交差点などで急速に導入されている。
物理AI開発者が高性能なカスタム ビジュアルAIエージェントをより簡単に構築できるように、NVIDIAは物理AI用のNIMマイクロサービスとリファレンス ワークフローを提供している。
ブログで説明があるように、NVIDIA Metropolisリファレンス ワークフローは、ビジュアルAIエージェントをカスタマイズ、構築、展開するためのシンプルで構造化されたアプローチを提供する。
NVIDIA NIMがK2Kのパレルモ市の効率、安全性、セキュリティ向上を支援
イタリアのパレルモ市の交通管理者は、NVIDIA NIMを使用してビジュアルAIエージェントを展開し、道路管理の改善に役立つ物理的な洞察を発見した。
NVIDIA MetropolisのパートナーであるK2Kが取り組みを主導し、NVIDIA NIMマイクロサービスとVLMをAI エージェントに統合して、市内のライブ交通カメラをリアルタイムで分析している。
市の職員はエージェントに自然言語で質問し、街頭の活動に関する迅速かつ正確な洞察や、信号のタイミング調整など、市の運営を改善する方法に関する提案を受け取ることができる。
世界有数の電子機器大手であるFoxconnとPegatronは、物理 AI、NIMマイクロサービス、およびMetropolisリファレンス ワークフローを採用し、大規模な製造オペレーションをより効率的に設計、実行している。
両社は、時間とコストを大幅に削減するために、シミュレーションで仮想工場を構築している。また、実世界での展開前に、デジタル ツインで物理 AI (AI マルチカメラおよびビジュアルAIエージェントを含む) のより徹底したテストと改良を行ない、作業員の安全性を向上させ、運用効率を高めている。
■合成データ生成でシミュレーションと現実のギャップを埋める
多くのAI主導の企業は現在、現実世界の産業オートメーションを含む生成物理AIプロジェクトに「シミュレーション ファースト」アプローチを採用している。
製造、工場物流、ロボティクスの企業は、複雑な人間労働者との相互作業、高度な設備、高価な機器を管理する必要がある。物理AIおよび VLM NIMマイクロサービス、リファレンス ワークフロー、fVDBなどを含む、NVIDIAの物理AIソフトウェア、ツール、プラットフォームは、現実世界の状況を正確に模倣するデジタル表現や仮想環境を作成するために必要な、非常に複雑なエンジニアリングを効率化するのに役立つ。
VLMは、非常にリアルな画像を生成できるため、さまざまな業界で広く採用されている。ただし、正確な物理AIモデルを作成するには膨大な量のデータが必要になるため、これらのモデルのトレーニングは困難だ。
コンピューター シミュレーションを使用してデジタル ツインから生成される合成データは、実際のデータセットに代わる強力な手段となる。実際のデータセットは、ユース ケースによっては、モデルのトレーニング用に取得するには費用がかかり、場合によっては取得不可能になることもある。
NVIDIA NIMマイクロサービスや Omniverse Replicatorなどのツールを使用すると、開発者は生成AI対応の合成データ パイプラインを構築して、物理 AI のトレーニング用の堅牢で多様なデータセットの作成を加速できる。
これにより、VLMなどのモデルの適応性とパフォーマンスが向上し、業界やユース ケース全体でより効果的に一般化できるようになる。
関連情報(英文)
https://blogs.nvidia.com/blog/generative-physical-ai-nim-microservices/
構成/清水眞希