256基のGrace Hopper Superchip を1エクサフロップの144TB GPU として接続
NVIDIAから新しいクラスの大規模メモリ AI スーパーコンピューターが発表された。
NVIDIA GH200 Grace Hopper Superchipと NVIDIA NVLink Switch System を搭載したこのNVIDIA DGXスーパーコンピューターは、生成AI言語アプリケーション、レコメンダー システム、データ分析ワークロード用の巨大な次世代モデルの開発を可能にするという。
NVIDIA DGX GH200の大規模な共有メモリ空間は、NVLinkインターコネクト テクノロジとNVLink Switch Systemを使用して256基のGH200 Superchipを結合して単一のGPUとしての動作を可能にする。
これにより、1エクサフロップのパフォーマンスと144テラバイトの共有メモリが提供される。これは、2020年に発表された前世代のNVIDIA DGX A100システムのほぼ500倍のメモリ容量に相当する。
今回の発表に際してNVIDIA の創業者/CEOであるジェンスン フアン (Jensen Huang) 氏は次のように述べている。
「生成 AI、大規模言語モデル、レコメンダー システムは現代の経済におけるデジタル エンジンです。DGX GH200 AI スーパーコンピューターは、NVIDIA の最先端のアクセラレーテッド コンピューティングとネットワーキング テクノロジを統合して、AI のフロンティアを拡大します」
NVIDIA DGX GH200 スーパーコンピューターは、年末までに提供が開始される予定だ。
NVIDIA NVLink テクノロジにより AI が大規模に拡張
GH200 Superchipは、NVIDIA NVLink-C2Cチップ インターコネクトを使用して、Arm ベースの NVIDIA Grace CPU と NVIDIA H100 TensorコアGPUを同じパッケージ内で組み合わせることで、従来のCPUとGPU間のPCIe接続の必要性を排除する。
これにより、最新のPCIeテクノロジと比較してGPUとCPU間の帯域幅が7倍に増加し、インターコネクトの消費電力が5倍以上削減され、DGX GH200 スーパーコンピューターのため 600 GB のHopperアーキテクチャ のGPUビルディング ブロックを提供する。
DGX GH200は、Grace Hopper Superchip と NVIDIA NVLink Switch Systemを組み合わせた初のスーパーコンピューターだ。
これは、DGX GH200システム内のすべての GPU を1基のGPUとして連携できるようにする新しいインターコネクトになる。前世代のシステムでは、パフォーマンスを損なうことなく 1基の GPU として利用するには、8基の GPU を NVLink で組み合わせることしかできなかった。
DGX GH200アーキテクチャは、前世代の48倍のNVLinkの帯域幅を提供し、単一のGPUをプログラミングする簡単さで大規模なAI スーパーコンピューターのパワーを実現する。
AI パイオニアのための新しいリサーチ ツール
Google Cloud、Meta、そしてMicrosoft は、生成 AI ワークロードの機能を探索するために DGX GH200 を活用予定の最初の企業の 1 つ。
NVIDIA はまた、DGX GH200のデザインをクラウド サービス プロバイダーや他のハイパースケーラーに設計図として提供し、自社のインフラストラクチャに合わせてさらにカスタマイズできるようにする予定だ。
Google Cloudのコンピューティング担当バイス プレジデントの Mark Lohmeyer氏は、次のように語る。
「Grace Hopper Superchip における NVLink の新たなスケールと共有メモリは、大規模 AI の主要なボトルネックに対処するものであり、Google Cloud と当社の生成 AI イニシアチブにてその機能を活用することを楽しみにしています」
またMeta のインフラストラクチャ、AI システムおよびアクセラレーテッド プラットフォーム担当バイス プレジデント、Alexis Björlin 氏から次のようなコメントが届いている。
「AI モデルが大きくなるにつれて、増大する需要に合わせて拡張できる強力なインフラストラクチャが必要になります。NVIDIA の Grace Hopper のデザインによって、研究者が最大規模の課題を解決するための新しいアプローチを探索できるようになるでしょう」
そしてMicrosoft の Azure Infrastructure 担当コーポレート バイス プレジデントである Girish Bablani 氏は、以下のように話す。
「大規模な AI モデルのトレーニングは、従来、リソースと時間がかかる作業でした。テラバイトサイズのデータセットを扱う潜在力を秘めた DGX GH200 によって、開発者はより大きなスケールで高度な研究をより早く進めることができるようになるでしょう」
研究開発を促進する新しい NVIDIA Helios スーパーコンピューター
NVIDIA は、研究者や開発チームの作業を強化するために、独自のDGX GH200ベースの AI スーパーコンピューターを構築している。NVIDIA Heliosと名付けられたこのスーパーコンピューターは、4つのDGX GH200 システムを搭載する。
Heliosスーパーコンピューターの各システムは、最大 400Gb/sの帯域幅を備えたNVIDIA Quantum-2 InfiniBandネットワーキングで相互接続され、大規模な AI モデルをトレーニングするためのデータ スループットを強化する。
Helios は1024基のGrace Hopper Superchipを搭載し、年末までに稼働を開始する予定だ。
完全に統合され、巨大モデルのために構築
DGX GH200 スーパーコンピューターには、最大規模の AI およびデータ分析ワークロードにターンキーのフルスタック ソリューションを提供する NVIDIAソフトウェアが含まれている。
NVIDIA Base Commandソフトウェアは、AI ワークフロー管理、エンタープライズ グレードのクラスター管理、そしてコンピューティング、ストレージ、ネットワーク インフラストラクチャを高速化するライブラリ、および AI ワークロードの実行に最適化されたシステム ソフトウェアを提供する。
NVIDIA AIプラットフォームのソフトウェア レイヤーであるNVIDIA AI Enterpriseも含まれている。生成AI、コンピューター ビジョン、音声 AI などを含む実稼働のためのAI開発と展開を効率化するための100を超えるフレームワーク、事前トレーニング済みモデル、開発ツールを提供する。
関連情報
https://www.nvidia.com/ja-jp/
構成/清水眞希