NVIDIAが前世代の500倍ものメモリ容量に相当するAIスーパーコンピューター「DGX GH200」を発表

2023.06.07

256基のGrace Hopper Superchip を1エクサフロップの144TB GPU として接続

NVIDIAから新しいクラスの大規模メモリ AI スーパーコンピューターが発表された。

NVIDIA GH200 Grace Hopper Superchipと NVIDIA NVLink Switch System を搭載したこのNVIDIA DGXスーパーコンピューターは、生成AI言語アプリケーション、レコメンダーシステム、データ分析ワークロード用の巨大な次世代モデルの開発を可能にするという。

NVIDIA DGX GH200の大規模な共有メモリ空間は、NVLinkインターコネクトテクノロジとNVLink Switch Systemを使用して256基のGH200 Superchipを結合して単一のGPUとしての動作を可能にする。

これにより、1エクサフロップのパフォーマンスと144テラバイトの共有メモリが提供される。これは、2020年に発表された前世代のNVIDIA DGX A100システムのほぼ500倍のメモリ容量に相当する。

今回の発表に際してNVIDIA の創業者／CEOであるジェンスンフアン (Jensen Huang) 氏は次のように述べている。

「生成 AI、大規模言語モデル、レコメンダーシステムは現代の経済におけるデジタルエンジンです。DGX GH200 AI スーパーコンピューターは、NVIDIA の最先端のアクセラレーテッドコンピューティングとネットワーキングテクノロジを統合して、AI のフロンティアを拡大します」

NVIDIA DGX GH200 スーパーコンピューターは、年末までに提供が開始される予定だ。

NVIDIA NVLink テクノロジにより AI が大規模に拡張

GH200 Superchipは、NVIDIA NVLink-C2Cチップインターコネクトを使用して、Arm ベースの NVIDIA Grace CPU と NVIDIA H100 TensorコアGPUを同じパッケージ内で組み合わせることで、従来のCPUとGPU間のPCIe接続の必要性を排除する。

これにより、最新のPCIeテクノロジと比較してGPUとCPU間の帯域幅が7倍に増加し、インターコネクトの消費電力が5倍以上削減され、DGX GH200 スーパーコンピューターのため 600 GB のHopperアーキテクチャのGPUビルディングブロックを提供する。

DGX GH200は、Grace Hopper Superchip と NVIDIA NVLink Switch Systemを組み合わせた初のスーパーコンピューターだ。

これは、DGX GH200システム内のすべての GPU を1基のGPUとして連携できるようにする新しいインターコネクトになる。前世代のシステムでは、パフォーマンスを損なうことなく 1基の GPU として利用するには、8基の GPU を NVLink で組み合わせることしかできなかった。

DGX GH200アーキテクチャは、前世代の48倍のNVLinkの帯域幅を提供し、単一のGPUをプログラミングする簡単さで大規模なAI スーパーコンピューターのパワーを実現する。

AI パイオニアのための新しいリサーチツール

Google Cloud、Meta、そしてMicrosoft は、生成 AI ワークロードの機能を探索するために DGX GH200 を活用予定の最初の企業の 1 つ。

NVIDIA はまた、DGX GH200のデザインをクラウドサービスプロバイダーや他のハイパースケーラーに設計図として提供し、自社のインフラストラクチャに合わせてさらにカスタマイズできるようにする予定だ。

Google Cloudのコンピューティング担当バイスプレジデントの Mark Lohmeyer氏は、次のように語る。

「Grace Hopper Superchip における NVLink の新たなスケールと共有メモリは、大規模 AI の主要なボトルネックに対処するものであり、Google Cloud と当社の生成 AI イニシアチブにてその機能を活用することを楽しみにしています」

またMeta のインフラストラクチャ、AI システムおよびアクセラレーテッドプラットフォーム担当バイスプレジデント、Alexis Björlin 氏から次のようなコメントが届いている。

「AI モデルが大きくなるにつれて、増大する需要に合わせて拡張できる強力なインフラストラクチャが必要になります。NVIDIA の Grace Hopper のデザインによって、研究者が最大規模の課題を解決するための新しいアプローチを探索できるようになるでしょう」

そしてMicrosoft の Azure Infrastructure 担当コーポレートバイスプレジデントである Girish Bablani 氏は、以下のように話す。

「大規模な AI モデルのトレーニングは、従来、リソースと時間がかかる作業でした。テラバイトサイズのデータセットを扱う潜在力を秘めた DGX GH200 によって、開発者はより大きなスケールで高度な研究をより早く進めることができるようになるでしょう」

研究開発を促進する新しい NVIDIA Helios スーパーコンピューター

NVIDIA は、研究者や開発チームの作業を強化するために、独自のDGX GH200ベースの AI スーパーコンピューターを構築している。NVIDIA Heliosと名付けられたこのスーパーコンピューターは、4つのDGX GH200 システムを搭載する。

Heliosスーパーコンピューターの各システムは、最大 400Gb/sの帯域幅を備えたNVIDIA Quantum-2 InfiniBandネットワーキングで相互接続され、大規模な AI モデルをトレーニングするためのデータスループットを強化する。

Helios は1024基のGrace Hopper Superchipを搭載し、年末までに稼働を開始する予定だ。

完全に統合され、巨大モデルのために構築

DGX GH200 スーパーコンピューターには、最大規模の AI およびデータ分析ワークロードにターンキーのフルスタックソリューションを提供する NVIDIAソフトウェアが含まれている。

NVIDIA Base Commandソフトウェアは、AI ワークフロー管理、エンタープライズグレードのクラスター管理、そしてコンピューティング、ストレージ、ネットワークインフラストラクチャを高速化するライブラリ、および AI ワークロードの実行に最適化されたシステムソフトウェアを提供する。

NVIDIA AIプラットフォームのソフトウェアレイヤーであるNVIDIA AI Enterpriseも含まれている。生成AI、コンピュータービジョン、音声 AI などを含む実稼働のためのAI開発と展開を効率化するための100を超えるフレームワーク、事前トレーニング済みモデル、開発ツールを提供する。

関連情報
https://www.nvidia.com/ja-jp/

構成／清水眞希

NVIDIAが前世代の500倍ものメモリ容量に相当するAIスーパーコンピューター「DGX GH200」を発表

256基のGrace Hopper Superchip を1エクサフロップの144TB GPU として接続

NVIDIA NVLink テクノロジにより AI が大規模に拡張

AI パイオニアのための新しいリサーチツール

研究開発を促進する新しい NVIDIA Helios スーパーコンピューター

完全に統合され、巨大モデルのために構築

@DIMEのSNSアカウントをフォローしよう！

最新号

人気のタグ

おすすめのサイト

NVIDIAが前世代の500倍ものメモリ容量に相当するAIスーパーコンピューター「DGX GH200」を発表

256基のGrace Hopper Superchip を1エクサフロップの144TB GPU として接続

NVIDIA NVLink テクノロジにより AI が大規模に拡張

AI パイオニアのための新しいリサーチ ツール

研究開発を促進する新しい NVIDIA Helios スーパーコンピューター

完全に統合され、巨大モデルのために構築

@DIMEのSNSアカウントをフォローしよう！

最新号

人気のタグ

おすすめのサイト

AI パイオニアのための新しいリサーチツール