演算精度は現存する国内スーパーコンピュータでは「富岳」に次ぐ2位相当
東京工業大学(以下、東工大)学術国際情報センター (以下、GSIC) は、次世代スパコン「TSUBAME(用語1)4.0」の来春稼動に向けて構築を開始すると発表した。
TSUBAME4.0の理論演算性能は科学技術計算で利用される64bitの倍精度(用語2)で66.8ペタフロップス(用語3)、人工知能(AI(用語4))などで利用される16bitの半精度(用語2)では952ペタフロップスの性能を達成する予定だ。
これは、それぞれの演算精度において現存する国内のスーパーコンピュータの中ではスーパーコンピュータ「富岳」に次ぐ2位相当となる。
TSUBAME4.0 スーパーコンピュータ 完成イメージ図
東工大のスパコンであるTSUBAMEシリーズは2006年4月のTSUBAME1.0稼働以来長年にわたり「みんなのスパコン」として国内外の産学官の研究開発を支えてきた。
また、東工大GSICは世界に先駆けてスパコンにGPU(用語5)を採用するなど、最先端のスパコンセンターとして注目されている。
GPUスパコンというハードウェアとしての特徴に加え、現在運用中のTSUBAME3.0の導入後も、利用しやすさの改善のためさまざまなソフトウェアの改良を重ねており、これらの技術を昇華させる形でTSUBAME4.0のハードウェア・ソフトウェアの設計が行なわれた。
TSUBAMEシリーズは過去においても最新のNVIDIA社製GPUをいち早く採用
今回、TSUBAME4.0の調達に先立ち、東工大すずかけ台キャンパスに新たなスパコン用の建屋を整備。TSUBAME4.0の開発にあたって政府調達「TSUBAME4.0スーパーコンピュータ」が実施され、日本ヒューレット・パッカード(以下、HPE)が落札した。今後、東工大はHPE、米国NVIDIA社、関連各社とともに構築を進めていく。
TSUBAMEシリーズは、TSUBAME1.2のTesla、TSUBAME2.0のFermi、TSUBAME2.5のKepler、TSUBAME3.0のPascalと過去においても最新のNVIDIA社製GPUをいち早く採用してきた。
今回のTSUBAME4.0では最新世代のNVIDIA Hopperアーキテクチャに基づくNVIDIA H100 TensorコアGPU(※)をさらに本スパコン向けにチューニングした製品を採用。高い互換性を確保している。
TSUBAME4.0のGPU数は960台であり、TSUBAME3.0の2160台と比べて少なくなるが、高性能なGPUの採用と、GPUの論理分割機構の活用により、前世代機を超える性能・ユーザビリティを達成するという。
※ メモリにHBM2e 94GBを採用したモデル
TSUBAME4.0の構成は今までのTSUBAMEシリーズを継承し、x86_64アーキテクチャのCPUとCUDA(用語6)対応GPUからなり、今までのプログラム資産をそのまま使えるとともに、世の中で幅広く使われているアーキテクチャであることから、世界中で開発が行われている最新の計算科学技術をいち早く導入することができる構成となっている。
そのうえで、倍精度理論演算性能はTSUBAME3.0の約5.5倍となる66.8ペタフロップス、AI向け性能は同約20倍となる952ペタフロップスとなり、AI学習処理やバイオインフォマティクスをはじめとした幅広いアプリケーションの大幅な加速を実現するとともに、TSUBAME3.0に引き続き仮想化技術を活用することでより多くのアプリケーションを同時に実行することにより、各研究者の計算待ち時間の削減を実現することで、研究の質と生産性の両面での向上を目指していく。
システムの計算ノード部としてHPE Cray XD6500シリーズのサーバーを240台採用
TSUBAME4.0のシステムの計算ノード部としてHPE Cray XD6500シリーズのサーバーが240台採用され、各計算ノードは第4世代AMD EPYCプロセッサ を2基、NVIDIA H100 Tensor コア GPUを4基、768GiBの主記憶、NVIDIA Quantum-2 InfiniBandネットワークインターフェイスを4ポート搭載する。
ストレージシステムはCray ClusterStor E1000で構成され、Lustreファイルシステムによってハードディスクベースの共有ストレージ44.2PBとSSDベースの高速ストレージ327TBに接続されるとともに、各計算ノードにも容量1.92TBのNVMe対応高速SSDストレージを搭載。
計算ノード及びストレージシステムはInfiniBandによる高速ネットワークに接続され、またSINET6を経由し100Gbpsの速度ですずかけ台キャンパスから直接インターネットに接続される。
NVIDIAのHPCおよびハイパースケールコンピューティング担当 バイスプレジデント イアン バック (Ian Buck)氏は、今回の発表に際して次のように述べている。
「NVIDIAのコンピューティング プラットフォームは、AIとHPC(用語7)のあらゆるスケールでアクセラレーションを促進します。NVIDIA H100 GPU、NVIDIA Quantum-2 InfiniBand、NVIDIAのAIおよびHPCソフトウェアを搭載した東京工業大学のTSUBAME4.0 スーパーコンピュータは、研究者や科学者が世界で最も複雑な課題に取り組むことができ、社会全体に恩恵をもたらす躍進を促すことができるでしょう」
またユーザの一人である秋山泰教授(情報理工学院 情報工学系)は次のように話す。
「我々の研究グループでは、次世代医薬として期待が集まる環状ペプチド(用語8)創薬の研究にTSUBAMEを活用してきました。『従来の数百倍の計算をすれば現象を再現できるのではないか?』『数百例の網羅的計算を示せば予測能力を定量的に証明できるのではないか?』 研究者も悩むそのような世界初だらけの大胆な挑戦にも、常に相棒になってくれたのがTSUBAMEです。大幅に高速化されるに強化されるTSUBAME4.0では、さらに大規模な分子シミュレーションと、そこから予測モデルを生み出す深層学習技術の融合により、知的な創薬支援が実現できると期待しています」
【用語解説】
(1) TSUBAME:東工大のスーパーコンピュータシリーズに代々つけられている名称。元はTokyo-tech Supercomputer and UBiquitously Accessible Mass-storage Environment の略。
(2) 倍精度・半精度:整数以外の数値をコンピュータで扱う場合には浮動小数点数が用いられますが、精度を選択することが可能です。科学技術計算では64bitの倍精度が使用されることが多いのですが、32bitの単精度で計算可能な対象も多くあります。半精度はさらにその半分の16bitであり、有効な桁数が減りますがAI分野では十分な精度があります。
(3)ペタフロップス(Peta Flops):フロップスは一秒間で何回浮動小数点の演算ができるか、という性能指標で、ギガ(10の9乗)、テラ(10の12 乗)、ペタ(10の15 乗)など。1ペタフロップスは1秒間に1,000兆回の計算。
(4)AI (Artificial Intelligence):機械学習などの数理的な手法に基づいて人間の知能を計算機で模倣する技術。その実現のためには莫大な量の計算が必要であり、GPUやスーパーコンピュータの活用が不可欠です。
(5)GPU (Graphics Processing Unit) :本来はコンピュータグラフィックス専門のプロセッサだったが、グラフィックス処理が複雑化するにつれ性能および汎用性を増し、現在では実質的にはHPCおよびAI用の汎用ベクトル演算プロセッサに進化しています。 TSUBAME4.0で用いるのは米国NVIDIA H100 Tensor コア GPU で、一台あたりの性能は67テラフロップス(倍精度行列演算の場合)。
(6) CUDA(Compute Unified Device Architecture):NVIDIAが開発・提供しているGPU向けの汎用並列プログラミング環境。TSUBAME1.2以降、歴代のTSUBAMEではCUDA対応のGPUを使用しています。
(7)HPC (High Performance Computing):高性能科学技術計算、つまりスーパーコンピューティングの一般名称。
(8)環状ペプチド:複数のアミノ酸が連なったポリペプチドの末端が何らかの結合で結ばれて環状または投げ縄状になった分子。
関連情報
https://www.titech.ac.jp/news/2023/066782
構成/清水眞希