旟研、Exa Flops級のAIスパコンWサービスを開始
噞\術総合研|所グループは、AIを_したクラウドコンピュータ「ABCI 3.0」(図1)をk般ユーザーにし出すサービスを1月20日に開始した。このピーク性Δ枠昌@度(8ビット)で6.2 Exa Flops、単@度(16ビット)でも3.0 E Flopsと高い。AIを_するため、NvidiaのGPUを合6128基搭載したコンピュータとなっている。

図1 コンピュータラックがずらりと並んだ旟研のABCI 3.0クラウドコンピュータ
旟研(AIST)は、2023Q4月に株式会社AIST Solutionsを設立、旟研の\術を社会への実△膿覆垢襪燭瓩動できるようにした。このサービスもAIST Solutionsがk般Wを積極的に進めている。旟研のj模なコンピュータシステムABCI(AI Bridging Cloud Infrastructure)の設コンセプトはx販の半導をしコストパフォーマンスの良いシステムを作ることだった。2024Q2月時点での来のABCI 1.0/2.0のWは2700@で、このうちAIST以外のWが87%だとしている。
k気2022QにOpenAIがチャットGPTやGPT-3を発表し、j模言語モデルを開発してみようというmが高まってきたものの、日本のAI開発vがj模言語モデルを学{させる場があまりなかった。日本語ベースのj模言語モデルは理化学研|所のスーパーコンピュータ「富t」をWして構築したが、スタートアップや中小企業が~単に試せるコンピュータではなかった。
ABCIを最初に開発を開始したのは2016Q。2018Q8月に最初のABCI 1.0をクラウドベースで運開始した。この時のAI性Δ0.55 Exa Flopsで、2021Q5月には0.85 EFlopsのABCI 2.0を開発、サービスを提供した。そして今v2024Q11月から12月にかけてABCI 3.0の運試xを行った。この場合、新サーバーの導入をコンピュータの1/7に抑えて試xしてきた。1/7のサーバーの数で、ABCI 2.0と同じ性Δ鰓uることができたため、残りの6/7のサーバーを導入し今vの運開始となった。
Qノードの運サーバーの数は766、ストレージシステムも同様のラックに収納しており容量は75PBである。ここに使したストレージシステムに使ったNANDフラッシュメモリはQLC(4ビット/セル)擬亜設C積を来の70%に抑えるためだったという。
図2 サーバーが8搭載されたコンピュータラック
Qノードのサーバー1(図2)に使ったリソースは、GPUとしてNvidiaのH200 SXM5(通称Hopper)が8基、CPUはIntel Xeon Platium 8558(48コア)を2基。GPU同士のネットワークにはNvidiaの推奨するNV-Linkをい、サーバー同士のインターコネクトにはやはりYのInfiniBand(200Gbps)をいた。このサーバーを766つないだT果、ABCI 3.0コンピュータには6128基のGPUと73,536個のCPUコア、1.53PBメモリが搭載されている。
ABCI 3.0のAIの性Δ蓮単@度(32ビット)で3.0EFlops、半@度(16ビット)、倍@度(64ビット)では415 Peta Flopsとなった。倍@度の比較では「富t」にZい性Δ如◆屬澆笋咫廚75 PFlopsより5倍以屬寮Δ任△襦
冷却擬阿来と同様、サーバーを冷却するだけではなく、ラック間の隙間のXも冷却する擬阿如≪Q間の冷却効率PUE(Power Usage Effectiveness)が1.1以下となり、来の水冷擬阿1.7〜2.0よりも冷却ξ┐屬った。PUEはデータセンタ0の消J電をIT機_の消J電で割った指数で。1.0にZいほど冷却効率が良いことをしている。
図3 W井をはいvる配管
実際には、コンピュータボード屬GPUやCPUを水冷で冷やし、外陲励X交換機を経て冷却水をコンピュータボードに送り込む。冷却水のパイプがW井をはいvり、外陲領箋囘磴砲弔覆っている(図3)。ただ、冷却と言っても32度度までの冷却である。これ以嵶笋笋垢費T露してしまうため、T露しないa度まで下げている。
(2025/01/21)