Semiconductor Portal

» セミコンポータルによる分析 » \術分析 » \術分析(半導)

Nvidia、最新GPU・CPU・ネットワークチップで世c最咾離灰鵐團紂璽燭鮑遒

GPU(グラフィックスプロセッサ)メーカーのファブレス半導Nvidiaが800億トランジスタを集積、TSMCの4nmプロセスノード(4N)で]した次世代GPUとなるNvidia H100(図1)を開発した。今週開されているGTC(GPU Technology Conference)2022の基調講演で、同社CEOのJensen Huangがらかにした。パッケージングにもTSMCのCoWoS\術を使った。

NVIDIA H100 / Nvidia

図1 800億トランジスタを集積したGPU 出Z:Nvidia


ブランド@「Hopper」と}ぶH100チップの最jの長は、拡張性をeたせ、そのまま数を\やせるようにクラウドやデータセンターなどのITインフラに合わせて設していることだ。に、80GBのメモリ容量、メモリバンド幅、チップ内・チップ間を接するネットワーキング、NVLinkチップ同士のデータレートが低下しないように設したという。

図1で見えるように色にくチップの峅爾6個のHBM(High Bandwidth Memory)3メモリが配されており、このH100が最新格のHBM3を初めて採するとなる。6個1組のメモリのI/O帯域幅は40 Tera-bits/sと極めて広い。ちなみに現在世cのインターネットウェブのトラフィックは、H100チップ20個分に相当する、とHuangは述べている。この広いバンド幅で5世代のPCIeを採した最初のGPUでもあるという。

このチップはAI(機械学{やディープラーニング)動作には最j限の考慮をしている。今v、8ビット浮動小数点演QFP8にも官、4 PetaFLOPS(Floating point Operations per Second)の性Δ鰓uている。PetaはTeraの1000倍で、Gigaの100万倍である。これまでのA100同様、FP16、FP32、FP64にも官、性Δ呂修譴召2 PetaFLOPS、60 TeraFLOPSとなっている。今vのHopper H100チップの性Δ蓮Å来同社のAmpere A100のFP16と比べて、FP8で6倍高い。

加えて、AIのディープラーニングモデルTransformerも開発、実行するための専エンジンTransformerエンジンも集積した。このエンジンは新たに{加したFP8とFP16の数値演Q形式を使い、高度なソフトウエアアルゴリズムを組み合わせると、これまで数週間もかかっていたような膨jなパラメータのAIモデルを数日で演Qできるようになる。カスタム仕様のHopper Tensor コアは、AIの演QをFP8とFP16をダイナミックに切りえられる。FP8は@度がいものの演Qは]い。FP16は@度が2倍高いがい。モデルのパラメータ演Qでそれらをダイナミックに切りえることで、@度と演Q]度の両立を図ることができたとしている。


図2 GPUチップH100をボードに実△靴織皀献紂璽襦―儘Z:Nvidia

図2 GPUチップH100をボードに実△靴織皀献紂璽襦―儘Z:Nvidia


800億トランジスタのH 100 GPUチップは、TSMCがCoWoS(Chip on Wafer on Substrate)と}ぶ 2.5DパッケージとHBM3メモリ、さらに定電圧レギュレータをSXMと}ぶスーパーチップモジュールに集積されている(図2)。CoWoS\術はi世代のA100でも使われた。

Nvidiaはファブレス半導メーカーでありながら、コンピュータまで作り屬欧討い襦今vはDGX H100というAIコンピュータをした。8個のH100 SXMモジュールがHGXボード屬謀觝椶気譟4個のNVLink スイッチチップでGPUを接している。QNVLinkスイッチ チップには3.6TFLOPSのSharpインネットワークコンピューティングが内鼎気譴討い襦これはA収したMellanoxのInfiniBand スイッチをベースに発されたもの。Sharpはバンド幅を効率よく3倍まで広げることができるという。


ANOUNCING NVIDIA GRACE HOPPER / Nvidia

図3  Grace CPU Superchipと}ばれるGPUをU御するためのCPU 出Z:Nvidia


DGX H100には8個のGPUをU御するためのCPUが要となる。HuangはCPUとしてGrace CPU Superchipと@けたCPUを開発(図3)、2チップ構成でDGX H100をU御する。拡張性もeたせているため、2チップ構成で最j8個のH100 GPUをU御したのがサーバーDGX H100である。2個のCPUは、900GB/sのNVLinkでつながっており、メモリバンド幅1Terabyte/sを実現している。このCPUには144個のコアが集積されている。

GPUチップ間を接するのは、2個のネットワークモジュール。これは、それぞれ4つの400Gbps CX7 IBか、400Gbpsイーサネットワークチップを△┐討い襦Connect X-7はネットワークスイッチであり、400 Gbit/sでGPUチップ間を接する。CX-7チップはTSMCの7nmプロセスで作られた80億トランジスタを集積している。

AIコンピュータ、DGX H100には8個のGPUボードが接されており、それらはNVLinkスイッチで接されている。AI性Δ箸靴董32Peta FLOPSと驚異的な高さであり、搭載されたHBM3メモリは640GBにも及ぶ。そのメモリバンド幅は24 TeraBytes/sと広い。

このDGX H100コンピュータには拡張性があり、NVLinkでは最j32のDGXを接できる。ここにNVLink スイッチシステムをWすると、kつの巨jな32ノードの256 GPU DGX PODにスケールアップできる。20.5 Tera バイトメモリのHBM3と、768 Terabyte/sのメモリバンド幅というとてつもない巨jなシステムになる。ちなみにインターネットのバンド幅が100Terabyte/s だという。こうしてできたDGX PODのAI性Δ蓮1 Exa FLOPSにもなる。

さらに、このDGX PODを18接したスーパーコンピュータEos(イオス)をh価してみると、AI性Δ蓮18.4ExaFLOPSとなり、日本のスパコン「富t」の4倍の性Δ砲覆襦Eosでは、576のDGX、4608個のH100 GPUが搭載されている。

参考@料
1. "NVIDIA H100 Tensor Core GPU Architecture", Nvidia Whitepaper

(2022/03/25)
ごT見・ご感[
麼嫋岌幃学庁医 晩昆天胆忝栽壓| 槻繁議爺銘仔弼| 忽恢爾秤斤易匯曝屈曝眉曝膨| www撹繁忽恢壓濆杰翰嫋| 晩云窒継窮唹匯曝| 冉巖匯曝晩昆匯曝天胆匯曝a | 胆溺委挺笥闇蝕斑槻繁涌| 忽恢撹繁爺爺5g唹垪| 3d強只娼瞳撹繁匯曝屈曝眉| 挫寄挫啣挫訪窒継篇撞| 戟諾議失脂溺繁| 晩昆AV涙鷹匯曝屈曝眉曝音触 | 析遊爺爺郭厘通夊厘議強夕| 忽恢撹繁娼瞳消消匯曝屈曝眉曝| 4hu膨拶喟消窒壓瀛| 寄嗽寄間嗽訪嗽仔富絃谷頭| 匯云弼祇涙鷹祇dvd壓濆杰| 涙鷹繁曇匯曝屈曝眉曝壓瀛啼| 消消娼瞳忽恢利碕麼殴| 天胆匯曝屈曝眉曝爾秤| 冉巖天胆匯曝屈曝眉曝| 働疏嗾繁議溺惣肖| 窒継嶄忽jlzzjlzz壓濂シ| 娼娼忽恢XXXX篇撞壓濂シ | 膨拶撹定喟消窒継利嫋| 昆忽窮唹郭通島通邦議窮唹 | 消消4k戯忽互賠匯曝屈曝| 恷挫心議窒継鉱心篇撞| 冉巖岱鷹晩恢娼瞳BD壓濆杰| 天胆値住xxxx窒継心| 冉巖娼瞳徭恢田壓濆杰| 槻繁j序秘溺繁j坪何窒継利嫋 | 冉巖an晩昆廨曝壓| 天胆壓瀛啼誼盞竸| 冉巖母溺忝栽匯曝屈曝眉曝| 際際忝栽消消消消忝栽弌傍利 | 繁曇富絃娼瞳篇撞廨曝| 寔糞忽恢岱徨戴斤易篇撞| 怜匚牽旋AV涙鷹匯曝屈曝| 胆溺闇蝕逃紘斑槻繁涌| 膨拶喟消撹繁窒継|