久久精品视频免费播放,久久国产综合,欧美在线日韩

Nvidia、1兆パラメータの�收�AI向け新GPUとAIコンピュータを発表

2024年3月22日｜�\術分析（半導��）

半導��初の時価総�Y1兆ドル企業となったNvidiaの�k�jイベントであるGTC 2024が今週初めに�櫂�螢侫�襯縫�Ε汽鵐離爾燃��され、1兆パラメータを処理するための新しいAIチップ「GB200」を��蕕�砲靴拭�海��は、新GPU「Blackwell」を2個とCPU「Grace」1個を集積したSiP（System in Package）。Blackwellも、2チップ構成となっており、GPU1個でも巨�jなチップとなっている。なぜ巨�jなチップが�㌫廚�。

図1　Nvidiaの創業�v兼CEOのJensen Huang��―儘Z：Nvidiaの講演スライド

GTCはかつてGPU Technology Conferenceと�}ばれていたが、基調講演に立ったNvidia社の創業�v兼CEOであるJensen Huang��平�1）は、GPU（グラフィックプロセッサユニット）という�@称はもはや�垉遒里發里砲覆蠅弔弔△�、と述べた。GPUは、もともとCG（コンピュータグラフィックス）で絵を�Wくためのチップであったが、ニューラルネットワークモデルが実�化されて以来、単なる小さな積和演�Q�_を�j量に�eつAIチップとしても使えた。GPUでは、デッサンにせよ、色塗りにせよ、1�の絵を、小さなブロックに分割して、�Qブロックを同時に並�`動作させて�W画するが、その�Qブロックの演�Qがまさに積和演�Qであった。ニューラルネットワークのモデルと�く同様な線形代数の行�`演�Q動作であったから、GPUがAIチップとしてそのまま使われてきた。

AIは�收�AIに発�tし、学�{させるべきパラメータ数は、チャットGTPのベースとなるGPT-3で1750億パラメータにもなり、巨�jな学�{ソフトウエアとなった。GPT-3.5やGPT-4のように、さらなるパラメータ数の�\加は、これまでのGPUではとても間に合わない。GPT-3の学�{にはA100のGPUで300日かかったと言われている。さらに�jきなGPT-4は1兆パラメータになるという。これでは学�{に何�Qもかかってしまう。GPUの性�Δ�發辰塙發�覆韻譴仆萢�任④覆ぁ�Nvidiaが昨�Q最高性�Δ�AIチップ「Grace Hopper」を出したが、今�QのGTC 2024では、さらに高性�Δ淵船奪廚�仂譴靴�。

高性�Δ�AIチップでは、ニューラルネットワークモデルに適した��Q�}法が求められている。GPUだけだと無�Gな��Qが�Hく、消�J電�が�jきすぎた。��に、ニューラルネットワークの積和演�Qではa×0という��Qが極めて�Hい。答えは0（ゼロ）に�まっているのにもかかわらずGPUでは�ての演�Qを「�[鹿�直に」行ってきた。そこで、Nvidiaは、昨�Q発表したH200（コード�@Grace Hopper）というAIチップでは、a×0という��Qが�Hい�行�`はCPU（Grace）で0という�まった数�Cに変換し、0ではない��Qの密行�`をGPUで行う�擬阿鬚箸辰�。

今�vのAIチップ「GB200」(図2)に2個のGPU「Blackwell」とCPUを搭載したのは、�行�`と密行�`をそれぞれが担当するためだと思われる。GB200の推�bにおけるAI性�Δ�、これまで最高だったH100 の30倍にも�屬�。

TWO BLACKWELL GPUs AND ONE GRACE CPU / Nvidia

図2　新しいGPUの「Blackwell」チップを2個と、Neoverse V2 CPUコアベースのCPUチップ1個で構成されるGB200　出�Z：Nvidiaの講演スライド

この新型GPUの「Blackwell」（図2の�屬�2個のチップ）に集積されたトランジスタ数は、これまで最�jの2080億個にも�屬�。しかも�QBlackwellは、さらに二つのダイに分かれており、2個のダイを�kつのGPU��と構成している。それぞれのダイはHBM3Eメモリを4個ずつ�eち、合�8個で384GBのメモリを�eっている。CPUはArmの64ビットのデータセンター向けのNeoverse V2コアを72個集積したもの。最�ZArmはさらに高性�Δ�Neoverse V3を発表している（参考�@料1）。

AIスーパーコンピュータも提案
Nvidiaは1兆パラメータを処理するためのAIコンピュータも提案した。「Grace Blackwell スーパーチップ」と�}ぶGB200を2個、�kつのコンピュータボード（コンピュートトレイと�}ぶ）に収め、このボードを18�コンピュータラックに実�△靴�。つまり、1�のコンピュータラックに72個のBlackwell GPUが搭載されている。それをNVLinkという高�]インターフェイスで�てのGPUを接�する。この場合のメモリは�てのGPUがデータを共�~するコヒーレント�X�にしている。すべてのGPUをつなぐNVLinkでのチップ間のデータレートは900GB/sと極めて高�]だ。コンピュートトレイのAI性�Δ�80PetaFLOPSと高く、メモリ容量は1.7TB。

このコンピュータ「GB200 NVL72」はラックスケールになっており、80Peta FLOPSのコンピュートトレイが18�で構成されているため、1.4Exa FLOPSというスーパーコンピュータになる。この性�Δ�、日本のスパコン「富�t」のおよそ3倍の性�Δ任△�、現在TOP500で紹介されている最高性�Δ離好僖灰鵝�Frontier」の1.2Exa FLOPS を�えることになる。1兆パラメータの�收�AIにはこの�度の性�Δ�瓩瓩蕕譴襪箸靴討い�。さらにこのコンピュータラックを�j量に並べると、新時代のスーパーコンピュータのデータセンターが出来�屬�襪噺�僂發辰討い襦�海離如璽織札鵐拭爾�AI性�Δ�645 Exa FLOPSととてつもなく巨�jになる。

GPUやCPUを�j量に並�`動作させる場合には、もはやバス�擬阿六箸┐覆い燭�、スイッチ�擬阿妊如璽燭領�譴鯏D理する�㌫廚�△�。そこで、スイッチ�のNVLink�のICも開発している。NVLinkは最�j576個のGPUを接�でき、総合的なバンド幅は1Peta B/sで、高�]メモリ容量は240TBと�jきい。

参考�@料
1. 「Arm、クルマのデータセンター化に向けIPコアを充実」、セミコンポータル (2024/03/19)

(2024/03/22)

ご�T見・ご感�[

Nvidia、1兆パラメータの�收�AI向け新GPUとAIコンピュータを発表

Breaking News

2025�Q6月のトップ10記�

キーワード

インサイダーズ