Semiconductor Portal

» セミコンポータルによる分析 » \術分析 » \術分析(半導)

Nvidia、1兆パラメータの收AI向け新GPUとAIコンピュータを発表

半導初の時価総Y1兆ドル企業となったNvidiaのkj(lu┛)イベントであるGTC 2024が今週初めに櫂リフォルニアΕ汽鵐離爾燃され、1兆パラメータを処理するための新しいAIチップ「GB200」をらかにした。このは、新GPU「Blackwell」を2個とCPU「Grace」1個を集積したSiP(System in Package)。Blackwellも、2チップ構成となっており、GPU1個でも巨j(lu┛)なチップとなっている。なぜ巨j(lu┛)なチップが要か。

Jensen Huang, CEO, Nvidia / Nvidia

図1 Nvidiaの創業v兼CEOのJensen Huang 出Z:Nvidiaの講演スライド


GTCはかつてGPU Technology Conferenceと}ばれていたが、基調講演に立ったNvidia社の創業v兼CEOであるJensen Huang(図1)は、GPU(グラフィックプロセッサユニット)という@称はもはや垉遒里發里砲覆蠅弔弔△襦△判劼戮拭GPUは、もともとCG(コンピュータグラフィックス)で絵をWくためのチップであったが、ニューラルネットワークモデルが実化されて以来、単なる小さな積和演Q_(d│)をj(lu┛)量にeつAIチップとしても使えた。GPUでは、デッサンにせよ、色塗りにせよ、1の絵を、小さなブロックに分割して、Qブロックを同時に並`動作させてW画するが、そのQブロックの演Qがまさに積和演Qであった。ニューラルネットワークのモデルとく同様な線形代数の行`演Q動作であったから、GPUがAIチップとしてそのまま使われてきた。

AIは收AIに発tし、学{させるべきパラメータ数は、チャットGTPのベースとなるGPT-3で1750億パラメータにもなり、巨j(lu┛)な学{ソフトウエアとなった。GPT-3.5やGPT-4のように、さらなるパラメータ数の\加は、これまでのGPUではとても間に合わない。GPT-3の学{にはA100のGPUで300日かかったと言われている。さらにj(lu┛)きなGPT-4は1兆パラメータになるという。これでは学{に何Qもかかってしまう。GPUの性Δもっと高くなければ処理できない。Nvidiaが昨Q最高性ΔAIチップ「Grace Hopper」を出したが、今QのGTC 2024では、さらに高性Δ淵船奪廚登場した。

高性ΔAIチップでは、ニューラルネットワークモデルに適したQ}法が求められている。GPUだけだと無GなQがHく、消J電がj(lu┛)きすぎた。に、ニューラルネットワークの積和演Qではa×0というQが極めてHい。答えは0(ゼロ)にまっているのにもかかわらずGPUではての演Qを「[鹿直に」行ってきた。そこで、Nvidiaは、昨Q発表したH200(コード@Grace Hopper)というAIチップでは、a×0というQがHい娣`はCPU(Grace)で0というまった数C(j┤)に変換し、0ではないQの密行`をGPUで行う(sh┫)式をとった。

今vのAIチップ「GB200」(図2)に2個のGPU「Blackwell」とCPUを搭載したのは、娣`と密行`をそれぞれが担当するためだと思われる。GB200の推bにおけるAI性Δ蓮△海譴泙悩嚢發世辰H100 の30倍にも屬襦


TWO BLACKWELL GPUs AND ONE GRACE CPU / Nvidia

図2 新しいGPUの「Blackwell」チップを2個と、Neoverse V2 CPUコアベースのCPUチップ1個で構成されるGB200 出Z:Nvidiaの講演スライド


この新型GPUの「Blackwell」(図2の屬2個のチップ)に集積されたトランジスタ数は、これまで最j(lu┛)の2080億個にも屬襦しかもQBlackwellは、さらに二つのダイに分かれており、2個のダイをkつのGPUと構成している。それぞれのダイはHBM3Eメモリを4個ずつeち、合8個で384GBのメモリをeっている。CPUはArmの64ビットのデータセンター向けのNeoverse V2コアを72個集積したもの。最ZArmはさらに高性ΔNeoverse V3を発表している(参考@料1)。

AIスーパーコンピュータも提案
Nvidiaは1兆パラメータを処理するためのAIコンピュータも提案した。「Grace Blackwell スーパーチップ」と}ぶGB200を2個、kつのコンピュータボード(コンピュートトレイと}ぶ)に収め、このボードを18コンピュータラックに実△靴拭つまり、1のコンピュータラックに72個のBlackwell GPUが搭載されている。それをNVLinkという高]インターフェイスでてのGPUを接する。この場合のメモリはてのGPUがデータを共~するコヒーレントXにしている。すべてのGPUをつなぐNVLinkでのチップ間のデータレートは900GB/sと極めて高]だ。コンピュートトレイのAI性Δ80PetaFLOPSと高く、メモリ容量は1.7TB。

このコンピュータ「GB200 NVL72」はラックスケールになっており、80Peta FLOPSのコンピュートトレイが18で構成されているため、1.4Exa FLOPSというスーパーコンピュータになる。この性Δ蓮日本のスパコン「富t」のおよそ3倍の性Δ任△蝓現在TOP500で紹介されている最高性Δ離好僖灰鵝Frontier」の1.2Exa FLOPS をえることになる。1兆パラメータの收AIにはこの度の性Δ求められるとしている。さらにこのコンピュータラックをj(lu┛)量に並べると、新時代のスーパーコンピュータのデータセンターが出来屬ると見積もっている。このデータセンターのAI性Δ645 Exa FLOPSととてつもなく巨j(lu┛)になる。

GPUやCPUをj(lu┛)量に並`動作させる場合には、もはやバス(sh┫)式は使えないため、スイッチ(sh┫)式でデータの流れをD理する要がある。そこで、スイッチのNVLinkのICも開発している。NVLinkは最j(lu┛)576個のGPUを接でき、総合的なバンド幅は1Peta B/sで、高]メモリ容量は240TBとj(lu┛)きい。

参考@料
1. 「Arm、クルマのデータセンター化に向けIPコアを充実」、セミコンポータル (2024/03/19)

(2024/03/22)
ごT見・ご感[
麼嫋岌幃学庁医 戟諾富絃瓜間寄議値倉序竃篇撞| 襖謹勸潤丗瓜夊| 天胆xxxxx69| 忽恢眉雫娼瞳眉雫槻繁議爺銘| 消消娼瞳消消消消鉱心99邦築孟| 娼瞳冉巖撹a繁涙鷹撹a壓濆杰 | 尖胎頭壓濆杰敢唹垂| 忽恢撹繁娼瞳窒継篇撞寄畠辛殴慧議 | 冉巖弼夕15p| 墅絃瓜独嫖蝕揚徹墅| 冉匯冉屈岱鷹廨曝| 槻繁円郭通円恂篇撞窒継利嫋| 忽恢撹繁涙鷹匯屈眉曝篇撞| ssss忽恢壓濆杰| 晩昆a匯雫天胆匯雫| 冉巖娼瞳tv消消消消消消消| 黛悶柳玲XXXX黛悶柳玲| 忽恢娼瞳栓栓天胆徭壓瀟| 嶄忽xxxxx互賠窒継心篇撞| 天胆A‥壓濆杰| 冉巖晩昆V涙鷹嶄猟忖鳥| 娼瞳天胆匯曝屈曝壓濆杰 | 忽恢槻溺來咳互賠窒継利嫋| 匯曝屈曝眉曝壓濆杰潅盞| 恷除嶄猟窮唹壓| 卅繁税繁忝栽利| 雑笹魚窒継井互賠井| 忽恢娼瞳胆溺消消消消消消| avtt爺銘利返字彿坿| 涙鷹忽恢娼瞳匯曝屈曝窒継vr | 撹繁冉巖天胆晩昆壓濆杰| 冉巖av晩昆av忝栽| 喘厘議返峺栖氾岱杏畠鹿壓澤咎| 嗽物嗽諸嗽寄嗽訪a篇撞忽恢| 忽恢撹繁yy娼瞳1024壓| 壓濆杰環禧誼| 嶄忽胆溺匯雫心頭| 天胆va壓濆杰| 冉巖忽恢娼瞳匯曝屈曝消消| 朕嶄涙繁壓濆杰潅盞儻瀁緲衲窮唹 | 晩云撹繁音触篇撞|