Semiconductor Portal

» セミコンポータルによる分析 » \術分析 » \術分析(半導)

性Δ罰板ダの高いMIMDアーキテクチャのAIチップでM負するGraphcore

AIプロセッサチップからAIコンピュータシステム(図1)まで}XけるGraphcoreが2021Qに入り日本でも動にを入れている。機械学{に適した並`処理のMIMDアーキテクチャを使い、AI性Δ極めて高いのが長だ。すでにf国通信オペレータのKTでネットワーク効率を屬押Microsoft Azureクラウド屬任琉綢画喫類認識で最新GPUよりも12倍も高]という実績を見せている。

図1 IPUを4個搭載したAIボード「IPU-GC200、M2000」 この1のボードの性Δ1P(ペタ)FLOPS 出Z:Graphcore Corp.

図1 IPUを4個搭載したAIボード「IPU-GC200、M2000」 この1のボードの性Δ1P(ペタ)FLOPS 出Z:Graphcore Corp.


英国のハイテク莂涙kつ、ブリストルに本社をeつGraphcoreは、世cQ地にセールスオフィスをき、開発したAIマシンの普及に努めている。2016Qに設立されたばかりのこのスタートアップは7.1億ドルの@金調達に成功しているが、企業価値は27.7億ドルに及ぶと見積もられている。

HくのVC(Venture Capital)やGoogle、OpenAI、DeepMindなど企業投@会社がここまでX心に投@するのは、Graphcoreのテクノロジーに惚れ込んだからであろう。通信分野では、ネットワーク性Δ虜播化にAIを使うことがよく行われているが、ネットワークのX変化から性Ε僖拭璽鵑鯤析してこれから先の性Δ鰺襲Rする。通信トラフィックが集中しそうになればiに察瑤靴鴇祿欧鴃Tしておくことができる。現在、最先端でかつ普及しているNvidiaのGPU(V100)と常に比較しているが、ネットワークの分析では]いレイテンシで約260倍]い。また、MicrosoftのAI\術を使っての医画気硫鮴呂GPUと比較した場合も12倍]かった。

このAIチップ「IPU(Intelligent Processing Unit)」は拡張性が高く、IPUを4個搭載した図1のボード(1PFLOPSのIPU-M2000)を4_ねるIPU-POD16は、1ボードの4倍の4PFLOPS性Δ鯣ァし、さらにそれを4個_ねるとさらに4倍の16PFLOPSの性Δ魴eつラックIPU-POD64となる。これを4接するとさらに4倍の64P(ペタ)FLOPSとなる(図2)。


IPU-POD / Graphcore Corp.

図2 IPUを拡張接しても性Δく落ちない 出Z:Graphcore


このAIチップの最j(lu┛)の長は、これまでのマルチコアアーキテクチャでは実現できなかったMIMD(Multiple Instructions Multiple Data)を使っていることだ。GPUやCPUなどのこれまでのシステムではSIMD(Single Instruction Multiple Data)アーキテクチャをベースにしており、命令セットが複雑なのでMIMD(sh┫)式をとることはMしかった。

IPUプロセッサは、人間のNに出来るだけZいプロセッサとして、並`のMIMDアーキテクチャを採した。人間は同時に複数のことを考えるからだという。そこで、プロセッサの機Δ魑ヽ3{のプロセスだけに、命令を演Q、同期、データ交換のつに絞ることで、MIMDを使えるようにした。

またここでは神経の伝搬を考えて高]メモリとなるSRAMを採した。それもチップあたりのインプロセッサメモリは900MBも搭載している。図3のようにメモリの中にプロセッサのコアがgりばめられた構]をしている。IPUには独立したコアが1472個集積しており、8832個のプログラムスレッドがそれぞれ独立に動く。TSMCの7nmプロセスで]し、チップC積は823mm2。IPUチップの消J電は150Wで、ヒートシンクを設けているが、冷却は空冷(sh┫)式。


 GC200 IPU PROCESSOR/ Graphcore Corp.

図3 インプロセッサメモリ(SRAM)を900MB集積し、1472コアを集積したIPUチップ 出Z:Graphcore


分gメモリをW(w┌ng)したMIMD並`演Qでは、BSP(バルク同期並`)ソフトウエアを使って、図4のように演Qする。つまり、IPU内では演Qし、同期をとるとデータのれや進み差腓バラバラだが、データを交換し、さらに演Qを進める。次にもうkつのIPUとも同期をとり、データ交換・演Qを行う。


BULK SYNCHRONOUS PARALLEL (BSP) / Graphcore Corp.

図4 演Q・同期・データ交換の3つの命令で並`を実現 IPU同士も同期をとる 出Z:Graphcore


このような(sh┫)式で演Q、同期、データ交換を繰り返していくと、さらにIPUを{加してもどこかでず同期をとってデータ処理していくため、IPUを{加しても性Δ詫遒舛覆ぁこれが図2でした、IPUを搭載したボードをj(lu┛)量に並`拡張できる理y(t┓ng)だ。

IPU-M2000ボードの消J電は900〜1100W(Y)とj(lu┛)きいため、はデータセンターやクラウド向けになる。ボード1で4個のIPUチップをU(ku┛)御するSoCはArmのCortex-AコアとFPGAからなる。ゲートウエイはIPU同士を接するために使う。またボードにはSSDやDRAMメモリも搭載しており、IPUチップは150W/チップだが、では1kWi後になる。

Graphcoreの(d┛ng)みはチップとハードウエアの拡張性だけではない。ソフトウエア開発キットもTしており、PytorchやTensorFlow、Onnxなど機械学{フレームワークにも官し、GPUライブラリのCUDAに相当するようなソフトウエアスタック「Poplar-SDK」を?y┐n)△┐討い襦?/p>

[定顧客はデータセンターをeつ、金融、HPC、ヘルスケア、確率統処理などの業cになる。j(lu┛)きなAIモデルにも官できることがIPUシステムの(d┛ng)みと言えそうだ。

(2021/10/12)
ごT見・ご感[
麼嫋岌幃学庁医 天巖冉巖忝栽匯曝屈曝眉曝| 析査弼析査遍匈a冉巖| 壓濆杰翰嫋仔| 嶄胆晩昆壓瀝窒継谷頭篇撞| 天胆眉雫壓濂シ| 冉巖母絃涙鷹AV音触壓濂シ| 娼瞳忽恢音触匯曝屈曝眉曝| 忽恢冉巖忝栽匯曝屈曝壓| 天胆晩昆互賠來弼伏試頭| 忽恢篇撞牽旋壓| japonensisjava勸翌vt| 撹繁忽恢匯曝屈曝眉曝| 消消消消冉巖av涙鷹廨曝| 恷仟嶄猟忖鳥壓炯編| 冉巖忽恢娼瞳牽旋頭壓濆杰 | 繁曇富絃娼瞳嶄猟忖鳥av築孟| 析物字秉蕎綻綻綻綻| 忽恢裕繁篇撞窒継鉱心| 撹繁窒継仔利嫋| 忽恢娼瞳消窒継議仔利嫋| 91娼瞳忽恢徭恢91娼瞳| 挫第第5互賠嶄忖壓濆杰管饌| 嶄猟忖鳥壓瀛啼虐斛濘| 弼忝栽消消消消消消| 忽恢撹繁忝栽天胆娼瞳消消| 18鋤膿戴繁曇嗽寄嗽| 忽坪娼瞳触1触2触曝艶| avaaddamshdxxx| 爺爺夊晩晩夊際際夊繁曇| 匯曝屈曝眉曝篇撞窒継鉱心| 撹繁窒継av匯曝屈曝眉曝| 嶄猟忖鳥天胆匯曝| 晩云匯祇壓瀏娜紹撒生瀁絏賛窒継 | 析弗易絃富準藍蕉海| 忽恢冉巖怜匚娼瞳| 互咳谷頭涙孳飢互賠窒継| 忽恢天胆匯曝屈曝娼瞳消消消| 返字心頭匯曝屈曝| 忽恢娼瞳畜碩某篇撞| 88av壓濘| 忽恢黛悶梧玲匯曝屈曝|