東工jがAI向きスパコンTSUBAME3.0を開発
東B工業j学は、AI(人工Α砲妨いたスーパーコンピュータTSUBAME3.0を開発した。東工jのTSUBAMEは、消J電当たりの性Δ高いことをこれまで長としてきたが、今vのTSUBAME3.0も電効率、冷却効率とも高く、しかもディープラーニングに向いたスパコンのアーキテクチャにしている。

図1 東B工業j学学術国際情報センター教bの松K聡
AIでは、ニューラルネットワークの学{のQと、推bするための演Qが要となるが、これらのQでは積和演QがHい。しかも同じような繰り返すイタレーションが要なためGPU(グラフィックスプロセッサ)が使われることがHく、この分野ではNvidiaのGPUがよく使われている。ニューラルネットワークでのQでは来のDSPなどでいられてきた倍@度(64ビット)や単@度(32ビット)の積和演Qではなく、半@度(16ビット)の演QもHされる、と同j学学術国際情報センター教bの松K聡は述べている。実際、Googleが開発したAI専のマイクロプロセッサであるTPU(Tensor Processing Unit)では16ビット演Qに加えて8ビット演Qも使われていると言われている。
TSUBAME3.0の性Δ蓮Å来の倍@度演Qで12.12PFlopsと理化学研|所の「B」をわずかvる度だが、単@度では65.8PFlopsと6倍度]い(図2)。消J電は1のラック当たり50~60kWで、電効率はk般のデータセンターの10〜20倍も良いとしている。今vのシステムでは15のラックを並べた構成になっており、oC積も10倍度小さくて済むとしている。
図2 機械学{や人工Δ32ビットや16ビットの@度で科
ラック1には36のブレードが収容され、1のブレード(ノードともいう)には4個のGPU (NvidiaのTesla P100「Pascal」)と2個のIntel のXeon CPUで構成されている。GPUは並`演Qに~効なプロセサであり、パターン認識などニューラルネットワークの入値と_みとのXけQを並`に行う処理に向いている。NvidiaのPascalは1のブレードに4個搭載されているため、GPUの総数は2160個になる。
TSUBAME3.0は、ハードウエアを担当した、Hewlett-Packard Enterprise(旧SGI:Silicon Graphics Inc.を昨QA収)、GPUを提供するNvidia、CPUを提供するIntel、ストレージを担当したData Direct Networksなどからなる共同開発のT果である。設を、松Kをリーダーとする東工jが担当した。
消J電を下げるとともに、冷却を工夫している。水冷では冷やし圓ると水分がし、マシンが水浸しになってしまうため、冷却水を32℃とし、GPUとCPUを冷却した後のXいお湯のa度を40℃に保っている。40℃のお湯を外陲Oj気で冷やし32℃にする循環システムである。冷却水が32℃だと真でも水rがつかないことを確認している。ただし、これ以嵶箋冪a度を屬欧襪函CMOSチップの性Δ落ちるため、その最適a度として32℃をんだとしている。
そのT果、コンピュータの消J電+冷却設△両嫡J電の合を、コンピュータの消J電で割った冷却効率PUEは1.0にZいほど良いが、TSUBAME3.0では1Q間のWtデータを元にQしたところ、平均1.033という値をuた。k般のデータセンターはPUEが2~3と冷却_の気Q機よりも電を消Jしているという。
TSUBAMEの基本コンセプトは、消J電当たりの性Δ旅發ぅ泪轡鵑鯆礇灰好箸悩遒襪海函△任△襦つまり国際争を高める\術の育成である。これまでのTSUBAME2.0(2010Q)と2.5(2013Q)で6Q間の電気代を含むコストは、わずか50億であり、電気代を含めた「B」のコストは1500億くらいかかっているのではないかとみている。TSUBAME2.0/2.5は倍@度が5.76PFlopsと「B」の11.4PFlopsよりもいが、単@度では17.1PFlopsと「B」の11.4PFlopsよりも優れていることになる。
さらに、今vのコラボレーションでもわかるように、外国の企業ともk緒に組み、消J電を抑えながら性Δ屬押△靴も低コストでシステムを設している。この}法こそ、国際争をつけるうえで要なテクノロジーではないだろうか。