久久成人18免费_日韩欧美网址_无遮挡1000部拍拍拍免费观看_一区二区在线免费视频

Semiconductor Portal

» 寄M » 寄M(半導応)

ニューロチップ説 〜いよいよ半導の出番(4-2)

ニューロチップの代表例として、(4-2)ではDNN(ディープニューラルネットワーク)の開発2例を紹介する。中国科学院のDaDianNaoチップと、f国KAISTのDL/DI(Deep Learning/Deep Inference)チップを紹介している。(セミコンポータル集室)

著v:元半導理工学研|センター(STARC)/元東 瀬 啓

4.2 代表的チップ(DNNチップ)〜DRAM混載もしくは学{機
本Iでは、狭IのDNN(CNN)のチップの説をする。T合層主の構成を念頭に、学{機Δ魴鵑△┐織船奪廚任△襦しかしv路構成まで詳しく記述した例は少ない。本章ではCAS(中国科学院)のDaDianNaoとKAISTのDL/DI(Deep Learning/Deep Inference)の2チップを説する。ivは2014Q12月のMicro47で、後vは2015Q2月のISSCC2015で発表された。共にフルペーパーのb文(参考@料37, 86)が出された。

DaDianNaoは、拡張性をeつオールマイティーなスーパーチップである。Dl/DIはDBNのネットワークモデルにQ込み層の要素を入れたものでいわゆるCDBN(Convolutional Deep Brief Network)官のチップである。すなわちRBMによる学{をDり入れた本格的な専チップである点にR`して欲しい。なお、T合のモデルであるRNNとRL(Reinforcement Learning:啣蹴{)に関しては割愛した。

(1)DaDianNao (CAS) 〜 A Machine-Learning Supercomputer
このチップは、2014QのMicro47(The 47th International Symposium on Microarchitecture)でBest Paper Awardをp賞したチップ(CAD実△泙)である(参考@料37)。タイトルに”A Machine-Learning Supercomputer”とけられているように来のGPUの性Δ]度で50〜100倍、エネルギー効率で1000倍度改したものであった。1Q半以峽个弔、ワンチップとして実の]度で、5.6 TOPS (Tera Operations Per Second)の性Δ鮓悗辰討い襦文綵劼垢EIEが、圧縮\術をい実効性ΔDaDianNaoをvっている:表6)。共同著vの仏Inria(フランス国立情報学O動U御研|所)の\術vをリーダとしてdき開発を推進した。2014Qの当時も現在も学{の時間をいかに]縮(演Qの高]化)するかが喫gの課であったことから、(AlexNetの学{の例もあるが、当時は何であれ学{に1週間はかかると言われていた)アルゴリズムの研|vやアプリケーションサイドの気箸硫BでよくBに屬蝓△つ期待のjきかったチップであった。


図31 DaDianNao(CAS)の要仕様 (参考@料37を参考に作成)

図31 DaDianNao(CAS)の要仕様 (参考@料37を参考に作成)


(ア)チップ構成
b文は、CNN/DNNなりAlexNet等ネットワークモデルの識がないと読みづらいが、LSIもしくはDRAM混載チップとしてみるならば内容は単純だ。メモリの格納は、外から入ってくる入・出バッファ、および_み(シナプス値)の格納はDRAM混載で、そして中間データのk時格納はSRAMで行っている。図31の左屬凌泙配だ。32MBを_みに、入出バッファに4MBを割り振った。ivはタイルXの16ヵ所に配され、後vは中心に配された。周辺四気Hyper Transportの通信インターフェースを配した。ファウンダリとしてSTMicroelectronicsの28nmプロセスを[定している。チップサイズは、8.2mm角だ。

チップの中心のバッファとタイルとは、里辰織肇櫂蹈検次Fat Tree構成(16ビット))で通信を行っている。そのkつのタイル(Tile:左下)は、4個のeDRAMのバンクに分かれる。バンド幅は4,096ビット/バンクとかなりjきい。タイルの中心にNFU(Neural Function Unit)を~する。バンクから_み(シナプス値)を読み込み、左から入る入データとで演Q処理をNFUが行う。下にNFU内霍柔をした。ピンク線が入データ(入徴マップもしくは入イメージ)、E線が出データ(出徴マップ)を、さらに契が_み(シナプス値)の流れをす。

(イ)NFU (Neural Function Unit)
16入(16ニューロン)および16出(16ニューロン)が同時に扱える。靴ぬ隶は、シナプス値(_み)の読み込みパスである。Qブロックは、積、和、化関数/性化関数処理(Transfer関数)、出、中間値バイパス処理(そのためにi述したように8KBのSRAMを内邸砲pけeつ。

16x16=256シナプス(_み)がアクセス可Δ任△襦256個のMAC処理が並行で同時に行える。256 MAC×2 ×16Tile×0.606 GHz = 5.0 TOPSの処理ξを~する(実際はもう32 MAC分演Qが可Δ5.6 TOPS)。学{時にはセレクタで情報のパスを再構成しフェーズの変に官する。フィードバック値(gradient)を入するパス、また微調D後のシナプス値(Updated Synapse)をe-DRAMに格納するパスを再構成する。

(ウ)コンフィギュラビリティ (再構成)
図32に層、およびフェーズ(学{と実行)の切りえの流れをした。b文を参考にH少推Rを入れて作成した。図31の下図のNFU(Neuron Function Unit)のパイプラインのステージ(Stage 1/2/3)を切りえることにより、Q込み層/T合層/プーリング層/化関数あるいは性化関数のQ処理を再構成する。もちろん、シナプスの入の~無も関連する。プーリング層ならシナプスの入は不要だ。ネットワークの処理が進み、層が変わる(例えばQ込み層からプーリング層)タイミングでダイナミックに切りえる。また実行モードから学{モードも同様に切りえるが、i述したシナプスのアップデートのパスも構築する要がある。順伝髻Forward Propagation)と逆伝髻Backward Propagation)の切えにより学{を行うU約ボルツマンマシン(RBM:Restricted Boltzmann Machine)の}法をいた学{の記述が~り適している模様だ(詳細の説はない)。


図32 再構成の切りえの流れのS図 (参考@料37を参考に作成)

図32 再構成の切りえの流れのS図 (参考@料37を参考に作成)


(エ)T果:性
消J電:図33にシミュレーションによる消J電の分布をした。チップで16Wと試Qされている。そのうちチップ間通信を行う高性ε疏v路(HT:Hyper Transport、Point to Point式の@接\術)の消J電が半分をめた。著vらも述べているが今後工夫が要な所だ。なお、本チップはサーバなので、Hチップでのt開を野に入れることが須だ。敢えて単での使を念頭にくと(例えばエッジU応)、としては10W位の消J電とみなせ、内RAMアクセスに6Wを要している。内鼎箸呂い─DRAMでは消J電がやはりjきい。


図33 DaDianNaoの消J電分析とスケーラビリティ比較(参考@料37を参考に作成) 出Z元:STARCの調h報告書より転載

図33 DaDianNaoの消J電分析とスケーラビリティ比較 (参考@料37を参考に作成)
出Z元:STARCの調h報告書より転載


スピード:図33にb文のデータを参考に作成したスピードのデータをした。e軸はNVIDIAのGPU K20Mとの相乾好圈璽蛭罎澄2軸は並`動作させた数(スケーラビリティー)だ。チップを\やす毎に性Δスケールアップするか(直線が望ましい)を判できる。いくつもの線があるが、Q込み層(CONV層)、プーリング層(Pool層)等のスケーリング性Δ鮨した。に1チップで10〜100倍の高]性をしている。スピードCONV層とCLASS層(T合層)でまることからその中間値とみて、ワンチップの場合には60倍度の改が見られる。

GPU K20Mの仕様データとDaDianNaoのv路構成からスピード性θ羈咾鰓~単に試Qした。メモリバンド幅とMACの数を単純にXけたもので比較すると、DaDianNaoは44倍の性Δ単(ワンチップ)で出ることがわかる。DaDianNaoとK20Mとの的な数値をすと、バンド幅が5TB/s粥208GB/sで24倍、MAC数が9k個5k個で1.8倍となり、両気鵆Xけ合わせると約44倍だ。h価値とほとんど変わらない。

ポイントはスケーラビリティだがCONV層はほぼ直線だ({J落ちるのは入マップの周辺の処理の影xが出る)。_要なのはT合のCLASS層だが、さすがのDaDianNaoでも16チップ以屬農Δ劣化している。CONV層だと独立しているので分配によるK影xは小さい。とはいえ、CONV層とCLASS層の平均で見ると16チップから64チップの間位まではスケーラビリティがあり、その比率は800倍度の高]化が見込める(K20Mひとつとの比較である点RTが要だが、当GPUのスケーラビリティは極めて低いはずだ)。

他チップとの比較:Eyrissとの比較をする。表6で、C積効率(GOPS/mm2)とデザインルールと周S数を並べると、DaDianNao (82.7 GOPS/mm2, 28nm, 606MHz) vs Eyriss (6.23 GOPS/mm2, 65nm, 200MHz)となる。EyrissをDaDianNao並みにすると、102 GOPS/mm2となる。IoEでも同様である。Eyeriss/IoEがQ込み層のチップであることから、DaDianNao/DRAM混載がメモリアクセス]のT合もしくは学{のチップとして初めて徴が出ることを改めて認識できる。

(2)DL/DI (Deep Learning/Deep Inference) (KAIST)〜DBNを本格実
2015QのISSCCでf国KAISTより発表された(参考@料86)。教師無し学{が可Δ淵船奪廚澄DaDianNaoと異なり学{と実行のQ々のv路をeつ。DL/DIの}称は筆vがb文のタイトルよりDった。DaDianNaoがサーバを主ターゲットとしたのに瓦掘DL/DIはフロントエンド(エッジ)もしくはニアエンド(フォグサイト)をターゲットとしている。発表ではクラウド笋離如璽審頁/通信の負担削のためにニアエンドに学{機Δ魴eたせる点に_きをおいて講演を行っているが、ほぼ1Q後のフルペーパーでは、モバイルでの学{機ε觝椶泙妊拭璽殴奪箸鮃げてb文を構成している。0.2W度で、エネルギー効率は1.93 TOPSとかなり高いことから適J囲は広い。

(ア)学{機ΑΑΑΧ技嫐気軍{
図34にb文を参考に作成したチップのブロック構成をした。実行エンジン(Deep Inference Engine)と、学{エンジン(Deep Learning Engine)、さらにはグローバルな乱数発v路:TRNG (True Random Number Generator) の3つの構成からなる。学{エンジンは4つのコア(DLコア)からなる。詳細な説は割愛するが、4つのステージからなるパイプライン構成となっている。かつポジティブとネガティブの二_スレッド擬阿鮑涼している。DBN (Deep Neural Network:参考@料78, 80) におけるRBM (Restricted Boltzmann Machine 76,77) でのNegative/Positive妓の学{}順を効率よく実現すべく構成されているとみている。


図34 DL/DIの要仕様 (参考文献86を参考に作成)

図34 DL/DIの要仕様 (参考文献86を参考に作成)


(イ)乱数発昊_およびその供給システム(ネットワーク)
図34にしたように、学{(DL)および実行(DI)に要な乱数発昊_は演Qエンジンに瓦靴董個々にeつ擬阿任呂覆C積効率の良いグローバル(Global)な擬阿鮑涼(図のTRNG)した点がアーキテクチャのjきなポイントであると彼らは主張した。データが密集することを防ぐために、乱数の配信と学{/実行のデータ送信のパスを完に独立させるアーキテクチャがその内容だ。

(ウ)T果:性
彼らはCDBN (Convolutional Deep Brief Network:参考@料80)ネットモデルでの教師無し学{を32×32 RGB }形Xの認識に適した。LSIとしての性Δ鮨34の表にした。学{でのピーク性Δ328.3 GOPSとかなり高い。そのT果として1.93 TOPS/Wというこれも高いエネルギー効率値をき出している。比較をする報告がほかにHくないこと、またb文で性Δ亡悗靴得LCをHく割いていないことから1.93 TOPS/Wの良しKしを判するのはMしいが、かなりの性Δ砲聾える。なお、実行(DI:Deep Inference)では3.1Iで述べた並`処理に加えて、タスクレベル、層(Layer)レベルでの並`処理を加えて高]化した。

集R)瀬の現在の肩書は、LOj学 j学院情報科学研|科 学術研|^である。

ごT見・ご感[
久久成人18免费_日韩欧美网址_无遮挡1000部拍拍拍免费观看_一区二区在线免费视频
冉巖天胆裕田触宥延蓑| 天胆忽恢某沃篇撞| 消消娼瞳忽恢99忽恢娼瞳按壇 | 冉巖岷殴壓瀲伺| 玻玻玻夊際際夊際際娼瞳篇撞| 忽恢娼瞳撹繁殴慧| 消消娼科窒継篇撞| 怜匚娼瞳消消消消消99犯罷周| 消消忝栽際際忝栽消消忝栽88| 天胆晩昆築孟| 壓炒侘鍔崢使婪| 総窃忝栽晩昆天胆冉巖| 忽恢天胆匯曝屈曝娼瞳翆翆| 忽恢娼瞳窮唹鉱心| 忽恢冉巖天巖匯曝互賠壓濆杰 | 天胆壓瀲散眉| 天胆晩昆18| 喩紬某匯曝屈曝黛悶篇撞| 消消玻玻冉巖忝栽| 忽恢天胆晩昆忝栽匯曝壓濂シ| 怜匚壓濔瞳裕田| 天胆晩昆嶄猟忖鳥晩昆天胆| 冉巖匯曝嶄猟忖鳥壓濆杰| 天胆娼瞳消消消消消消消析釘唹垪 | 消消娼瞳忽恢娼瞳冉巖忝栽| 忽恢娼瞳99匯曝屈曝| 冉巖匯曝屈曝篇撞| 天胆娼瞳匯曝屈曝消消翆翆| 娼瞳撹繁壓濆杰| 醍狭忽恢va窒継娼瞳互賠壓| 忽恢天胆冉巖匯曝| 荘遷篇撞撹繁壓濆杰| 忽坪娼瞳篇撞666| 天胆jizz19hd來天胆| 仔弼娼瞳窒継| 天胆及匯仔弼利| 嶄猟壓炯編換杰翰嫋篇撞窒継音触 | 消消消娼瞳忽恢匯曝屈曝眉曝| 忽恢娼瞳消消| 消消娼瞳醍狭| 忽恢匚弼娼瞳匯曝屈曝av| 消消励埖爾秤| 壓潦蛭房で虔啼| 天胆繁撹壓| 來天胆爾秤娼瞳| 忽恢滴翫絃溺谷頭娼瞳消消醍狭 | 忽恢娼瞳消消消消消絃溺6080| 秉恭蛭牧訴啼虐斛濆杰| 天胆來恂觴値倉出寛咳| 消消娼瞳忽冉巖| 爾秤冉巖利嫋| 天胆晩昆廨曝壓| 消消av匯曝屈曝眉曝| 忽恢翆翆97当当消消繁繁築洋| 窒継天胆利嫋| 冉巖天胆晩昆忽恢総窃廨曝| 忽恢娼瞳販厘訪卯壓濂シ| 消消消99消消娼瞳溺揖來| 忽恢冉巖繁撹利嫋壓濆杰| 天胆撹繁嶄猟忖鳥| 秉蕎綻湛恢| 忽恢冉巖壓濆杰| 天胆晩昆匯曝屈| 消消消消消冉巖娼瞳剋竹算然| 鋤僅匯曝屈曝眉曝壓| 天胆晩昆忽恢弼篇撞| 消消娼瞳爺銘| 卆卆撹繁忝栽篇撞| 天胆來消消消| 槻繁峨溺繁天胆| 冉巖天胆総窃忝栽裕田| 忽恢天胆晩昆醍狭91| 天胆胆溺荷繁篇撞| 消消娼瞳消消99娼瞳消消| 壓濆杰干蛭撲(啼| 忽恢娼瞳亜v壓| 天胆撹繁壓瀉盞冓啼| 天胆壓瀾盃湟斛| 冉巖匯曝屈曝眉曝消消 | 怜匚忽恢匯曝| 載仔載仔爾秤撹繁| 忽恢娼瞳忽恢眉雫忽恢噸宥三眉雫| 消消忝栽湘弼湘湘| 怜匚娼瞳消消消消消消消| 忽恢忝栽篇撞| 忽恢娼瞳利嫋篇撞| 天胆丞壓濆杰| 析絃島邦匯曝屈曝眉曝| 怜匚壓澣舐委盃渙伺| 匯曝壓瀛啼| 忽恢篇撞壓濆杰諌伺屈曝眉曝| 天胆晩昆匯曝壓濂シ| 胆溺消消利嫋| 消消av屈曝| 冉巖天胆匯雫屈雫眉雫| 際際孤忝栽利| 忽恢娼瞳楳課消消消消牽旋99| 天胆爾秤娼瞳消消消鎗曝犯壇| 消消忽恢翆翆忽恢秉| 冉巖怜匚av窮唹| 忽坪娼瞳胆溺壓濆杰| 忽恢娼瞳冉巖匯曝屈曝眉曝壓| 天胆晩昆忽恢某沃総窃| 天胆撹繁匯曝屈曝| 消消匚弼娼瞳冉巖玻玻忽恢mv| 來湖富絃匯曝| 冉巖槻溺徭裕徭田夕頭総窃| 壓濘換恢匯曝| 挫虚晩娼瞳篇撞| 忽恢晩昆娼瞳篇撞匯曝| 忽恢娼瞳忽恢眉雫忽恢a▲9弼| 天胆爾秤娼瞳| 天胆91篇撞| 心頭利嫋天胆晩昆| 消消繁91娼瞳消消消消消音触| 消消忽恢爺銘牽旋爺銘| 天胆匯曝屈曝仔| 冉巖天胆忽恢音触| 姙槻66晩云冉巖天胆篇撞| 忽恢匯曝屈曝壓濆杰潅盞儔シ| 忽恢娼瞳楳課消消| 忽恢娼瞳弼翆翆| 天胆嶄猟忖鳥篇撞| 冉巖天胆晩昆嶄猟殴慧| 冉巖匯曝屈曝壓瀉盞儿杰簡啼| 1000何娼瞳消消消消消消消| 昆晩壓瀲伺| 壓濂賛冉巖| 冉巖利嫋篇撞牽旋| 冉巖忝栽屈曝| 來天胆8khd互賠自瞳| 天胆匯曝晩云匯曝昆忽匯曝| 天胆冉巖忝栽消消| 消消撹繁忽恢娼瞳| 消消消消忽弼av窒継鉱心來弼| 消消娼瞳匯曝| 消消冉巖唹咄av彿坿利| 醍狭忽恢娼瞳va壓濆杰寛賛| 天胆忽恢晩昆壓| 天胆篇撞壓濂賛| 忽恢娼瞳消消心| 忽恢篇撞娼瞳xxxx| 昆忽天胆匯曝| 冉巖卅繁卅弼卅唹卅忝栽利| 冉巖忝栽擬砂| 消消消爾秤篇撞| 天胆欠秤壓濆杰| 天胆晩昆弌篇撞| 忽恢娼瞳利嫋壓濆杰| 忽恢篇撞冉巖| 喩麗娼瞳壓| 天胆匯曝屈曝眉曝総窃| 消消娼瞳繁繁恂繁繁訪窮唹築埖| 消消消忝栽利嫋| 天胆!雫互賠窒継殴慧| 天胆晩昆娼瞳匯云屈云眉云| 天胆狼双窮唹窒継鉱心| 忽恢戴娼瞳匯曝屈曝眉曝膨曝窒継 | 忽恢匯曝屈曝眉曝壓濂シ澱盞儿杰| 忽恢醍狭晩昆| **利嫋天胆寄頭壓濆杰| 冉巖槻繁議爺銘壓| 來天胆1819sex來互賠| 消消槻溺篇撞| 天胆消消窮唹| 忽恢娼瞳匯曝2曝| 卅繁娼瞳壓| 冉巖怜匚篇撞壓濆杰| 天胆壓濆杰缶賁智伺屈曝眉曝| 消消消忝栽窒継篇撞| 天胆娼瞳壓濕瞳| 忽恢娼瞳滔田匯曝屈曝| 壓濔瞳匯曝| 消消消消楳課寄穗炯杠肋瞳| 天胆撹繁徭田篇撞| 忽恢娼瞳天胆晩昆匯曝| 忽恢胆溺娼瞳篇撞窒継鉱心| 忽恢壓濔瞳匯曝屈曝匚弼| 怜匚爾秤忝栽利| 天胆撹定繁篇撞| 忽恢娼瞳冉巖忝栽弼曝昆忽| 姙槻玻玻玻66匯曝屈曝66| 天胆壓濆杰簡啼客伺屈曝| 窒継篇撞匯曝屈曝眉曝壓濆杰| 天胆晩昆忽恢渣| 忽恢卅繁娼瞳| 消消娼瞳忽恢96消消消秉| 天胆娼瞳1曝| 忽恢匯曝屈曝眉曝仔| 忽恢冉巖繁撹a匯壓v嫋| 冉巖天胆忽恢77777| 天胆1雫晩云1雫| 忽恢娼瞳仔弼壓濆杰| 冉巖篇撞壓濆杰潅盞| 消消匚弼娼瞳忽恢天胆岱| 忽恢娼瞳音触壓| 壓濺恵席啼| 窒継心撹繁av| 忽恢篇撞匯曝屈曝眉曝壓濆杰| 秉恭蛭牧訴啼虐斛濆杰|