Preferred Networksが深層学習のための演算に特化した演算装置MN-Coreを発表:深層学習専用チップも群雄割拠。NvidiaのTensor CoresやGoogleのTensor Processing Unitに割って入るか?

Preferred Networks株式会社が深層学習に特化したプロセッサチップMN-Coreを開発し発表しました。

課題

現在多くの成果を生み出している深層ニューラルネットワーク技術は場合によって多くの計算量が必要であり、計算を加速する補助的な演算装置としてNvidia社が開発・発売するGPGPUに頼っているのが現状です。
例えば、産業技術総合研究所のスーパーコンピュータ・AI橋渡しクラウド(ABCI: AI Bridging Cloud Infrastructure)も1ノードあたり4台のNvidia製Tesla V100を搭載した構成になっています。
NvidiaはTensor Ooresと呼ばれるニューラルネットワークに必須のテンソル計算に最適化された計算ユニットを開発しTesla V100にも搭載しています。
また、Google社はニューラルネットワーク高速化のため独自の演算装置Tensor Processing Unitを開発し、自社サービスへの活用や一般開発者もクラウド上で使用できるようにしていますが、外部へ発売はしていません。
ニューラルネットワーク構成上の様々な工夫や、FPGAを用いて特定のネットワークに特化した回路を構成することで高速化が図られていますが、ニューラルネットワークに必要な演算に最適化された上で将来の研究開発にも十分に活用できる演算装置は発展途上なのが現状です。

解決方法

Preferred Networksは2018年12月12日、新しいニューラルネットワーク専用チップMN-Coreを発表しました。
ニューラルネットワークは行列・テンソル演算と呼ばれる膨大な数の掛け算と足し算をする必要があります。MN-Coreでは、ニューラルネットワークでの演算を最適化するため回路をゼロから設計し、現代的なCPUには搭載されている投機的実行機能(将来必要になる計算を予測して予め実行を開始する手法。予測が外れると遅くなる。)や割り算回路を思い切って削除したり、演算回路をチップ状に隣り合わせる事で通信を高速化するなどよく考えられた設計となっています。
また、一回の演算あたりの消費電力も非常に高性能となる予定です。

どうなったか

ニューラルネットの性能として低精度の演算(場合によっては2値)でも性能がそれほど下がらないということが知られているため、半精度での演算性能も重要になるため、MN-Coreでもその点を重視して設計しています。
演算速度のピーク性能は倍精度(64bit)浮動小数点演算で32.8TFLOPS(1秒あたり32.8兆回: Tela FLOPS) 、単精度(32bit)で 131TFLOPS 、半精度(16bit) で 524TFLOPSとなっています。
比較対象としてのNvidia製Tesla V100は、ニューラルネットに特化した演算としてのTensor演算(最適なメモリ配置とした場合)の性能が120TFLOPS、倍精度浮動小数点演算7TFLOPS、単精度浮動小数点演算14TFLOPS、半精度浮動小数点演算28TFLOPSとされています。
消費電力は予測値で1チップあたり500ワットとなるとしていて、単純計算で半精度で1TFLOPSあたり1ワット以下という省エネ設計となっています。これは、消費電力が250ワットとされているTesla V100が半精度で1TFLOPSあたり13.9ワット、Tensor演算で2ワットである事からも高性能であることがわかります。

まとめ

ソニーが2018年11月13日に発表した画像認識のためのニューラルネットワークResNet-50の学習時間最短記録として224秒を達成したのはTesla V100を搭載したABCI上の通信システムに最適化された専用プログラムでした。さらに、11月16日には、Googleがその記録を自社開発のニューラルネットワーク用プロセッサTPUv3(Tensor Processing Unit version 3)を搭載した自社のスーパーコンピュータにより132秒に更新したと発表しました
ニューラルネットワークの研究開発を進める上で高速化された計算資源を活用できることは大きなアドバンテージで、競争は激化しています。専用チップの開発だけでなく、高速な通信網を搭載したクラスター環境の構築、省エネ技術、ハードウェア環境に合わせたソフトウェア技術など様々な個別技術を統合する技術も重要な要素です。
どこが主導権を握るのか。人工知能用スーパーコンピュータチップの開発競争から目が離せません。

参考資料

深層学習に特化した ディープラーニング・プロセッサー MN-Coreを発表。2020年春、MN-Coreによる大規模クラスターMN-3を稼働予定 [Preferred Networks]

MN-Core Chips for Deep Learning SEMICON Japan 2018 [Preferred Networks]

GoogleのTPUって結局どんなもの? 日本法人が分かりやすく説明 [@IT]

PFNが独自開発したAIチップ「MN-Core」、回路設計を深層学習に最適化 [日経XTECH]

分岐予測、投機実行とは:用語解説 [富士通]

Sonyが画像認識ニューラルネットワークの学習を224秒で完了:2016年の提案時29時間かかっていたモデルを産総研のスーパーコンピュータABCIで高速化 [Marvin.news]

Chris Ying et al., Image Classification at Supercomputer Scale, 2018 [arxiv]

(森裕紀)