エッジコンピューティングにも高速な推論を:LeapMindのディープラーニングモデル圧縮技術による低消費電力なシステム上での高速推論

課題

画像処理や音声認識など様々な情報処理システムにディープラーニングの技術が利用されるようになりました。これまでのシステムと比較すると認識精度などが向上することから、ディープラーニング技術に寄せられる期待は日々大きくなっています。しかし、その処理には消費電力の大きなプロセッサやクラウド上のコンピューティングサービスなど多くのリソースを必要とします。通信技術等の発達によりクラウド上のコンピューティングリソースを利用する際にも高速な情報のやり取りが可能になってきていますが、モバイル端末やドローンでの利用など、人々の生活にディープラーニング技術がより活用されるためには電力やスペース、通信容量の限られたデバイスにおいても高速に応答(推論)可能なシステム構築が不可欠です。
このような課題に対し、ディープラーニングモデル構築のための学習データ作成支援ソリューションDeLTA-Markを提供するLeapMind株式会社(以下LeapMind)は小型デバイス上でも高速に推論可能なディープラーニングモデルを提供するために、ディープラーニングモデルの圧縮技術を開発しています。

解決方法

ディープラーニングモデルをエッジデバイスで利用するには、安価かつ低消費電力で稼働するシステムが必要になります。LeapMindではFPGAやその中でも消費電力の低いSoC FPGAをターゲットデバイスとしており、そのような計算リソースが限られた環境でディープラーニングモデルを動作させるためにソフトウエアとハードウェアの両面においてモデルの構築と改善を行っています。
ソフトウエア面では、推論に不要なネットワーク領域を削除し、ネットワークを疎な構造に変えるPruning(枝刈り)やモデルの数値表現の精度を変更する(例えば32bit表現のモデルを16bit表現に変更する等)Quantization(量子化)、さらには物体識別等を行う大規模なディープラーニングモデルの出力を小規模なモデルで学習させるDistillation(蒸留)という手法を用いています。またハードウェア面では、FPGAにディープラーニングモデルを実装するにあたりネットワーク内の積和演算処理にDSP(Digital Signal Processor)を利用することや、、ネットワークモデル内の結合加重やノードの活動量の計算に利用されるテンソル積演算器をハードウェア実装することによって高速化を行っています。
LeapMindではこれらの技術に関する論文を、機械学習に関する国際会議であるNIPS2017(Conference on Neural INofrmation Processing Systems)のWorkshop、Machine Learning on the Phone and other Consumer Devicesで発表しています。

どうなったか

開発しているディープラーニングモデルの圧縮技術によりモデルの学習時に量子化を実行し、ネットワークの重み係数を1bitに、ノードの活動を2bitの演算精度として扱うことでモデルサイズの圧縮と処理の高速化を図りました。その結果Terasic社が提供するTerasic DE10-Nanoに搭載されているFPGAボードによるディープラーニングによる顔検出で、10.5fpsの性能を実現しました。これはFPGA以外のSoC(ここではARM Cortex-A9)にLeapMindの開発するモデル圧縮技術を用いた顔検出システムの検出周期である2.3fpsと比較して4.6倍の性能となりました。またモデル圧縮技術を用いずにSoCで顔検出を行った場合は検出周期は0.64fpsとなり、その改善率の高さがよくわかります。
今回の技術によって高速化された物体検出機能は、LeapMindが提供するプログラミング不要な組み込みディープラーニングモデル構築ソリューションDeLTA-Liteへ2018年9月中旬以降に追加実装される予定です。また2018年9月21日に開催される「インテル® FPGA テクノロジー・デイ 2018」にて、この顔検出デモが展示される予定です。

まとめ

エッジデバイスでのディープラーニング技術の活用を可能にするLeapMindのディープラーニングモデルの圧縮技術について紹介しました。モバイルデバイスやロボット、ドローンや自動運転自動車等の普及によりエッジ環境においてディープラーニングを利用するシステムの開発需要が高まっています。その中で安価で低消費電力が特徴であるFPGAは非常に注目されています。
以前紹介したように、LeapMindではディープラーニングモデル開発のためのデータ作成を支援するDeLTA-Mark(こちら)やプログラミング不要な組込みディープラーニングモデル開発ソリューションのDeLTA-Lite、そしてFPGAデバイスを含むハードウェアキットであるDeLTA-Kitの提供を行っています。このようなデータ作成からモデル開発、そしてハードウェア実装までを一貫して行うビジネススタイルは今後のディープラーニング技術の発展を加速させると考えられます。

参考資料

(堀井隆斗)