MIT-IBMワトソンAIラボの研究チーム、スマホで映像認識する手法を発表
課題
従来の2次元CNNは計算コストが低いが、時間的な関係を捉えることができないという欠点がありました。また、3次元CNNベースの方法は、良いパフォーマンスを達成しますが、計算集約的であり、計算資源を持っている機関とそうでないところとの間に格差が生じていました。
解決方法
MIT-IBMワトソンAIラボの研究チームは、最新のコンピューター・ビジョン・アルゴリズムを低電力デバイスでも実行できるように縮小することに成功しました。
たとえば毎日YouTubeにアップロードされる105時間以上の映像は、リコメンドや広告ランキングのために処理されています。また、病院内の数テラバイトもの映像は、プライバシーを保護するためにスマートフォンなどのエッジデバイスでローカルに処理する必要があります。これらのアプリケーションはすべて、正確かつ効率的な映像認識を必要とします。
ディープラーニングは長年にわたって映像認識に使われてきましたが、映像認識と画像認識の主な違いの1つは、時間モデリングの必要性です。たとえば、ボックスの開閉を区別するには、順序を逆にすると逆の結果になるため、時間モデリングが重要になります。

今回本論文で提案されたモジュールでは、具体的に、3次元CNN並みのパフォーマンスを実現しながら、2次元CNNの複雑さを維持することができます。
どうなったか
今回提案されたモジュールを2次元CNNに挿入すると、計算0とパラメータ0で時間モデリングを達成することができました。また、モジュールをオンライン設定に拡張することで、リアルタイム低遅延オンライン映像認識と映像オブジェクト検出を可能にしました。このフレームワークは効率的かつ正確であり、スマホなどのエッジデバイス上で時間的処理過程を短く、映像認識を可能にすると研究チームは述べています。
まとめ
今回のコードはこちらで公開されています。今回提案された手法を応用すれば、患者の診察や医用画像の分析などもスマホで行うことができるようになるかもしれません。
参考資料
- TSM: Temporal Shift Module for Efficient Video Understanding
- スマホだけで映像認識、MIT-IBMワトソンAIラボが新手法 [MIT テクノロジーレビュー]
(蒲生由紀子)