産業技術総合研究所が動画像とバイオ系文書のための事前学習モデルを公開:転移学習による目的タスクでのデータ削減や学習の高速化に寄与

課題
近年の画像や自然言語などにおける複雑なタスクを機械学習でゼロから解く場合、大規模なデータを用いて学習する必要があります。近年では、一般的な目的を持つ目的のために学習を行ったモデルの一部を使ったり、出力としてのラベルを必要としない「教師なし学習」により得られたニューラルネットワークからの表現を使用することで、開発者が目的とするタスクのための学習のデータを減らしたり学習を高速化するなどの
解決方法
2019年12月10日、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)と産業技術総合研究所(産総研)は、動画像処理と自然言語処理における事前学習モデルを公開しました。動画像処理ではGoogle DeepMind社のKinetics400データセットに含まれる「お茶を淹れる、絵を描く、ジョギングする、などの日常行動400種類に関する30万本のラベルつきの短い動画」を使い、事前学習を3D-ResNetに対して行いました。3D-ResNetは2次元の動画像を時系列に並べた3次元構造を学習するためのモデルで、動画像認識に用いられます。
また、自然言語処理では自然言語処理において顕著な性能向上をもたらした事前学習モデルであるBERTをバイオ系の文書を用いて事前学習を行いました。これにより、日常の文章ではなかなか現れないような生命科学の専門用語を含む文章の解析の性能向上が見込まれます。


どうなったか
構築された二つのモデルを公開しました。これにより、動画像やバイオ系文書に関する新しいタスクに対して効率的な技術開発が可能になります。
この成果は、モデルをダウンロードして規約にどうすることにより使用可能ですが、産総研が所有し一般でも使用できるABCI(人工知能橋渡しクラウド)を用いても使用することができます。

まとめ
事前学習モデルは画像認識や一般的な自然言語処理において盛んに公開されていますが、今回紹介した動画像や動画像や特定の目的のための自然言語処理などを含む様々な用途で応用可能なモデルは研究・公開されていません。今後、開発の効率化のため汎用的で最終的なニッチな目的のための転移学習が簡便で性能が古城するようなモデルが提案されると考えられます。性能の良い事前学習モデルを保有することが研究開発の優位性を決めるようになるのかもしれません。
参考資料
- AIの動画認識やテキスト理解の基盤となる事前学習済みモデルを構築・公開 -実世界のデータを活用する次世代AI技術の開発と社会実装の促進に期待- [産業技術総合研究所]
- 研究開発成果AIの動画認識やテキスト理解の基盤となる事前学習済みモデルの構築と公開 [産業技術総合研究所]
- Hara et al. Learning Spatio-Temporal Features With 3D Residual Networks for Action Recognition [ICCV2017]
- ロボットは東大に入れるか:センター試験英語の要約問題に対する BERT を用いた自動解答手法 [Marvin.news]