Googleが特定のニーズに適した画像認識モデルを作成できるAPI、AutoML Visionを公開

課題

画像認識技術は様々な状況で利用可能です。Google Cloud Vision APIなどの一般物体認識用の画像認識APIを用いれば、比較的簡単に数千カテゴリの一般物体の認識が可能になります。しかし、ニーズに適した特定の画像で利用するためには、一般物体の認識ではなく問題に適した認識を行う必要があります。この問題を解決するためには、画像認識のモデルを学習する必要がありますが、学習を行うには専門的な知識やプログラミングのスキルが必要です。
そこで、Googleは高度な専門知識を必要とせずに、高精度なモデルの作成が可能なAutoML Visionを提供し、この問題の解決をはかっています。

解決方法

AutoML Visoinでは、ドラッグ&ドロップ操作でモデルの学習が可能です。ユーザーは画像と対応するラベルのデータを用いてモデルの学習を行います。1ラベルにつき1,000枚以上の画像を用意することが推奨されています。AutoML VisionではNASNetと呼ばれる、ネットワークの構造自体も学習するアルゴリズムを用いることで、高精度な学習を可能にしています。

どうなったか

AutoML Visionの導入事例として、車好きが集まるアプリ「CARTUNE」での導入事例を紹介します。CARTUNEに導入したのは、クルマの投稿画像を自動分類してカタログ的に閲覧可能にする機能です。この機能ではクルマの投稿画像を「痛車」や「海とクルマ」のように、サービスに沿った独自の分類を行う必要がありました。
そこで、約4000枚の画像に対して約30のラベルを付けたデータを用意しました。このデータを用いてAutoML Visionで24時間の学習を行いました。その結果、適合率89.8%、再現率83.0%となりました。

まとめ

上記のCARTUNEでの導入事例では詳細な使用方法や注意点などが紹介されています。また、他のサイトでは、ラーメン二郎とブランド品での認識キャラクターの簡単な分類そのモデルのAPI経由での使用方法なども紹介されています。特定の物体認識のモデルは、それぞれの応用において作成する必要があるため、認識の精度がよいモデルを手軽に作成できることはアプリケーションを作成する上で重要です。
高度な専門知識を必要とせずに、特定物体の認識モデルを作成可能なAutoML Visionは非常に便利なツールといえるでしょう。

参考資料

(宮澤和貴)