ディープラーニングの学習データ作成が容易にできる!アノテーション作業支援サービス「DeLTA-Mark」提供開始

課題

ディープラーニングのビジネス活用が様々な場面で活発になっています。

そこで重要となるのが「学習データ」の作成です。データ数が少なかったり、正解ラベルの付け方が統一されていなかったりすると、どんなに良い学習用プログラムを用意しても、高品質なディープラーニングシステムの構築は実現できません。

大量かつ高品質な学習データを用意するためには時間と手間がかかります。そのため、複数の作業者で並行して効率よくデータの作成ができる仕組みが必要です。

解決方法

ディープラーニングモデル構築のための学習データ作成支援ソリューション「DeLTA-Mark(デルタマーク)」の提供を、LeapMind株式会社が開始しました。

このサービスは、複数の作業者による「データに正解ラベルを付与する」という作業(アノテーション作業)の、一元化・均一化・効率化を目的としています。割当機能・プロジェクト作成機能・承認否認機能といった複数の作業者による作業を管理する機能に加えて、作業者に配慮したユーザインタフェースを備えたサービスとなっています。

どうなったか

複数の作業者への割当てと、管理者による作業結果確認の承認フローを回すことによって、アノテーション作業の課題を解決することができるとLeapMind株式会社は発表しています。

現状はクラウド版での提供となっていますが、データを自社内に留めておきたいという企業向けにインターネットにつながず利用できるサービスの提供も予定しています。さらに今後は、自動で正解ラベルの付与ができる機能の提供も予定しているということです。

まとめ

ディープラーニングモデルの構築に必要な、大量かつ高品質な学習データの作成を支援するサービスを紹介しました。

この他に、ディープラーニング活用のためのオープンプラットフォーム「ABEJA Platform」においても、同様のアノテーション機能が提供されています。大量のデータを識別・分類して正解ラベルを作成するアノテーションの工程を自動化・省力化する仕組みとなっており、アノテーションを効率よく行えるツールを提供するとともに、大量のデータを即時にアノテーションできる人材を管理・提供することを目指しています。

また、より用意に使えるオープンなアノテーションツールも多々開発されています(アノテーションツール(正解入力ツール)が進化している。[Qiita])さらに、アノテーションだけではなく、学習データの生成を自動化する技術も研究開発がなされています。(Deep Learningで用いるデータを「生成」してみた [技ラボ]ディープラーニング技術:学習画像の自動生成 [東芝]

これらのサービスや公開されている技術をうまく利用することで、高品質な学習データを作成し、より良い独自のディープラーニングを活用したシステムを構築することができる可能性があります。今後は高品位データの作成・管理ツールが必須になるでしょう。動向に目が離せません。

 

参考資料

Deep Learningモデル構築のための学習データ作成支援ソリューション DeLTA-Mark [LeapMind Inc.]
ディープラーニングモデル構築のための学習データ作成支援ソリューション「DeLTA-Mark」提供開始 [PR TIMES]
深層学習のアノテーション工程を自動化、省力化する機能を提供 [MONOist]
アノテーションツール(正解入力ツール)が進化している。[Qiita@nonbiri15]
Deep Learningで用いるデータを「生成」してみた [技ラボ]
ディープラーニング技術:学習画像の自動生成 [東芝]

(太田博己)