公平な顔画像認識を目指して:IBM Researchが肌の色や性別のバランスの取れた顔画像データセットを公開

課題

顔画像の認識はコーカソイド系(白人)やアジア系に対して性能が高くてもアフリカ系(黒人)には性能が劣る場合がありました。これは、人工知能を訓練するためのデータセットがバランスを欠き、研究者の多い白人やアジア系に偏っていたためと考えられています。ジョイ・ブォロムウィニはTEDのイベントにおいて顔画像の認識能力が人種グループによって偏りがあることを説明しています。

顔画像の認識や個人認証は、犯罪捜査やiPadのログインに採用されるなど活用が広がっていますが、基本となる機械学習のためのデータにバランスを欠いていると差別的な結果を産むことが懸念されています。これは、ある人種では多くデータがあるために十分に丁寧に認識できるのに、データが少ない場合にはうまく認識できない状況が頻発してしまうためです。特に肌のトーンが暗い場合には、影と混同しやすいため詳細なパターン分析が必要であるにも関わらずデータは少ないという、逆転した状況が起こっていること考えられます。これらからも、公平な顔画像データセットを用意することは課題となっていました。

解決方法

Diversity in Faces図2より

IBM Researchは、公平な人工知能実現のため肌の色や性別、年齢についてバランスを取った100万件の顔画像データセットDiversity in Faces (DiF)を提供すると発表しました。このデータセットはアンケートに答えることで取得することができます。

DiFはYahoo ResearchからCreative Commonsライセンスで提供されているYahoo Flickr Creative Commons 100M (YFCC-100M)データセットからカラーである、正面を向いているなどの基準で顔画像を取り出して、よく使用されている顔画像の特徴点を追加しています。ただし、年齢やジェンダー、肌の色のトーンについてバランスが取られるように配慮してしているが、まだまだ完璧ではないとしています(A consequence of this is that the set of images used in the DiF is not completely balanced on its own. However, it still provides the desired basis for studying methods for characterizing facial diversity)。

どうなったか

IBM Researchは今回の画像提供は最初のステップだとしています。今後、このデータセットを用いてより公平な顔画像認識モデルの開発が進むと考えらえます。

まとめ

顔画像認識に限らず、Facebookが女性差別をしてしまう人工知能を用いた人事採用を撤回するなど、データに内在する偏りが偏見や差別を再生産しているとみなされる事象がたびたび起こっています。データに基づく機械学習モデル構築には、データを大量に集めるというだけでなく、収集方法やビジネス自体に内在する偏りを客観的に考察し、公平で偏りのないデータを集めることが求められます。また、人工知能開発を進める中で問題が表面化したり、リリース後に現れた場合にも迅速に対応する必要も倫理的に求められます。

この問題は、IBMが今回のデータセットでさえ完全でないと主張しているように、理論的に万全を期すことはできません。人工知能の開発や事業に使用する場合には、常に最善を考えながら活用を進め、場合によっては人工知能以外のアプローチを採用することも必要でしょう。

参考情報

IBM Research Releases ‘Diversity in Faces’ Dataset to Advance Study of Fairness in Facial Recognition Systems [IBM公式ページ]

Merler et al. Diversity in Faces, 2019 [IBM Research公式ページ pdf]

アルゴリズムに潜む偏見との戦い ジョイ・ブォロムウィニ|TEDxBeaconStreet [TED ]

人工知能が「偏見」を学んでしまった──画像認識で「白人男性」より「黒人女性」の識別率が低かった理由 [wired.jp]

IBMが100万人の顔データを収めた膨大なデータセットを「顔認識技術の公平性」を目指してリリース [GIGAZINE]

アマゾンの採用AIツール、女性差別でシャットダウン [Business Insider]

(森裕紀)