マッチングサイト登録者から違反者を自動検出:機械学習により会話パターンから18歳未満を推定したり違反プロフィール画像を検出するシステムを運用開始

課題

マッチングサイトでは法律に基づいて18際未満の登録を禁じています。そのため、運転免許証などの身分証明書をカメラで撮影して送信させるなどの方法で対策を講じていますが、実際には違反者はあとをたたないようです。違反者の取り締まりに多くの人材を割けばコストは高くなりますが、未成年者の安全性は確保しなければなりません。

また、自己紹介のためのプロフィール画像が適切に投稿されることは、なりすましや写真の悪用防止の観点からも重要な要素ですが、人手での管理には限界があります。

解決方法

マッチングサイト「タップル誕生」を運営する株式会社マッチングエージェント(本社:東京都渋谷区、代表取締役社長:合田武広)は、株主である株式会社サイバーエージェント社(本社:東京都渋谷区、代表取締役社長:藤田晋)の秋葉原ラボと連携して、18歳未満を投稿内容から検出するシステムと基準に満たないプロフィール画像を自動検出するシステムを開発し、運用を開始したと発表しました。両システムシステムの具体的な手法は明らかになっていませんが機械学習により構築されているとしています。検出された登録者はさらに人間の監視オペレータにより内容をチェックされて、必要に応じてユーザの退会させるなどの措置がされるとしています。

18歳未満の検出については、「機械学習技術を用いることで若年層ユーザーの言葉遣いを考慮した検知を実現」としており、自然言語処理技術により18歳未満である確率を推定しているようです。また、このときに「高校生」などのキーワードの一致のみより高精度であるとしています。このため、通常の「堅い」文章を想定して形態素解析や文法構造を推定しようとすると適切な処理がなされない可能性があるため、可能な限り文章をそのまま再帰的ニューラルネットワーク(LSTMなど)などに入力して、若年者かどうかを判別するシステムとなっていると考えられます。学習には、投稿者の実年齢がわかった投稿データが必要ですが、これまでの18歳未満の違反者の投稿と適法な登録者の投稿を入力として、違反者か違反者でないかを出力とするデータセットであれば用意可能でしょう。学習データの数が不十分であれば、多くの文章データにより事前学習済みのネットワークを使用することも可能です。

また、不適切なプロフィール画像の検出については、「複数のディープラーニングを利用した判別モデル」としていることから、コンボリューショナルニューラルネットワークを用いた判別が行われていると考えられます。画像に関しても学習用データはサービスの運用の中で収集できるでしょう。

どうなったか

マッチングサイト「タップル誕生」には、両システムがすでに導入されているとしています。今後、人的負担の軽減や人による監視以上の効果がみられるのか、成果が期待されます。

まとめ

マッチングサイトやSNSなどでは、各運営者が投稿内容の健全性の確保に頭を抱えています。facebookでは、人手での監視は労働時間の長期化や数の増加に伴う人的コストだけでなく、内容からくるPTSD(Post Traumatic Stress Disorder :心的外傷後ストレス障害)も問題になっていると報道されています。投稿内容の自動判別は、差別的であったり攻撃的であったりする投稿の排除と同時に排除されるべきでない投稿の恣意的な削除(表に出ないために問題になりにくい)など、さらに大きな社会問題になっていくでしょう。

今回の技術はサイバーエージエント・アキバラボが協力しているとしていますが、アキバラボは2018年の人工知能学会全国大会で複数の発表をしており、その発表内容から、ネット社会の健全性確保は同社の課題となっていることがわかります。たとえば、同学会で発表された「オンラインコミュニケーションにおける「いじめ経験の告白」」や「未成年女性のネットリスク分析」では、同社が運営するサービスでの投稿内容を分析しています。同ラボの今後の活動にも期待したいです。

参考資料

(森裕紀)