ユーザー投稿の質を人工知能で選別:大量のラベル無しデータを用いた学習による感情分類システムとその応用
課題
Yahoo!知恵袋やstack overflowに代表される投稿システムは、疑問を持つユーザーの投稿に異なるユーザーが回答を投稿することで疑問が解決される画期的なシステムです。これらのシステムでは様々なユーザー間の投稿のやり取りによって情報が更新されていくために、管理者が情報の収集や回答を行う必要がない一方で、悪意あるユーザーの投稿を管理、修正する必要があります。特に規約には違反していないが不快な内容を含む「グレー」な投稿は、形態素解析などを用いた技術では発見することが難しく、人手による調査と修正が加えられていました。投稿件数が日増しに増加するこれらのサービスで人手によるグレーな投稿の抽出は大きな労力を必要とします。
このような課題を解決するために、Yahoo!知恵袋を運営するヤフー株式会社(以下ヤフー)はディープラーニング技術を用いた自然言語処理モデルにおいて大量のラベル無しデータから投稿内容の感情を推定する手法を開発しました。そしてこの手法を応用することで、これまで判別が難しかったグレーな投稿を抽出し、それらの投稿を非表示にする技術を開発しました。基礎となるディープラーニングモデルの学習手法は、自然言語処理に関する国際会議である56th Annual Meeting of the Association for Computational Linguistics (ACL2018)において発表されました。
解決方法
言語情報から感情を推定する問題は、これまでにも様々なディープラーニングモデルによって取り組まれてきた課題です。しかしディープラーニングモデルを学習させる際には非常に多くのデータが必要になることが知られており、特に分類問題では教師ラベルの付随したデータが大量に必要になります。このような問題に対して提案手法では、自然言語処理において頻繁に利用されるロング・ショートタームメモリ(LSTM)に対してTwitterにおける大量の対話データ(約2億2千万対)を利用した事前学習(pre-training)を行い、次いで少数の感情ラベル(ポジティブ、ネガティブ、ニュートラルの3種類)付き文書による微調整(fine-tuning)を行いました。この手法ではtweetの対話データ(paired data)は同じ感情状態を共有している仮説を採用することで、学習時におけるラベル付きデータ量を減らすことを目標としています。
Yahoo!知恵袋におけるグレーな投稿を分類する際にも同様の手法が利用されています。具体的には感情ラベルの代わりに投稿内容が「問題なし」、「グレー」、「問題あり」の3種のラベルを付けたデータセットを用意することでLSTMによる分類学習を行います。この3種のラベル付けに関しては社内でガイドラインを設定し、それぞれのラベルに対応する文書データを作製したそうです。
どうなったか
事前学習を用いない手法や、対話文を用いない従来手法と提案する事前学習手法を用いて文章における感情推定実験を行ったところ、提案手法が最も良い分類精度を示しました。またLSTMにいくつかの文章を入力させたところ対応する対話文が生成されました。感情推定実験の結果や生成された対話文はこちらの資料から確認できます。
また同様の手法を用いて、実際のYahoo!知恵袋に投稿されているグレーな投稿文を推定しました。しかしこれまでに蓄積されていた6億件を超える投稿内容を処理するには約9ヶ月の時間がかかるとの試算がでていました。この問題に対しては、ヤフーが開発したスーパーコンピューター「kukai(クウカイ)」を利用することによって、想定時間の200分の1である1日強で分類処理が完了しました。分類されたグレーな投稿は、トップページなどの人目につく場所では非表示されるようになりユーザーからもポジティブな反応が得られているそうです。
まとめ
ディープラーニング技術の一種であるLSTMを用いた自然言語処理モデルにおいて、ラベル無しの対話文章を用いたpre-trainingを利用することで文書分類の精度を向上させる手法を紹介しました。ヤフーではこの技術を利用してYahoo!知恵袋におけるグレーな投稿を検出し、非表示にすることでユーザーの満足度を向上させることができました。
今回紹介した事前学習手法は、ディープラーニングモデルを利用した画像処理分野では頻繁に利用される手法です(例えばこちらやこちら)。現在ディープラーニングを利用した技術開発が様々な分野で行われていますが、異なる分野で提案されている手法やアイディアが利用可能な場合も多くあるために、画像処理や自然言語処理、音声処理などの枠組みにとらわれずに様々な技術を調査する必要があると考えられます。