BERTを用いたニュースサイトコメントの記事との関連性評価:Yahoo! ニュースがスパコンkukaiで最新の自然言語モデルを動作させて解析

課題

ニュースサイトにとってユーザのコメントは悩ましい問題です。記事に関連した議論が行われるのはサイトの活性化に重要ですが、記事とは関係のないコメントで溢れることはしばしばです。従来は、人間の専門チームによりコメントを評価していましたが、労力が大きく、自動化は大きな課題です。

これまでのコメントの評価システムではコメント単体での評価はできたものの、記事との関連性は判別できませんでした。

解決方法

Yahoo! Japanニュースは株式会社ExaScalerとHPCシステムズ株式会社と協力して、ニュース記事のコメントを解析して、記事内容との関連性を評価するシステムを構築したと発表しました。

このシステムは、Transfomerと呼ばれる構造を持つ深層学習モデルと、この構造を応用して提案されている自然言語処理のための深層学習モデルであるBERTを用いて構築され、Yahoo! Japanが深層学習に特化して開発したスパコンkukaiを用いて動作させます。Transfomerはアテンションと呼ばれる仕組みを利用して、再起的な結合なしに自然言語処理などのタスクが行えるように設計され、BERTはその一部分を利用して言語の構造を理解するように大量の文章データを用いて事前学習するモデルです。両モデルはGoogleにより提案され、プログラムもオープンソースで公開されています。

事前学習とは、具体的なタスクに特化した学習を行うのではなく、文章から単語などを欠損させて入力し、欠損を補わせる学習や、前後の文章であるかどうかなどを推定させるような学習も行うものです。このようなネットワークで現れる入力文章に対する表現を用いることで、様々なタスクで少数の例文を用意するだけで高性能な判別モデルなどを構築することができます。

どうなったか

このシステムの稼働開始は2020年1月下旬を予定しているということです。これにともない、コメントの並び順を「共感順」から「おすすめ順」に変更します。この「おすすめ」は、機械学習により多様な意見や考え、感想を含む良質なコメントを選択することで決定するとしています。

まとめ

自然言語処理は非常に大きなニーズを持っている技術ですが、人間では簡単な判断がなかなか難しく、応用する場合には適切な問題設定とモデルの設計が不可欠です。これまでは、自然言語の不定形さや曖昧性等からなかなか良いモデルが見つからなかった問題設定でも、最近の深層学習ベースのモデルであれば多くの問題が解けることが分かってきました。BERTの提案は2018年10月でしたが、さらに性能の高いモデルがすでに提案されてきています。今後の自然言語処理技術の基礎技術の発展と応用にさらに期待したいですね。

参考資料