人工知能がより良い記事作りをお手伝い:リクルートが進める校正・校閲AI

課題

新聞や雑誌、情報サイト等のWebメディアまで世の中には様々な文章で構成された記事があふれています。それら媒体のほぼ全ての記事は、執筆者と内容を確認する校正・校閲者の協力によって世に送り出されてきました。しかし校正・校閲業務、特に校閲作業は記事の細部まで読みこみ理解する必要があるため非常に多くの作業時間を必要とします。
株式会社リクルートテクノロジーズ(以下グループ会社を含めリクルートと呼称)では、このように時間のかかる校正・校閲作業を高速化するためのAIシステムを開発し自社業務に導入するとともに、その開発で得られた成果を無料公開しています。

解決方法

リクルートが開発した校閲AIは主に2つのAIシステムにより構成されています。1つ目は住所や電話番号の桁数など明確なルールがある際にそのルールから逸脱した文章の間違いを指摘する「ルールベース」のAIシステムです。このシステムはNGワードの検出・修正やなど、それぞれのメディアで用いられるルールを設定することで文章の校閲を行います。2つ目は「機械学習ベース」のAIシステムで誤字脱字や表記ゆれの検出をディープラーニングを用いて行います。
リクルートの自社業務で用いられているAIシステムの詳細は明らかにされていませんが、後ほど紹介するリクルートの公開AI「Proofreading API」では時系列情報を扱うことができる再帰型ニューラルネットワークの一種であるロング・ショートタームメモリ(LSTM)が利用されています。LSTMやその構造を利用した系列変換手法(シーケンス・トゥ・シーケンス(seq2seq))では、文章中のある注目する単語に対して前後の単語の関係性を考慮することで注目する単語に誤字や脱字が含まれていないか検出することが可能となります。AIシステムの学習には、リクルートで過去に掲載した500万件の記事データに加え、クラウドソーシングにより収集したあえて誤字脱字を含めた3万件の記事データを利用しました。

どうなったか

リクルートではこの校閲AIを導入することによって、これまで1週間の時間を要していた記事の校閲作業を数秒まで減らすことに成功しました。また人材分野の原稿であれば82~83%の精度で誤りを見逃すことなく問題部分を指摘することができました。指摘箇所を確認したところ、約80%の割合で正しい指摘内容だったそうです。一方で結婚情報サイトのゼクシィでは検出率が79~80%と人材系を下回りました。これは学習に利用可能なデータの量に依存した結果のようです。現在この校閲AIではフィードバック機能を設けることで指摘誤りの誤字情報を収集し、システムの改善を行っています。
またリクルートでは自社で開発した様々なAIシステムのAPIを無料で公開しています。A3RT(アート)と呼ばれるリクルートが開発するAIシステムのAPIには文書要約を行う「Text Summarization API」敵対的生成モデル(Generative Adversarial Network:GAN)を利用し画像を生成する「Image Generate API」、そして文章の中の怪しい個所を検知する「Proofreading API」です。現在Proofreading APIで一度に処理可能な文字数は500文字までですが、今後ブラウザによるファイルアップロード等にも対応していくようです。APIの詳しい使い方はこの記事等をご参照ください。

まとめ

人工知能を用いたメディア記事の校正・校閲に関するリクルートの取り組みについて紹介しました。校閲作業をAIを用いて高速・正確化することによって人間の疲労による見逃しを防ぐことができるとともに業務の幅を広げることが可能となります。今回のようなディープラーニングを用いた自然言語処理に関する研究開発事例としては、文章の校正・校閲以外にも、翻訳や文体(スタイル)変換が挙げられます。文書情報を利用する際は表記ゆれの修正や単語分割など前処理が重要となります。業務に利用される場合は、今回紹介したAPIや自然言語処理に関する資料を参考にしてみてください。

参考資料

(堀井隆斗)