「自動見出し生成」APIを無償公開:30年分の朝日新聞データを利用

課題

日々、新聞やWebをはじめとするメディアは、記事の見出し作成に非常な手間をかけています。媒体ごとに見出しの長さを変えるなど、複数の編集者によって1記事あたり4見出しも考える場合もあるそうです。メディアの規模が大きければ大きいほど、見出し作成にコストがかかっている場合があります。

解決方法

株式会社朝日新聞社は、自然言語処理のひとつである「自動見出し生成」の機能を体験できるAPIを、評価用途に限って無償で公開しました。

朝日新聞が大量に保有している過去30年分の記事データを、前処理・フィルタリングをした上で、ディープラーニングで学習させています。膨大なテキストデータを活用するには表現のブレや誤字脱字などがネックになる場合も多いですが、新聞記事は何度も校正が重ねられた正しい日本語なので、「綺麗な日本語のテキストデータを保有している」という新聞社ならではのアドバンテージを利用した形です。

本APIは、出力する見出しの長さのコントロールや、同時に複数の見出しを出力することもできます。朝日新聞社メディアラボでは、このような自動見出し生成の研究を2016年より株式会社レトリバと進めています。

どうなったか

marvinの記事Amazonアプリでバーチャルメイクが可能に:化粧品の色や質感が試せる機能搭載で見出し生成を試してみました。

見出し候補

  • モディフェイス:2 「バーチャルメイク」アプリ導入 時間と労力のコスト向上へ

「モディフェイス」という固有名刺を抜いて再度試してみました。

  • メイクアップアイテム 時間と労力のコストアップ Amazon・バーチャル:

今度は、「Amazon」などの企業名を抜いてみました。

  • バーチャルにメイクアップアイテム 時間と労力のコストアップ リップライン編

学習データが朝日新聞の記事のみであるため、新聞記事のスタイルから大きく逸脱したものや、「ですます調」の入力では破綻してしまうことが欠点として挙げられます。意図しない固有名詞や、朝日新聞特有の表現が出てきてしまうこともあるようです。

まとめ

朝日新聞メディアラボのこの研究はNLP若手の会 (YANS) 第13回シンポジウム デモ賞言語処理学会 第25会年次大会 若手奨励賞などを受賞しています。テクノロジーとは程遠いように見える新聞業界ですが、日経イノベーションラボの言語処理学会における論文「誤り文の自動生成による校正エンジンの学習」など類似の取り組みが最近見かけられます。徐々に、大手新聞社でも、機械学習を用いた記事作成の取り組みが進んできているといってもよいでしょう。

さて、本記事もこのAPIを参考に見出しをつけてみました。いかがだったでしょうか?記事にふさわしい見出しだったでしょうか?

参考資料

(蒲生由紀子)