日本語に特化した言語処理モデルの登場:大規模日本語データベースと形態素解析器「Sudachi」を用いた日本語単語分散表現モデル

課題

深層学習技術の進展により、テキスト形式で保存されている言語情報(例えば対話記録や指示情報など)の解析が盛んにおこなわれています。ロング・ショートタームメモリ(LSTM)を含むリカレントニューラルネットワーク(RNN)などの時系列モデルを用いた情報処理や、単語間の関係性を表す「分散表現」と呼ばれる手法の登場により、言語解析や言語生成の精度が格段に向上しました。しかしこれらのモデルで評価に利用される言語は英語が多く、日本人研究者による研究でも学習用データセットの制約からビジネスシーンで利用できるものはあまり存在しませんでした。
このような課題に対し、株式会社ワークスアプリケーションズのAI研究機関であるワークス徳島人工知能NLP研究所は、大学共同利用機関法人人間文化研究機構国立国語研究所(以下国語研)との共同研究を実施し、国語研が保持する国内最大規模の日本語データベース「国語研日本語ウェブコーパス」と、ワークス徳島人工知能NLP研究所の形態素解析器「Sudachi」を用いて学習した、実用的な単語分散表現モデルを開発しました。そして「複数粒度の分割結果に基づく日本語単語分散表現」モデルを商用利用可能なオープンデータとして無償公開しています。

解決方法

単語の分散表現は、文書データにおいて注目する単語の周辺の情報を利用することで、単語間の関連性や類似性を高次元のベクトル表現として獲得する手法です。例えば、私はリンゴをたべる、という文章ではリンゴ周辺の食べるという単語からリンゴが食べ物であるという表現を獲得します。また、私はバナナをたべる、という文章から、バナナなどと近い意味を持つと理解します。ワークス徳島人工知能NLP研究所ではSkip-gramを元にしたword2vec(モデルはgensim)を利用した分散表現モデルを公開しています。この際学習用データセットとして国語研日本語ウェブコーパスを利用し、さらにデータセットの文章を単語毎に分割する「分かち書き」と呼ばれる作業に、ワークス徳島人工知能NLP研究所で開発をしているSudachiを利用しています。Sudachiは短・中・長3つの分割単位で分かち書きが可能であり、これにより高精度な単語分散表現モデルが構築されています。
形態素解析器であるSudachiについても、Apache-2.0ライセンスでオープンソースソフトウェアとしてGithub上で公開されています。Sudachiに関する詳細はこちらの資料もご参照ください。

どうなったか

ワークス徳島人工知能NLP研究所のWebサイトにて学習済みの日本語単語分散表現モデルが公開されています。ライセンスはSudachiと同様Apache-2.0です。また近日中にfastTextを利用したモデルについても公開される予定です。

まとめ

ワークス徳島人工知能NLP研究所が公開した大規模コーパスと複数粒度分割による日本語単語分散表現モデルについて紹介しました。これまでにも日本語データセットを用いて学習した分散表現モデルは存在しました。しかし今回のモデルは、非常に大きなデータセットを利用していることと商用利用可能なオープンデータとして無償公開されたことから、企業や研究機関で手軽に利用できるため、自然言語処理技術の推進に大きな影響を与えると考えられます。より詳細な情報はWebサイトもご覧ください。

参考資料

(堀井隆斗)