人工知能による感情解析のためのデータセットが無償で公開中!文章の印象とその観点をセットにしたデータが自由に使えます

課題

機械学習を用いた文章の感情解析は、マーケティングをはじめとする多種多様な場面で重要になる技術として、開発が進められています。しかし、文章の感情解析のためには膨大なデータが必要となり、質の良いデータを多量に用意することには困難が伴います。また、既に存在するデータセットの多くは、文章の印象をポジティブかネガティブかに分類することに留まっています。それだけでは、異なる文章を特定の観点から分析することは難しいといえます。

解決方法

機械学習のための文章における感情解析用データセット「chABSA-dataset」がTIS株式会社により無償で公開されました。chABSA-datasetは、上場企業の2016年度有価証券報告書を基に作成されたデータセットです。各文に対して、ポジティブ・ネガティブ・ニュートラルのいずれであるかが分類されています。さらに、それに加えて「何が」ポジティブあるいはネガティブなのかという観点を表す情報が含まれています。

どうなったか

このような観点単位の感情分類データを機械学習モデルに学習させることで、より高度な解析が実現できるとTIS株式会社は発表しています。

例えば、「商品Aの売上が上がった」という文について、単にポジティブというだけではなく「商品A」の「売上」が「上がった」ということが判断できます。これによって、「何が」良い評価あるいは悪い評価なのかを判断する機械学習モデルを開発できるため、複数の商品を同じ観点で評価することが可能となります。

まとめ

文章におけるポジティブ・ネガティブ評価とその観点をセットにした無償公開中のデータセットを紹介しました。このデータセットは、関連した研究を行う研究者にも活用してもらい、その知見を交換することを目的として無償で公開されています。

このデータセットを利用して、商品の何が良い評価・悪い評価なのかを判断する機械学習モデルを開発することで、種々のマーケティングデータに対する特定の観点に基づいた評価が可能となります。

また、観点を伴う文章の解析について、柔軟な解析を実現するためには「転移学習」が重要になるとTISは説明しています。転移学習とは、あるタスクを行うために既に学習させた機械学習モデルに対して、別のタスクを行えるよう少ないデータで適応させる技術です。TISは、転移学習を用いて少量のデータで独自にカスタマイズすることができるような自然言語処理の機能を今後開発していく予定としています。

参考資料

(太田博己)