国立情報学研究所が学術機関向けに「オリコンデータセット」の提供を開始:マーケティング調査などに利用可能

課題

NII(国立情報学研究所)はこれまでにIDR(情報学研究データリポジトリ)を通じて、口コミなどのユーザー投稿型データやユーザー行動履歴データなどのデータセットを提供してきました。たとえば「音声コーパス」「Yahoo!知恵袋データ」「ニコニコデータセット」などです。しかし、このようなリアルなデータは学術研究目的であるとしても個人情報やプライバシーに配慮して適切な管理が求められるため、研究者にデータ提供する際の障害となっていました。

解決方法

国立情報学研究所と株式会社oricon MEは、オリコンが保有する「オリコン顧客満足度(R)」の調査データを「オリコンデータセット」として2019年7月1日から提供開始します。学術研究分野で活用促進することを目指しての提携です。

オリコン顧客満足度(R)調査は、実際に提供されているサービス等を利用したことのあるユーザーを対象にアンケート形式でデータを収集するもので、2006年の実施開始以降、約 100 の産業、累計 200 万人以上の回答を蓄積しているようです。調査データの取得には、回答するユーザーの属性分布を統計的に意味があるサンプルとすることでプラスの評価とマイナスの評価を系統的に収集でき、データの品質をコントロールできるアンケートの手法が用いられています。そのため、AIや機械学習の教師データとしても利用しやすいものとなっています。

当初提供を行うのは、「保険」「住宅」など11ジャンル、88業種、回答者数67万の2016年以降に実施された200件です。調査項目は「利用経験」「満足度」「サービスを利用する際に重視するもの」「他者へ勧められるか」「また使いたいか」などになっています。,データには性別や年齢など回答者の属性も付いていますが、特定の個人につながる情報は含まれまていません。

どうなったか

提供はNIIのホームページから申請受け付け、データ提供までを行っています。大学および公的研究機関の研究者を対象としており、利用目的は情報学に関連する学術研究に限るとしています。NIIは、このデータセットを学術分野において利用可能にすれば、ビッグデータ分析、AIや機械学習などの手法の開発にとどまらず、データ収集段階では想定されていなかったデータ価値が発見されることが期待できると述べています。

まとめ

実データで研究するチャンスを研究者だけでなく学生にも提供することで、新たなデータ分析にも挑戦できる学生が増えそうです。たとえばマーケティング分野や経済学、社会学など、他分野で応用が期待されます。

参考資料

(蒲生由紀子)