異なる情報源からのデータの意味を推測して統合する技術をNECが開発:単語と数値の共起関係により構築したナレッジグラフを応用

課題

近年では、データを部門間、企業間、業界間で共有し統合することで、横断的な分析を行う取り組みが活発になりつつあります。異なるデータを分析するには、項目名が統一されていないデータを結合することが必要です。これまではデータ管理の専門家が人手で、何のための表データか、その表データの各行や列が何を表しているかを判断し、表データを統合してきました。その作業には膨大な時間がかり、担当者のスキルごとにばらつきが出て分析精度が悪化する問題がありました。

解決方法

NECは8月5日、データの意味をAIで推定する「データ意味理解技術」を開発したと発表しました。機械学習を使うことでデータの他の項目などから項目を推測し、もとから項目名が付与されていなくても、各データ列の数値分布の統計的な傾向を手がかりに推測できます。

この技術には、Googleの検索アルゴリズムを構成する仕組みのひとつである、ナレッジグラフが利用されています。ナレッジグラフとは、知識の関係性を表すグラフ構造(※)です。これは、膨大な数の文書における単語の共起関係や係り受けの関係などからオントロジー(意味論)を推定して、構築されます。今回はNECの独自技術により、データ内の各単語について、その単語と共起する数値を収集し、単語の数値分布を含む独自のナレッジグラフを構築しています。同じ意味の数値データは統計的な分布傾向が類似することから、数値データ列から数値の出現頻度の分布傾向を示す特徴量を算出し、ナレッジグラフ上の単語ごとの数値分布と比較します。これにより、たとえば、項目名がないデータについても、「売上高」と意味を推定することが可能になります。

https://jpn.nec.com/press/201908/20190805_02.html

「29、24、23」など、「年齢」や「気温」などさまざまな意味が当てはまる数値データは、文字データ列と比べて正しい意味の推定は困難です。そこで、今回の技術では、「推定対象のデータ列の意味候補」と「同一表データにある他のデータ列の意味」の共起関係をナレッジグラフ上のネットワーク距離を用いることで、高い精度で推定を行います。たとえばあるデータ列において、同じ表データに「氏名」の項目が含まれていれば、ナレッジグラフから「気温」データではなく、より関係性の強い「年齢」データであると推定します。

どうなったか

NECによるとこの技術をオープンデータに適用したところ、専門家が30日かけていたデータ統合作業を、1時間で同等品質で行うことを確認したそうです。

まとめ

統合されたデータの確認作業など、まだまだ人手が必要な部分も見受けられますが、大規模なデータを整理する必要がある企業にとっては注目の技術です。これまで海外の類似製品にはTamrがありましたが、日本語の変数には対応していなかったので、その意味では、これからのNECによる汎用的な活用への研究開発に期待が寄せられます。

参考資料

※ グラフ:「ノード」が「エッジ」により接続されることで何らかの対象を表す数学表現。交差点をノード、道路をエッジとして、エッジに距離のコストを付加することで交通網の数学的表現ができる。これにより、カーナビの最短経路検索が可能になる。ナレッジグラフでは単語間の関係性をこのグラフ構造により表現する。

(蒲生由紀子・森裕紀)