東芝と統数研、機械学習アルゴリズム「HMLasso」を開発:大量欠損データから高精度な回帰モデルを作成

課題

工場やプラントなどの製造現場では、製造プロセスや設備稼働に関するデータが大量に蓄積されています。これらのデータを活用し、品質のばらつきを説明する回帰モデルを構築することができれば、品質が悪化する要因の特定と改善に大きく寄与することができます。
しかし、現実には収集されるデータには測定ミスなどで欠損が発生し、さらに抜き取り検査で品質を確認するときに、1割程度しかデータを収集できない場合もありました。このような場合、あらかじめ欠損値を補完してから解析するのが一般的ですが、欠損値が多いと膨大な計算が必要となるため、解析の高速化は困難でした。

解決方法

東芝と統数研は、欠損値の多いデータから高精度な回帰モデルを構築することができる新しいアルゴリズム「HMLasso」を共同開発しました。

Lasso回帰モデルはL1ノルム最小化モデルとも呼ばれ、予測精度の向上と変数選択を同時に行う手法です。このモデルでは、予測の誤差を小さくすると同時に、入力となる変数に掛ける係数(パラメータ)の絶対値の合計が小さくなるような制約を導入して学習されます。この制約により、予測に不必要となる変数の係数が自動的に0に調整されるため、0でない係数となる入力が「選択」される結果となります。

Lassoモデルに関わらず、欠損値のある数値データから要因分析をする際、欠損値を補完して回帰モデルを作る手法を用いる場合があります。値の補完方法としては、全体の統計的性質を損なわない形で値を補完する手法が適切です。時系列データの場合には前後の値から滑らかにデータを補完することがありますし、時系列データでない場合には平均値で補う場合もあります。

欠損値を補完しないままモデル化する手法も提案されており、「CoCoLasso」(Convex Conditioned Lasso)はその1つです。一般に回帰モデルを作る際には入力変数に関する分散共分散行列の計算が必要になります。「CoCoLasso」では、この分散共分散行列の成分をデータが揃ったペアのみで計算を行なった上で、回帰に必要な分散共分散行列を改めて推定するという二段階の計算を行なっています。この結果、欠損データを考慮した計算ができるようになります。しかし、この手法ではペアとなるデータの数が少ない場合、推定が不安定になる問題がありました。特に高次元データで欠損値が多い場合には同時にデータが揃う場合がさらに少なくなり、欠損率が高い項目に引きずられて全体の解析の精度が低下する問題がありました。

今回、東芝と統数研が提案した「HMLasso」は「CoCoLasso」を改良したもので、手法の内部で欠損値を平均値で補完したものとみなして手法の構築を進めています。これにより、分散共分散行列の推定の問題に関してデータの存在割合に応じて重み付けをして推定する形になっています(つまり、データが全て欠損している場合には重みが0となり全く考慮しない)。このため、欠損率(=1−存在率)についてはあらかじめ計測しておき、欠損率の高低に応じて学習を調整した推定問題となり、欠損率が高い項目があっても全体の計算精度が低下せず、高精度な回帰モデルの構築が可能です。

HMLassoにより、欠損値を含むデータから直接、回帰モデルを構築することが可能となり、全体の計算時間が短縮されます。また、データ項目が多い場合でもスパースモデリング技術(変数選択とモデル化を同時に行う方法論)の応用により、多くのデータ項目から重要な項目のみを絞り込むことができます。

https://www.toshiba.co.jp/rdc/detail/1908_01.htm?from=RSS_PRESS&uid=20190802-6221

どうなったか

このアルゴリズムの理論解析では、欠損率を活用することで誤差限界が最適になり、従来のアルゴリズムよりも優れていることが検証されています。数値実験では、平均欠損率50%でデータ項目によっては欠損率が90%以上となる人工データでベンチマークし、最先端のアルゴリズム「CoCoLasso」と比べて推定誤差を約41%削減したとのことです。東芝と統数研は、8月10日から16日に中国・マカオで開催される、国際会議「The 28th International Joint Conference on Artificial Intelligence (IJCAI-19)」で発表します。

まとめ

IT mediaの取材によると、東芝と統数研は「工場のほか、さまざまな分野の課題への適用検証を進めていきたい」と述べています。

このアルゴリズムのプログラムは、R言語のオープンソースソフトウェアとして、GPL2とGPL3のライセンスの下で8月2日から公開されています。手元のデータで試してみるのも良いかもしれません。

参考資料

(蒲生由紀子)