理研、遺伝子など非画像データを画像データへ変換し、深層学習で扱う手法を開発

課題
ゲノムなどのゲノミクスデータは、病気の解析や診断に役立つと考えられています。しかしゲノミクスデータは、数万から数千万の変数を持つ超高次元データであることが多く、少数のデータから意味のある情報を抽出することから始まった従来の統計学では解析が難しいものでした。
そこで、機械学習の活用が注目されています。超多変量で大量のデータから意味を抽出する近年の機械学習の手法を用いれば、重要と判断した変数群を抽出し、その変数群を用いて、新規のサンプルが特定の病気と関連があるか否かを判別することが期待されます。
ゲノミクスデータには背後に複雑な構造があることから、典型的な機械学習の手法が通用しません。これまでの手法は得られた複数の測定値に関して(1)並べ替え(2)特徴抽出(3)分類器の順に適切な手法を選ばなければなりません。
機械学習では、対象とするデータの情報構造(相関関係など)を前提としてニューラルネットワークのような構造を構築するか、あらかじめ何らかの方法で特徴抽出を行なった後の段階から判別を行うと精度が高くなります。しかし、この特徴抽出をいかにうまく行うかは大きな課題です。
解決方法
理化学研究所生命医科学研究センター医科学数理研究チームの国際共同研究グループは、ゲノミクスデータなどの数万次元におよぶ多変量データという非画像データを画像に変換することで既存の深層学習を適用できる手法を開発し、効果を実証しました。

提案された「DeepInsight(ディープインサイト)法」は、遺伝子発現などのゲノミクスデータを使って医療診断や予測のためのクラス同定や分類を高精度に行うための手法です。この手法は、高次元なデータの特徴量を画像上の「位置」として表現し、それらの特徴がどの程度あるかを画像により表現します。
まず、近い特徴は2次元平面中の近くに配置されるようにt-SNEやカーネル主成分分析などの非線形な手法で2次元平面へマッピングされます。この2次元平面へのマップを画像とみなして畳み込みニューラルネットワーク(CNN)により分類を行います。この新手法を、がん遺伝子発現などの実データに適用した結果、既存のランダムフォレスト法などの機械学習よりもはるかに高精度で分類できるとしています。
CNNでは、データから自動的に特徴を導き出すため、追加の特徴抽出手法は必要ありません。また、ゲノミクスデータなどの多くのデータは非画像形式であり、隣り合う変数同士では明確な関係性が見られない場合が多くあります。CNNは入力として画像データを必要とするため、ゲノミクスデータなどを直接は使用できません。非画像データを画像データに変換できれば、CNNを使って効率的に特徴抽出と学習ができ、典型的な機械学習より分類性能が向上することが期待されます。
どうなったか
「遺伝子発現データ」、「テキストデータ」、「母音データ」、などのセットを用いて、既存の手法であるランダムフォレスト法、決定木、アダブースト法などとディープインサイト法を比較しました。遺伝子発現データは、TCGAからの公共データセットです。10種類のがんに対応するRNA-seq遺伝子発現データの6,216のサンプルで、各サンプルには60,483の遺伝子発現値(変数)が付けられています。
結果、RNA-seqデータのテストセットを用いたとき、ランダムフォレスト法では分類精度96%だったのに対し、ディープインサイト法では99%、テキストデータでは、ランダムフォレスト法の分類精度90%に対し、ディープインサイト法は92%、母音データでは、ランダムフォレスト法の分類精度90%に対してディープインサイト法は97%を達成しました。
さらに、5つのデータセットを用いて平均分類精度を計算した結果、ランダムフォレスト法の86%に対し、ディープインサイト法は95%の平均分類精度を記録しました。
まとめ
データの要素を一旦数え上げることで新しい特徴として、位置の情報を消すことは自然言語処理におけるBag-of-Wordsや画像認識におけるベクトル量子化を伴うBag-of-Feature (Bag-of-Visual-Words)のような手法でもみられます。今回の手法は特徴を「数え上げ」て、2次元平面中のそれぞれの位置へ配置するというトリックを使い、特徴量を設計しているとみなせるかもしれません。
この研究成果により、遺伝子データなどさまざまな非画像データを深層学習で扱うことで、背後にある複雑な特徴や構造を抽出できるようになり、医療での診断だけでなく、医学・生命科学など広範囲の応用ができるかもしれません。
参考資料
- 人工知能でゲノミクスを -遺伝子など非画像データを深層学習で扱う方法 - [理化学研究所]
- Sharma et al. DeepInsight: A methodology to transform a non-image data to an image for convolution neural network architecture, 2019 [Scientific Reports]
(蒲生由紀子・森裕紀)