人の学習方法に学ぶAI:2段階転移学習によるびまん性肺疾患の識別

課題

ディープラーニング技術の発展により、コンピュータを用いて様々な情報処理を行うことがが可能となりました。特に画像処理の分野では、一般物体識別のみならず医用画像から疾患の識別も可能になっています。一方でこのようなディープラーニングのモデルを学習させるには非常に多くの学習データが必要であることも知られています。しかし医用画像による疾患推定の場面では、症例画像が少ないことやデータを集めることが難しいという問題から十分な識別制度が得られないという課題がありました。
電気通信大学大学院情報理工学研究科の庄野逸教授の研究グループでは、びまん性肺疾患の認識において少ない学習データからでも精度よく識別するために2段階転移学習という手法を開発しました。

解決方法

医用画像による疾患推定の課題では、畳み込みニューラルネットワーク(CNN)と呼ばれるニューラルネットワークを用いて病巣の識別を行うことが一般的です。このCNNは人間の視覚野の構造を参考に構築されたネットワークモデルです。庄野教授のグループは人間の医師においても全くの事前知識や経験が無い状態から医用画像を利用した診断を行うのではなく、幼少期から少しずつ大量の自然画像や模様画像、そして医用画像を学習する過程に着目し、CNNにおいても医用画像のみならず自然画像や模様画像も学習する2段階転移学習という手法を提案しています。
具体的にはCNNの学習初期においては大量にデータを用意することのできるImageNetと呼ばれる自然画像を用いてCNNの学習を行い、ある程度一般物体に対する特徴量の学習を行います。ImageNetには1000種類の物体に対して平均1000枚の画像が含まれており、非常に多くのデータが学習に利用可能です。次にCUReT(Columbia-Utrecht Reflectance and Texture)と呼ばれる模様(テクスチャ)画像を利用した学習を行います。このCUReTは61種類の素材に対しそれぞれ205枚の画像データが含まれています。最後に大阪大学から提供されたびまん性肺疾患患者117名分のCT画像データを学習します。こちらのデータセットには正常な状態を含めて7つの疾患すべてで約10000枚の疾患画像が含まれています。このように1つのニューラルネットワークモデルにおいて異なるタスク(ここでは画像識別)を行わせるための学習手法を転移学習と呼びます。庄野教授達の提案手法では、通常であれば自然画像学習からびまん性肺疾患のCT画像学習の1度のみ行う転移学習を、間に模様画像の学習も含めた2段階で行うことが特徴となります。

どうなったか

目的となるびまん性肺疾患の疾患識別を異なる転移学習条件において比較しました。その結果、CNNの学習をびまん性肺疾患画像のみで行った条件、また最初に自然画像の学習から疾患画像の学習条件や最初に模様画像を学習しそのあとに疾患画像を学習した1段階転移が欧州条件と比べて2段階転移学習を行ったCNNでは疾患の識別に対する誤識別率が1%以上改善しました。また各識別精度に関しても「正常」を除くすべての疾患において精度が向上しました。この結果より対象となる医用画像が少ない状況においても自然画像や模様画像の学習を経ることによって識別精度を改善できることが明らかになりました。

まとめ

1つのニューラルネットワークにおいて異なるタスク(画像識別)を解決するための学習手法である転移学習を、自然画像から模様画像、そして模様画像からびまん性肺疾患画像の2段階に分けて行うことで少ない医用画像からでも高精度に疾患を識別することのできる手法を紹介しました。以前紹介したこちらの記事では大量の疾患画像を学習させることで精度の高い疾患推定システムを構築していました。一方で症例そのものが珍しく疾患画像が少ない場合や医用画像を収集ことに労力がかかる場合(医療機器を長時間利用する場合など)では、今回の手法が有用であると考えられます。お手持ちのデータの特性や課題の特性に応じた解決方法を選択することが重要になります。

参考資料