人工知能と医師の着眼点は違うのか?:理研が前立腺ガンのMRI画像診断の判断根拠を比較して解明

課題

機械学習に基づく人工知能は、人間の判断とは異なる経路で判断を行っているのではないかと考えられています。精度の高い判断が行われたとしても、どのような根拠でその判断が行われたかを知ることは、その人工知能を運用する人間にとって重要な情報です。特に医療現場では、人工知能の判断を鵜呑みにすることは、医師の責任問題にもなるためできません。

医療現場で用いる人工知能でも何らかの形で「根拠」を示すことにより、異常な判断を排除したり、医師の判断を補強したりできる可能性があります。そこで、どのように根拠を示すのかは課題となっています。

解決方法

近年、ニューラルネットワークの判断の根拠の一部を可視化するための手法が開発されいます。特に出力を大きく変化させるような入力を求めるという意味で、出力を入力で微分した際の値を活用するGrad-CAMや SmoothGradなどの手法が注目されています。

このたび、理研の研究者がGrad-CAM(Gradient-weighted Class Activation Mapping)と呼ばれる画像認識の判断根拠を可視化する技術を使用して、ニューラルネットワークがMRI(核磁気共鳴)画像の何を見てガンと判断したのかをマップとして表現しました。さらに、放射線科医と病理医が実際に診断を行い、その際に着目した箇所を12のパーツの中から選んでもらいます。この際の着目した場所を比較しました。この成果は、Biomolecules誌で発表されています。

この手法は、まず、MRIによりガンである前立腺とガンではない前立腺を撮影して教師データを作成します。ここで得られた307枚の前立腺MRI画像を用いて畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を訓練し、それぞれの画像に関してGrad-CAMにより判断に用いた場所を可視化します。Grad-CAMは、画像を入力としてガンかどうかを出力とするモデルに関して、その判断を大きく損わせるような変化がどのようなものとなるかを、畳み込み層の最後の層における変数で出力を微分するような計算により求めます。この値を画像に重ね合わせるマップとして表示し、値の高い部分が判断に重要であったと解釈します。

医師による診断では、前立腺ガンの診断基準であるPI-RADS(Prostate Imaging Reporting & Data System)に基づいた判断を行いました。

https://www.mdpi.com/2218-273X/9/11/673
https://www.mdpi.com/2218-273X/9/11/673
https://www.mdpi.com/2218-273X/9/11/673

どうなったか

畳み込みニューラルネットワークを用いた認識システムの性能は、AUC(Area Under Curve)が0.90(95%信頼区間が0.87-0.94)となり、高い性能を示しました。このシステムと医師との判断根拠となる場所を比較したところ、判断根拠が重なった割合は放射線科医で70.5%、病理医で72.1%となりました。

さらに詳しく調べたところ、ニューラルネットワークによる判断はガンの位置の特徴だけでなく周囲の組織も含めた微小特徴などを根拠としていました。これによりMRI画像にはほとんどガンが写っていない場合にも、適切な判断ができていることもありました。

まとめ

医療現場では、医師の責任の基に診断を行うため機械による「診断」には根拠が常に問われます。具体的な計測数値から、これまでの医学研究に基づく閾値で判断を行う手順であれば、問題とはなりませんが、画像による診断ではこのような単純な理解は意味を持ちません。

ニューラルネットの中では愚直な計算が繰り返されているだけですが、細かく数値を見ていくだけでは、どのような思考が行われているかを想像することが難しくなっています。Grad-CAMによる判断に重要だった領域の抽出も診断根拠を表示する方法ですが、一つの側面を表したものと言えます。

今後も、判断根拠を可視化する技術が進歩していくと考えられますが、その度に医学研究や医師の経験と照合され、さらに人工知能の開発も改善されていくでしょう。

参考資料

(森裕紀)