皮膚がんの診断でAIが皮膚科医を上回る精度に:ドイツの研究チームが発表

課題

悪性黒色腫は皮膚がんのひとつで、黒色腫またはメラノーマと呼ばれることもあります。メラノサイトと呼ばれる色素をつくる細胞またはほくろの細胞(母斑細胞)が悪性化し、悪性黒色腫になる一歩手前の状態が存在しますが、その状態は悪性黒色腫前駆症と呼ばれています。皮膚がんは前駆症の状態、もしくは早期の悪性黒色腫の状態で発見することが重要です。皮膚は身体の表面にあるので、日頃から注意すれば自分か家族により早期発見することが可能ですが、普通のほくろと悪性黒色腫を区別することは非常に難しいです。訓練を積んだ皮膚科医でさえも、メラノーマの診断精度が80%を超えることはめったにありませんでした。

解決方法

ドイツがん研究センターなどで構成される研究チームは、ドイツの12の大学病院の皮膚科専門医157人と、AIによるメラノーマ(悪性黒色腫)の診断精度比較を行いました。12378枚のダーモスコピー(皮膚の腫瘍やホクロなどの色素病変をみる際に特殊な使われる特殊な拡大鏡)画像から畳み込みニューラルネットワーク(CNN)を利用して構築したアルゴリズムの有効性を検証しました。

アルゴリズムを開発するためのメラノーマおよび異型母斑のダーモスコピック画像は、International Skin Imaging Collaboration(ISIC)画像アーカイブから入手しました。この画像アーカイブには、2018年10月17日では、合計2169の黒色腫および18,566の異型母斑が含まれています。

CNNのパフォーマンスと157人の皮膚科医のパフォーマンスを比較するために、メラノーマおよび異型母斑の100枚の画像の試験セットを作成しました。テストセットの作成における偏りを避けるために、ISICアーカイブ内のすべての異型母斑から80、黒色腫から20のテスト画像を選択するランダムジェネレータを実装しました。
ディープニューラルネットワークによる皮膚科医のパフォーマンスは、感度、特異度、および皮膚科医の動作特性の観点から測定されました。

どうなったか

皮膚科医136名による診断が平均感度(がんのある者を「陽性」と正しく判定する割合)74.1%、平均特異度(がんのない者を「陰性」と正しく判定する場合)60%に対して、AIはそれぞれ86.5%、87.5%という高い診断精度を示しました。

ISICから得られた画像のみを使ってトレーニングされたCNNは、メラノーマ画像の分類において、すべてのカテゴリー(若年から主治医まで)の皮膚科医より優れていました。 調査結果は今後も慎重に検討が必要であるが、臨床診療において人工知能アルゴリズムが皮膚科医の黒色腫検出を助けることを示唆している、とドイツの研究チームは述べています。

まとめ

アンケートの様式が臨床現場に比べて皮膚科医のパフォーマンスに影響を及ぼしたかどうかが不明であることや、また、患者との対面によって画像のみよりわかることもあるなど、AIと皮膚科医を比較する今回の実験には限界がありました。しかし、機械学習で得られたデータも皮膚科医の診断材料に含めるなど、工夫の余地もあることから、これから臨床現場を変える手がかりとなり得る実験だったのではないかと考えられます。

参考資料

(蒲生由紀子・森裕紀)