会話の特徴からうつ病患者を見分けるAI技術:系列モデルによる言語と音声のパターン解析でうつ病診断

課題

様々な外的、内的要因によって発症するうつ病は、個人の生活に影響を与えるとともに社会的にも大きな問題になっています。現在の医師は、患者への質問に対する応答や日々の行動の変化を読み取ることでうつ病の診断を行っています。うつ病の傾向や症状を早期に発見することで患者や社会への影響を少なくすることが期待されていますが、その診断には患者の様々な応答パターンを的確に判断する必要があり、高度な技術が要求されます。人工知能技術を利用することで定型質問に対する患者の応答からうつ病を診断するシステムも開発されていますが、患者の個性が応答に反映されるため言語的内容のみに着目した手法では推定精度が低いことが問題でした。
このような課題に対してマサチューセッツ工科大学 Computer Science & Artificial Intelligence研究室の発話言語処理グループの研究チームは、ディープラーニングの技術を用いて質問応答の言語的特徴と音声的特徴を解析することによって高精度にうつ病診断を行う人工知能システムを開発しています。

解決方法

これまでのうつ病診断システムでは、患者に対する特定の質問(例えばうつ病の既往歴が合に関する質問など)への応答内容を処理することで患者がうつ病であるかないかを判断していました。しかしこのような手法では期待される応答パターンしか処理できません。そこで研究チームは、より自然な日常会話での応答パターンからうつ病を診断するために、応答パターンの言語的特徴に加えて音声的特徴を利用した解析手法を提案しました。ここで言語的特徴とは、応答発話の文書的内容(はい、いいえ等の返答や会話の内容等)をディープラーニング技術を用いた言語処理手法の一種であるDoc2Vecによって抽出した特徴ベクトルを指します。また音声的特徴とは応答発話の周波数特性や強度等、音に関する特徴量を指します。今回の提案モデルでは言語的特徴量は100次元の特徴ベクトル、音声的特徴量は279次元の特徴ベクトルとなっています。
患者の応答から抽出された言語的特徴と音声的特徴はそれぞれが異なるロング・ショートタームメモリ(LSTM)によって処理されます。LSTMは系列情報を扱うことができる再帰型ニューラルネットワークの一種であり、質問に対する患者の応答の時系列的な変化を処理することでうつ病診断を行います。最終的にはそれぞれ異なるLSTMで処理された言語的特徴と音声的特徴の情報がマルチモーダル情報として結合され、患者がうつ病かそうでないかの2クラス分類を行うためのニューラルネットワークや、うつ病の程度を5段階で識別するためのニューラルネットワークへの入力情報として利用されます。より詳細なネットワーク構造や学習方法に関してはこちらをご参照ください。

どうなったか

LSTMを用いた提案手法と比較のために用意した2つのロジスティック回帰モデル(一つはすべての質問応答を平等に扱うモデル。もう一つは識別に有用な質問応答に重み付けを行うモデル。)、そして先行研究で提案されている手法を、DAICと呼ばれるデータセットを用いてうつ病の診断精度を比較しました。DAICデータセットにはPHQ-8と呼ばれる質問を用いて診断されたうつ病患者28名を含む142名の質問応答のデータが含まれています。
実際に診断結果を比較したところ、提案手法はうつ病かそうでないかの2クラス分類の課題において、精度が71%、再現率が83%、F値が77%となり、再現率とF値が既存手法を越えました(精度、再現率、F値に関してはこちらを参照)。またうつ病度の程度を識別する多クラス分類の課題においてもロジスティック回帰モデルや一部の既存手法よりも予測誤差が減少しました。質問応答の言語的特徴と音声的特徴のマルチモーダル情報とその系列情報に注目することで診断性能が向上しました。

まとめ

うつ病の疑いがある患者への質問に対する応答パターンを利用することでうつ病診断を行う技術について紹介しました。提案手法では応答の言語的特徴と音声的特徴に注目し、その系列情報を処理するためにLSTMを用いることで従来手法よりも高精度にうつ病の診断を行うことができました。また特定の質問のみに注目することなく診断可能なため、日常会話などの情報が利用できる可能性があります。
これまでにも人工知能技術を利用することで、CT画像やX線画像などの医用画像を基に診断補助を行うシステムが複数提案されています(例えばこちらこちら)。しかし精神疾患や発達障害等は医用画像のみでは捉えることが困難です。今後は今回紹介したシステムのように発話応答や行動などの複数の情報から診断補助を行うシステムが注目されると考えられます。

参考資料

(堀井隆斗)