聞こえた音声を脳活動から再現:ディープラーニングを用いた頭蓋内脳波からの聴覚情報再構成

課題

例えば人の脳活動情報を適切に処理することができれば、睡眠中の夢を可視化することやロボットアームを意図通りに動かすことが可能となります。このようなブレインマシンインターフェース(BMI)と呼ばれる技術は、寝たきり状態の人や身体に障害を持った人の活動を支援するとともに、人間の活動の幅をより広げることを可能にします。同様の技術を用いることで、聴覚障害者や発話が困難な人の支援を目的として人間の脳活動から音声の生成が試みられていますが、これまでのサポートベクターマシン(SVM)や線形回帰モデルなどでは明瞭な声を生成することが難しいという問題がありました。
このような課題に対して米国コロンビア大学のMesgaraniらの研究グループは、近年発展が著しいディープラーニング技術を応用することで、人が音声情報を聞いているときの脳活動情報から、聞いている音声情報を再構成する技術を発表しました。この技術によって、従来までの音声再構成技術よりも、より明瞭な音声信号を生成することができます。

解決方法

人間の脳活動情報から音声情報を生成するためには、脳活動情報から特徴量を抽出する技術と、抽出された特徴量から音声を生成する技術が必要になります。Mesgaraniらの研究グループでは、5名の神経外科患者の脳に対して脳活動である皮質脳波(ECoG)を計測するための電極を設置しました。実験では、各被験者に発話音声を聞かせた際の脳波を計測し、そこから0~50Hz帯域の低周波信号と高ガンマ包絡線と呼ばれる70~150Hz帯域の信号を取り出します。
まず脳波からの特徴量を抽出では、それぞれの周波数帯域の信号を全結合層を持つニューラルネットワーク(FCN)と、層間の結合が各ニューロンの周辺のみに制約された部分結合のみをもつニューラルネットワーク(LCN)に入力します。これにより中間的特徴量を抽出し、そののちにそれらの特徴量を別のFCNに入力することで統合された特徴量を抽出しました。
次に特徴量から音声を生成するために、自己符号化器(オートエンコーダ:AE)を利用しました。AEではボコーダ(vocoder)パラメータと呼ばれる音声信号のスペクトル包絡線、ピッチ、発話状態の有無、帯域特性を先ほどの特徴量抽出モデルの出力の誤差を最小化するようにエンコーダ部を学習します。これによりデコーダ部では脳波から抽出された特徴量を用いて音声を復元することができます。音声を生成する際に、単純な単語レベルでの生成ではなくボコーダパラメータを用いることで発話者の特徴(感情状態や抑揚など)を復元できることが期待されます。

どうなったか

提案手法とその他の手法を用いて、数字に関する音声信号を聞いている際の人間の脳波からその音声情報を再構成しました。比較対象となったその他の手法には、特徴量抽出には同様のディープラーニングモデル用いて音声再構成にボコーダパラメータではなく周波数特性の情報を利用したものと、特徴量抽出に線形回帰モデルを利用したものを用意しました。Mesgaraniらは再構成した音声を、波形特徴、音声の明瞭さや品質の主観的評価、音声の明瞭さに注目した客観的評価であるESTOIの3つの指標で評価しました。
波形特徴に着目した評価では、提案手法が実際の音声波形に最も近い周波数特徴を持つ波形を生成で来ていることが示されました。また主観評価でも、再構成した数字音声に対して聞き取り易さ、音質、男女の識別率においてこれまでの手法よりも高い性能を発揮しました。特に数字の識別性能に関わる聞き取り易さの評価では、線形回帰モデルと周波数特性特徴量による音声再構成モデルでは約45%の識別率にとどまるところ、提案手法では約75%の識別率となりました。また、音声情報に次第にノイズを付与することでその明瞭さを定量的に評価する指標であるESTOI(最小値が0で最高値は1)を用いた評価においても、提案手法がその他すべての手法に対して優位に改善したことが示されました。
それぞれの比較結果についての詳細はこちらをご覧ください。また実際の再構成音声についてはこちらでお聞きいただけます。

まとめ

人が音声信号を聞いた際の脳活動情報から、その音声を再構成する技術について紹介しました。このような脳活動を利用した技術はブレインマシンインターフェースと呼ばれ、音声再構成以外にも応用されています。
今回の手法は音声視聴じの脳活動からその刺激を再構成するものでしたが、今後このような技術が発展することによって、発話が困難な方の脳活動情報を読み取ることで発話を代替するシステムが開発されるかもしれません。また脳活動情報の処理に関してもより手軽な頭皮脳波や脳血流情報での処理が期待されています。

参考資料

(堀井隆斗)