深層学習と声道シミュレータによる脳活動情報からの音声信号生成システム

課題

日常生活の中でコミュニケーションにおいて、音声による会話の割合は非常に多くなります。人間は声帯とをその周りの筋肉を利用することで声を出していますが、パーキンソン病や脳卒中の影響によって筋肉の制御が困難になり、発話が出来なくなってしまいます。
このような場合には筋肉以外の情報を利用してスピーカーなどから音声信号を構成することで再度会話が可能となりますが、生体信号にはノイズも多くまた音声の再構成は複雑なため実用的なシステムは存在しませんでした。
このような課題に対して、カルフォルニア大学サンフランシスコ校のEdward Chang教授らの研究グループは、ECoGと呼ばれる頭蓋内の電極を利用して脳から直接活動情報を取得することで、声帯シミュレータを通して人の発話を再現する手法を開発しました。この手法は学術界でも権威のある論文誌Natureに採択され、今後の応用が期待されています。

解決方法

人間の脳から活動情報を計測、利用するデバイスは一般的にブレインマシンインターフェース(BMI)と呼ばれ、様々な場面で利用されています。例えば睡眠中の夢を可視化することやロボットアームを意図通りに動かすことが可能となります。また人が音声を聞いた時の脳活動からその音声を復元するシステムの開発も試みられています(詳細はこちらを参照下さい)。
Edward Chang教授らの研究グループは脳活動から発話音声を生成するシステムを開発するために、5人の被験者(てんかん治療中の患者)の脳に皮質脳波を計測するための電極(ECoG:Electrocorticography)を設置し、発話時の脳活動をそれぞれ計測しました。次に、発話音声から声道が如何に動いているかを特徴づける声道パラメータ((喉頭や舌先などの位置情報)を推定するためのモデルを用意し、被験者の発話音声から得られる声道パラメータの情報をECoGによる脳活動の情報から推定するための双方向ロング・ショートタームメモリ(LSTM)を学習しました。さらに脳活動から推定された声道パラメータ情報から実際の音声特性情報(ここではMFCCと呼ばれる音声特徴量)を推定するための双方向LSTMを学習しました。なお、実験被験者とは無関係の音声データを用いることで、発話音声から声道パラメータを推定するための深層自己符号化器(オートエンコーダ:AE)モデルの学習も実施しています。

どうなったか

被験者から記録した脳活動と音声情報から提案システムを学習し、テストデータとして生成された音声データをAmazon Mechanical Turkを用いて収集した評価者に評価させました。評価方法はテスト音声を試聴して、1.その音声が何の単語であるかを識別する、2.文章を書き起こすというものです。単語を識別するテストでは、10、25,50種類の単語セットが用意され、その中から正解を選択するという方式で実施されました。音節数の異なる単語音声が複数提示されその単語を評価者が識別した結果、10個の単語セットから正解を選択するタスクにおいては音節数1の単語で約60%、音節数4の単語では約80%の正答率となりました。
また生成音声から文章を書き起こすテストでは、25種類の単語セットを利用した場合は43%の文章を完璧に書き下すことができました。50種類の単語セットを利用した場合は21%となりましたが、この性能は音声信号生成システムを実世界で利用するには十分なものであると考えられます。
実際に提案システムを用いて生成された音声情報はデモ動画から確認できます(動画のダウンロードリンクはこちら)。またテスト結果の詳細はこちらからご覧になれます。

まとめ

人の脳活動情報を計測し、声道シミュレータを通すことで合成音声を生成するシステムについて紹介しました。このシステムが発展することによって、事故や病気で発話が困難になった人でも、再度音声による会話を楽しむことが可能となります。
このような脳活動を利用したBMI技術は近年の機械学習技術の進展を受け、大きく発展しています。脳情報やその他の生体情報を利用した情報処理デバイスの高機能化が期待されます。

参考資料

(堀井隆斗)