Googleが運動性言語障害者の音声コミュニケーションを改善する手法「Parrotron」を発表

課題

脳卒中発作の後、「話すことができない」「ろれつが回らない」など、言語障害が現れることがあります。脳卒中による言語障害の代表的なものである失語症、運動障害性構音障害などを抱える言語障害者にとっては、デジタルアシスタントやスマートスピーカーなど、音声認識系のデバイスを活用することは困難でした。それは、デバイスを作るエンジニアたちの課題でもあります。そこでGoogleは、言語障害などで非定型の発話パターンを使用しているユーザの音声を、流暢な合成音声に変換するアプローチを論文で提案しました。

解決方法

Googleは、唇の動きなど視覚的なものではなく、運動性言語障害などを持つ話者の音声信号のみを入力として、聞き取りやすい音声に変換するシステム「Parrotron」を提案しました。Parrotronは、非定型の発声パターンを直接流暢な合成音声に変換するように訓練された単一のディープニューラルネットワークです。このシステムは、一時的にテキストを生成する中間ステップがないエンドツーエンドのシステムであるため、音声認識を行う必要がありません。また、唇の動きなどの視覚的な情報は必要ないため、言語障害のある人でも音声アシスタントに対して、ワードエラー率の大幅軽減を可能にします。

Parrotronは入出力音声をペアにした並列コーパスを使用して、2段階でトレーニングされます。最初に、標準的な音声データを使ってspeech-to-speech変換モデルを構築します。このようなモデルは、入力と同じ時系列データを出力することを学習する中で、その再現に必要な潜在的な表現を獲得することができます。続いて、モデルのパラメータを発声に困難を抱える人の非定型スピーチパターン用に調整します。

ニューラルネットの学習段階における課題は教師付き学習に必要な訓練データの収集です。この訓練データは、多くの話者によって話された非定型な発声を、単一の話者による定型的な音声に対応させたデータです。1人の話者が、何時間ものデータを発声するのは現実的ではないので、ここではTTSシステム(Text-to-Speech Synthesis 音声合成による文章読み上げシステム)でテキストから自動的に発声させたデータを使用します。これにより、既存の匿名化された音声合成用のコーパスを転用する事が可能になります。

どうなったか

Google blogの記事から、実際に入力としている音声とその変換結果を聞くことができます。

このアーキテクチャでは、非定型の発話パターンを持つ人々たち、たとえばALS(筋萎縮性側索硬化症)、聴覚障害、筋ジストロフィー(骨格筋の壊死・再生を主病変とする遺伝性筋疾患の総称)などへの有効性も実証しました。若い頃から重度聴覚障害のあるロシア語ベースの非ネイティブ英語話者に対して、音声認識のエラー率を89%から32%に減少させました。

まとめ

Parrotronは非定型音声のユーザが他の人や音声インターフェースと話したり理解したりすることを容易にし、また、エンドツーエンドの音声変換アプローチはユーザーの意図する音声を再現する可能性が高いとGoogle AI Blogでは述べられています。今後は、他の言語障害に対しても試験を行い、他の手法でも試してみる予定としています。追加のオーディオサンプルはgithubで見ることができます。Googleでは、この進行中の研究に参加したい協力者を、こちらのフォームから募集しています。

参考資料

(蒲生由紀子)