Googleが音声を別の言語の音声に直接変換するモデルを発表:音声認識・機械翻訳・音声生成が一体となった音声翻訳システムを実現

課題

翻訳システムは、文法構造の解析や単語の置き換えなど様々なアルゴリズムを組み合わせた総合的なシステムでしたが、近年のニューラル機械翻訳ではその処理を全てニューラルネットワークに担わせる形で対訳コーパス(データセット)を再現するような学習を行うようになってきました。しかし、音声言語の翻訳においては音声認識(文字起こし)→機械翻訳→音声生成(音声合成)というそれぞれ独立のモジュールを組み合わせることで実現してきました。

しかし、それぞれの処理が分割されることにより計算負荷が重くなったり、直接聞いていれば分かるはずの音声ならではの機微は失われ、翻訳精度を下げているかもしれません。

解決方法

2019年5月15日にGoogleが、英語音声からスペイン語音声、またその逆の音声翻訳を直接行うニューラルネットワークモデルを発表しました。Googleによると、どちらの言語の中間的なテキスト表現に頼らない”End-to-End”音声機械翻訳モデルは初めてということです。

このモデルの入力は、翻訳元の音声情報の対数メルスペクトラム(短時間周波数解析した信号に前処理を施した80チャンネルの時系列信号)と話者の音声の基準となる信号で、出力は翻訳語の周波数時系列です。周波数空間での信号を時系列の音声情報に変換するとスピーカーから音声を聞くことができます。また、このモデルは最終的な音声だけでなく、翻訳元の言語の音素と翻訳先の言語の音素の表現(Phoneme transcription)を出力するマルチタスクネットワークとすることで、制約をかけて精度を高めています。

モデルでは、まず、翻訳したい音声信号を時間的な前方向と後ろ方向から時系列処理する双方向LSTM(ロングショートタームメモリ)を8層積み重ねたネットワークに入力されます。そこで得られた各時刻のLSTMの内部表現が、話者の音声の参照信号と組み合わされて、どの信号に注目すべきかを計算する注意(Attention)を計算するために使用されます。最終的に、その注意信号に基づいて双方向LSTMの結果から情報を抽出して周波数信号へのデコーダへの入力として、音声信号を合成します。

どうなったか

英語とスペイン語間の結果はこのアドレスで聞くことができます。翻訳結果はテキスト同士の翻訳に比べれば劣るものの、まずますの成果だったと述べています。また、基準となる話者の信号を変更することで声色を変更することも実現しています。ただし、筆者が聞いたところ、音声変換に関してはまだまだであるとも思います。

まとめ

異なる言語の音声同士を直接変換するEnd-to-End音声翻訳モデルを紹介しました。近年の人工知能は、機能を細かく設定してそれぞれを独立に構築し、最終的に組み合わせる形から、なるべく全ての処理を最適化に任せて、入力と出力の「距離」が遠くなる方向に研究開発が進んでいます。性能がよくなる代わりに、その理由がわかりづらくなり技術開発の難易度も上がっている印象です。

さらに入力と出力を遠くしたEnd-to-Endシステムとしてのロボットも今後現れてくるのではないでしょうか?

参考資料

(森裕紀)