ディープラーニング技術による高速・高品質な音声合成手法:国立情報学研究所がニューラル・ソースフィルター・モデルを提案

課題

日常生活の中で、電話やWeb会議システムを用いて音声情報を遠隔地へ届ける機会は多々あります。このような場面では、ボコーダ法と呼ばれる音声波形をパラメータとして伝送・復元する手法が利用されていますが、合成音声は人間の音声より品質が劣るのが一般的です。ディープラーニング技術の発展に伴い、2016年に英国DeepMindがWaveNetと呼ばれる音声合成手法を発表し、人間の肉声に近い音声波形を生成することができるようになりましたが、WaveNetはそのモデル構造が複雑で学習に大量のデータが必要であることや、パラメータ調整が難しいという問題がありました。
このような課題に対して、国立情報学研究所のシン ワン特任研究員らの研究グループは、高品質な音声を高速に合成する手法であるニューラル・ソースフィルター・モデル(NSF)を開発、発表しました。これにより高品質な音声生成のみならず、ネットワークの学習を安定化させることが可能となりました。

解決方法

音声合成だけでなく音声分析に利用されるソースフィルター・ボコーダ法と呼ばれる手法は、音声生成を音源情報と線形音響フィルタで近似する準物理モデルです。シン ワン特任研究員らは、このソースフィルター・ボコーダ法にディープラーニング技術を利用することで、人間の肉声に近い高品質な音声波形を生成するNSFを開発しました。
具体的には、WaveNetに採用されていた自己回帰(autoregressive:AR)構造を排し、AR構造を含まないニューラルネットワークモデルを提案しています。これにより約100倍の速さで音声生成が可能になります。

どうなったか

提案されたNSFで音声波形を生成すための学習データ量は、約1時間程度の音声で十分になりました。またモデル構造がシンプルになったために、パラメータ調整も容易になっています。
NSFはそのソースコードがGitHub上に公開されており、誰でも学習させることが可能です(こちらからアクセスできます)。また学習済みモデルと実際の音声サンプル(1) (2)も公開されています(NSFが今回の提案モデルで生成された音声サンプルになります)。

まとめ

ソースフィルター・ボコーダ法にニューラルネットワークを採用することで、肉声に近い高品質な音声波形生成を可能にしたニューラル・ソースフィルター・モデルについて紹介しました。NSFはDeepMindの持つWaveNetに関連する特許技術とは異なる手法のため、NSFのオープンソースモデルを活用することで、音声合成の新たな技術開発が進むことが期待されています。
人とやり取りをする人工知能システムとしてチャットボットが数多く開発されていますが、今後はこのような音声合成技術を利用した対話型システムの開発が加速すると考えられます。より違和感の少ない音声やジェスチャー生成を可能にするシステムに注目が集まるでしょう。

参考資料

(堀井隆斗)