音声とテキストを双方向に変換する「みえる電話」:NTTドコモが音声認識と音声合成技術を用いたスマホアプリを正式公開

課題

電話による音声通話は非常に便利ですが、耳の聞こえづらい難聴者や高齢者にとっては負担となっています。業務連絡であってもメールやチャットによるやりとりが増えてきましたが、まだまだ音声通話の需要は根強く、音声通話の苦手なユーザとのミスマッチは以前残っています。

一方、音声認識の技術は日進月歩となっており、GoogleやAmazonが発売するスマートスピーカでは音声認識技術が応用され、ユーザの利便性も向上しています。このような音声認識技術は様々な場面で利用可能で、通話が苦手なユーザにも適用できるはずです。

解決方法

NTTドコモはスマホアプリ「みえる電話®」を開発し発表しました。報道発表によると、みえる電話は、音声認識技術を用いてかかってきた電話の音声をテキスト化してユーザに提示し、入力したテキストを音声化して送信するもので、2016年10月からトライアルサービスとして2000人のユーザに利用してもらいフィードバックを受けていました。

新しいサービスでは、自分自身の携帯電話番号での発着信対応、発信可能番号としてフリーダイヤル・ナビダイヤルなどの特番を追加できるなどの機能追加を行なっています。

みえる電話の機能としては、

  • 通話相手の話した内容をリアルタイムで文字表示
  • 利用者が入力した文字情報をリアルタイムで通話相手に音声変換

となっており、音声のテキスト化とテキストの音声化により双方向に音声によるコミュニケーションと文字によるコミュニケーションがシームレスに繋げることができます。

どうなったか

NTTドコモは「みえる電話®」を2019年3月1日(金)より正式提供開始すると発表しました。このアプリは特別な登録をすることなく、Android版とiOS版をダウンロードするだけで使用することができます。アプリの利用料金はかかりませんが別途必要なパケット通信量や通話料はかかるとのことです。ダンロードや利用方法はNTTドコモの資料をご覧ください。

まとめ

音声認識技術は1950年の電子計算機の発明以来研究開発がされてきた伝統的な学術研究分野でしたが、性能が実用的となってきたのは近年のことです。20年ほど前であれば、ユーザ個人の音声を用意されたテキストを読んで登録しなければ使用に耐えず、それでも認識精度は不十分であることが多かったですが、この10年ほどは深層学習技術を段階的に取り入れ、ここ数年は最終的に完全に置き換えることで性能が十分な精度に達しています。

NTTドコモはこれまでも音声認識や音声合成の技術をスマホアプリなどで使用するためのAPIを提供するなど、音声処理に関する人工知能の研究開発と公開を続けてきました。音声認識技術などは、企業のカスタマーサービスのコスト削減として最近度々話題となる対話ボットとしての活用ではなく、人と人のつながりのために技術が活用されている一例です。

同社では誰もがスマホを活用できることを目標に障碍をもつ社員もサービスの企画・提供に携わるとのことです。スマホの利用のみならず、技術は全ての人の社会参加のハードル(障碍)を下げることが期待されています。既存技術を活用することでさらに多くの人たちのハードルが下がることが期待されます。

参考資料

(森裕紀)