AIが新聞記事を「日本語」から「やさしい日本語」に翻訳:語彙を制限して分かりやすく表現
アルファサード株式会社(所在地:大阪府大阪市、代表取締役:野田 純生)は、むずかしい日本語の表現を変換したり、漢字にふりがなをつけるAI翻訳エンジンを開発し、西日本新聞社 のウェブサイト向けに提供することを発表しました。
課題
ここ数年、インターネットでは、災害が起こった時のたいせつな情報なども発信されるようになりました。しかし、日本語をまなびはじめたばかりの外国人や、知的障がいのある人などの中には読むことができない漢字や、知らないことばが多いと理解ができないという問題がありました。
解決方法
災害が起こった時にできるだけたくさんの外国人に正確な情報をしらせる方法として考えて新しくつくられた「やさしい日本語」というものがあります。
アルファサードの開発したAI翻訳エンジンは、元の日本語をふりがなをつけたり、むずかしい表現を変換したりして「やさしい日本語」に翻訳します。
この翻訳エンジンは、災害情報や最近の時事ニュースなどで使われている日本語フレーズ約25,000語(2018年7月現在)を学習データとして使い翻訳をしています。
どうなったか
西日本新聞のWebサイトが「やさしい日本語」で読めるようになっています。
また、Webサービスとして翻訳エンジンが使えるようになっています。
例として吉川英治の三国志の序文をふりがなをふらない形式で翻訳すると下記のようになりました。
翻訳前
三国志は、いうまでもなく、今から約千八百年前の古典であるが、三国志の中に活躍している登場人物は、現在でも中国大陸の至る所にそのまま居るような気がする。――中国大陸へ行って、そこの雑多な庶民や要人などに接し、特に親しんでみると、三国志の中に出て来る人物の誰かしらときっと似ている。或いは、共通したものを感じる場合がしばしばある。
翻訳語
三国志は、いうまでもなく、今から約千八百年前の古典です。三国志の中に活やくしている登場人は、現在でも中国大陸の行くところ、行くところにそのまま居るような気がします。――中国大陸に行って、そこの雑多な庶民や(各国の)立場がえらい人などに接し、特に親しんでみると、三国志の中に出て来る人の誰かしらときっとにています。または、共通したものを感じることがときどきあります。
太字の部分が変換された部分で、長い文が分割されていたり、むずかしい漢字がひらがなになっていたり、むずかしい表現がかんたんなものに書き換えられて理解がしやすくなっています。
一方、文を分けたことでやや片言の日本語っぽくなってしまっている感じや、”登場人物”をひとかたまりと認識しておらず、”人物”を”人”としてしまっているところもあります(ちなみに、単語の分割と名詞や動詞などの品詞の推定ための形態素解析ソフトMeCabで「登場人物」を形態素解析した結果は「登場」と「人物」に別れていました)。翻訳エンジンのシステムは改良され、フレーズの追加なども継続されていくということなのでこれからの精度向上に期待です。
まとめ
日本語を「やさしい日本語」に変換するAI翻訳エンジンを紹介しました。
「やさしい日本語」は1995年の阪神・淡路大震災の際に、多くの在日外国人が必要な情報の入手がむずかしく、困難な状況に置かれたと言うことから研究が始まったものです。
今回この記事も、やさしい日本語に変換しながら書いてみましたが、特に情報量を落とす必要はありませんでした。こういった表現方法が広がれば、多くの人が理解できるようになるだけでなく、例えば行政サービスであれば、行政側のサポートの負荷低減も期待できます。
手法に関する詳しい説明はありませんでしたがアルファサード社による説明やMeCabによる解析結果を総合すると、基本的には形態素解析と登録した辞書による置き換えがメインになっているようです。しかし、異なる言語間の機械翻訳で近年使用されているニューラルネットワークによる手法も適用可能だと考えられるので、今後より自然な「やさしい日本語」への変換も可能になるでしょう。
在日外国人は2018年の時点で2,630,000人以上で、継続的な増加の傾向があります。日本語も大昔は難しくて一部の人しか読み書きできなかったのが簡単になっていったように、環境の変化によってこうやって少しづつ変わっていくものなのだなと感じました。
追記(2018年1月28日)
アルファサード株式会社代表の野田氏より連絡があり、上記例文に関連した単語について辞書に登録した結果、以下のような「やさしい日本語」が得られたそうです。
三国志は、特に言う必要もなく、今から約千八百年前の古典(古い本)です。三国志の中に活躍している登場する人は、今でも中国大陸の行くところ、行くところにそのまま居るような気がします。——中国大陸に行って、そこの色々な庶民や(各国の)立場がえらい人などに接し、特に親しんでみると、三国志の中に出て来る人の誰かときっとにています。または、共通したものを感じることがときどきあります。
今後の開発にも期待したいですね。
参考資料
- アルファサード、機械学習による「やさしい日本語化エンジン」を開発。西日本新聞社のウェブサイトに試験提供[PR TIMES]
- 災害下の外国人住民に適切な情報を――「やさしい日本語」の可能性 / 佐藤和之 / 社会言語学[SYNODOS -シノドス]
- やさしい日本語の新着ニュース[西日本新聞]
- 伝えるウェブ [やさしい日本語で情報発信]
- 吉川英治 三国志 序[青空文庫]
- 在留外国人263万人、過去最多に 総人口の2%[朝日新聞デジタル]
- 形態素解析システム MeCab [公式HP]
(Marvin編集部)