機械学習による古代文字の解読:「古代セム語」から「線文字B」まで

課題

MIT Newsの記事によると、ロンドンタイムズの文芸編集者だったアンドリュー・ロビンソン氏は、2002年の著作で「考古学的な解読には、論理と直感の統合が必要であることが判明した。それはコンピュータが持っていない(おそらくできない)ものです」と述べています。

世界には、解読されていない古代文字が多くありますが、近年では機械学習の技術を用いた解読の試みが行われています。では、アンドリュー氏の主張する「論理と直感の統合」はコンピュータには困難なのでしょうか?

解決方法

マサチューセッツ工科大学コンピューター科学・人工知能研究所のレジーナ・バルジレイ(Regina Barzilay)准教授らはコンピュータによる古代の文字の解読を継続して研究しています。

2010年7月にスウェーデンで行われた自然言語処理に関する会議ACL2010(※1)では、古代セム語のウガリティックの大部分を数時間で解読した新しいコンピューター・システムに関する論文を発表しました。

論文によると、ロビンソン氏がコンピューターできないと考えていた「直観」を再現するために、研究者たちはいくつかの仮説を立てました。1つは、解読される言語が他の言語と密接に関連していることです。次に、1つの言語のアルファベットを他の言語のアルファベットにマップする体系的な方法があり、相関したシンボルは2つの言語で同じ頻度で発生します。

言語には少なくともいくつかの同族語、またはフランス語とスペイン語のmainとmano、hommeとhombreなどの共通の語根を持つ単語があります。たとえば、「overloading(過負荷)」のような単語には、「over」という接頭辞と「ing」という接尾辞が付いています。他の単語にも、接頭辞「over」または接尾辞「ing」、あるいはその両方が付いていると予想されます。また、別の言語ではフランス語の「surchargeant(過負荷)」も同じ構成になります。

これらの対応付けにおいて研究チームは、ある言語で頻繁に出現するシンボルを別の言語で頻繁に出現するシンボルにマッピングするという、シンボル頻度に基づいたアルファベット順マッピングの仮説を立てました。そして、確率論的モデリングを使用して、これらのマッピングのどれが一貫した接尾辞と接頭辞のセットを識別したかを決定しました。これに基づき、単語レベルでの対応関係を検索し、アルファベット順でのマッピングを洗練します。

また、2019年6月には言語の関係性をマッピングすることで解読のモデルを作った論文を発表しています。ここでは、「編集距離」の概念を使用したMinimum-Cost Flowアルゴリズムを用いて、クレタ島の古代文字である線文字B(Linear B)の解読を試みています(AI-SCHOLAR解説)。

どうなったか

バルジレイ准教授らはウガリット語(※2)を対象として評価を行なっています。2010年発表の試みでは、アルファベットが30文字なのに対し、そのうち29文字がヘブライ語のアルファベットに正しくマッピングされました。ウガリット語の約1/3にヘブライ語が含まれており、そのうちの60%が正しく認識されました。また、2019年に発表された手法では、93.5%の精度で線文字Bを翻訳することができました。

まとめ

これらの手法では、言語によって解読の方法を変えなければならず、解読が完全に人間に取って代わることがないことは、2010年当時の研究者も認めており、現在でも同じ状況です。しかし、これは人間の解読プロセスを助ける強力なツールになり得ます。解読システムで使われている技術を応用すれば、他の何千もの言語の辞書を作るなどさまざまな汎用性が期待されます。

参考資料

※1:Annual Meeting of the Association for Computational Linguistics:計算言語および自然言語処理分野においての世界的な権威を持つ学術会議
※2:地中海東岸にあった古代の都市国家ウガリット(現在のシリア・アラブ共和国南西部の都市ラス・シャムラ)で使用されていた言語。現在は死語。

(蒲生由紀子・森裕紀)