DeepMindがディープラーニングによる古代テキストの復元モデルを発表

課題

古代史は、碑文研究のような学問に依存しています。しかし、これらのテキスト「碑文」は何世紀にもわたって損傷を受けていることが多く、テキストの判読できない部分は専門家によって復元されなければなりません。また、専門家でもこれらの文書の修復は複雑で時間がかかります。

解決方法

DeepMindとオックスフォード大学の研究チームは、ディープニューラルネットワークを用いて失われた文字を回復する古代テキスト回復モデル「PYTHIA」を示しました。モデルを訓練するために、古代ギリシャの碑文の最大のデジタルコーパスであるPHIを機械で実行可能なテキストに変換するための複雑なパイプライン(PHI‐ML)を書きました。

https://arxiv.org/pdf/1910.06262.pdf

まず、PHIにおける人間の注釈は構文的に一貫性がないことが多いため、それを機械で実行可能なテキストに変換するパイプラインを書きました。文字の頻度、アクセント(147文字)、数字、スペース、句読点などすべてのコア文字を含むようにアルファベットを標準化し、2つの追加文字が導入されました。

また、句読点の間隔と大文字小文字を修正し、制限されたアルファベット文字だけを保持するように結果のテキストをフィルタリングしました。本文100文字未満も破棄し、最後に、欠落している文字の数をエピグラフィストが推測したものと一致させ、長さの値を等しい値に変換しました。
こうして得られたデータセット「PHI‐ML」は320万語以上から成ります。

どうなったか

PYTHIAは空白の存在する碑文を与えると、穴埋めの候補を20ほど提示できるようになりました。またPYTHIAの予測は、人間(オックスフォードの博士学生)57.3%に対し、30.1%の文字誤答率を達成しました。

まとめ

機械学習と書誌学の組み合わせは、歴史家の研究の範囲を広げる可能性があります。コードはこちらから。オープンソース化することにより、こうした研究がしたい人々の研究を支援し、より多くの学際的な研究につなげていきたいと考えているようです。

参考資料

(蒲生由紀子)