「くずし字」をAIで解読する研究がますます盛んに:機械学習と人文系の分野横断的研究も

課題
近年、大規模災害による資料アーカイブの重要性の見直しや専門家の減少、資料の経年劣化による文化継承の危機的状況などから、歴史的資料のデジタルデータとしての保存が求められています。アーカイブ化が進むとともに、文化財は自宅から簡単にアクセスできる文化的なコンテンツとなっていますが、現在では古文書に記されている「くずし字」を解読できる人材は少なくなっています。
学校教育や生涯学習の現場、海外の日本文化の研究の場でも、文字の翻刻(史料に書かれた文章を活字に起こしてデータとして使用しやすくする作業のこと)に挑戦する研究者が増えてきている一方、AIによってくずし字の解読を進める発想や試みが活発となり、「くずし字検索サービス」「くずし字文字データベース」も開発されていました。AIからヒントを得ながら読解ができ、実際の翻刻の現場で使用できるシステムがあれば有用だと考えられますが、これまで存在していませんでした。
解決方法
「くずし字」をAIが画像から解読する「くずし字解読支援・指導システム」を、立命館大学文学部の赤間亮教授らのチームが凸版印刷と共同開発しました。システムは、立命館大が所蔵する古文書や浮世絵など約76万件のデータベースと、凸版印刷が保有する崩し字の約100万件のデータを基に開発されました。パソコンの画面に映した文書で文字を1文字選択すると、崩し字データの中から形が似ているものをAIが抽出し、崩していない文字に変換すし、複数の候補があれば合致する可能性が高い順に表示します。
凸版印刷は、2017年5月からくずし字ビューア「ふみのは」を用いた公開用データ制作サービスの提供をはじめていました。「ふみのは」は、文字画像を位置情報とともに切り出した字形データベースを構築し、この字形データベースから類似字形検索により翻刻対象古典籍の文字の文字コードを特定するシステムとなっています。

従来の原本画像と翻刻文の画像を重ねて表示する方法とは異なり、翻刻文をテキストとして扱えるので、全文検索やインターネット上の横断検索にも対応しています。「ふみのは」の開発によって、くずし字で書かれた歴史的資料がテキストデータとして容易に扱えるようになりました。今回の立命館大学との共同研究は、くずし字判読技術の習得補助や翻刻作業効率化の研究への活用の一環です。
どうなったか
立命館大が所蔵する古文書や浮世絵対象の解読しかできないため、現在は学内での教育の利用のみとなっています。また、1文字ずつしか調べられませんが、今後は、読み解けなかった文字は入力してシステムに学習させ、さらに精度を上げ、学外を含むさまざまな教育現場での活用を目指すようです。また、凸版印刷によると、この取り組みを起点に、全国各地に眠る貴重な歴史的資料の観光資源化や訪日外国人周遊促進など、地方創生に向けた観光地域づくりに取り組んでいきたいとのことです。
まとめ
従来は字体を暗記し、辞書を片手に解読するものであった「くずし字」ですが、昨今は「くずし字」をテーマにしたアルゴリズムコンテストが開かれ、また、人文学系の研究者とKaggle Competition Grandmasterが共著で日本古典学習のための深層学習の論文を書くなど、研究が活発になってきています。今後もそうした分野横断的研究の発展が進むでしょう。
参考資料
- 凸版印刷株式会社との共同研究による「くずし字解読支援・指導システム」が紹介されました [立命館大学アート・リサーチセンター]
- みんなで翻刻 [Japaaan]
- 古文書や浮世絵などに書かれた「崩し字」立命館大学がAIで解読 [livedoor news]
- 人工知能で「くずし字」の文字認識の現状調査 [ねほり.com]
- KMNISTデータセット(機械学習用くずし字データセット) [人文学オープンデータ共同利用センター]
- 「崩し字」をAIが画像解読 立命館大教授ら 全国初の高精度システム [SankeiBiz]
- 凸版印刷、くずし字翻刻を手軽に公開 ~OCR技術を応用し、誰でも容易にくずし字で書かれた歴史的資料にアクセスできるWebビューア「ふみのは」を開発、多言語対応により外国人への日本文化紹介にも活用~ [TOPPAN]
- 第23回 PRMUアルゴリズムコンテスト くずし字認識チャレンジ2019
(蒲生由紀子)