くずし字認識のKaggleコンペ開催:人文系データ対象は今回が初

課題

Marvinでは以前日本のくずし字について取り上げましたが、くずし字を正確に読めるのは全国で数千人程度しかいないと推定されており、この人数で膨大な資料を翻刻するには限界があります。そこで、ここ数十年において、人手と機械学習を組み合わせた研究が進められてきました。

また、人文学の研究の可視化を機関として進める必要があると考えて動いてきた人たちもいます。

解決方法

人文系の研究と機械学習の組み合わせに関してはまだまだ発展途上なところもありますが、技術は進化し続けています。その流れとして、2019年7月から10月にかけ、Kaggleで「くずし字認識:千年に及ぶ日本の文字文化への扉を開く(Kuzushiji Character Recognition: Opening the Door to A Thousand Years of Japanese Literate Culture)」と題する画像解析のコンペが開催されます。

https://www.kaggle.com/anokas/kuzushiji

コンペは、情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター国立情報学研究所人間文化研究機構 国文学研究資料館が主催します。

どうなったか

このコンペでは、「くずし字データセット」がコンペ用に改良して提供されます。参加者は、3ヵ月のコンペ期間内に、与えられた画像内に書かれたくずし字をすべて認識して出力する「くずし字OCRアルゴリズム」を開発します。そして上位に入賞したアルゴリズムは世界中で自由に使えるよう、コンペ後に公開する予定だそうです。

まとめ

Kaggleにおいて、人文系データを対象とするコンペは今回が初めてです。コンペを通して画期的なくずし字認識アルゴリズムが開発されれば、AIによる翻刻支援や、AI文字認識を活用した全文検索など、新技術の研究開発が活発化することが期待でき、他の言語に対しても良い事例となるでしょう。

人文学研究において、成果やプロセスの可視化ができていないことが、学問としての無理解を生む可能性もあるが、可視化のやり方はまだ模索の最中という現状があるので、今回のコンペは人文学研究にとっても挑戦的な取り組みかもしれません。

興味がある方は、ぜひコンペに参加してみたらいかがでしょうか。

参考資料

(蒲生由紀子)