くずし字のAI解読による歴史研究の未来

ヤフーニュースでくずし字をAIで解読する、と言う記事がありました。

古典・古文書の難読「くずし字」、AIが瞬時に解読…精度90%も
https://headlines.yahoo.co.jp/hl?a=20191111-00010000-yom-sctch

ちなみに元記事は読売新聞です。

この記事によると、ぱっと見では読めない「くずし字」を自動的に読み取って現代の文字に変換してくれるAIだそうです。

これによって大量の古文書の解読が一気に進むことが期待されていますが、これだけで古文書の解読が完了するわけではありません。そんなことはこのAIに関わっている人、研究者にとっては当たり前の事ですが、古文書の解読というのは大変です。文字を読めただけでは文書を解読したことにはならないからです。

古文書には文字が書かれていますが、ただ単に文字の羅列を読み取れたとしても、その言葉が何の意味で用いられていたのかまで読み取らないと、古文書を解読したことにはなりません。

例えば、古文書に記載されている日付ですが、何年に書かれたものかまで書いているケースはそう多くはありません。特に手紙であれば当事者同士で分かればいいので、月日だけが書かれていて年が省略されていることも多いです。それが数百年後に古文書として取り扱うときには一体、何年に書かれたものなのかが分からなくなってしまいます。その場合、年を特定するためには、書かれている出来事で確定させたり、人物の肩書きの変遷を追って確定させたり、あるいは花押(サイン)の書き方の違いによって確定させたりします。

肩書きも時期によって異なりますし、同じ名称の肩書きが別の地域でも使われていれば地域と時代からその肩書きを使っている人物を確定させないといけません。

文字も時代によって変遷がありますし、言葉も時代によって意味が変わります。そもそも精度が90%ということではまだまだ一発解読とまではいきませんし、専門家の校正が必要であることはまちがいありません。

文字を読むことと文書を読むことは違う、ということですが、だからといってこのAIがたいしたことない、というつもりはありません。本当に90%の精度で読めるだけでも専門家の解読作業に大きく貢献できるでしょう。

時代が下るにつれて紙の普及と識字率の向上があり、特に江戸時代には文書が日常的に使用されるようになって、現代に伝わる文書の量が爆発的に増えました。

行政機関などの公的な組織だけではなく、民間の商家や豪農などにも大量の古文書が存在し、歴史的に重要だと既に見なされているところ以外にある古文書の解読は当然ながら後回しになってしまいます。そういった、解読待ちの古文書の解読の下準備としてはこのAIの価値は非常に高いと思います。大量の古文書をAIによる圧倒的なスピードで大雑把に読んで、その中で重要そうなものをピックアップできる仕組みまであれば(あるいは検索で簡単に見つけられるのであれば)、あらゆる分野の歴史研究に大きな発展が見込めると思います。

テクノロジーは困難を克服するために存在します。こういった分野でもAIの活躍が期待されるのは楽しみですし、むしろ人的労力を大きくカバー出来る分野にこそ、人工知能の存在価値があるのだと思います。

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA