本記事はAIにより自動生成されています。内容に抜け漏れや不正確な記述が含まれる可能性があります。情報源は X投稿・GitHub更新・カレントアウェアネス・ポータルです。

デジタル人文学(DH)関連の新規ツール開発・公開情報を週次でまとめています。

みんなで翻刻くずし字OCRが公開

@yuta1984 氏によって「みんなで翻刻くずし字OCR」が新たに公開されました。くずし字認識AIを用いて、古文書や古典籍のデジタル画像から文字を認識し、翻刻作業を支援するWebベースのツールです。

レイアウト認識機能により行の位置や読み順を調整し、OCR実行で結果を翻刻パネルで確認できます。複数画像に対応し、スマートフォンでも動作するとのことです。

認識処理はONNX Web Runtimeを使用してブラウザ上で完結するため、画像データが外部に送信されることはないとされています。

デジタル漱石:全長篇小説TEIタグ付け本文データセットが公開

日比嘉高氏により、夏目漱石の全長篇小説14作品をTEI(Text Encoding Initiative)形式でタグ付けした本文データセットが公開されました。「吾輩は猫である」「坊つちやん」「草枕」「野分」「坑夫」「虞美人草」「三四郎」「それから」「門」「こゝろ」「行人」「彼岸過迄」「道草」「明暗」の14作品が対象となっています。

データはCC BY-SAライセンスで提供され、研究・教育目的での利用が可能です。