本記事はAIにより自動生成されています。内容に抜け漏れや不正確な記述が含まれる可能性があります。情報源は X投稿・GitHub更新・カレントアウェアネス・ポータルです。
デジタル人文学(DH)関連の新規ツール開発・公開情報を週次でまとめています。
みんなで翻刻くずし字OCRが公開
@yuta1984 氏によって「みんなで翻刻くずし字OCR」が新たに公開されました。くずし字認識AIを用いて、古文書や古典籍のデジタル画像から文字を認識し、翻刻作業を支援するWebベースのツールです。
レイアウト認識機能により行の位置や読み順を調整し、OCR実行で結果を翻刻パネルで確認できます。複数画像に対応し、スマートフォンでも動作するとのことです。
認識処理はONNX Web Runtimeを使用してブラウザ上で完結するため、画像データが外部に送信されることはないとされています。
- みんなで翻刻くずし字OCR
- 技術情報
- 情報源:@yuta1984 の投稿・文学通信の記事
デジタル漱石:全長篇小説TEIタグ付け本文データセットが公開
日比嘉高氏により、夏目漱石の全長篇小説14作品をTEI(Text Encoding Initiative)形式でタグ付けした本文データセットが公開されました。「吾輩は猫である」「坊つちやん」「草枕」「野分」「坑夫」「虞美人草」「三四郎」「それから」「門」「こゝろ」「行人」「彼岸過迄」「道草」「明暗」の14作品が対象となっています。
データはCC BY-SAライセンスで提供され、研究・教育目的での利用が可能です。
- GitHub リポジトリ
- 情報源:文学通信の記事
コメント
…