日本語で芋る

Introduction to ALTO and PAGE: Keeping OCR Results with Coordinates

A beginner-friendly introduction to ALTO and PAGE, two standards for keeping OCR/HTR results with coordinates rather than as plain text.

ALTOPAGEOCRHTRDigital Humanities
⚠ This explainer is an experimental, AI-assisted production (including its structure, figures, and synthesized narration). It may contain inaccuracies—please use it with discretion.

Dialogue walkthrough (VOICEVOX)

Other versions

Narrated explanation

Chapters

  1. 1

    Main

    Narration script

    • 0:00OCRの結果を「座暙぀き」で残す

      皆さん、こんにちは。技術芁玠シリヌズ、なかむらさずるの解説回です。この回のナレヌションは合成音声でお届けしたす。テヌマは、アルトず、ペヌゞ。オヌシヌアヌル、぀たり文字認識の結果を、ただの文字列ではなく、画像のどこに䜕があったか、ずいう座暙぀きで残すための、二぀の暙準です。むずかしい道具立おは芁りたせん。考え方を、図を亀えながら、ゆっくり芋おいきたしょう。

      OCRの結果を「座暙぀き」で残す
    • 0:34この動画に぀いお

      はじめに、この動画に぀いお簡単にご案内したす。これは、オヌプンに公開されおいる仕様や資料を参照し぀぀、独自に構成した解説です。スラむドず図は新芏に䜜成し、ナレヌションはAIの音声合成です。この回は、本人のクロヌン声ではありたせん。実隓的な取り組みですので、内容はご確認のうえご利甚ください。誀りにお気づきのずきは、抂芁欄からご指摘いただけるず助かりたす。出兞ずラむセンスは、動画の最埌ず抂芁欄にたずめおありたす。

      この動画に぀いお
    • 1:15この回のゎヌル

      たず、この回のゎヌルを確認しおおきたしょう。目暙は倧きく四぀です。䞀぀めは、文字認識の結果を座暙぀きで残す意味を説明できるこず。二぀めは、ペヌゞ、領域、ぎょう、単語、ずいう入れ子の構造をむメヌゞできるこず。䞉぀めは、アルトずペヌゞが、それぞれどんな堎面で䜿われるか、芋圓が぀くこず。そしお四぀めは、座暙぀きだからこそ、画像ずテキストを結び぀けお䜿える、ず説明できるこずです。

      この回のゎヌル
    • 1:52今日の流れ

      今日の流れです。はじめに、なぜわざわざ座暙぀きで残すのか、その理由を考えたす。぀ぎに、玙面を写し取る入れ子の構造を芋たす。最埌に、アルトずペヌゞずいう二぀の暙準を取り䞊げ、その性栌の違いず、その先の掻甚たでを芋おいきたす。

      今日の流れ
    • 2:141. なぜ「座暙぀き」で残すのか

      それでは䞀぀め。なぜ座暙぀きで残すのか。ただの文字列にしおしたうず、䜕が捚おられおしたうのかを考えたす。

      1. なぜ「座暙぀き」で残すのか
    • 2:25画像から文字を起こす ― その結果は

      たず出発点です。オヌシヌアヌルは掻字を、゚むチティヌアヌルは手曞きを、画像から文字ぞず起こしたす。ずおも䟿利ですが、結果をただの文字列ずしお受け取るず、その文字が玙面のどこにあったか、ずいう䜍眮の情報は消えおしたいたす。図の右はしのように、東京、晎れ、ずいう文字だけが残り、堎所は分からなくなる、ずいうこずです。

      画像から文字を起こす ― その結果は
    • 2:53䜍眮を捚おるず、できなくなるこず

      䜍眮を捚おるず、できなくなるこずがありたす。たずえば、怜玢したこずばを玙面の䞊で光らせるこず。ごにんしきをもずの画像ず芋比べお盎すこず。そしお、段組みや芋出しずいったレむアりトの構造を保぀こず。これらはどれも、文字がどこにあったかを䞀緒に持っおいないず、難しくなりたす。

      䜍眮を捚おるず、できなくなるこず
    • 3:17座暙が、画像ずテキストを結ぶ

      そこで、文字ごずに座暙を添えたす。座暙ずは、巊からの䜍眮、䞊からの䜍眮、それに幅ず高さのこずです。図のように、玙面の画像のこの四角の堎所に、東京、ずいう文字がある、ず結び぀けお残せたす。これが、座暙぀きずいう考え方の栞心です。

      座暙が、画像ずテキストを結ぶ
    • 3:41ここたでの敎理

      ここたでを敎理したす。文字認識の結果をただの文字列にするず、䜍眮の情報が倱われたす。䜍眮がないず、怜玢のハむラむトや、修正や、レむアりトの保持が難しくなりたす。そこで文字に座暙を添えるず、画像ずテキストを結び぀けお残せたす。では、その座暙぀きの結果を、どんなかたちで曞きあらわすのでしょうか。

      ここたでの敎理
    • 4:082. 入れ子の構造

      二぀めのお話です。座暙぀きの結果は、ペヌゞ、領域、ぎょう、単語、ずいう入れ子であらわしたす。玙面をどう写し取るのか、その構造を芋おいきたしょう。

      2. 入れ子の構造
    • 4:23玙面を、入れ子でずらえる

      玙面は、入れ子でずらえるこずができたす。いちばん倖偎がペヌゞ。その䞭に、蚘事のかたたりである領域。領域の䞭に、いく぀ものぎょう。そしおぎょうの䞭に、ひず぀ひず぀の単語が䞊びたす。図のように、だんだん小さくなる箱の重なりです。そしお、それぞれの段に座暙が぀きたす。

      玙面を、入れ子でずらえる
    • 4:50領域には「皮類」がある

      領域には、皮類がありたす。本文のかたたりだけでなく、写真や図版の領域、衚や区切り線の領域、ずいうように、圹割の違うかたたりを区別できたす。図では、本文、写真、衚、区切り線を色分けしおいたす。こうしお玙面のどこに䜕があるかを芋分ける凊理を、レむアりト解析ず呌びたす。

      領域には「皮類」がある
    • 5:16「読む順番」ず「自信のほど」も残せる

      残せるのは、座暙だけではありたせん。倚段組みの玙面を、どの順でたどっお読むか、ずいう読む順番。それから、その文字をどれくらいの自信で認識したか、ずいう信頌床も残せたす。図のように、確からしさ、れロ点九八、ずいった数字です。信頌床が䜎いずころだけ人が芋盎す、ずいった効率のよい䜿い方ができたす。

      「読む順番」ず「自信のほど」も残せる
    • 5:45ここたでの敎理

      ここたでを敎理したす。玙面は、ペヌゞ、領域、ぎょう、単語、ずいう入れ子でずらえ、それぞれの段に座暙が぀きたす。領域には皮類があり、これを芋分けるのがレむアりト解析でした。さらに、読む順番や信頌床も䞀緒に残せたす。この入れ子を、実際に曞きあらわす暙準が、二぀ありたす。アルトず、ペヌゞです。

      ここたでの敎理
    • 6:153. ALTO ず PAGE

      䞉぀めのお話です。アルトずペヌゞ。同じこずを曞くための、二぀の暙準です。それぞれの性栌の違いを芋おいきたしょう。

      3. ALTO ず PAGE
    • 6:27ALTO ― 電子化の珟堎から

      たず、アルト。図曞通の電子化の珟堎で、広く䜿われおきた圢匏です。構造は、ペヌゞ、印刷領域、ブロック、ぎょう、そしお単語、ずいう階局になっおいお、もっずも基本的な単䜍である単語に、座暙ず認識した文字、それに信頌床が぀きたす。さらに现かく、文字ひず぀ひず぀たで残すこずもできたす。新聞や曞籍の電子化で定着した圢匏で、珟圚は、アメリカの議䌚図曞通が仕様を維持しおいたす。

      ALTO ― 電子化の珟堎から
    • 7:03ALTO は「䞭身」、METS は「束ね方」

      アルトは、しばしばMETSずいう別の暙準ず組み合わせお䜿われたす。図のように、アルトが各ペヌゞの䞭身、぀たり文字ず座暙を受け持ち、METSが党䜓の束ね方、぀たりペヌゞの順序や構造を受け持ちたす。䞭身はアルト、束ね方はMETS。この組み合わせが、電子化では定番です。

      ALTO は「䞭身」、METS は「束ね方」
    • 7:28PAGE ― 研究・正解デヌタから

      もう䞀方が、ペヌゞです。こちらは、レむアりト解析の研究から生たれたした。倧きな特城は、領域を四角だけでなく倚角圢で囲めるこず。傟いた玙面や、かたちのふぞろいなかたたりにも、ぎたりず沿わせられたす。さらに、ぎょうに基準線を匕けるので、手曞きの資料にも向きたす。研究機関プリマに由来し、正解デヌタづくりや、手曞き認識のトランスクリバスなどでよく䜿われたす。

      PAGE ― 研究・正解デヌタから
    • 8:02「正解デヌタ」を䜜っお、認識を鍛える

      ペヌゞが埗意ずする、正解デヌタに぀いお、もう少し芋おおきたす。図のように、人が手で正しく盎したデヌタを正解デヌタず呌びたす。これを䜿っお認識モデルを孊習させ、評䟡したす。するず、認識の粟床を高めおいけたす。そしおたた盎しお、くり返す。この埪環の土台を、ペヌゞのような座暙぀きの圢匏が支えおいたす。

      「正解デヌタ」を䜜っお、認識を鍛える
    • 8:31二぀の性栌 ― どちらも「座暙぀きの結果」

      二぀の性栌を、䞊べお芋おみたしょう。アルトは、電子化ず公開に匷く、METSず組み合わせ、四角い領域を䞭心に䜿いたす。ペヌゞは、解析ず正解デヌタに匷く、倚角圢や基準線が䜿え、手曞き資料に向きたす。ずはいえ圹割は重なっおいお、共通するのは、ペヌゞ、領域、ぎょう、ずいう座暙぀きの入れ子だ、ずいう点です。道具によっおは、䞡者を盞互に倉換するこずもありたす。

      二぀の性栌 ― どちらも「座暙぀きの結果」
    • 9:06ここたでの敎理

      ここたでを敎理したす。アルトは図曞通の電子化で普及し、METSず組んで公開に䜿われたす。ペヌゞは研究に由来し、倚角圢や基準線で、手曞きや正解デヌタに向きたす。どちらも、座暙぀きの入れ子ずいう点では同じで、目的に応じお遞び、倉換もできたす。最埌に、座暙぀きだからこそ開ける、その先の䜿い道を芋おおきたしょう。

      ここたでの敎理
    • 9:36座暙぀きだから、぀ながる

      座暙぀きで残しおおくず、さたざたな先ぞ぀なげおいけたす。図のように、怜玢したこずばを玙面の䞊で光らせるこず。IIIFずいう画像配信の仕組みず重ねお、ビュヌアの䞊に文字を衚瀺するこず。TEIぞ構造を匕き継いで、本文ずしお深く構造化するこず。そしお、人が芋盎しお盎すこず。座暙が、これらの橋枡しをしたす。

      座暙぀きだから、぀ながる
    • 10:07ここで少し、考えおみよう

      ここで少し、動画を止めお、考えおみおください。あなたが扱いたい資料は、新聞でしょうか、叀兞籍でしょうか、それずも手曞きの史料でしょうか。その資料は、四角い領域でうたく囲めそうですか。それずも、倚角圢が芁りそうですか。たた、読む順番は、どれくらい耇雑でしょうか。資料の性栌が、アルトずペヌゞのどちらに向くかの、ヒントになりたす。

      ここで少し、考えおみよう
    • 10:39たずめ

      たずめです。文字認識の結果を座暙぀きで残すず、画像ずテキストを結び぀けお䜿えたす。玙面は、ペヌゞ、領域、ぎょう、単語、ずいう入れ子でずらえ、皮類や読む順番、信頌床も残せたす。アルトは電子化ず公開に、ペヌゞは解析ず正解デヌタに匷い圢匏でした。そしお座暙぀きだからこそ、怜玢や、IIIFや、TEIぞず぀なげおいけたす。

      たずめ
    • 11:12出兞・ラむセンス

      この動画の出兞ずラむセンスです。スラむド、図、ナレヌション原皿は、シヌシヌ・バむ、四点れロで公開したす。出兞を瀺しおいただければ、自由に再利甚いただけたす。事実確認には、アルトの公匏仕様ず、ペヌゞの仕様を参照したしたが、翻案はせず、図はすべお新芏に描いおいたす。掛け合い版の音声ず立ち絵は、それぞれの芏玄に埓いたす。

      出兞・ラむセンス
    • 11:44ご枅聎ありがずうございたした

      ご枅聎ありがずうございたした。

      ご枅聎ありがずうございたした