View in English

ALTO・PAGE入門 ― OCRの結果を「座標つき」で残す

OCR・HTRの結果を、ただの文字列でなく『画像のどこに何があったか』という座標つきで残す二つの標準 ALTO と PAGE を、初学者向けに概念から解説します。ページ→領域→行→単語の入れ子、座標が画像とテキストを結ぶ意味、ALTO(電子化・METS)とPAGE(解析・正解データ)の違い、IIIFやTEIへの橋渡しまでを図で見ていきます。

ALTOPAGEOCRHTRDigital Humanities
⚠ この解説は、AIによる実験的な取り組みです(構成・図・音声合成を含む)。不正確な内容を含む可能性があります。ご利用の際はご注意ください。

掛け合い解説(ずんだもん×四国めたん)

別バージョン

ナレーション解説

章立て

  1. 1

    本編

    なぜ座標つきで残すか・ページ→領域→行→単語の入れ子・ALTOとPAGEの違い・IIIF/TEIへの橋渡し

    読み上げ原稿

    • 0:00OCRの結果を「座標つき」で残す

      皆さん、こんにちは。技術要素シリーズ、なかむらさとるの解説回です。この回のナレーションは合成音声でお届けします。テーマは、アルトと、ページ。オーシーアール、つまり文字認識の結果を、ただの文字列ではなく、画像のどこに何があったか、という座標つきで残すための、二つの標準です。むずかしい道具立ては要りません。考え方を、図を交えながら、ゆっくり見ていきましょう。

      OCRの結果を「座標つき」で残す
    • 0:34この動画について

      はじめに、この動画について簡単にご案内します。これは、オープンに公開されている仕様や資料を参照しつつ、独自に構成した解説です。スライドと図は新規に作成し、ナレーションはAIの音声合成です。この回は、本人のクローン声ではありません。実験的な取り組みですので、内容はご確認のうえご利用ください。誤りにお気づきのときは、概要欄からご指摘いただけると助かります。出典とライセンスは、動画の最後と概要欄にまとめてあります。

      この動画について
    • 1:15この回のゴール

      まず、この回のゴールを確認しておきましょう。目標は大きく四つです。一つめは、文字認識の結果を座標つきで残す意味を説明できること。二つめは、ページ、領域、ぎょう、単語、という入れ子の構造をイメージできること。三つめは、アルトとページが、それぞれどんな場面で使われるか、見当がつくこと。そして四つめは、座標つきだからこそ、画像とテキストを結びつけて使える、と説明できることです。

      この回のゴール
    • 1:52今日の流れ

      今日の流れです。はじめに、なぜわざわざ座標つきで残すのか、その理由を考えます。つぎに、紙面を写し取る入れ子の構造を見ます。最後に、アルトとページという二つの標準を取り上げ、その性格の違いと、その先の活用までを見ていきます。

      今日の流れ
    • 2:141. なぜ「座標つき」で残すのか

      それでは一つめ。なぜ座標つきで残すのか。ただの文字列にしてしまうと、何が捨てられてしまうのかを考えます。

      1. なぜ「座標つき」で残すのか
    • 2:25画像から文字を起こす ― その結果は?

      まず出発点です。オーシーアールは活字を、エイチティーアールは手書きを、画像から文字へと起こします。とても便利ですが、結果をただの文字列として受け取ると、その文字が紙面のどこにあったか、という位置の情報は消えてしまいます。図の右はしのように、東京、晴れ、という文字だけが残り、場所は分からなくなる、ということです。

      画像から文字を起こす ― その結果は?
    • 2:53位置を捨てると、できなくなること

      位置を捨てると、できなくなることがあります。たとえば、検索したことばを紙面の上で光らせること。ごにんしきをもとの画像と見比べて直すこと。そして、段組みや見出しといったレイアウトの構造を保つこと。これらはどれも、文字がどこにあったかを一緒に持っていないと、難しくなります。

      位置を捨てると、できなくなること
    • 3:17座標が、画像とテキストを結ぶ

      そこで、文字ごとに座標を添えます。座標とは、左からの位置、上からの位置、それに幅と高さのことです。図のように、紙面の画像のこの四角の場所に、東京、という文字がある、と結びつけて残せます。これが、座標つきという考え方の核心です。

      座標が、画像とテキストを結ぶ
    • 3:41ここまでの整理

      ここまでを整理します。文字認識の結果をただの文字列にすると、位置の情報が失われます。位置がないと、検索のハイライトや、修正や、レイアウトの保持が難しくなります。そこで文字に座標を添えると、画像とテキストを結びつけて残せます。では、その座標つきの結果を、どんなかたちで書きあらわすのでしょうか。

      ここまでの整理
    • 4:082. 入れ子の構造

      二つめのお話です。座標つきの結果は、ページ、領域、ぎょう、単語、という入れ子であらわします。紙面をどう写し取るのか、その構造を見ていきましょう。

      2. 入れ子の構造
    • 4:23紙面を、入れ子でとらえる

      紙面は、入れ子でとらえることができます。いちばん外側がページ。その中に、記事のかたまりである領域。領域の中に、いくつものぎょう。そしてぎょうの中に、ひとつひとつの単語が並びます。図のように、だんだん小さくなる箱の重なりです。そして、それぞれの段に座標がつきます。

      紙面を、入れ子でとらえる
    • 4:50領域には「種類」がある

      領域には、種類があります。本文のかたまりだけでなく、写真や図版の領域、表や区切り線の領域、というように、役割の違うかたまりを区別できます。図では、本文、写真、表、区切り線を色分けしています。こうして紙面のどこに何があるかを見分ける処理を、レイアウト解析と呼びます。

      領域には「種類」がある
    • 5:16「読む順番」と「自信のほど」も残せる

      残せるのは、座標だけではありません。多段組みの紙面を、どの順でたどって読むか、という読む順番。それから、その文字をどれくらいの自信で認識したか、という信頼度も残せます。図のように、確からしさ、ゼロ点九八、といった数字です。信頼度が低いところだけ人が見直す、といった効率のよい使い方ができます。

      「読む順番」と「自信のほど」も残せる
    • 5:45ここまでの整理

      ここまでを整理します。紙面は、ページ、領域、ぎょう、単語、という入れ子でとらえ、それぞれの段に座標がつきます。領域には種類があり、これを見分けるのがレイアウト解析でした。さらに、読む順番や信頼度も一緒に残せます。この入れ子を、実際に書きあらわす標準が、二つあります。アルトと、ページです。

      ここまでの整理
    • 6:153. ALTO と PAGE

      三つめのお話です。アルトとページ。同じことを書くための、二つの標準です。それぞれの性格の違いを見ていきましょう。

      3. ALTO と PAGE
    • 6:27ALTO ― 電子化の現場から

      まず、アルト。図書館の電子化の現場で、広く使われてきた形式です。構造は、ページ、印刷領域、ブロック、ぎょう、そして単語、という階層になっていて、もっとも基本的な単位である単語に、座標と認識した文字、それに信頼度がつきます。さらに細かく、文字ひとつひとつまで残すこともできます。新聞や書籍の電子化で定着した形式で、現在は、アメリカの議会図書館が仕様を維持しています。

      ALTO ― 電子化の現場から
    • 7:03ALTO は「中身」、METS は「束ね方」

      アルトは、しばしばMETSという別の標準と組み合わせて使われます。図のように、アルトが各ページの中身、つまり文字と座標を受け持ち、METSが全体の束ね方、つまりページの順序や構造を受け持ちます。中身はアルト、束ね方はMETS。この組み合わせが、電子化では定番です。

      ALTO は「中身」、METS は「束ね方」
    • 7:28PAGE ― 研究・正解データから

      もう一方が、ページです。こちらは、レイアウト解析の研究から生まれました。大きな特徴は、領域を四角だけでなく多角形で囲めること。傾いた紙面や、かたちのふぞろいなかたまりにも、ぴたりと沿わせられます。さらに、ぎょうに基準線を引けるので、手書きの資料にも向きます。研究機関プリマに由来し、正解データづくりや、手書き認識のトランスクリバスなどでよく使われます。

      PAGE ― 研究・正解データから
    • 8:02「正解データ」を作って、認識を鍛える

      ページが得意とする、正解データについて、もう少し見ておきます。図のように、人が手で正しく直したデータを正解データと呼びます。これを使って認識モデルを学習させ、評価します。すると、認識の精度を高めていけます。そしてまた直して、くり返す。この循環の土台を、ページのような座標つきの形式が支えています。

      「正解データ」を作って、認識を鍛える
    • 8:31二つの性格 ― どちらも「座標つきの結果」

      二つの性格を、並べて見てみましょう。アルトは、電子化と公開に強く、METSと組み合わせ、四角い領域を中心に使います。ページは、解析と正解データに強く、多角形や基準線が使え、手書き資料に向きます。とはいえ役割は重なっていて、共通するのは、ページ、領域、ぎょう、という座標つきの入れ子だ、という点です。道具によっては、両者を相互に変換することもあります。

      二つの性格 ― どちらも「座標つきの結果」
    • 9:06ここまでの整理

      ここまでを整理します。アルトは図書館の電子化で普及し、METSと組んで公開に使われます。ページは研究に由来し、多角形や基準線で、手書きや正解データに向きます。どちらも、座標つきの入れ子という点では同じで、目的に応じて選び、変換もできます。最後に、座標つきだからこそ開ける、その先の使い道を見ておきましょう。

      ここまでの整理
    • 9:36座標つきだから、つながる

      座標つきで残しておくと、さまざまな先へつなげていけます。図のように、検索したことばを紙面の上で光らせること。IIIFという画像配信の仕組みと重ねて、ビューアの上に文字を表示すること。TEIへ構造を引き継いで、本文として深く構造化すること。そして、人が見直して直すこと。座標が、これらの橋渡しをします。

      座標つきだから、つながる
    • 10:07ここで少し、考えてみよう

      ここで少し、動画を止めて、考えてみてください。あなたが扱いたい資料は、新聞でしょうか、古典籍でしょうか、それとも手書きの史料でしょうか。その資料は、四角い領域でうまく囲めそうですか。それとも、多角形が要りそうですか。また、読む順番は、どれくらい複雑でしょうか。資料の性格が、アルトとページのどちらに向くかの、ヒントになります。

      ここで少し、考えてみよう
    • 10:39まとめ

      まとめです。文字認識の結果を座標つきで残すと、画像とテキストを結びつけて使えます。紙面は、ページ、領域、ぎょう、単語、という入れ子でとらえ、種類や読む順番、信頼度も残せます。アルトは電子化と公開に、ページは解析と正解データに強い形式でした。そして座標つきだからこそ、検索や、IIIFや、TEIへとつなげていけます。

      まとめ
    • 11:12出典・ライセンス

      この動画の出典とライセンスです。スライド、図、ナレーション原稿は、シーシー・バイ、四点ゼロで公開します。出典を示していただければ、自由に再利用いただけます。事実確認には、アルトの公式仕様と、ページの仕様を参照しましたが、翻案はせず、図はすべて新規に描いています。掛け合い版の音声と立ち絵は、それぞれの規約に従います。

      出典・ライセンス
    • 11:44ご清聴ありがとうございました

      ご清聴ありがとうございました。

      ご清聴ありがとうございました