TEIとXML入門 ― 人文学テキストを「データ」にする
人文学のテキストを構造化して扱う国際標準 TEI と、その土台となる XML を、初学者向けに概念から解説します。CC ライセンスのオープン教材を参照した独自構成・実験的な取り組みです。
掛け合い解説(ずんだもん×四国めたん)
別バージョン
ナレーション解説
章立て
- 1
本編
TEIとXMLの考え方・ヘッダと本文・なぜ標準・符号化は解釈・始め方
読み上げ原稿
- 0:00人文学テキストを「データ」にする
- 0:46この動画について
- 1:38この回のゴール
- 2:32今日の流れ
- 3:08テキストを「データ」にするとは
- 3:27一文の中には、いくつもの情報がある
- 4:27人は読んで区別できる。では機械は?
では、この同じ文を、機械に渡すと、どうなるでしょうか。私たち人間は、ホメロスを人名、イオニアを地名と、ほとんど無意識に、見分けます。たとえ、知らない名前でも、文のかたちや、前後の流れから、これは人らしい、これは場所らしい、と、見当を、つけられます。けれど、ただの、文字の並びを、渡された機械には、その区別は、まったく、見えていません。どこからどこまでが、ひとつの人名なのかさえ、分からないのです。だからこそ、ここは人名、ここは年代、というふうに、人間の側から、あらかじめ、印をつけて、教えてあげる必要が、出てくるのです。いわば、人の頭の中にある、暗黙の区別を、外に、書き出してあげる、ということです。

- 5:26プレーンテキストの限界
図の、左を、見てください。ふだん、私たちが、目にするテキスト、いわゆる、プレーンテキストは、見た目の文字を、ただ、順番に、並べたものです。人が、読むぶんには、それで、まったく、困りません。けれど、そこには、どれが題名で、どれが人名なのか、といった、意味や、構造の情報は、ほとんど、残っていないのです。一方、右のように、ここは題名、ここは人名、ここは日付、という印を、つけておくと、どうでしょう。その文章が、どんな意味の、どんな構造を、持っているのかを、あとからでも、機械が、正確に、たどれるように、なります。この、残るか、残らないか、の違いが、今日の話の、出発点です。印をつける、ということは、人の読み取りを、その場かぎりにせず、データとして、残しておくこと、だとも、いえます。

- 6:41マークアップ=意味に「タグ」を付ける
この、印を、つけていく作業のことを、マークアップと呼びます。じつは、マークアップには、文字の、見た目を、指示するものも、ありますが、ここで、大事なのは、これは人名、これは書名、というふうに、意味や、構造を、示すタイプ、いわゆる、記述的マークアップ、です。TEIが、使うのも、こちらです。図を、見てください。ある語の、前と、後ろを、タグと呼ばれる、目印で、はさみこみ、ここからここまでは人名です、と、文章の中に、書き込んでいきます。難しそうに、聞こえるかもしれませんが、やっていることは、紙の文章に、色ペンで、線を引いたり、付箋を、貼ったりするのと、とても、よく似ています。ちがいは、その線や、付箋を、機械にも、読み取れるように、決まった形で、付ける、という点だけです。

- 7:54XMLの基本① 要素とタグ
- 9:02XMLの基本② 入れ子と属性
XMLには、もう二つ、ぜひ、覚えておきたい、仕組みが、あります。図を、見てください。一つめは、入れ子、です。要素の中に、さらに、別の要素を、入れることが、できます。こうすることで、たとえば、本、という大きなまとまりの中に、章があり、その章の中に、段落がある、といった、文書全体の、入り組んだ構造を、そのまま、写しとることが、できます。二つめは、属性、です。タグに、ちょっとした、付け足しの情報を、添えることが、できます。たとえば、この段落は、英語で書かれている、といったことを、タグの中に、書き込んでおく、という具合です。入れ子で、おおきな構造を、属性で、こまかな情報を。この二つで、表現できることの幅が、ぐっと、広がります。

- 10:16ここまでのポイント
- 11:03TEIとは
- 11:18TEI=人文学テキスト符号化の国際標準
- 12:16背景:研究者たちが育ててきた標準
- 13:09TEIで記述できること
では、TEIで、いったい、どんなことが、記述できるのでしょうか。図を、見てください。その範囲は、思いのほか、広いものです。たとえば、本の、タイトルや、著者といった、書誌の、情報。段落や、章といった、文書の、構造。さらに、同じ作品でも、写本によって、本文が、少しずつ、違っていることが、ありますが、その、こまかな違い、いわゆる、異読。そして、人名や、地名、注釈まで。文学作品から、歴史の、文書まで、こうした、さまざまな対象を、人それぞれの、自己流ではなく、共通の、一貫した形で、書きあらわしていくことが、できるのです。逆に言えば、何を、記述したいかに応じて、用意された、たくさんのタグの中から、必要なものを、選んで、使っていく、ということです。

- 14:19TEIヘッダ:本文の「説明書き」
TEIの文書は、図のように、大きく、二つの層から、できています。一つめは、ヘッダ、と呼ばれる部分です。これは、その資料についての、メタデータ、いわば、表紙の裏に書かれた、説明書きに、あたります。この資料は、いったい、誰が、何という作品を、どの本を、ていほんとして、作ったのか。そうした情報を、ここに、まとめて、記します。そして、二つめが、本文です。こちらは、説明書きではなく、作品の、テキスト本体そのものを、収める層です。詩でも、小説でも、その中身を、ここに置いて、構造や、人名などの、タグを、付けていきます。タグを付ける、という点では、ヘッダも、本文も、同じですが、ヘッダが、資料についての、情報なのに対して、本文は、テキスト、そのものです。この、二つの層に、分かれている、おかげで、たとえば、本文だけを、取り出して、分析する、といったことも、たやすく、できます。

- 15:39本文を符号化してみる
- 16:27例を読み解く
- 17:26考えてみよう
- 17:55ここまでのポイント
- 18:36なぜ「標準」を使うのか
- 18:54共通の約束ごとだから、つながる
理由の、ひとつは、つながりやすさ、です。図を、見てください。みんなが、てんでに、自己流で書くのではなく、同じ約束ごとに、もとづいて、書いておくと、どうなるでしょう。すると、別の研究者や、データを、分析するための、さまざまな道具、あるいは、まったく別の、プロジェクト、さらには、何年か後の、自分自身とも、データを、共有したり、再利用したりが、ぐっと、しやすくなります。もし、一人ひとりが、ばらばらの、書き方を、していたら、せっかく作ったデータも、なかなか、つながりません。標準とは、いわば、みんなが、読み書きできる、共通の言葉、なのですね。いちど、その共通の言葉で、書いておけば、データの価値が、時間がたっても、目減りしにくい、というのも、大きな利点です。

- 19:53どこで使われているか
- 20:33たとえば、こんな使われ方
もう少し、具体的に、イメージを、ふくらませてみましょう。電子校訂版、というのは、たとえば、同じ作品の、いくつもの写本を、つきあわせて、本文の、こまかな違いを、重ね合わせ、画面の上で、読み比べられるように、したものです。デジタルアーカイブでは、貴重な、古典籍や、古文書を、ただの、画像としてではなく、その構造ごと、まるごと、検索できる形で、公開します。そして、コーパス研究では、何百、何千という、テキストを、語や、構造の、単位で、いちどに、まとめて、分析していきます。手作業では、とても、追いつかない規模です。そして、これらは、どれも、TEIという、共通の土台が、あればこそ、成り立っている、取り組みなのです。

- 21:27符号化は「解釈」である
- 21:43何にタグを付けるかを「選んでいる」
図を、見てください。まったく、同じ、ひとつの文でも、上の、エーのように、人名だけに、タグを、付けることも、できますし、下の、ビーのように、人名と、地名の、両方に、付けることも、できます。さらに、年代にも、付けるかもしれません。そして、ここが、大事なところですが、このうち、どれか一つだけが、正しい、というわけでは、ありません。つまり、どこに、何として、印を、つけるのかは、そのつど、私たちが、選んでいるのです。同じ文を、前にしても、研究者が、何に、着目するかによって、出来上がってくる、符号化は、変わってくる、ということです。言いかえれば、ひとつの符号化には、その人の、読みの視点が、おのずと、映し出される、ということです。

- 22:40だから、唯一の正解は決まらない
- 23:29始め方・学ぶには
では、自分でも、少し、始めてみたい、と思ったら、どうすれば、よいでしょう。まず、文書を、書いたり、編集したりするには、有償の、XML・エディタ、oXygenなどが、よく使われます。一方、自分用に、TEIを、仕立てる、つまり、どのタグを使うかという、カスタマイズを、作るには、ブラウザで、手軽に使える、無料の、ローマ、という、ツールが、あります。これは、文書を編集する道具ではなく、自分だけの、決まりを、組み立てるための、ものです。具体的な、例から、学びたいなら、TEI by Example、という、分野ごとに、分かれた、チュートリアルが、よい、手引きに、なります。もう少し、体系立てて、学びたい方には、DARIAH-Campusの、テキストエンコーディングの、講座が、おすすめです。そして、何より、まずは、ごく小さな、テキストを、一つ、選んで、自分の手で、タグを、付けてみること。それが、いちばんの、近道です。

- 24:38まとめ
- 25:30出典・ライセンス
- 26:05ご清聴ありがとうございました





















