View in English

Webアーカイブ入門 ― 消えるWebをWARCで残す

刻々と書き換わり消えていくWebページを、研究や記録のために『丸ごと』残す考え方と標準を、初学者向けに概念から解説します。リンク切れと内容の移ろい、集める・残す・再生するの三段階、WARCが通信のやりとりごと束ねて残す仕組み、WACZ、長期保存(OAIS)・改変検知(fixity)とのつながりまでを図で見ていきます。

WARCWeb ArchivingWACZDigital PreservationDigital Humanities
⚠ この解説は、AIによる実験的な取り組みです(構成・図・音声合成を含む)。不正確な内容を含む可能性があります。ご利用の際はご注意ください。

掛け合い解説(ずんだもん×四国めたん)

別バージョン

ナレーション解説

章立て

  1. 1

    本編

    なぜ消えるか(リンク切れ・内容の移ろい)・集める/残す/再生する・WARCはやりとりごと束ねる・WACZと長期保存

    読み上げ原稿

    • 0:00消えるWebを、WARCで残す

      皆さん、こんにちは。技術要素シリーズ、なかむらさとるの解説回です。この回のナレーションは合成音声でお届けします。テーマは、ウェブアーカイブ。刻々と書き換わり、やがて消えていくウェブページを、研究や記録のために丸ごと残すための、考え方と標準です。中心になるのが、ワークという入れ物です。むずかしい道具立ては要りません。考え方を、図を交えながら、ゆっくり見ていきましょう。

      消えるWebを、WARCで残す
    • 0:36この動画について

      はじめに、この動画について簡単にご案内します。これは、オープンに公開されている仕様や資料を参照しつつ、独自に構成した解説です。スライドと図は新規に作成し、ナレーションはAIの音声合成です。この回は、本人のクローン声ではありません。実験的な取り組みですので、内容はご確認のうえご利用ください。誤りにお気づきのときは、概要欄からご指摘いただけると助かります。出典とライセンスは、動画の最後と概要欄にまとめてあります。

      この動画について
    • 1:16この回のゴール

      まず、この回のゴールを確認しておきましょう。目標は大きく四つです。一つめは、ウェブページが消えたり変わったりするため、丸ごと残す必要がある、と説明できること。二つめは、ウェブアーカイブの三段階、集める、残す、再生する、をイメージできること。三つめは、ワークが、通信のやりとりごとウェブを束ねて残す入れ物だ、と説明できること。そして四つめは、ウェブアーカイブが、長期保存や改変検知とつながっている、と見当がつくことです。

      この回のゴール
    • 1:56今日の流れ

      今日の流れです。はじめに、なぜウェブのページは消えてしまうのか、その理由を考えます。つぎに、集める、残す、再生する、という三段階と、その中心にあるワークという器を見ます。最後に、ワックゼットという新しい器と、長く残し続ける仕組みまでを見ていきます。

      今日の流れ
    • 2:201. なぜ消えるのか

      それでは一つめ。なぜ消えるのか。ウェブは、いつでもそこにある、とは限りません。

      1. なぜ消えるのか
    • 2:29クリックしたら、もう無い

      たとえば、数年前のページや、論文に引用したリンクの先を開こうとすると、すでに消えていることがあります。図のように、見つかりません、という表示に出会うわけです。これは、リンク切れと呼ばれ、ウェブではごくふつうに起こります。せっかく示した参照先が、たどれなくなってしまうのです。

      クリックしたら、もう無い
    • 2:53消えなくても、中身が変わる

      やっかいなのは、ページが消えなくても起こる問題です。図のように、同じアドレスなのに、数年前といまとで、中身が違っていることがあります。更新や削除や差し替えは、多くの場合、痕跡を残しません。ですから、あのときはこう書いてあった、ということを、後から示すのが難しくなります。これを、内容の移ろい、といいます。

      消えなくても、中身が変わる
    • 3:22だから「その時点」を、丸ごと残す

      ウェブは、流れ続ける、動く対象です。図のように、その流れから、ある時点のすがたを、一枚、切り取るイメージです。研究や記録のためには、こうして、ある時点のページを、まるごと残しておく必要があります。これが、ウェブアーカイブの出発点です。

      だから「その時点」を、丸ごと残す
    • 3:45ここまでの整理

      ここまでを整理します。ウェブは、リンクの先が消えてしまう、リンク切れがあります。残っていても、同じアドレスの中身が書き換わる、内容の移ろいがあります。だからこそ、ある時点のすがたを、丸ごと残す必要があるのです。では、その丸ごと残すは、どんな手順と器でおこなうのでしょうか。

      ここまでの整理
    • 4:112. 三段階と WARC

      二つめのお話です。集める、残す、再生する。この三段階と、その中心にあるワークという器を見ていきましょう。

      2. 三段階と WARC
    • 4:22Webアーカイブの三段階

      ウェブアーカイブは、大きく三つの段階に分けられます。まず、ページを集める段階。これをクロールといいます。つぎに、集めたものを残す段階。ここでワークという器を使います。そして後から、残したものを再生する段階です。図の左から右への流れです。今日の主役は、まん中の、残す器になります。

      Webアーカイブの三段階
    • 4:52集める ― クローラーがたどる

      まず、集める段階です。クローラーという道具が、起点となるページからリンクをたどって、つぎつぎとページを巡回します。図のように、ページからページへと、たどっていくわけです。集めるのは、文字だけではありません。表示に必要な、画像やレイアウトの情報も、ひと通り集めます。代表的な道具に、ヘリトリクスやブラウザートリックスがあります。

      集める ― クローラーがたどる
    • 5:22WARC ― 通信のやりとりごと束ねる

      つぎが、残す段階です。ここがいちばん大事なところです。ワークは、スクリーンショット、つまり画面の写真ではありません。図のように、ブラウザがサーバに送る、求め、つまりリクエストと、サーバが返す、答え、つまりレスポンスを、やりとりまるごと、生のまま記録として束ねます。ヘッダと本文を、そのまま残すのです。

      WARC ― 通信のやりとりごと束ねる
    • 5:51なぜ「やりとり」ごと残すのか

      では、なぜ画面の写真ではなく、やりとりごと残すのでしょうか。それは、後から、その応答をもういちどブラウザに返せるからです。図のように、保存した答えをブラウザに渡すと、当時のページが、よみがえります。見た目だけでなく、中身もそろう。これが、写真として残すのとの、大きな違いです。ただし、複雑に動くページや、その場で作られる中身は、すべてを残しきれないこともあります。

      なぜ「やりとり」ごと残すのか
    • 6:25再生する ― 当時のWebに戻る

      三つめが、再生する段階です。残したワークを、再生ソフトに渡すと、図のように、当時の日付のページが、ブラウザによみがえります。インターネット・アーカイブの、ウェイバック・マシンなどが、この役目を担っています。まるで、そのときのウェブに、時間をさかのぼって戻るような体験です。

      再生する ― 当時のWebに戻る
    • 6:50ここまでの整理

      ここまでを整理します。ウェブアーカイブは、集める、残す、再生する、の三段階でした。クローラーがリンクをたどってページを集め、ワークが、求めと答えのやりとりごと束ねて残します。応答そのものを残すからこそ、後から、そのときのページを再生できるのです。つづいて、このワークを、より持ち運びやすくした器と、長く残す仕組みを見ましょう。

      ここまでの整理
    • 7:203. WACZ と 長期保存

      三つめのお話です。ワックゼットという新しい器と、残し続けるための長期保存の仕組みを見ていきます。

      3. WACZ と 長期保存
    • 7:30WACZ ― 持ち運びやすい器

      ワックゼットは、より持ち運びやすい、新しい器です。図のように、ワーク本体に、どこに何があるかという索引や、ページの一覧、それに署名などを添えて、ひとつのジップにまとめます。こうしておくと、まるごと受け渡したり、その場で開いて再生したり、ということがしやすくなります。ウェブレコーダーという団体が中心になって、仕様を整えています。

      WACZ ― 持ち運びやすい器
    • 8:00みんなで支える標準

      ワークは、特定の誰かの独自形式ではありません。図のように、国際規格、ISOの二万八千五百番として定められ、アイ・アイ・ピー・シーという国際組織が維持しています。世界の図書館や公文書館、研究機関が、協力して支えている、共通の標準です。だからこそ、長く、安心して使えるのです。

      みんなで支える標準
    • 8:28残した後も、守り続ける

      そして、残して終わり、ではありません。図のように、ワークは、長期保存の枠組みであるOAISの、保存パッケージの中身になりえます。さらに、ファイルのハッシュ値を使って、後から中身が改変されたり、壊れたりしていないかを確かめます。これを、fixity、改変や破損の検知と呼びます。こうして、残したウェブを、守り続けていくのです。

      残した後も、守り続ける
    • 8:58ここまでの整理

      ここまでを整理します。ワックゼットは、ワークに索引などを添えて、ジップでまとめた、持ち運びやすい器でした。ワークは、国際規格ISO二万八千五百として定められ、アイ・アイ・ピー・シーが維持しています。そして、残した後も、長期保存と改変検知で、守り続けます。最後に、これが人文学の研究で、何に役立つかを見ておきましょう。

      ここまでの整理
    • 9:30研究資料としての Web

      ウェブアーカイブは、人文学の研究にも、深く関わります。図のように、ソーシャルメディアの投稿、公的機関のサイト、災害の記録。こうした、いま生まれている資料も、残しておけば、後の世代が研究したり、検証したりできる、貴重な研究資料になります。かたちのある本や文書だけが、史料ではないのです。

      研究資料としての Web
    • 9:58ここで少し、考えてみよう

      ここで少し、動画を止めて、考えてみてください。あなたが、数年後にはきっと消えていそうだ、と感じるウェブページは、どんなものでしょうか。そして、それが消えてしまったとき、困る人は、いったい誰でしょうか。残す価値のあるものを見極めることも、ウェブアーカイブの、大切な一歩です。

      ここで少し、考えてみよう
    • 10:22まとめ

      まとめです。ウェブは、消え、変わるため、ある時点を丸ごと残す必要がありました。ウェブアーカイブは、集める、残す、再生する、の三段階です。ワークは、求めと答えのやりとりごと束ねて残す器で、だからこそ後から再生できます。ワックゼットで持ち運びやすくし、OAISやfixityで、長く守り続けます。いまのウェブを残すことは、未来の人文学への、贈りものになります。

      まとめ
    • 10:57出典・ライセンス

      この動画の出典とライセンスです。スライド、図、ナレーション原稿は、シーシー・バイ、四点ゼロで公開します。出典を示していただければ、自由に再利用いただけます。事実確認には、ワークの公式仕様と、ワックゼットの仕様を参照しましたが、翻案はせず、図はすべて新規に描いています。掛け合い版の音声と立ち絵は、それぞれの規約に従います。

      出典・ライセンス
    • 11:29ご清聴ありがとうございました

      ご清聴ありがとうございました。

      ご清聴ありがとうございました