デジタルアーカイブ・DH 技術ポータル

この本の位置づけ

解説動画を作るとき、いちばん大変なのは「話す」ことです。カメラの前で噛まずに読み、間違えれば録り直し、トーンを毎回そろえる――この負担が、動画づくりを単発で終わらせてしまいます。

本書は、その「話す」を自分の声のクローンに任せ、残りをすべてテキストとファイルの操作に置き換えるアプローチをまとめます。原稿を書けば自分の声で読み上がり、直したくなったら原稿を直してもう一度合成する。撮影も編集もない、机の上だけで完結する作り方です。

本書の前提：AIエージェントと一緒に作る

本書の手順は、人間がすべて手で打つこともできます。ですが本来の想定は、「コマンドを実行できるAIアシスタント（エージェント）と一緒に進める」ことです。実際、本書が題材にする動画も、人間がAIエージェントに指示し、AIがスクリプトを書き・コマンドを実行して作りました。つまり、**この本は「人間が読んで写経する手順書」であると同時に、「AIエージェントに読ませて実行させる指示書」**でもあります。

AIに任せる部分：スライドの雛形づくり、図や合成スクリプトの作成、コマンドの実行、つまずきの修正。本書のコードと手順は、そのままAIに読ませて動かせる形にしてあります。
あなた（人間）がやる部分：どんな内容の動画にするかを決め、スライドと原稿の中身を用意し、出来上がりを耳で確かめること。
AIには肩代わりできない部分：自分の声のクローン。アカウント登録・数十分の録音・本人確認は、あなた自身の手で行う必要があります（第5章）。

使い方のイメージはこうです——このガイドをAIエージェントに渡し、「この通りに進めて」と頼む。あなたは、方針と素材と声を用意する。 なお、チャットだけのAIでは「コードと手順の説明」までで止まります。実際に動画まで作るには、コマンドを実行できるエージェント（例：Claude Code）と一緒に進めるのがおすすめです。

全体像 ― 4つの工程

[スライド] → [原稿] → [音声] → [合成]
  Marpで       各ページの   声のクローンで  ページ単位で
  画像に        台本を       読み上げる     画像と音声を
  書き出す      テキストで              つなぐ(FFmpeg)

スライド：Marp でスライドを書き、1枚ずつ PNG 画像に書き出します。図は Rough.js で手描き風に生成します（第3章）。
原稿：各ページで話す台本を、ページ番号付きのテキスト（JSON）で用意します（第4章）。
音声：原稿を、自分の声のクローンに読み上げてもらいます（第5・6章）。
合成：各ページの画像を、その音声の長さだけ表示し、つなぎ合わせて1本の動画にします（第6章）。

この4工程が、それぞれ独立したテキスト・ファイルで完結しているのが肝心です。だから一部だけの差し替え・やり直しが容易で、同じ手順をくり返せば何本でも近い品質に保てます。

つまずきどころを先に知っておく

道具の使い方そのものより、どこでつまずくかを地図として持っておくと近道です。本書の後半で詳しく扱いますが、先に挙げておきます。

テンポ：表現力の高い音声合成は、速さを数値で指定しても効かないことがある。→ 句読点の量で整える（第4章）。
継ぎ目：長文を一度に渡すと崩れるので分割する。すると分割の境目で声色が変わる。→ 境目に短い無音をはさむ（第6章）。
同期：スライドの切替が、声より少し遅れて感じられる。→ 切替をわずかに早める（第6章）。
読み誤り：漢字を意図と違う読みにされる。→ 読みの辞書を通す。最後は耳で確かめる（第7章）。

本書の例について

本書は特定の制作案件とは無関係に、手法そのものを一般化して説明します。コマンド例の声ID・APIキー・固有のファイルパスはすべてプレースホルダ（$VOICE_ID など）です。自分の環境の値に置き換えてください。

それでは、必要な環境と費用から始めましょう。