この本の位置づけ
解説動画を作るとき、いちばん大変なのは「話す」ことです。カメラの前で噛まずに読み、間違えれば録り直し、トーンを毎回そろえる――この負担が、動画づくりを単発で終わらせてしまいます。
本書は、その「話す」を自分の声のクローンに任せ、残りをすべてテキストとファイルの操作に置き換えるアプローチをまとめます。原稿を書けば自分の声で読み上がり、直したくなったら原稿を直してもう一度合成する。撮影も編集もない、机の上だけで完結する作り方です。
本書の前提:AIエージェントと一緒に作る
本書の手順は、人間がすべて手で打つこともできます。ですが本来の想定は、「コマンドを実行できるAIアシスタント(エージェント)と一緒に進める」ことです。実際、本書が題材にする動画も、人間がAIエージェントに指示し、AIがスクリプトを書き・コマンドを実行して作りました。つまり、**この本は「人間が読んで写経する手順書」であると同時に、「AIエージェントに読ませて実行させる指示書」**でもあります。
- AIに任せる部分:スライドの雛形づくり、図や合成スクリプトの作成、コマンドの実行、つまずきの修正。本書のコードと手順は、そのままAIに読ませて動かせる形にしてあります。
- あなた(人間)がやる部分:どんな内容の動画にするかを決め、スライドと原稿の中身を用意し、出来上がりを耳で確かめること。
- AIには肩代わりできない部分:自分の声のクローン。アカウント登録・数十分の録音・本人確認は、あなた自身の手で行う必要があります(第5章)。
使い方のイメージはこうです——このガイドをAIエージェントに渡し、「この通りに進めて」と頼む。あなたは、方針と素材と声を用意する。 なお、チャットだけのAIでは「コードと手順の説明」までで止まります。実際に動画まで作るには、コマンドを実行できるエージェント(例:Claude Code)と一緒に進めるのがおすすめです。
全体像 ― 4つの工程
[スライド] → [原稿] → [音声] → [合成]
Marpで 各ページの 声のクローンで ページ単位で
画像に 台本を 読み上げる 画像と音声を
書き出す テキストで つなぐ(FFmpeg)
- スライド:Marp でスライドを書き、1枚ずつ PNG 画像に書き出します。図は Rough.js で手描き風に生成します(第3章)。
- 原稿:各ページで話す台本を、ページ番号付きのテキスト(JSON)で用意します(第4章)。
- 音声:原稿を、自分の声のクローンに読み上げてもらいます(第5・6章)。
- 合成:各ページの画像を、その音声の長さだけ表示し、つなぎ合わせて1本の動画にします(第6章)。
この4工程が、それぞれ独立したテキスト・ファイルで完結しているのが肝心です。だから一部だけの差し替え・やり直しが容易で、同じ手順をくり返せば何本でも近い品質に保てます。
つまずきどころを先に知っておく
道具の使い方そのものより、どこでつまずくかを地図として持っておくと近道です。本書の後半で詳しく扱いますが、先に挙げておきます。
- テンポ:表現力の高い音声合成は、速さを数値で指定しても効かないことがある。→ 句読点の量で整える(第4章)。
- 継ぎ目:長文を一度に渡すと崩れるので分割する。すると分割の境目で声色が変わる。→ 境目に短い無音をはさむ(第6章)。
- 同期:スライドの切替が、声より少し遅れて感じられる。→ 切替をわずかに早める(第6章)。
- 読み誤り:漢字を意図と違う読みにされる。→ 読みの辞書を通す。最後は耳で確かめる(第7章)。
本書の例について
本書は特定の制作案件とは無関係に、手法そのものを一般化して説明します。コマンド例の声ID・APIキー・固有のファイルパスはすべてプレースホルダ($VOICE_ID など)です。自分の環境の値に置き換えてください。
それでは、必要な環境と費用から始めましょう。