始める前に、何が要るのかと、お金がかかる所だけ正直にお伝えします。
道具(無料で揃う)
| 用途 | ツール | 備考 |
|---|---|---|
| スライド | Marp(@marp-team/marp-cli) | Markdown からスライド画像・PDF を生成 |
| 図 | Rough.js | 手描き風 SVG をコードから生成 |
| ブラウザ | Google Chrome | Marp の画像書き出しに使用 |
| 読み確認 | VOICEVOX | 漢字の読みを事前チェック(無料) |
| 合成 | FFmpeg | 画像+音声を動画に結合 |
| 実行環境 | Node.js / Python 3 | Marp は Node、合成スクリプトは Python |
インストール例(macOS / Homebrew):
brew install node python ffmpeg
brew install --cask google-chrome
npm install -g @marp-team/marp-cli
費用がかかるもの
ここだけはお金がかかります。
- 声のクローンのサービス利用料:本書では ElevenLabs を使います。自分の声を学習させる「Professional Voice Clone(PVC)」は有料プラン(Creator 以上)が必要です。
- AIアシスタント(エージェント):本書は「コマンドを実行できるAIエージェント(例:Claude Code)と一緒に進める」ことを前提にしています(第1章)。その利用料。手で全部やるなら必須ではありませんが、一緒に進めると圧倒的に速く・楽になります。
費用の目安(実測)
参考に、本書の手順で作った約19分・ナレーション約5,570字の動画1本での、ElevenLabs の文字数消費の実測値です。
- 合成1回ぶん:おおむね原稿の文字数ぶん(約5,600字)。
- 試行錯誤を含めた実際:読み直し・テンポ調整・同期修正などで2〜3回合成し直すと、1本あたり 1.5〜3万字程度。
- ElevenLabs Creator プランは月10万字規模なので、月に数本は十分に収まる計算です。
補足:合成のやり直しが一番のコスト要因です。だからこそ「原稿を確定してから合成」「読みは事前に辞書で固める」が効きます(第4・7章)。残量はAPIでも確認できます。
curl -s -H "xi-api-key: $ELEVENLABS_API_KEY" \ https://api.elevenlabs.io/v1/user/subscription \ | python3 -c "import sys,json; d=json.load(sys.stdin); print(d['character_count'],'/',d['character_limit'])"
APIキーの扱い
ELEVENLABS_API_KEY は環境変数で渡します。コードやスライドに直書きしないでください。.env に置く場合は .gitignore に必ず加えます。1Password などのシークレット管理を使うなら、実行時だけ注入する形が安全です。
export ELEVENLABS_API_KEY="(自分のキー)" # 履歴に残したくなければ別の方法で
次章から、実際に手を動かしていきます。まずはスライドと図づくりです。
ここから先(第3章〜)はメンバーシップ限定です。 第3章以降では、コピペで動く合成スクリプト(
make_video.py)や読み適用スクリプトなど、通しで再現するための具体的な手順をすべて掲載しています。メンバーシップに登録すると全文を読め、ブログの運営を支えていただけます。