始める前に、何が要るのかと、お金がかかる所だけ正直にお伝えします。

道具(無料で揃う)

用途ツール備考
スライドMarp@marp-team/marp-cliMarkdown からスライド画像・PDF を生成
Rough.js手描き風 SVG をコードから生成
ブラウザGoogle ChromeMarp の画像書き出しに使用
読み確認VOICEVOX漢字の読みを事前チェック(無料)
合成FFmpeg画像+音声を動画に結合
実行環境Node.js / Python 3Marp は Node、合成スクリプトは Python

インストール例(macOS / Homebrew):

brew install node python ffmpeg
brew install --cask google-chrome
npm install -g @marp-team/marp-cli

費用がかかるもの

ここだけはお金がかかります。

  1. 声のクローンのサービス利用料:本書では ElevenLabs を使います。自分の声を学習させる「Professional Voice Clone(PVC)」は有料プラン(Creator 以上)が必要です。
  2. AIアシスタント(エージェント):本書は「コマンドを実行できるAIエージェント(例:Claude Code)と一緒に進める」ことを前提にしています(第1章)。その利用料。手で全部やるなら必須ではありませんが、一緒に進めると圧倒的に速く・楽になります。

費用の目安(実測)

参考に、本書の手順で作った約19分・ナレーション約5,570字の動画1本での、ElevenLabs の文字数消費の実測値です。

  • 合成1回ぶん:おおむね原稿の文字数ぶん(約5,600字)。
  • 試行錯誤を含めた実際:読み直し・テンポ調整・同期修正などで2〜3回合成し直すと、1本あたり 1.5〜3万字程度
  • ElevenLabs Creator プランは月10万字規模なので、月に数本は十分に収まる計算です。

補足:合成のやり直しが一番のコスト要因です。だからこそ「原稿を確定してから合成」「読みは事前に辞書で固める」が効きます(第4・7章)。残量はAPIでも確認できます。

curl -s -H "xi-api-key: $ELEVENLABS_API_KEY" \
  https://api.elevenlabs.io/v1/user/subscription \
  | python3 -c "import sys,json; d=json.load(sys.stdin); print(d['character_count'],'/',d['character_limit'])"

APIキーの扱い

ELEVENLABS_API_KEY は環境変数で渡します。コードやスライドに直書きしないでください。.env に置く場合は .gitignore に必ず加えます。1Password などのシークレット管理を使うなら、実行時だけ注入する形が安全です。

export ELEVENLABS_API_KEY="(自分のキー)"   # 履歴に残したくなければ別の方法で

次章から、実際に手を動かしていきます。まずはスライドと図づくりです。


ここから先(第3章〜)はメンバーシップ限定です。 第3章以降では、コピペで動く合成スクリプト(make_video.py)や読み適用スクリプトなど、通しで再現するための具体的な手順をすべて掲載しています。メンバーシップに登録すると全文を読め、ブログの運営を支えていただけます。