TikTok動画制作ガイド

AI活用による複数キャラ掛け合い型動画の制作フロー

1. 動画の構成要素

TikTok動画（複数キャラ掛け合い型）は以下の要素で構成される。

台本 → キャラ画像 → 音声 → リップシンク動画 → 組み立て → テロップ/BGM → 書き出し

要素	説明
台本	セリフ、シーン構成、キャラ設定
キャラ画像	各シーンの静止画（9:16縦型）
音声	キャラごとのセリフ音声
リップシンク	静止画に音声を合わせて口を動かした動画
組み立て	各シーンを繋いで1本の動画にする
テロップ/BGM	字幕、効果音、BGMの追加

1キャラ型 vs 複数キャラ型の違い

	1キャラ型（ライフハック君等）	複数キャラ掛け合い型（今回）
キャラ数	1体	3体（男・医者・女）
シーン数	1〜2	10
動画生成	画像+音声を丸ごと1発生成可能	シーンごとに個別生成→結合
自動化	ほぼ完全自動	手動調整が多い
難易度	低い	高い

2. 今回の制作フロー（実績）

案件概要

美容クリニック向けTikTok広告動画（縦型9:16）
3Dカートゥンキャラクター3体の掛け合い
10シーン・13セリフ・約26秒
制作期間: 3日間
コスト: 約1,000〜1,400円

Step 1: 台本・構成設計

セリフと場面構成を設計し、キャラクター設定を定義。

Step 2: キャラクター画像生成

項目	内容
ツール	Gemini API（gemini-3.1-flash-image-preview）
手法	テキストプロンプト + リファレンス画像
成果物	10枚の確定画像

発生した問題: - キャラの顔・体型・服装がシーンごとに変わる - 9:16で出力されないことがある - ニキビの指示が反映されない/過剰になる

Step 3: 音声生成（最も工数がかかった）

最終的に2ツール併用になった。

キャラ	ツール	モデル
男	Style-BERT-VITS2（ローカル）	jvnv-M2-jp
女	Style-BERT-VITS2（ローカル）	hamidashi-kan
医者	Gemini TTS（クラウド）	Orus

選定プロセス: 1. SBV2で20以上のモデル × 全セリフの比較音声を大量生成 2. Cloudflare Pagesに試聴比較ページを作成 3. 聴き比べてキャラごとに最適モデルを選定 4. 医者はSBV2だと権威感が出ず、Gemini TTSに変更 5. ElevenLabsも試したが漢字の読み間違いが酷く不採用

Step 4: リップシンク（口パク動画生成）

リップシンク = 静止画のキャラの口を音声に合わせて動かし、動画にすること。

パターン	手法	使用シーン
A: API自動	静止画+音声 → fal.ai経由Kling APIでリップシンク動画生成	大半のシーン
B: 手動+差替え	Kling Web UIで動画生成 → 元音声を消去 → 確定音声をffmpegで当て込み	動きが必要なシーン（ポテンツァ等）

発生した問題: - 2人が写っている画像だと、どちらの口が動くか制御できない - リップシンクの品質にバラつき（口が動かない、間違ったキャラが喋る） - Kling公式APIの無料枠100ポイントを使い切り、fal.ai経由に切り替え

Step 5: 動画組み立て

項目	内容
ツール	ffmpeg
手法	各シーンを720x1280/30fpsに正規化 → concat結合 → 1.25倍速
音声合わせ	silencedetectで発話開始点を検出 → adelayでオフセット調整

Step 6: 未実施

テロップ（字幕）
BGM・効果音
最終書き出し

3. 使用したツール一覧

用途	ツール	種別	コスト
画像生成	Gemini API	クラウドAPI	従量課金（〜$0.04/枚）
音声（男・女）	Style-BERT-VITS2	ローカル	無料
音声（医者）	Gemini TTS	クラウドAPI	従量課金
リップシンク	fal.ai経由Kling	クラウドAPI	$0.014/5秒
リップシンク（手動）	Kling Web UI	Webアプリ	無料枠100ポイント
動画編集	ffmpeg	ローカル	無料
比較ページ	Cloudflare Pages	クラウド	無料

4. 改善候補ツール

OpenAI o4-miniによるレビュー + 独自調査に基づく。

画像生成の改善

ツール	何ができるか	料金	Mac対応
DreamBooth/LoRA	自分のキャラ画像20-30枚を学習させて、同じキャラを何度でも生成可能にする。キャラ一貫性問題を根本解決	無料（ローカル）/ Replicate API: 学習$0.60/回、生成$0.01-0.06/枚	○（遅いが動く）
ControlNet	ポーズや構図を指定して画像生成。「同じキャラで違うポーズ」を安定生成	無料（画像生成費に含む）	○（Apple公式サポートあり）
SDXL（Stable Diffusion XL）	上記2つのベースとなる画像生成AI。Geminiの代替	無料（ローカル）/ API $0.01-0.06/枚	○
DAZ 3D	3Dキャラ作成ソフト。キャラを完全に固定した状態で任意のポーズ・表情を出力	ソフト無料、素材$5-50/個	○（CPU描画で遅い）

推奨: DreamBooth/LoRA + SDXL。一度キャラを学習させれば、以降は同じキャラで無限にバリエーション生成可能。今回最も時間がかかった「画像リテイク」がほぼゼロになる。

リップシンクの改善

ツール	何ができるか	料金	Mac対応
Wav2Lip	動画の顔に音声を合わせて口を動かす。オープンソースでローカル実行可能	無料（ローカル）/ fal.ai: $0.10-0.14/秒	○（MPS対応）
NVIDIA Audio2Face	音声から顔全体の動き（目・眉・口）を生成。複数キャラを個別制御可能	無料（MIT OSS）	×（NVIDIA GPU専用）

推奨: Wav2Lip（ローカル）。Macで動き、Klingの「どのキャラが喋るかガチャ」問題を解消。自分で対象の顔を指定できる。

音声生成の改善

ツール	何ができるか	料金	Mac対応
Azure Neural TTS	Microsoftのクラウド音声合成。日本語品質が高い	無料50万文字/月、超過$16/100万文字	クラウドAPI
Coqui TTS	オープンソースの音声合成。日本語対応。完全ローカル	完全無料	○（会社は倒産、コミュニティ継続）

推奨: Azure Neural TTS。無料枠が月50万文字と十分。日本語品質が高く、SSMLで細かい調整可能。今のSBV2+Gemini TTS構成が機能してるなら急がなくてもいい。

ワークフロー管理

ツール	何ができるか	料金
Snakemake / Dagster	パイプライン管理ツール。各ステップの依存関係を定義して自動実行	無料
Claude Codeスキル	YAML/JSON台本から各ステップを自動実行するCLIスキル	無料

推奨: Claude Codeスキルで十分。Snakemake等はオーバーキル。

5. ローカルLLMについて

ローカルLLMとは

ChatGPTやClaudeのようなAIを、クラウドではなく自分のMac上で動かすこと。

代表的なローカルLLM: | モデル | 提供元 | 特徴 | |--------|--------|------| | Llama | Meta | 最も人気。日本語対応 | | Gemma | Google | 軽量で高性能 | | Mistral | Mistral AI | 高速 | | Qwen | Alibaba | 日本語に強い |

動かすためのツール: Ollama、llama.cpp、LM Studio等。Mac（Apple Silicon）で動作可能。

ClaudeやChatGPTとの違い

	クラウドAI（Claude/ChatGPT）	ローカルLLM
動作場所	Anthropic/OpenAIのサーバー	自分のMac
コスト	従量課金 or 月額	無料（電気代のみ）
性能	高い	やや劣る（モデルサイズによる）
カスタマイズ	プロンプトのみ	ファインチューニング可能
プライバシー	データがサーバーに送られる	完全ローカル

ローカルLLMで何が変わるか

① 品質判定の自動化

今回の問題: 画像やリップシンクを生成 → 人間が見て確認 → ダメならやり直し（何度も発生）

ローカルLLMでの解決:

画像を5枚生成
    ↓
ローカルLLM（マルチモーダル）が全部見て自動判定
  - キャラ一致してる？
  - ニキビは頬だけ？
  - 9:16になってる？
  - 服装合ってる？
    ↓
合格したものだけ人間に提示

② ファインチューニング（自分専用に教育）

クラウドAIではできない、ローカルLLMだけの強み。

自分が「OK」「NG」と判定した画像を大量に食わせる
モデル自体の判断基準が書き換わる
以降は自分の目と同じ基準で自動判定してくれる

例:

「このキャラOK」画像100枚 + 「このキャラNG」画像100枚
    ↓
LoRA等でファインチューニング（数時間）
    ↓
以降、自分と同じ判定基準で自動フィルタリング

③ 画像生成AIのファインチューニング

ローカルLLMとは別だが、同じ「ローカルで学習」の考え方。

Stable Diffusion + LoRA/DreamBoothでキャラ学習
自分のキャラ画像20-30枚で学習（数時間）
以降「このキャラで怒った顔」「笑った顔」と指定すれば同じキャラが100%出る
Geminiで苦労した「顔が変わる」「服が変わる」が根本的に解消

ローカルLLMの導入ハードル

項目	難易度	備考
インストール	簡単	Ollamaで1コマンド
基本的な推論	簡単	すぐ使える
画像判定（マルチモーダル）	中程度	Llama Vision等を使用
ファインチューニング	やや高い	GPU・データ準備・学習時間が必要
画像生成のLoRA学習	やや高い	ComfyUI + kohya_ss等のツールチェーン

まとめ: 何から始めるべきか

短期（すぐできる）: 1. Azure Neural TTS の無料枠で音声品質を比較テスト 2. Wav2Lipをローカルで試す（リップシンクのガチャ問題解消）

中期（1-2週間）: 3. SDXL + LoRA/DreamBoothでキャラ学習（画像一貫性の根本解決） 4. Claude Codeスキルでパイプライン自動化

長期（必要に応じて）: 5. ローカルLLM（Llama Vision等）で品質判定の自動化 6. ファインチューニングで自分専用の判定モデル構築