TikTok動画制作ガイド

AI活用による複数キャラ掛け合い型動画の制作フロー


1. 動画の構成要素

TikTok動画(複数キャラ掛け合い型)は以下の要素で構成される。

台本 → キャラ画像 → 音声 → リップシンク動画 → 組み立て → テロップ/BGM → 書き出し
要素 説明
台本 セリフ、シーン構成、キャラ設定
キャラ画像 各シーンの静止画(9:16縦型)
音声 キャラごとのセリフ音声
リップシンク 静止画に音声を合わせて口を動かした動画
組み立て 各シーンを繋いで1本の動画にする
テロップ/BGM 字幕、効果音、BGMの追加

1キャラ型 vs 複数キャラ型の違い

1キャラ型(ライフハック君等) 複数キャラ掛け合い型(今回)
キャラ数 1体 3体(男・医者・女)
シーン数 1〜2 10
動画生成 画像+音声を丸ごと1発生成可能 シーンごとに個別生成→結合
自動化 ほぼ完全自動 手動調整が多い
難易度 低い 高い

2. 今回の制作フロー(実績)

案件概要

Step 1: 台本・構成設計

セリフと場面構成を設計し、キャラクター設定を定義。

Step 2: キャラクター画像生成

項目 内容
ツール Gemini API(gemini-3.1-flash-image-preview)
手法 テキストプロンプト + リファレンス画像
成果物 10枚の確定画像

発生した問題: - キャラの顔・体型・服装がシーンごとに変わる - 9:16で出力されないことがある - ニキビの指示が反映されない/過剰になる

Step 3: 音声生成(最も工数がかかった)

最終的に2ツール併用になった。

キャラ ツール モデル
Style-BERT-VITS2(ローカル) jvnv-M2-jp
Style-BERT-VITS2(ローカル) hamidashi-kan
医者 Gemini TTS(クラウド) Orus

選定プロセス: 1. SBV2で20以上のモデル × 全セリフの比較音声を大量生成 2. Cloudflare Pagesに試聴比較ページを作成 3. 聴き比べてキャラごとに最適モデルを選定 4. 医者はSBV2だと権威感が出ず、Gemini TTSに変更 5. ElevenLabsも試したが漢字の読み間違いが酷く不採用

Step 4: リップシンク(口パク動画生成)

リップシンク = 静止画のキャラの口を音声に合わせて動かし、動画にすること。

パターン 手法 使用シーン
A: API自動 静止画+音声 → fal.ai経由Kling APIでリップシンク動画生成 大半のシーン
B: 手動+差替え Kling Web UIで動画生成 → 元音声を消去 → 確定音声をffmpegで当て込み 動きが必要なシーン(ポテンツァ等)

発生した問題: - 2人が写っている画像だと、どちらの口が動くか制御できない - リップシンクの品質にバラつき(口が動かない、間違ったキャラが喋る) - Kling公式APIの無料枠100ポイントを使い切り、fal.ai経由に切り替え

Step 5: 動画組み立て

項目 内容
ツール ffmpeg
手法 各シーンを720x1280/30fpsに正規化 → concat結合 → 1.25倍速
音声合わせ silencedetectで発話開始点を検出 → adelayでオフセット調整

Step 6: 未実施


3. 使用したツール一覧

用途 ツール 種別 コスト
画像生成 Gemini API クラウドAPI 従量課金(〜$0.04/枚)
音声(男・女) Style-BERT-VITS2 ローカル 無料
音声(医者) Gemini TTS クラウドAPI 従量課金
リップシンク fal.ai経由Kling クラウドAPI $0.014/5秒
リップシンク(手動) Kling Web UI Webアプリ 無料枠100ポイント
動画編集 ffmpeg ローカル 無料
比較ページ Cloudflare Pages クラウド 無料

4. 改善候補ツール

OpenAI o4-miniによるレビュー + 独自調査に基づく。

画像生成の改善

ツール 何ができるか 料金 Mac対応
DreamBooth/LoRA 自分のキャラ画像20-30枚を学習させて、同じキャラを何度でも生成可能にする。キャラ一貫性問題を根本解決 無料(ローカル)/ Replicate API: 学習$0.60/回、生成$0.01-0.06/枚 ○(遅いが動く)
ControlNet ポーズや構図を指定して画像生成。「同じキャラで違うポーズ」を安定生成 無料(画像生成費に含む) ○(Apple公式サポートあり)
SDXL(Stable Diffusion XL) 上記2つのベースとなる画像生成AI。Geminiの代替 無料(ローカル)/ API $0.01-0.06/枚
DAZ 3D 3Dキャラ作成ソフト。キャラを完全に固定した状態で任意のポーズ・表情を出力 ソフト無料、素材$5-50/個 ○(CPU描画で遅い)

推奨: DreamBooth/LoRA + SDXL。一度キャラを学習させれば、以降は同じキャラで無限にバリエーション生成可能。今回最も時間がかかった「画像リテイク」がほぼゼロになる。

リップシンクの改善

ツール 何ができるか 料金 Mac対応
Wav2Lip 動画の顔に音声を合わせて口を動かす。オープンソースでローカル実行可能 無料(ローカル)/ fal.ai: $0.10-0.14/秒 ○(MPS対応)
NVIDIA Audio2Face 音声から顔全体の動き(目・眉・口)を生成。複数キャラを個別制御可能 無料(MIT OSS) ×(NVIDIA GPU専用)

推奨: Wav2Lip(ローカル)。Macで動き、Klingの「どのキャラが喋るかガチャ」問題を解消。自分で対象の顔を指定できる。

音声生成の改善

ツール 何ができるか 料金 Mac対応
Azure Neural TTS Microsoftのクラウド音声合成。日本語品質が高い 無料50万文字/月、超過$16/100万文字 クラウドAPI
Coqui TTS オープンソースの音声合成。日本語対応。完全ローカル 完全無料 ○(会社は倒産、コミュニティ継続)

推奨: Azure Neural TTS。無料枠が月50万文字と十分。日本語品質が高く、SSMLで細かい調整可能。今のSBV2+Gemini TTS構成が機能してるなら急がなくてもいい。

ワークフロー管理

ツール 何ができるか 料金
Snakemake / Dagster パイプライン管理ツール。各ステップの依存関係を定義して自動実行 無料
Claude Codeスキル YAML/JSON台本から各ステップを自動実行するCLIスキル 無料

推奨: Claude Codeスキルで十分。Snakemake等はオーバーキル。


5. ローカルLLMについて

ローカルLLMとは

ChatGPTやClaudeのようなAIを、クラウドではなく自分のMac上で動かすこと。

代表的なローカルLLM: | モデル | 提供元 | 特徴 | |--------|--------|------| | Llama | Meta | 最も人気。日本語対応 | | Gemma | Google | 軽量で高性能 | | Mistral | Mistral AI | 高速 | | Qwen | Alibaba | 日本語に強い |

動かすためのツール: Ollama、llama.cpp、LM Studio等。Mac(Apple Silicon)で動作可能。

ClaudeやChatGPTとの違い

クラウドAI(Claude/ChatGPT) ローカルLLM
動作場所 Anthropic/OpenAIのサーバー 自分のMac
コスト 従量課金 or 月額 無料(電気代のみ)
性能 高い やや劣る(モデルサイズによる)
カスタマイズ プロンプトのみ ファインチューニング可能
プライバシー データがサーバーに送られる 完全ローカル

ローカルLLMで何が変わるか

① 品質判定の自動化

今回の問題: 画像やリップシンクを生成 → 人間が見て確認 → ダメならやり直し(何度も発生)

ローカルLLMでの解決:

画像を5枚生成
    ↓
ローカルLLM(マルチモーダル)が全部見て自動判定
  - キャラ一致してる?
  - ニキビは頬だけ?
  - 9:16になってる?
  - 服装合ってる?
    ↓
合格したものだけ人間に提示

② ファインチューニング(自分専用に教育)

クラウドAIではできない、ローカルLLMだけの強み。

例:

「このキャラOK」画像100枚 + 「このキャラNG」画像100枚
    ↓
LoRA等でファインチューニング(数時間)
    ↓
以降、自分と同じ判定基準で自動フィルタリング

③ 画像生成AIのファインチューニング

ローカルLLMとは別だが、同じ「ローカルで学習」の考え方。

ローカルLLMの導入ハードル

項目 難易度 備考
インストール 簡単 Ollamaで1コマンド
基本的な推論 簡単 すぐ使える
画像判定(マルチモーダル) 中程度 Llama Vision等を使用
ファインチューニング やや高い GPU・データ準備・学習時間が必要
画像生成のLoRA学習 やや高い ComfyUI + kohya_ss等のツールチェーン

まとめ: 何から始めるべきか

短期(すぐできる): 1. Azure Neural TTS の無料枠で音声品質を比較テスト 2. Wav2Lipをローカルで試す(リップシンクのガチャ問題解消)

中期(1-2週間): 3. SDXL + LoRA/DreamBoothでキャラ学習(画像一貫性の根本解決) 4. Claude Codeスキルでパイプライン自動化

長期(必要に応じて): 5. ローカルLLM(Llama Vision等)で品質判定の自動化 6. ファインチューニングで自分専用の判定モデル構築