TikTok動画(複数キャラ掛け合い型)は以下の要素で構成される。
台本 → キャラ画像 → 音声 → リップシンク動画 → 組み立て → テロップ/BGM → 書き出し
| 要素 | 説明 |
|---|---|
| 台本 | セリフ、シーン構成、キャラ設定 |
| キャラ画像 | 各シーンの静止画(9:16縦型) |
| 音声 | キャラごとのセリフ音声 |
| リップシンク | 静止画に音声を合わせて口を動かした動画 |
| 組み立て | 各シーンを繋いで1本の動画にする |
| テロップ/BGM | 字幕、効果音、BGMの追加 |
| 1キャラ型(ライフハック君等) | 複数キャラ掛け合い型(今回) | |
|---|---|---|
| キャラ数 | 1体 | 3体(男・医者・女) |
| シーン数 | 1〜2 | 10 |
| 動画生成 | 画像+音声を丸ごと1発生成可能 | シーンごとに個別生成→結合 |
| 自動化 | ほぼ完全自動 | 手動調整が多い |
| 難易度 | 低い | 高い |
セリフと場面構成を設計し、キャラクター設定を定義。
| 項目 | 内容 |
|---|---|
| ツール | Gemini API(gemini-3.1-flash-image-preview) |
| 手法 | テキストプロンプト + リファレンス画像 |
| 成果物 | 10枚の確定画像 |
発生した問題: - キャラの顔・体型・服装がシーンごとに変わる - 9:16で出力されないことがある - ニキビの指示が反映されない/過剰になる
最終的に2ツール併用になった。
| キャラ | ツール | モデル |
|---|---|---|
| 男 | Style-BERT-VITS2(ローカル) | jvnv-M2-jp |
| 女 | Style-BERT-VITS2(ローカル) | hamidashi-kan |
| 医者 | Gemini TTS(クラウド) | Orus |
選定プロセス: 1. SBV2で20以上のモデル × 全セリフの比較音声を大量生成 2. Cloudflare Pagesに試聴比較ページを作成 3. 聴き比べてキャラごとに最適モデルを選定 4. 医者はSBV2だと権威感が出ず、Gemini TTSに変更 5. ElevenLabsも試したが漢字の読み間違いが酷く不採用
リップシンク = 静止画のキャラの口を音声に合わせて動かし、動画にすること。
| パターン | 手法 | 使用シーン |
|---|---|---|
| A: API自動 | 静止画+音声 → fal.ai経由Kling APIでリップシンク動画生成 | 大半のシーン |
| B: 手動+差替え | Kling Web UIで動画生成 → 元音声を消去 → 確定音声をffmpegで当て込み | 動きが必要なシーン(ポテンツァ等) |
発生した問題: - 2人が写っている画像だと、どちらの口が動くか制御できない - リップシンクの品質にバラつき(口が動かない、間違ったキャラが喋る) - Kling公式APIの無料枠100ポイントを使い切り、fal.ai経由に切り替え
| 項目 | 内容 |
|---|---|
| ツール | ffmpeg |
| 手法 | 各シーンを720x1280/30fpsに正規化 → concat結合 → 1.25倍速 |
| 音声合わせ | silencedetectで発話開始点を検出 → adelayでオフセット調整 |
| 用途 | ツール | 種別 | コスト |
|---|---|---|---|
| 画像生成 | Gemini API | クラウドAPI | 従量課金(〜$0.04/枚) |
| 音声(男・女) | Style-BERT-VITS2 | ローカル | 無料 |
| 音声(医者) | Gemini TTS | クラウドAPI | 従量課金 |
| リップシンク | fal.ai経由Kling | クラウドAPI | $0.014/5秒 |
| リップシンク(手動) | Kling Web UI | Webアプリ | 無料枠100ポイント |
| 動画編集 | ffmpeg | ローカル | 無料 |
| 比較ページ | Cloudflare Pages | クラウド | 無料 |
OpenAI o4-miniによるレビュー + 独自調査に基づく。
| ツール | 何ができるか | 料金 | Mac対応 |
|---|---|---|---|
| DreamBooth/LoRA | 自分のキャラ画像20-30枚を学習させて、同じキャラを何度でも生成可能にする。キャラ一貫性問題を根本解決 | 無料(ローカル)/ Replicate API: 学習$0.60/回、生成$0.01-0.06/枚 | ○(遅いが動く) |
| ControlNet | ポーズや構図を指定して画像生成。「同じキャラで違うポーズ」を安定生成 | 無料(画像生成費に含む) | ○(Apple公式サポートあり) |
| SDXL(Stable Diffusion XL) | 上記2つのベースとなる画像生成AI。Geminiの代替 | 無料(ローカル)/ API $0.01-0.06/枚 | ○ |
| DAZ 3D | 3Dキャラ作成ソフト。キャラを完全に固定した状態で任意のポーズ・表情を出力 | ソフト無料、素材$5-50/個 | ○(CPU描画で遅い) |
推奨: DreamBooth/LoRA + SDXL。一度キャラを学習させれば、以降は同じキャラで無限にバリエーション生成可能。今回最も時間がかかった「画像リテイク」がほぼゼロになる。
| ツール | 何ができるか | 料金 | Mac対応 |
|---|---|---|---|
| Wav2Lip | 動画の顔に音声を合わせて口を動かす。オープンソースでローカル実行可能 | 無料(ローカル)/ fal.ai: $0.10-0.14/秒 | ○(MPS対応) |
| NVIDIA Audio2Face | 音声から顔全体の動き(目・眉・口)を生成。複数キャラを個別制御可能 | 無料(MIT OSS) | ×(NVIDIA GPU専用) |
推奨: Wav2Lip(ローカル)。Macで動き、Klingの「どのキャラが喋るかガチャ」問題を解消。自分で対象の顔を指定できる。
| ツール | 何ができるか | 料金 | Mac対応 |
|---|---|---|---|
| Azure Neural TTS | Microsoftのクラウド音声合成。日本語品質が高い | 無料50万文字/月、超過$16/100万文字 | クラウドAPI |
| Coqui TTS | オープンソースの音声合成。日本語対応。完全ローカル | 完全無料 | ○(会社は倒産、コミュニティ継続) |
推奨: Azure Neural TTS。無料枠が月50万文字と十分。日本語品質が高く、SSMLで細かい調整可能。今のSBV2+Gemini TTS構成が機能してるなら急がなくてもいい。
| ツール | 何ができるか | 料金 |
|---|---|---|
| Snakemake / Dagster | パイプライン管理ツール。各ステップの依存関係を定義して自動実行 | 無料 |
| Claude Codeスキル | YAML/JSON台本から各ステップを自動実行するCLIスキル | 無料 |
推奨: Claude Codeスキルで十分。Snakemake等はオーバーキル。
ChatGPTやClaudeのようなAIを、クラウドではなく自分のMac上で動かすこと。
代表的なローカルLLM: | モデル | 提供元 | 特徴 | |--------|--------|------| | Llama | Meta | 最も人気。日本語対応 | | Gemma | Google | 軽量で高性能 | | Mistral | Mistral AI | 高速 | | Qwen | Alibaba | 日本語に強い |
動かすためのツール: Ollama、llama.cpp、LM Studio等。Mac(Apple Silicon)で動作可能。
| クラウドAI(Claude/ChatGPT) | ローカルLLM | |
|---|---|---|
| 動作場所 | Anthropic/OpenAIのサーバー | 自分のMac |
| コスト | 従量課金 or 月額 | 無料(電気代のみ) |
| 性能 | 高い | やや劣る(モデルサイズによる) |
| カスタマイズ | プロンプトのみ | ファインチューニング可能 |
| プライバシー | データがサーバーに送られる | 完全ローカル |
① 品質判定の自動化
今回の問題: 画像やリップシンクを生成 → 人間が見て確認 → ダメならやり直し(何度も発生)
ローカルLLMでの解決:
画像を5枚生成
↓
ローカルLLM(マルチモーダル)が全部見て自動判定
- キャラ一致してる?
- ニキビは頬だけ?
- 9:16になってる?
- 服装合ってる?
↓
合格したものだけ人間に提示
② ファインチューニング(自分専用に教育)
クラウドAIではできない、ローカルLLMだけの強み。
例:
「このキャラOK」画像100枚 + 「このキャラNG」画像100枚
↓
LoRA等でファインチューニング(数時間)
↓
以降、自分と同じ判定基準で自動フィルタリング
③ 画像生成AIのファインチューニング
ローカルLLMとは別だが、同じ「ローカルで学習」の考え方。
| 項目 | 難易度 | 備考 |
|---|---|---|
| インストール | 簡単 | Ollamaで1コマンド |
| 基本的な推論 | 簡単 | すぐ使える |
| 画像判定(マルチモーダル) | 中程度 | Llama Vision等を使用 |
| ファインチューニング | やや高い | GPU・データ準備・学習時間が必要 |
| 画像生成のLoRA学習 | やや高い | ComfyUI + kohya_ss等のツールチェーン |
短期(すぐできる): 1. Azure Neural TTS の無料枠で音声品質を比較テスト 2. Wav2Lipをローカルで試す(リップシンクのガチャ問題解消)
中期(1-2週間): 3. SDXL + LoRA/DreamBoothでキャラ学習(画像一貫性の根本解決) 4. Claude Codeスキルでパイプライン自動化
長期(必要に応じて): 5. ローカルLLM(Llama Vision等)で品質判定の自動化 6. ファインチューニングで自分専用の判定モデル構築