Appearance
プロジェクト概要
目的
画面収録した作業動画を、ずんだもんが解説するスタイルの字幕付き動画に自動変換するシステム。
背景
- 画面収録動画だけでは、何をしているか視聴者に伝わりにくい
- 手動で字幕を付ける作業は手間がかかる
- ずんだもんキャラクターを使うことで親しみやすい解説動画になる
入力
| 項目 | 仕様 |
|---|---|
| 動画ファイル | MOV / MP4 形式(画面収録) |
| 解像度 | 1906 x 1006(可変対応) |
| フレームレート | 60fps |
| 音声 | なし(画面収録のため) |
| 本数 | 2本(結合して1本に) |
テストデータ
| ファイル | 長さ | サイズ |
|---|---|---|
| 画面収録 2026-03-05 14.22.00.mov | 約5分 (301秒) | 65MB |
| 画面収録 2026-03-05 14.32.03.mov | 約6.8分 (413秒) | 182MB |
出力
- 結合済み動画(2本の画面収録を連結)
- 字幕オーバーレイ(作業内容の解説テキスト)
- ずんだもん音声(VOICEVOX で生成)
- 口パクキャラクター(ずんだもんの顔アニメーション)
- 最終出力: MP4 動画ファイル
処理フロー概要
入力動画 (MOV x 2)
|
v
[1] 動画前処理 (FFmpeg)
- MOV → MP4 変換
- 解像度・FPS 正規化
|
v
[2] 字幕スクリプト生成
- 動画内容に基づく解説テキスト作成
- タイミング情報の付与
|
v
[3] 音声合成 (VOICEVOX)
- ずんだもんボイスで音声生成
- 音素・タイミング情報取得(口パク用)
|
v
[4] Remotion コンポジション
- 動画結合 (Sequence)
- 字幕レンダリング
- ずんだもん顔キャラ口パクアニメーション
- 音声トラック合成
|
v
[5] レンダリング・出力
- Remotion で MP4 レンダリング
- 最終動画ファイル出力