プロジェクト概要

目的

画面収録した作業動画を、ずんだもんが解説するスタイルの字幕付き動画に自動変換するシステム。

背景

画面収録動画だけでは、何をしているか視聴者に伝わりにくい
手動で字幕を付ける作業は手間がかかる
ずんだもんキャラクターを使うことで親しみやすい解説動画になる

入力

項目	仕様
動画ファイル	MOV / MP4 形式（画面収録）
解像度	1906 x 1006（可変対応）
フレームレート	60fps
音声	なし（画面収録のため）
本数	2本（結合して1本に）

テストデータ

ファイル	長さ	サイズ
画面収録 2026-03-05 14.22.00.mov	約5分 (301秒)	65MB
画面収録 2026-03-05 14.32.03.mov	約6.8分 (413秒)	182MB

出力

結合済み動画（2本の画面収録を連結）
字幕オーバーレイ（作業内容の解説テキスト）
ずんだもん音声（VOICEVOX で生成）
口パクキャラクター（ずんだもんの顔アニメーション）
最終出力: MP4 動画ファイル

処理フロー概要

入力動画 (MOV x 2)
    |
    v
[1] 動画前処理 (FFmpeg)
    - MOV → MP4 変換
    - 解像度・FPS 正規化
    |
    v
[2] 字幕スクリプト生成
    - 動画内容に基づく解説テキスト作成
    - タイミング情報の付与
    |
    v
[3] 音声合成 (VOICEVOX)
    - ずんだもんボイスで音声生成
    - 音素・タイミング情報取得（口パク用）
    |
    v
[4] Remotion コンポジション
    - 動画結合 (Sequence)
    - 字幕レンダリング
    - ずんだもん顔キャラ口パクアニメーション
    - 音声トラック合成
    |
    v
[5] レンダリング・出力
    - Remotion で MP4 レンダリング
    - 最終動画ファイル出力

プロジェクト概要 ​

目的 ​

背景 ​

入力 ​

テストデータ ​

出力 ​

処理フロー概要 ​

プロジェクト概要

目的

背景

入力

テストデータ

出力

処理フロー概要