Skip to content

プロジェクト概要

目的

画面収録した作業動画を、ずんだもんが解説するスタイルの字幕付き動画に自動変換するシステム。

背景

  • 画面収録動画だけでは、何をしているか視聴者に伝わりにくい
  • 手動で字幕を付ける作業は手間がかかる
  • ずんだもんキャラクターを使うことで親しみやすい解説動画になる

入力

項目仕様
動画ファイルMOV / MP4 形式(画面収録)
解像度1906 x 1006(可変対応)
フレームレート60fps
音声なし(画面収録のため)
本数2本(結合して1本に)

テストデータ

ファイル長さサイズ
画面収録 2026-03-05 14.22.00.mov約5分 (301秒)65MB
画面収録 2026-03-05 14.32.03.mov約6.8分 (413秒)182MB

出力

  • 結合済み動画(2本の画面収録を連結)
  • 字幕オーバーレイ(作業内容の解説テキスト)
  • ずんだもん音声(VOICEVOX で生成)
  • 口パクキャラクター(ずんだもんの顔アニメーション)
  • 最終出力: MP4 動画ファイル

処理フロー概要

入力動画 (MOV x 2)
    |
    v
[1] 動画前処理 (FFmpeg)
    - MOV → MP4 変換
    - 解像度・FPS 正規化
    |
    v
[2] 字幕スクリプト生成
    - 動画内容に基づく解説テキスト作成
    - タイミング情報の付与
    |
    v
[3] 音声合成 (VOICEVOX)
    - ずんだもんボイスで音声生成
    - 音素・タイミング情報取得(口パク用)
    |
    v
[4] Remotion コンポジション
    - 動画結合 (Sequence)
    - 字幕レンダリング
    - ずんだもん顔キャラ口パクアニメーション
    - 音声トラック合成
    |
    v
[5] レンダリング・出力
    - Remotion で MP4 レンダリング
    - 最終動画ファイル出力