動画制作において、AIによる効率化はどこまで進んでいるでしょうか? 台本や企画の作成は、ChatGPTやClaudeなどの登場により劇的にスピードアップしました。しかし、いざ「動画編集」の工程に入ると、突然その恩恵が薄れてしまうと感じたことはありませんか?

「字幕の位置をちょっと上げたい」「このスライドが表示されるタイミングを少しずらしたい」 こうしたGUI(画面操作)中心の作業をAIに指示するのは非常に難しく、結局は人間がマウスを握って手作業で微調整を繰り返すハメになります。

今回は、この「動画編集のAI化の壁」を、Reactベースの動画作成フレームワーク「Remotion」を使って打ち破り、AIと人間が同じファイルを触って動画を作り上げる「革命的な協業フロー」について解説します。

なぜ動画編集のAI効率化は難しいのか?

最大の壁は、従来の動画編集ソフトが「GUI(グラフィカル・ユーザー・インターフェース)に依存していること」です。

動画編集は、レイヤー、タイムライン、位置(X/Y座標)、スケール、音量といった様々な概念の組み合わせで成り立っています。 しかし、AIに対して「字幕を全体的に上にずらして」「スライドが切り替わるタイミングを0.5秒早めて」と自然言語で指示しても、それをPremiere ProやAviUtlなどのソフト上に正確に反映させる手段が(基本的には)ありません。

結果として、「企画・台本(前半)はAIで爆速化したのに、編集(後半)は手作業の泥沼」というアンバランスな状態が生まれてしまうのです。

Remotionによるブレイクスルー:「動画のデータ化」

この問題を解決する鍵が「Remotion」です。

Remotionは、ReactとTypeScriptを使って「プログラムコードで動画を生成する」フレームワークです。これを使うと、映像を構成するすべての要素(テキスト、画像、キャラクター、音声)をコンポーネント(部品)として扱い、表示タイミングや位置を「数値(データ)」として定義できるようになります。

つまり、動画編集をマウスによる「操作」から、コードによる「データ編集」へと変換できるのです。 やりたいことを「数値」や「定義」で表現できる状態は、AIにとってこれ以上ないほど相性が良い環境と言えます。

核心はここ!AIと人間の共通言語「episode.json」

今回のワークフローにおける最大のポイントは、episode.jsonという一つのJSONファイルに、動画のすべての構成要素(編集情報)を集約したことです。

これにより、「人間もAIも、同じインターフェース(ファイル)を触って編集する」という状態が完成します。

episode.jsonに含める情報の例

  • キャラクター(琴葉姉妹やずんだもん等)の立ち位置、表情、表示タイミング
  • セリフのテキスト、字幕の表示位置、フォント指定
  • 音声ファイルのパスと、再生開始・終了時間
  • スライド画像(背景)の切り替えタイミングとスケール

この設計にすることで、今まで難しかった「AIに対する動画編集の直接指示」が可能になります。

AIへの指示例(episode.jsonの書き換え)

  • 「全スライドのscale(倍率)が1になっているので、全部1.5に変更して」
    • 結果: AIが一瞬でJSON内の対象箇所を書き換え。GUIで全選択して拡大し、レイアウト崩れを直す手間がゼロに。
  • 「字幕のY座標を全体的に+20して」
    • 結果: 一括で位置調整。数値管理なので元に戻すのも簡単。
  • 「セリフの内容に合わせて、キャラクターの表情(差分)を自動で設定して」
    • 結果: 悲しいセリフには「泣き顔」、嬉しいセリフには「笑顔」のパラメータをAIが文脈から判断して一括付与。手作業では地獄の作業が瞬殺。

私の実際の動画制作フロー(3フェーズ)

現在、私が実践している「AIとの協業フロー」は以下の通りです。どのフェーズにもAIアシスタントが介在します。

フェーズA:素材づくり(台本・音声)

  1. 企画・台本作成: 話したいテーマをざっくり出し、AI(ChatGPT/Claude等)と一緒に具体的なセリフ回し(台本)を作成。
  2. 音声生成: 完成した台本を合成音声ソフト(AI.VOICE2やVOICEVOX)に読み込ませて音声ファイルを出力。

フェーズB:episode.jsonの生成

  1. 台本の構造化: 台本をAIに渡し、episode.jsonの元となる構造化データ(Markdown等)に変換してもらう。(最近はClaude Codeなどを使って、台本から直接JSONを生成することも増えました)。
  2. 音声との紐付け: AIを使い、生成した音声ファイル群とセリフテキスト(字幕)をJSON上で紐付ける。
  3. テンプレート適用: 事前に作成しておいたRemotionのテンプレート(キャラ配置やフォント指定)をJSONに適用。

フェーズC:調整・仕上げ

  1. 画像の準備: 必要なスライド画像などをAIツールで生成。
  2. タイミング調整: AI.VOICE等が出力した「字幕テキストデータ(正)」を元に、AIに指示してJSON内の音声尺(duration)と字幕の表示タイミングのズレを修正させる。
  3. 表情の適用: セリフに合わせたキャラクターの表情をAIにJSONへ追記させる。
  4. プレビュー確認: Remotionのプレビュー画面で確認し、気になる箇所があればAIに指示してJSONを微調整。
  5. BGM・最終調整: (※ここは好みに応じて)出力した動画をAviUtl等のソフトに読み込み、重いBGM処理やエンディングを付与して完成。

編集環境自体が「育っていく」面白さ

この手法の素晴らしい点は、動画を作っている途中で「字幕を1文字ずつ出したい」「画像をセリフを跨いで表示したい」といった新しい表現(機能)が欲しくなったとき、それをAIと一緒に実装できることです。

Remotionのコード自体をAIに拡張してもらうことで、自分が一番使いやすいように「編集ソフト(環境)自体が育っていく」という、GUIソフトでは味わえない体験が得られます。

なぜ「完全自動化」ではなく「協業」なのか?

現在、プロンプト一つで動画が完成するような完全自動化のツールも増えています。しかし、私はあえてこの「半自動化(AIとの協業)」スタイルを選んでいます。

理由はシンプルで、「自分のこだわりは自分で決めたいから」です。

ゆっくり解説やVOICEROID実況のような動画では、セリフの絶妙な言い回し、キャラクターの間の取り方、テンポ感こそがクリエイターの「個性」であり「面白さ」の源泉です。

「面倒な単純作業(字幕配置や尺合わせ)はAIの同僚に任せ、自分は『どう見せるか』というクリエイティブなこだわりに100%集中する」

これこそが、Remotionとepisode.jsonがもたらす、動画制作の理想的な未来の形だと感じています。「動画編集は好きだけど、もっとアウトプットのスピードを上げたい」という方は、ぜひこのアプローチを試してみてください。