テキストから動画の基本

PonPon での動画生成の仕組み：テキストから動画 vs 画像から動画、Veo 3.1・Sora 2・Kling 3.0 などのモデル選び、Edit と Motion Control タブ。

動画ジェネレーターは、プロンプト——または画像——を動くクリップに変えます。タブは 3 つ：Create Video、Edit Video、Motion Control。たいていの作業は Create から始まります。

PonPon の動画ジェネレーターの Create Video タブ——上部に並ぶ 3 つのタブ、モデルセレクター、Start/End frame（開始／終了フレーム）スロット、プロンプト入力欄、そしてアスペクト比・長さ・解像度・音声のコントロール。

1 つのジェネレーター、4 つの入力モード

モード切替はありません——PonPon は与えたものから何をしたいか判断します。

テキストから動画——プロンプトだけ。自由度は最大；すべてのフレームをモデルが創ります。
画像から動画——Start frame（開始フレーム）をアップロードすると、それを最初のフレームとして動かします。見た目のコントロールは最大。
開始 → 終了モーフ——End frame（終了フレーム）も加えると、一方の画像から他方へ移り変わります。
参照から動画——対応モデルで参照画像／動画を添付し、被写体やスタイルをショットに持ち込みます。

メモ

モードを選ぶことは一切ありません——Start frame と End frame のスロット、そして参照添付があなたの代わりに決めます。気に入ったキャラクターや商品の画像がもうあるなら 1 フレームから、探索中ならテキストから始めましょう。

場面ではなく、動きを書く

静止画のプロンプトは一瞬を描きます。動画のプロンプトは変化する一瞬を描きます——被写体、アクション、カメラ、テンポ。

サーファーが日の出にパドルアウトして波に立ち上がり、カメラは水面の高さで横に並走し、しぶきが光を受ける。なめらかでシネマティックな動き。

モデルを選ぶ

セレクターはチップ状の一列です。それぞれに明確な強みがあります。

Veo 3.1——最も制御しやすいカメラ言語にネイティブ音声。優れた万能選手。Veo 3.1 Fast は同じルックを素早く下書きします。
Sora 2——クラス最高の物理表現と質感のリアリズム、同期音声付き。
Kling 3.0——精密な動き、リップシンク、マルチショットの語り（1 回の生成で複数のカット）。
Seedance 2.0——速くて表現力豊か、縦型優先、オーディオビジュアルのビート同期。Seedance 2.0 Fast はさらに速い。
HappyHorse——最も万能：テキスト・画像・参照・編集のパイプライン、多数の参照キャラクターとネイティブ音声。

アスペクト比、長さ、解像度、音声

アスペクト比——YouTube は 16:9、TikTok / Reels / Shorts は 9:16、フィードは 1:1（画像から始めると非表示）。
長さと解像度——選べる値はモデルによります。
音声——音声対応モデルでは映像と一緒に音を生成するトグルがあります。一部のモデル（HappyHorse など）は常に音声を含みます。

ヒント

初期のレンダリングは短く、デフォルト解像度のままに。動きは 720p でも 1080p でも同じに読めるので、長尺・高解像度に踏み切る前に、わずかなクレジットでショットが成立するか判断できます。

Create の先：Edit と Motion Control

Edit Video——既存のクリップとプロンプトを入れ、スタイルを変えたり修正したり（動画から動画）。元の音声を残すことも選べます。
Motion Control——参照動画の動きで静止したキャラクター画像を動かし、キャラクターが画像と動画のどちらに従うかを選びます。

レンダリングのあと

Flow でショットを並べて再実行するか、Studio でマルチシーン作品を組む。
オーディオスタジオでナレーション、音楽、効果音を追加。

より深い方法——カメラ言語、ショット構成、よくある不具合の直し方——は動画のプロンプト術を読んでください。

テキストから動画の基本

PonPon での動画生成の仕組み：テキストから動画 vs 画像から動画、Veo 3.1・Sora 2・Kling 3.0 などのモデル選び、Edit と Motion Control タブ。

1 つのジェネレーター、4 つの入力モード

モード切替はありません——PonPon は与えたものから何をしたいか判断します。

テキストから動画——プロンプトだけ。自由度は最大；すべてのフレームをモデルが創ります。
画像から動画——Start frame（開始フレーム）をアップロードすると、それを最初のフレームとして動かします。見た目のコントロールは最大。
開始 → 終了モーフ——End frame（終了フレーム）も加えると、一方の画像から他方へ移り変わります。
参照から動画——対応モデルで参照画像／動画を添付し、被写体やスタイルをショットに持ち込みます。

メモ

場面ではなく、動きを書く

静止画のプロンプトは一瞬を描きます。動画のプロンプトは変化する一瞬を描きます——被写体、アクション、カメラ、テンポ。

サーファーが日の出にパドルアウトして波に立ち上がり、カメラは水面の高さで横に並走し、しぶきが光を受ける。なめらかでシネマティックな動き。

モデルを選ぶ

セレクターはチップ状の一列です。それぞれに明確な強みがあります。

Veo 3.1——最も制御しやすいカメラ言語にネイティブ音声。優れた万能選手。Veo 3.1 Fast は同じルックを素早く下書きします。
Sora 2——クラス最高の物理表現と質感のリアリズム、同期音声付き。
Kling 3.0——精密な動き、リップシンク、マルチショットの語り（1 回の生成で複数のカット）。
Seedance 2.0——速くて表現力豊か、縦型優先、オーディオビジュアルのビート同期。Seedance 2.0 Fast はさらに速い。
HappyHorse——最も万能：テキスト・画像・参照・編集のパイプライン、多数の参照キャラクターとネイティブ音声。

アスペクト比、長さ、解像度、音声

アスペクト比——YouTube は 16:9、TikTok / Reels / Shorts は 9:16、フィードは 1:1（画像から始めると非表示）。
長さと解像度——選べる値はモデルによります。
音声——音声対応モデルでは映像と一緒に音を生成するトグルがあります。一部のモデル（HappyHorse など）は常に音声を含みます。

ヒント

Create の先：Edit と Motion Control

Edit Video——既存のクリップとプロンプトを入れ、スタイルを変えたり修正したり（動画から動画）。元の音声を残すことも選べます。
Motion Control——参照動画の動きで静止したキャラクター画像を動かし、キャラクターが画像と動画のどちらに従うかを選びます。

レンダリングのあと

Flow でショットを並べて再実行するか、Studio でマルチシーン作品を組む。
オーディオスタジオでナレーション、音楽、効果音を追加。

より深い方法——カメラ言語、ショット構成、よくある不具合の直し方——は動画のプロンプト術を読んでください。

テキストから動画の基本

1 つのジェネレーター、4 つの入力モード

場面ではなく、動きを書く

モデルを選ぶ

アスペクト比、長さ、解像度、音声

Create の先：Edit と Motion Control

レンダリングのあと

関連記事

テキストから動画の基本

1 つのジェネレーター、4 つの入力モード

場面ではなく、動きを書く

モデルを選ぶ

アスペクト比、長さ、解像度、音声

Create の先：Edit と Motion Control

レンダリングのあと

関連記事