テキストから動画の基本
PonPon での動画生成の仕組み:テキストから動画 vs 画像から動画、Veo 3.1・Sora 2・Kling 3.0 などのモデル選び、Edit と Motion Control タブ。
動画ジェネレーターは、プロンプト——または画像——を動くクリップに変えます。タブは 3 つ:Create Video、Edit Video、Motion Control。たいていの作業は Create から始まります。

1 つのジェネレーター、4 つの入力モード
モード切替はありません——PonPon は与えたものから何をしたいか判断します。
- テキストから動画——プロンプトだけ。自由度は最大;すべてのフレームをモデルが創ります。
- 画像から動画——Start frame(開始フレーム)をアップロードすると、それを最初のフレームとして動かします。見た目のコントロールは最大。
- 開始 → 終了モーフ——End frame(終了フレーム)も加えると、一方の画像から他方へ移り変わります。
- 参照から動画——対応モデルで参照画像/動画を添付し、被写体やスタイルをショットに持ち込みます。
メモ
モードを選ぶことは一切ありません——Start frame と End frame のスロット、そして参照添付があなたの代わりに決めます。気に入ったキャラクターや商品の画像がもうあるなら 1 フレームから、探索中ならテキストから始めましょう。
場面ではなく、動きを書く
静止画のプロンプトは一瞬を描きます。動画のプロンプトは変化する一瞬を描きます——被写体、アクション、カメラ、テンポ。
サーファーが日の出にパドルアウトして波に立ち上がり、カメラは水面の高さで横に並走し、しぶきが光を受ける。なめらかでシネマティックな動き。
モデルを選ぶ
セレクターはチップ状の一列です。それぞれに明確な強みがあります。
- Veo 3.1——最も制御しやすいカメラ言語にネイティブ音声。優れた万能選手。Veo 3.1 Fast は同じルックを素早く下書きします。
- Sora 2——クラス最高の物理表現と質感のリアリズム、同期音声付き。
- Kling 3.0——精密な動き、リップシンク、マルチショットの語り(1 回の生成で複数のカット)。
- Seedance 2.0——速くて表現力豊か、縦型優先、オーディオビジュアルのビート同期。Seedance 2.0 Fast はさらに速い。
- HappyHorse——最も万能:テキスト・画像・参照・編集のパイプライン、多数の参照キャラクターとネイティブ音声。
アスペクト比、長さ、解像度、音声
- アスペクト比——YouTube は 16:9、TikTok / Reels / Shorts は 9:16、フィードは 1:1(画像から始めると非表示)。
- 長さと解像度——選べる値はモデルによります。
- 音声——音声対応モデルでは映像と一緒に音を生成するトグルがあります。一部のモデル(HappyHorse など)は常に音声を含みます。
ヒント
初期のレンダリングは短く、デフォルト解像度のままに。動きは 720p でも 1080p でも同じに読めるので、長尺・高解像度に踏み切る前に、わずかなクレジットでショットが成立するか判断できます。
Create の先:Edit と Motion Control
- Edit Video——既存のクリップとプロンプトを入れ、スタイルを変えたり修正したり(動画から動画)。元の音声を残すことも選べます。
- Motion Control——参照動画の動きで静止したキャラクター画像を動かし、キャラクターが画像と動画のどちらに従うかを選びます。
レンダリングのあと
より深い方法——カメラ言語、ショット構成、よくある不具合の直し方——は動画のプロンプト術を読んでください。