文生视频基础
了解 PonPon 上视频生成的运作方式:文生视频 vs 图生视频、在 Veo 3.1、Sora 2 和 Kling 3.0 等模型间做选择,以及 Edit 和 Motion Control 标签页。
视频生成器能把一条提示词——或一张图片——变成一段动态视频。它有三个标签页:Create Video、Edit Video 和 Motion Control。大多数工作都从 Create 开始。

一个生成器,四种输入模式
这里没有模式切换——PonPon 会根据你提供的内容判断你想要什么:
- 文生视频——只给一条提示词,别无其他。自由度最高;每一帧都由模型创造。
- 图生视频——上传一张 Start frame 起始帧,模型会以它作为第一帧让它动起来。对画面效果的掌控最强。
- 起始 → 结束变形——再加一张 End frame 结束帧,视频就会从一张图片过渡到另一张。
- 参考图生视频——在支持该功能的模型上附上参考图片/视频,把某个主体或风格带入镜头。
注意
你从不需要选模式——Start frame 起始帧、End frame 结束帧槽位以及任何参考附件会替你决定。如果你已经有一张满意的角色或产品图片,就从一帧开始;如果你还在探索,就从文字开始。
写运动,而不只是场景
一条静态图片提示词描述的是一个瞬间。一条视频提示词描述的是一个在变化的瞬间——主体、动作、镜头和节奏:
一名冲浪者在日出时分划水出海并在浪上站起,镜头在水面高度沿其一侧跟随,水花映着光。流畅、电影感的运动。
选择模型
选择器是一排芯片状的标签。每个都有清晰的强项:
- Veo 3.1——最可控的镜头语言,外加原生音频。出色的全能选手。Veo 3.1 Fast 能更快地草拟出同样的效果。
- Sora 2——同级别中最佳的物理表现和材质真实感,附带同步音频。
- Kling 3.0——精准的运动、对口型和多镜头叙事(一次生成中包含多个镜头切换)。
- Seedance 2.0——速度快、表现力强,竖屏优先,支持视听节拍同步。Seedance 2.0 Fast 更快。
- HappyHorse——最为全能:文本、图片、参考和编辑等多种流程,支持众多参考角色和原生音频。
宽高比、时长、分辨率、音频
- 宽高比——16:9 适合 YouTube,9:16 适合 TikTok / Reels / Shorts,1:1 适合信息流(从图片开始时会隐藏此项)。
- 时长与分辨率——可选项取决于模型。
- 音频——对于支持音频的模型,有一个开关可在生成画面的同时生成声音;某些模型(如 HappyHorse)始终包含音频。
提示
早期渲染尽量短一些,并使用默认分辨率。运动在 720p 和 1080p 下看起来一样,所以你能用一小部分积分先判断某个镜头是否成立,再投入长时间、高分辨率的完整版本。
超越 Create:Edit 与 Motion Control
- Edit Video——输入一段现有视频和一条提示词,对它重新调整风格或进行修改(视频生视频),可选择保留原始音频。
- Motion Control——用一段参考视频的运动去驱动一张静态的角色图片,并选择让角色跟随图片还是跟随视频。
渲染之后
想了解更深入的方法——镜头语言、镜头结构和常见问题的修复——请阅读视频提示词写作。