文生视频基础

了解 PonPon 上视频生成的运作方式：文生视频 vs 图生视频、在 Veo 3.1、Sora 2 和 Kling 3.0 等模型间做选择，以及 Edit 和 Motion Control 标签页。

视频生成器能把一条提示词——或一张图片——变成一段动态视频。它有三个标签页：Create Video、Edit Video 和 Motion Control。大多数工作都从 Create 开始。

PonPon 视频生成器的 Create Video 标签页——顶部横排的三个标签、模型选择器、Start/End frame 起始/结束帧槽位、提示词输入框，以及宽高比、时长、分辨率和音频控件。

一个生成器，四种输入模式

这里没有模式切换——PonPon 会根据你提供的内容判断你想要什么：

文生视频——只给一条提示词，别无其他。自由度最高；每一帧都由模型创造。
图生视频——上传一张 Start frame 起始帧，模型会以它作为第一帧让它动起来。对画面效果的掌控最强。
起始 → 结束变形——再加一张 End frame 结束帧，视频就会从一张图片过渡到另一张。
参考图生视频——在支持该功能的模型上附上参考图片/视频，把某个主体或风格带入镜头。

注意

你从不需要选模式——Start frame 起始帧、End frame 结束帧槽位以及任何参考附件会替你决定。如果你已经有一张满意的角色或产品图片，就从一帧开始；如果你还在探索，就从文字开始。

写运动，而不只是场景

一条静态图片提示词描述的是一个瞬间。一条视频提示词描述的是一个在变化的瞬间——主体、动作、镜头和节奏：

一名冲浪者在日出时分划水出海并在浪上站起，镜头在水面高度沿其一侧跟随，水花映着光。流畅、电影感的运动。

选择模型

选择器是一排芯片状的标签。每个都有清晰的强项：

Veo 3.1——最可控的镜头语言，外加原生音频。出色的全能选手。Veo 3.1 Fast 能更快地草拟出同样的效果。
Sora 2——同级别中最佳的物理表现和材质真实感，附带同步音频。
Kling 3.0——精准的运动、对口型和多镜头叙事（一次生成中包含多个镜头切换）。
Seedance 2.0——速度快、表现力强，竖屏优先，支持视听节拍同步。Seedance 2.0 Fast 更快。
HappyHorse——最为全能：文本、图片、参考和编辑等多种流程，支持众多参考角色和原生音频。

宽高比、时长、分辨率、音频

宽高比——16:9 适合 YouTube，9:16 适合 TikTok / Reels / Shorts，1:1 适合信息流（从图片开始时会隐藏此项）。
时长与分辨率——可选项取决于模型。
音频——对于支持音频的模型，有一个开关可在生成画面的同时生成声音；某些模型（如 HappyHorse）始终包含音频。

提示

早期渲染尽量短一些，并使用默认分辨率。运动在 720p 和 1080p 下看起来一样，所以你能用一小部分积分先判断某个镜头是否成立，再投入长时间、高分辨率的完整版本。

超越 Create：Edit 与 Motion Control

Edit Video——输入一段现有视频和一条提示词，对它重新调整风格或进行修改（视频生视频），可选择保留原始音频。
Motion Control——用一段参考视频的运动去驱动一张静态的角色图片，并选择让角色跟随图片还是跟随视频。

渲染之后

在 Flow 中排列镜头并重新运行，或在 Studio 中搭建多场景作品。
在音频工作室中添加配音、音乐或音效。

想了解更深入的方法——镜头语言、镜头结构和常见问题的修复——请阅读视频提示词写作。

文生视频基础

了解 PonPon 上视频生成的运作方式：文生视频 vs 图生视频、在 Veo 3.1、Sora 2 和 Kling 3.0 等模型间做选择，以及 Edit 和 Motion Control 标签页。

一个生成器，四种输入模式

这里没有模式切换——PonPon 会根据你提供的内容判断你想要什么：

文生视频——只给一条提示词，别无其他。自由度最高；每一帧都由模型创造。
图生视频——上传一张 Start frame 起始帧，模型会以它作为第一帧让它动起来。对画面效果的掌控最强。
起始 → 结束变形——再加一张 End frame 结束帧，视频就会从一张图片过渡到另一张。
参考图生视频——在支持该功能的模型上附上参考图片/视频，把某个主体或风格带入镜头。

注意

写运动，而不只是场景

一条静态图片提示词描述的是一个瞬间。一条视频提示词描述的是一个在变化的瞬间——主体、动作、镜头和节奏：

一名冲浪者在日出时分划水出海并在浪上站起，镜头在水面高度沿其一侧跟随，水花映着光。流畅、电影感的运动。

选择模型

选择器是一排芯片状的标签。每个都有清晰的强项：

Veo 3.1——最可控的镜头语言，外加原生音频。出色的全能选手。Veo 3.1 Fast 能更快地草拟出同样的效果。
Sora 2——同级别中最佳的物理表现和材质真实感，附带同步音频。
Kling 3.0——精准的运动、对口型和多镜头叙事（一次生成中包含多个镜头切换）。
Seedance 2.0——速度快、表现力强，竖屏优先，支持视听节拍同步。Seedance 2.0 Fast 更快。
HappyHorse——最为全能：文本、图片、参考和编辑等多种流程，支持众多参考角色和原生音频。

宽高比、时长、分辨率、音频

宽高比——16:9 适合 YouTube，9:16 适合 TikTok / Reels / Shorts，1:1 适合信息流（从图片开始时会隐藏此项）。
时长与分辨率——可选项取决于模型。
音频——对于支持音频的模型，有一个开关可在生成画面的同时生成声音；某些模型（如 HappyHorse）始终包含音频。

提示

超越 Create：Edit 与 Motion Control

Edit Video——输入一段现有视频和一条提示词，对它重新调整风格或进行修改（视频生视频），可选择保留原始音频。
Motion Control——用一段参考视频的运动去驱动一张静态的角色图片，并选择让角色跟随图片还是跟随视频。

渲染之后

在 Flow 中排列镜头并重新运行，或在 Studio 中搭建多场景作品。
在音频工作室中添加配音、音乐或音效。

想了解更深入的方法——镜头语言、镜头结构和常见问题的修复——请阅读视频提示词写作。

文生视频基础

一个生成器，四种输入模式

写运动，而不只是场景

选择模型

宽高比、时长、分辨率、音频

超越 Create：Edit 与 Motion Control

渲染之后

相关文章

文生视频基础

一个生成器，四种输入模式

写运动，而不只是场景

选择模型

宽高比、时长、分辨率、音频

超越 Create：Edit 与 Motion Control

渲染之后

相关文章