图生视频指南
让你已有的一张静态图动起来:挑一张过硬的源图、用好起始帧和结束帧、写运动(而非场景),并为 PonPon 上的图生视频选对模型。
图生视频从一张你已有的图片出发,让它动起来。由于第一帧锁定在你的图片上,你对画面观感拥有最大的掌控——你只是在请模型负责处理运动,而不是凭空构想整个场景。

两种入口
- 图生视频工具——最直接的路径:上传一张照片,加一条提示词,生成。
- 视频生成器——把你的图片放进 Create 标签页的 Start Frame 起始帧槽位。这里没有模式切换;一旦存在起始帧,PonPon 就会从它开始让画面动起来。
无论哪种方式,源图都会成为第一帧,之后交由模型接手。
挑一张过硬的源图
成片的上限,取决于它起步的那张静态图:
- 清晰、光线良好,主体清楚可辨。
- 为运动而构图——在画面将要移动的方向上留出空间。
- 对于人物,一张干净、正面打光的脸,比繁杂或带阴影的脸要可靠得多。
提示
如果你手头没有合适的静态图,先去图片生成器做一张——然后再让它动起来。先生成一张你满意的画面、再为它加上运动,胜过赌文生视频能一次性同时搞定观感*和*运动。
起始帧,或起始→结束变形
- 仅起始帧——模型从你的图片向外延展出运动。当你想从一个固定的开场得到自然的运动时最合适。
- 起始 + 结束帧——再加一张图,成片就会从一张过渡到另一张。非常适合变身、揭晓和前后对比的节拍。
写运动,而不是场景
你的图片已经定义了主体、风格和场景——所以提示词的任务是运动。两个例子:
起始帧(一张人像):*她把头转向镜头并微笑;头发轻柔摆动;缓慢推近。电影感,平静。*
起始 → 结束变形(闭合的花苞 → 盛开的花):*花苞缓缓舒展为完全绽放;柔和的延时质感;固定镜头。*
不要再去重述画面里已经有的东西。点明动作、运镜和节奏——那才是模型还需要去决定的部分。
图生视频的最佳模型
- Kling 3.0——精准的图生视频运动外加对口型,当人物需要自然地动起来或开口说话时最理想。
- Sora 2——当物体、布料或人群需要可信地运动时,提供最令人信服的物理表现。
- Seedance 2.0——从单张照片出发的快速、竖屏优先社交短片。
- Veo 3.1——最可控的镜头语言,并带原生音频。
- HappyHorse——如果你还想附上参考角色,它最为全能。
注意
注意
常见修复
| 问题 | 试试这样做 |
|---|---|
| 人脸或手部扭曲 | 从一张更干净、更清晰的照片开始;要求更慢的运动 |
| 几乎没什么在动 | 在提示词里点明一个明确的动作和运镜 |
| 观感偏离了你的图片 | 缩短片段;不要去提示图片本来就有的风格 |
| 过渡显得突兀 | 做变形时,挑取景和光线相近的起始/结束帧 |
| "Photos of real people aren't supported" | 某个模型的隐私过滤——真人脸请改用 Kling 3.0 或 Veo 3.1 |
要了解更全面的图景——四种输入模式以及 Edit 和 Motion Control 标签页——请阅读文生视频基础。要打磨提示词功力,参见视频提示词写作。