视频提示词写作
一套实用的 PonPon AI 视频提示词方法:镜头结构、模型能理解的镜头预设、节奏、各模型专属技巧,以及修复常见失败。
一条好的视频提示词,读起来就像导演递给摄影师的一段镜头说明。它写明主体、动作、镜头和光线——并克制住把三个镜头塞进一个的冲动。
一套可靠的结构
按这个顺序来写:
- 主体——是谁或是什么,要具体。"一位穿红色雨衣的年轻女子。"
- 动作——片段中唯一变化的那件事。"朝镜头走来并抬头仰望。"
- 场景——在哪里,周围有什么。"在夜晚一条被雨水浸湿的城市街道上,霓虹倒映在水洼里。"
- 镜头——运镜。"缓慢推近,平视视角。"
- 光线与氛围——"冷蓝色光,电影感,情绪化。"
一位穿红色雨衣的年轻女子朝镜头走来并抬头仰望,在夜晚一条被雨水浸湿、有霓虹倒影的城市街道上,平视缓慢推近,冷调电影感光线。9:16,5 秒。
模型能理解的镜头语言
PonPon 的 Studio 时间轴暴露了模型确实会响应的那些镜头运动——在任何提示词里都可以使用这些术语:
- Push In / Pull Out(推近 / 拉远)——朝主体靠近或远离。
- Pan Left / Right(左 / 右摇)、Tilt Up / Down(上 / 下俯仰)——镜头原地旋转。
- Tracking(跟拍)——沿着移动的主体并行跟随。
- Orbit(环绕)——绕着主体转圈。
- Crane Up(升降臂上升)、Aerial(航拍)——升到场景上方。
- Handheld(手持)——松散、有机的运动。
- Dolly Zoom(移焦变焦)——眩晕效果。
- Static(固定镜头)——锁死的机位。
提示
每段片段只指明一个主要运镜。一次性要求"又摇又推又环绕"通常只会得到一团糊——模型在几秒内无法兼顾三个方向。
一个镜头一个动作
最常见的错误是用多个事件描述一整个场景。一段片段只有几秒——给它一个节拍。如果你需要一个序列,就把每个镜头分别生成,再在 Flow 中拼装,或在 Kling 3.0 上用 Studio 的多镜头时间轴在一次生成中调度多个切换。
注意
提示词有一个长度上限(因模型而异),而 PonPon 不会替你裁剪过长的提示词——它会直接失败,而不是运行。把关键信息放在最前面;点明一个清晰的节拍,胜过堆砌一堆细节。
节奏与时长
- 迭代时把片段保持短一些;先判断运动,再投入更长的渲染。
- "缓慢""从容""轻柔"对比"快速""利落""充满活力"这类词,确实会改变结果。
让模型匹配镜头
- Veo 3.1——最精准的镜头调度,外加原生音频。当运镜很关键时选它。
- Kling 3.0——最适合对话(对口型)和多镜头序列。
- Sora 2——当物理表现和材质真实感是镜头的支柱时。
- Seedance 2.0——快速、有表现力、竖屏优先的社交短片。
注意
一套有效的提示词结构可以跨模型迁移——同一段镜头说明在任何模型上都能跑。在两三个模型上试同一条提示词、留下最好的那条,而不是为每个模型重写。
修复常见问题
| 问题 | 试试这样做 |
|---|---|
| 人脸或手部扭曲 | 更简单的动作、更慢的运动,或通过图生视频从一张干净的图片开始 |
| 镜头无视你的指令 | 从上面的列表里指明一个明确的运镜;去掉相互冲突的指令 |
| 画面里发生的事太多 | 收敛到单个动作;拆成多个镜头 |
| 风格跑偏 | 提供一张 Start frame 起始帧,而不是用文字描述风格 |
| 主体强调错位 | 把主体放在最前面;移除背景杂物 |
用首帧锁定画面
当*风格*比惊喜更重要时,生成或上传一张静态图,并在视频生成器里用 Start frame 起始帧让它动起来。你不再为画面效果碰运气,只让模型负责处理运动。想了解基础知识,请重温文生视频基础。