视频提示词写作

一套实用的 PonPon AI 视频提示词方法：镜头结构、模型能理解的镜头预设、节奏、各模型专属技巧，以及修复常见失败。

一条好的视频提示词，读起来就像导演递给摄影师的一段镜头说明。它写明主体、动作、镜头和光线——并克制住把三个镜头塞进一个的冲动。

一套可靠的结构

按这个顺序来写：

主体——是谁或是什么，要具体。"一位穿红色雨衣的年轻女子。"
动作——片段中唯一变化的那件事。"朝镜头走来并抬头仰望。"
场景——在哪里，周围有什么。"在夜晚一条被雨水浸湿的城市街道上，霓虹倒映在水洼里。"
镜头——运镜。"缓慢推近，平视视角。"
光线与氛围——"冷蓝色光，电影感，情绪化。"

一位穿红色雨衣的年轻女子朝镜头走来并抬头仰望，在夜晚一条被雨水浸湿、有霓虹倒影的城市街道上，平视缓慢推近，冷调电影感光线。9:16，5 秒。

模型能理解的镜头语言

PonPon 的 Studio 时间轴暴露了模型确实会响应的那些镜头运动——在任何提示词里都可以使用这些术语：

Push In / Pull Out（推近 / 拉远）——朝主体靠近或远离。
Pan Left / Right（左 / 右摇）、Tilt Up / Down（上 / 下俯仰）——镜头原地旋转。
Tracking（跟拍）——沿着移动的主体并行跟随。
Orbit（环绕）——绕着主体转圈。
Crane Up（升降臂上升）、Aerial（航拍）——升到场景上方。
Handheld（手持）——松散、有机的运动。
Dolly Zoom（移焦变焦）——眩晕效果。
Static（固定镜头）——锁死的机位。

提示

每段片段只指明一个主要运镜。一次性要求"又摇又推又环绕"通常只会得到一团糊——模型在几秒内无法兼顾三个方向。

一个镜头一个动作

最常见的错误是用多个事件描述一整个场景。一段片段只有几秒——给它一个节拍。如果你需要一个序列，就把每个镜头分别生成，再在 Flow 中拼装，或在 Kling 3.0 上用 Studio 的多镜头时间轴在一次生成中调度多个切换。

注意

提示词有一个长度上限（因模型而异），而 PonPon 不会替你裁剪过长的提示词——它会直接失败，而不是运行。把关键信息放在最前面；点明一个清晰的节拍，胜过堆砌一堆细节。

节奏与时长

迭代时把片段保持短一些；先判断运动，再投入更长的渲染。
"缓慢""从容""轻柔"对比"快速""利落""充满活力"这类词，确实会改变结果。

让模型匹配镜头

Veo 3.1——最精准的镜头调度，外加原生音频。当运镜很关键时选它。
Kling 3.0——最适合对话（对口型）和多镜头序列。
Sora 2——当物理表现和材质真实感是镜头的支柱时。
Seedance 2.0——快速、有表现力、竖屏优先的社交短片。

注意

一套有效的提示词结构可以跨模型迁移——同一段镜头说明在任何模型上都能跑。在两三个模型上试同一条提示词、留下最好的那条，而不是为每个模型重写。

修复常见问题

问题	试试这样做
人脸或手部扭曲	更简单的动作、更慢的运动，或通过图生视频从一张干净的图片开始
镜头无视你的指令	从上面的列表里指明一个明确的运镜；去掉相互冲突的指令
画面里发生的事太多	收敛到单个动作；拆成多个镜头
风格跑偏	提供一张 Start frame 起始帧，而不是用文字描述风格
主体强调错位	把主体放在最前面；移除背景杂物

用首帧锁定画面

当*风格*比惊喜更重要时，生成或上传一张静态图，并在视频生成器里用 Start frame 起始帧让它动起来。你不再为画面效果碰运气，只让模型负责处理运动。想了解基础知识，请重温文生视频基础。

视频提示词写作

一套实用的 PonPon AI 视频提示词方法：镜头结构、模型能理解的镜头预设、节奏、各模型专属技巧，以及修复常见失败。

一条好的视频提示词，读起来就像导演递给摄影师的一段镜头说明。它写明主体、动作、镜头和光线——并克制住把三个镜头塞进一个的冲动。

一套可靠的结构

按这个顺序来写：

主体——是谁或是什么，要具体。"一位穿红色雨衣的年轻女子。"
动作——片段中唯一变化的那件事。"朝镜头走来并抬头仰望。"
场景——在哪里，周围有什么。"在夜晚一条被雨水浸湿的城市街道上，霓虹倒映在水洼里。"
镜头——运镜。"缓慢推近，平视视角。"
光线与氛围——"冷蓝色光，电影感，情绪化。"

一位穿红色雨衣的年轻女子朝镜头走来并抬头仰望，在夜晚一条被雨水浸湿、有霓虹倒影的城市街道上，平视缓慢推近，冷调电影感光线。9:16，5 秒。

模型能理解的镜头语言

PonPon 的 Studio 时间轴暴露了模型确实会响应的那些镜头运动——在任何提示词里都可以使用这些术语：

Push In / Pull Out（推近 / 拉远）——朝主体靠近或远离。
Pan Left / Right（左 / 右摇）、Tilt Up / Down（上 / 下俯仰）——镜头原地旋转。
Tracking（跟拍）——沿着移动的主体并行跟随。
Orbit（环绕）——绕着主体转圈。
Crane Up（升降臂上升）、Aerial（航拍）——升到场景上方。
Handheld（手持）——松散、有机的运动。
Dolly Zoom（移焦变焦）——眩晕效果。
Static（固定镜头）——锁死的机位。

提示

每段片段只指明一个主要运镜。一次性要求"又摇又推又环绕"通常只会得到一团糊——模型在几秒内无法兼顾三个方向。

一个镜头一个动作

注意

节奏与时长

迭代时把片段保持短一些；先判断运动，再投入更长的渲染。
"缓慢""从容""轻柔"对比"快速""利落""充满活力"这类词，确实会改变结果。

让模型匹配镜头

Veo 3.1——最精准的镜头调度，外加原生音频。当运镜很关键时选它。
Kling 3.0——最适合对话（对口型）和多镜头序列。
Sora 2——当物理表现和材质真实感是镜头的支柱时。
Seedance 2.0——快速、有表现力、竖屏优先的社交短片。

注意

修复常见问题

问题	试试这样做
人脸或手部扭曲	更简单的动作、更慢的运动，或通过图生视频从一张干净的图片开始
镜头无视你的指令	从上面的列表里指明一个明确的运镜；去掉相互冲突的指令
画面里发生的事太多	收敛到单个动作；拆成多个镜头
风格跑偏	提供一张 Start frame 起始帧，而不是用文字描述风格
主体强调错位	把主体放在最前面；移除背景杂物

视频提示词写作

一套可靠的结构

模型能理解的镜头语言

一个镜头一个动作

节奏与时长

让模型匹配镜头

修复常见问题

用首帧锁定画面

相关文章

视频提示词写作

一套可靠的结构

模型能理解的镜头语言

一个镜头一个动作

节奏与时长

让模型匹配镜头

修复常见问题

用首帧锁定画面

相关文章