图片提示词写作
一套实用的 PonPon AI 图片提示词方法:可靠的结构、由弱到强的改写、模型能理解的风格与光线词汇、参考图,以及常见问题的修复。
一条好的图片提示词,读起来就像你递给摄影师或插画师的一份说明:画面里有什么、什么风格、如何构图、如何打光。把这四点都覆盖到,你拿到可用图片的概率,会远远高于一个单词的提示词。

一套可靠的结构
按这个顺序来写——它对应着一个镜头实际的策划方式:
- 主体——画面里有什么,要具体。"一只放在亚麻餐巾上的陶瓷咖啡杯。"
- 风格——媒介和处理手法。"杂志产品照""扁平矢量插画""3D 渲染""水彩"。
- 构图——取景和角度。"特写、俯拍、居中、浅景深。"
- 光线与氛围——"柔和的晨光""霓虹夜色""影棚柔光箱、高调"。
一只哑光黑色无线耳机充电盒放在湿润石面上的杂志产品照,俯拍,浅景深,柔和漫射的影棚光,极简风格,冷色调。
由弱到强
同一个想法,依次靠增加主体的具体性、再加风格、再加光线来逐步打磨:
| 提示词 | 结果 |
|---|---|
| "一只咖啡杯" | 一只泛泛的杯子,风格和光线全随机 |
| "一只放在亚麻餐巾上的陶瓷咖啡杯" | 主体对了,但平淡、无风格 |
| "一只放在亚麻餐巾上的陶瓷咖啡杯的杂志照,特写" | 符合说明的构图 |
| "一只放在亚麻餐巾上的陶瓷咖啡杯的杂志照,特写,柔和的晨间窗光,浅景深" | 你真正想要的那张图 |
每加一个分句,就替你少留一个本该由模型替你做的决定。
注意
提示词长度有一个上限(因模型而异),而 PonPon 不会替你裁剪过长的提示词——它会直接失败,而不是运行。把关键信息放在最前面;如果你还在一句接一句地堆砌,其实早已越过了边际收益递减的临界点。
模型能理解的词汇
用具体的术语,而不是含糊的形容词——模型会把这些词映射到真实的视觉模式上:
- 媒介——照片、插画、3D 渲染、油画、线描、等距视角、黏土动画。
- 镜头与镜片——特写、广角、微距、俯拍、平视、35mm、虚化、鱼眼。
- 光线——黄金时刻、逆光、轮廓光、柔光箱、硬阴影、高调、低调。
- 氛围 / 色调——柔和的粉彩、高对比、单色、暖色调、电影感。
提示
一个精准的术语胜过三个含糊的。"黄金时刻逆光"告诉模型的信息,远比"光线很好"要多得多。
说你想要什么,而不是你不想要什么
模型对正向描述的处理,远比否定式要好。要"一张空旷、极简的桌子",而不是"一张什么都没有的桌子"。如果你之后要在上面叠加文字或 logo,就提示留白——"上方留出大片空旷的天空"——而不是去描述哪里不该有什么。
基于参考图片创作
附上最多 10 张参考图片来引导风格、构图或某个特定主体。写提示词时,输入 @ 来指向某张已附上的图片:
把 @Image1 放到 @Image2 里的桌子上,并匹配 @Image2 的光线。
这是把多张参考图组合进同一个画面最干净的方式——完整的参考与编辑工作流见标注编辑与参考图片。
让提示词匹配模型
同一条提示词在各模型间通用,但每个模型偏爱的侧重点略有不同:
- GPT Image 2——把任何图内文字用引号原样写清楚;它渲染文字比别家都更可靠。
- Seedream 5.0——往写实细节上使劲(皮肤、视线、景深);它对写实有很好的推理能力,也能处理图内文字。
- Midjourney V8——给它氛围和风格类的词;它默认就偏电影感和绘画感。
- Nano Banana Pro——做精准编辑时,只描述那处改动("把夹克改成红色");它无需蒙版就能局部编辑,在图内文字上也很强。
提示
在图片内部渲染文字,是大多数模型最难的事。如果你的设计需要清晰可读的文字——一块招牌、一个标签、一张海报——就选一个文字能力强的模型,并把确切的文字放进引号里:
a neon sign reading "OPEN 24 HOURS"。参见 GPT Image 2 文字渲染。拿不准用哪个?如何选择模型把它们逐一拆解给你。
警告
从 Discord Midjourney 过来的?不要在提示词里输入参数标记,比如
--ar、--v 或 --style——PonPon 会把它们当成普通词语解析,模型会因此拒掉整次生成。请改用提示词栏里的宽高比、版本和风格控件。修复常见问题
| 问题 | 试试这样做 |
|---|---|
| 图中文字乱码 | 切到 GPT Image 2;把确切的文字加上引号 |
| 主体强调错位 | 把主体放在最前面;从提示词里删掉背景杂物 |
| 角色在多张图间不一致 | 使用一张参考图,并搭配一致性强的模型,如 Nano Banana Pro |
| 几乎对了,就差一个细节 | 别重新跑——编辑那个结果,或只标注编辑那块区域 |
| 风格老是跑偏 | 明确点名媒介,并提供一张参考图 |
有意识地迭代
每次只改一个变量——先改模型,再改光线,然后改构图——这样你才能弄清每一步的作用。当一批结果接近时,改用编辑而不是把整条提示词重写一遍:用文字编辑修一个词,用多角度换镜头角度,或者去打磨背景,而不是从头来过。
准备好把这些直觉带入动态了吗?阅读视频提示词写作。