图片生成基础
写好一条图片提示词,在 GPT Image 2、Nano Banana Pro 和 Seedream 5.0 等模型之间做选择,使用参考图片,并用标注工具编辑成果。
打开图片生成器,描述一张图片,选好模型,然后生成。结果会落入一个图库,你可以复用、编辑,或带入其他工具。本页介绍那些能拉开差距的习惯做法。

一切都从那条底部栏完成:输入提示词,在它右侧设置好选项,然后点击 Generate。确认前会显示费用。
一条好图片提示词的构成
大致按这个顺序涵盖四个方面:
- 主体——画面里有什么("一只放在亚麻餐巾上的陶瓷咖啡杯")。
- 风格——照片、插画、3D 渲染、水彩、产品图。
- 构图——特写、广角、俯拍、居中、三分法。
- 光线与氛围——柔和的晨光、霓虹夜色、影棚柔光箱。
一只哑光黑色无线耳机充电盒放在湿润的石面上的产品照,俯拍视角,柔和漫射的影棚光,浅景深,极简风格。
提示
描述你想要什么,而不是你不想要什么——比起"一张什么都没有的桌子",模型对"一张空旷、极简的桌子"的理解要好得多。把有效的提示词存下来;细微的措辞调整可以跨模型迁移。
选择模型
模型选择器是一排芯片状的标签。PonPon 默认使用 GPT Image 2;可根据任务切换:
- GPT Image 2——默认模型。生成与编辑集于一身,尤其擅长清晰可读的图内文字,并能接收多张参考图片。
- Nano Banana Pro——无需蒙版即可进行精准的局部编辑,角色/产品一致性强,最高支持 4K 渲染。Nano Banana 2 是它速度更快的同门兄弟。
- Seedream 5.0——杂志级写实质感和强大的视觉推理能力(手部、视线、景深)。Seedream 4.5 是更快、更便宜的档位。
- Midjourney V8——标志性的电影感、绘画感风格(每次生成出四个方案)。
注意
按任务挑模型:如果你的图片需要正确呈现文字,就选一个文字能力强的模型,比如 GPT Image 2。要呈现逼真的人物和产品,就试试主打写实的模型,比如 Seedream 5.0。同一条提示词可以跨模型复用,所以对比的成本很低。
宽高比、分辨率与批量
- 宽高比——1:1 适合头像和信息流,16:9 适合横幅,9:16 适合 Stories,另有一个"自动"选项可匹配你的参考图片。PonPon 提供了很宽泛的一套选择(从 21:9 一直到 2:3)。
- 分辨率——取决于模型(GPT Image 2 提供 1K / 2K / 4K)。
- 数量——批量生成,从中挑出最好的。
基于参考图片创作
附上最多 10 张参考图片(上传、粘贴、拖拽,或从图库中"用作参考")来引导构图、风格或某个特定主体。
提示
写提示词时,输入
@ 来提及某张已附上的图片——例如*"把 @Image1 放到 @Image2 里的桌子上"*。这是把多张参考图组合进同一个画面最干净的方式。用编辑代替重新生成
你不必从头开始才能做出改动:
- 标注后编辑——点击任意结果,打开一个全屏编辑器,内含选择、画笔、矩形、文字和橡皮擦工具以及一个取色器。标出你想改动的区域,输入一条编辑指令,PonPon 就只重新生成那一部分。
- 用背景移除替换背景,用文字编辑修正或替换文字,用多角度改变拍摄角度,或用图片放大让它达到印刷级清晰度。
试试 PonPon Muse
要拍摄时尚和人像照片,把模型选择器切换到 Muse:上传一张人物照片,选一种风格(Y2K、影棚、杂志胶片质感等),它就会运行一条引导式的人像处理流程。
有意识地迭代
- 每次只改一个变量——先改模型,再改光线,然后改构图。
- 如果你之后要在上面叠放文字,可在提示词里加入留白。
- 当一批结果接近但还不对时,改用编辑,而不是把整条提示词重新跑一遍。
准备好进入动态了吗?把同样的直觉带入文生视频基础。