圖片提示詞寫作
一套實用的 PonPon AI 圖片提示詞方法:一個可靠的結構、從弱到強的改寫、模型能理解的風格與光線詞彙、參考圖片,以及問題修復。
一條好的圖片提示詞,讀起來就像你交給攝影師或插畫師的一份簡報:畫面裡有什麼、什麼風格、如何構圖、如何打光。把這四點都涵蓋到,你拿到可用圖片的機率,會遠高於只寫一個詞的提示詞。

一個可靠的結構
按這個順序來寫——它對應著一個鏡頭實際被規劃出來的方式:
- 主體——畫面裡有什麼,要具體。「一隻放在亞麻餐巾上的陶瓷咖啡杯。」
- 風格——媒材和處理手法。「雜誌產品照」、「扁平向量插畫」、「3D 算繪」、「水彩」。
- 構圖——取景和角度。「特寫、俯拍、置中、淺景深。」
- 光線與氛圍——「柔和的晨光」、「霓虹夜色」、「攝影棚柔光箱、高調光。」
一隻霧面黑色無線耳機充電盒放在濕潤石面上的雜誌產品照,俯拍,淺景深,柔和漫射的攝影棚光,極簡風格,冷色調。
從弱到強
同一個想法,依次加入主體的具體性、再加風格、再加光線,逐步打磨:
| 提示詞 | 結果 |
|---|---|
| 「一個咖啡杯」 | 一個泛泛的杯子,風格和光線都很隨機 |
| 「一隻放在亞麻餐巾上的陶瓷咖啡杯」 | 主體對了,但平淡、沒有風格 |
| 「一隻放在亞麻餐巾上的陶瓷咖啡杯的雜誌照,特寫」 | 符合簡報的構圖 |
| 「一隻放在亞麻餐巾上的陶瓷咖啡杯的雜誌照,特寫,柔和的晨間窗光,淺景深」 | 你真正想要的那張照片 |
每加一個子句,就替模型消除一個本來要由它替你做的決定。
注意
提示詞長度有一個上限(依模型而異),而 PonPon 不會替你裁剪一條過長的提示詞——它會直接失敗,而非執行。把要點放在最前面;如果你一個子句接一個子句地堆,那本來就已經越過了邊際效益遞減的臨界點。
模型能理解的詞彙
用具體的術語,而不是含糊的形容詞——模型會把這些對應到真實的視覺模式:
- 媒材——照片、插畫、3D 算繪、油畫、線描、等角投影、黏土動畫。
- 鏡頭與鏡頭規格——特寫、廣角、微距、俯拍、平視、35mm、散景、魚眼。
- 光線——黃金時刻、逆光、輪廓光、柔光箱、硬陰影、高調、低調。
- 氛圍 / 色調——柔和粉彩、高對比、單色、暖色調、電影感。
提示
一個精準的術語勝過三個模糊的。「黃金時刻逆光」傳達給模型的資訊,遠多於「不錯的光線」。
說你想要什麼,而非你不想要什麼
模型對正面描述的處理,遠勝於否定句。要求「一張空曠、極簡的桌子」,而不是「一張什麼都沒有的桌子」。如果你之後要在上面疊加文字或標誌,那就提示留白——「上方有大片空曠的天空」——而不是去描述不該出現什麼。
基於參考圖片創作
附上最多 10 張參考圖片來引導風格、構圖或某個特定主體。寫提示詞時,輸入 @ 來指向某張已附上的圖片:
把 @Image1 放到 @Image2 裡的桌子上,並比對 @Image2 的光線。
這是把多張參考圖組合進同一個畫面最乾淨的方式——完整的參考與編輯工作流程請參見標註編輯與參考圖片。
讓提示詞比對模型
同一條提示詞可以跨模型通用,但每個模型回報的側重點略有不同:
- GPT Image 2——把任何圖內文字逐字寫清楚,放進引號裡;它呈現文字比其他模型都更可靠。
- Seedream 5.0——多寫寫寫實細節(膚質、視線、景深);它對寫實感的推理很到位,也能處理圖內文字。
- Midjourney V8——多給氛圍和風格詞;它預設就偏向電影感和繪畫感。
- Nano Banana Pro——做精準編輯時,只描述要改的那一處(「把夾克改成紅色」);它無需遮罩就能局部編輯,在圖內文字上也很強。
提示
在圖片裡呈現文字,對大多數模型來說都是最難的。如果你的設計需要清晰可讀的文字——一塊招牌、一個標籤、一張海報——就選一個文字能力強的模型,並把確切的字詞放進引號裡:
一塊霓虹招牌寫著 "OPEN 24 HOURS"。參見 GPT Image 2 文字呈現。拿不準該用哪個?如何選擇模型把它們全都拆解清楚了。
警告
從 Discord 版 Midjourney 過來的?別把參數旗標——比如
--ar、--v 或 --style——打進提示詞裡。PonPon 會把它們當成普通字詞解析,模型則會拒絕整次生成。請改用提示列裡的長寬比、版本和風格控制項。修復常見問題
| 問題 | 試試這樣做 |
|---|---|
| 圖片裡的文字亂碼 | 切換到 GPT Image 2;把確切的字詞放進引號裡 |
| 主體強調錯位 | 把主體放在最前面;從提示詞裡刪掉背景雜物 |
| 跨多張圖片角色不一致 | 使用一張參考圖片,搭配一致性強的模型,比如 Nano Banana Pro |
| 幾乎對了,就一處細節不對 | 別重新生成——編輯成果,或對那一塊區域做標註後編輯 |
| 風格老是跑偏 | 明確指明媒材,並提供一張參考圖片 |
有意識地迭代
每次只改一個變數——先改模型,再改光線,然後改構圖——這樣你就能弄清每個動作的作用。當一批結果已經接近時,改用編輯,而不是把整條提示詞重寫一遍:用文字編輯修一個字,用多角度改變鏡頭,或者打磨背景,而不是從頭再來。
準備好把這些直覺帶入動態了嗎?閱讀影片提示詞寫作。