拉丁文字元準確率約 99%
GPT Image 2 以近乎完美的準確率再現英語和其他拉丁文文字。30 個字元以內的單詞可正確算繪大小寫、標點和間距。涵蓋大多數標題、標語、產品名稱和簡短段落。
AI 圖像生成中的文字算繪是指模型在生成的圖像中產出可辨識、拼寫正確的文字的能力。歷史上,這一直是基於擴散的模型最薄弱的環節——亂碼字母、缺失字元和隨機多餘筆畫是常態。挑戰在於文字對錯誤的容忍度為零:一個錯誤的字元就會使單詞不可讀或改變其含義。GPT Image 2 與擴散模型處理文字的方式不同:其自迴歸架構像處理語言一樣處理文字標記,理解字元序列而非嘗試逐像素繪製字母形狀。
GPT Image 2 以近乎完美的準確率再現英語和其他拉丁文文字。30 個字元以內的單詞可正確算繪大小寫、標點和間距。涵蓋大多數標題、標語、產品名稱和簡短段落。
中文、日文(平假名、片假名、漢字)和韓文(韓字)字元以正確的筆順和比例算繪。這是相比擴散模型的質變——後者通常會生成筆畫合併、多餘或缺失的中日韓字元。
印地文(天城文)和孟加拉文以正確的複合子音和母音標記算繪——在這些文字中,即使細微的錯誤也會使文字不可讀。之前的模型在這些文字上幾乎完全失敗。
在提示詞中描述字體樣式:「粗體無襯線」、「優雅襯線」、「手寫草書」、「等寬程式碼字體」。GPT Image 2 會調整字形以匹配描述的樣式,同時保持可讀性。
指定文字出現的位置:「置中在頂部」、「左下角」、「沿拱形彎曲」、「在對話氣泡內」。模型以合理的準確度遵循空間指令進行文字放置,儘管複雜排版(圓形文字、緊密排列的欄)可靠性較低。
前往 PonPon Image,從模型下拉選單中選擇 GPT Image 2。
將你想算繪的文字用引號括起來:*一張海報,上面寫著 "Summer Sale 50% Off",用粗體紅色字母*。使用引號將算繪文字與場景描述的其餘部分清楚分開。
添加字體細節:「大號粗體無襯線字體在頂部」、「小號斜體襯線字體在右下角」。你的排版說明越具體,輸出就越接近你的意圖。
點擊 生成 並放大驗證每個字元。雖然準確率約 99%,但複雜詞彙、不常見拼寫或非常長的文字字串偶爾可能出錯。如有需要可重新生成——不同生成的結果有所不同。
如果文字正確但其他元素需要調整,可以使用 GPT Image 2 的編輯功能修改圖像而無需從頭重新生成。文字將保持不變,同時你調整周圍的設計。
無論你是獨立創作者、設計團隊還是品牌方,每個模型都能適應你的工作方式。
A concert poster for a jazz night. Large text at the top: "BLUE NOTE SESSIONS" in gold serif font. Below: "Friday, June 20 · 8PM" in white sans-serif. Background: a smoky blue stage with a silhouetted saxophone player. Dark blue and gold color scheme. Portrait orientation.
模型:GPT Image 2 · 畫幅:2:3 · 品質:高
A minimal coffee bag design. The brand name "DAWN ROASTERS" in clean black sans-serif centered on a kraft paper bag. Below the name: "Single Origin · Ethiopia Yirgacheffe · Medium Roast" in smaller text. Simple line drawing of a coffee plant branch. Clean, premium feel.
模型:GPT Image 2 · 畫幅:3:4 · 品質:高
A modern Japanese restaurant menu header. Text: "鉄板焼き" (Teppanyaki) in large brushstroke-style calligraphy at the center. Below in smaller text: "炭火焼肉 · 寿司 · 天ぷら". Minimalist white background with a thin red line accent. Clean, elegant layout.
模型:GPT Image 2 · 畫幅:16:9 · 品質:高
A golden retriever wearing reading glasses sitting at a desk with a laptop. Top text: "WHEN THE MEETING COULD HAVE BEEN AN EMAIL" in bold white Impact font with black outline. Bottom text: "BUT HERE WE ARE" in the same style. Office background, bright lighting.
模型:GPT Image 2 · 畫幅:1:1 · 品質:標準
建立 Instagram 輪播、Twitter/X 橫幅和 LinkedIn 貼文圖形,標題和正文文字直接嵌入圖像。無需 Canva 或 Photoshop 圖層——文字是生成的一部分。幾分鐘內生成 10 個 A/B 測試變體。
生成產品包裝樣稿,展示你的實際品牌名稱、標語和成分列表。建立帶印花文字的 T 恤設計、帶標題和作者名的書籍封面,或帶逼真 UI 文字的應用程式截圖。文字一目了然即可讀取。
生成帶有實際可讀頂部/底部文字的迷因。之前的 AI 模型因為文字混亂而使迷因不可用。GPT Image 2 以 Impact、Arial 或任何描述的字體樣式生成乾淨、拼寫正確的文字。
為國際廣告活動建立標題文字為中文、日文、印地文或韓文的廣告視覺。以前需要設計師手動疊加文字。現在一個提示詞即可生成帶有正確算繪非拉丁文字的完整視覺。
| GPT Image 2 | 其他模型 | |
|---|---|---|
| 拉丁文字準確度 | 30 個字元以內約 99% 的字元準確率 | Midjourney V7:有所改進但仍約 85–90%。Flux:短文字約 95%。Stable Diffusion:約 70–80% |
| 中日韓文字算繪 | 中文、日文、韓文的筆順和比例正確 | 大多數模型生成中日韓文字時筆畫混亂或合併。Flux 能處理部分日文,但複雜漢字仍有困難 |
| 印度文字 | 天城文和孟加拉文的連字和母音符號正確 | 幾乎沒有其他圖像模型能可靠處理印度文字 |
| 字型樣式控制 | 回應描述性字型指令(襯線、無襯線、手寫、等寬) | 大多數模型字型樣式控制有限或無控制。Midjourney 有一些但不夠穩定 |
| 最大可靠文字長度 | 每個文字元素約 30 個字元,一張圖像可包含多個文字元素 | 大多數模型超過 10–15 個字元後品質下降。Nano Banana Pro 能較好處理約 20 個字元 |
始終在提示詞中用引號括起你想算繪的文字。"Summer Sale" 比直接在場景描述中寫 Summer Sale 效果更好。引號向模型發出訊號,表示這些字元必須原樣出現。
非常長的文字字串準確率會下降。如果需要一個段落,在提示詞描述中將其分成單獨的行:「第一行寫 X,第二行寫 Y」。每行單獨算繪比一大段文字更準確。
文字只有可讀才有用。明確描述對比度:「白色文字在深藍背景上」、「黑色文字在淺米色表面上」。如果不指定,模型可能會將文字放在繁忙的背景上,導致難以閱讀。
約 99% 的準確率意味著大約每 100 個字元可能有 1 個錯誤。對於 10 個詞的標題,這通常沒問題。對於 200 個詞的產品標籤,預計會有幾個錯誤。在將圖像用於生產之前,始終放大檢查每個詞。如有字元錯誤,重新生成。
加入數千名每天使用 PonPon 的創作者、設計團隊和品牌方。