每次生成最多 9 張參考圖像
HappyHorse 接受 1 到 9 張參考圖像——這是目前 AI 影片模型中最高的數量。每張參考圖繫結到一個單獨的角色標記,因此單次生成中包含 9 個不同人物的群組場景是可能的。
多參考圖生成讓你提供多張來源圖像——每個角色一張——以便 AI 模型在影片中保持每個人獨特的外觀。模型將每張參考圖映射到提示詞中的命名標記(如 [person1]、[person2]),將臉部特徵、身體比例和服裝繫結到該標記。這與只能保持一個身份的單參考圖模型根本不同,後者迫使多人場景中的次要角色只能被隨機生成。
HappyHorse 接受 1 到 9 張參考圖像——這是目前 AI 影片模型中最高的數量。每張參考圖繫結到一個單獨的角色標記,因此單次生成中包含 9 個不同人物的群組場景是可能的。
參考圖像被指派給 [person1] 到 [person9] 等標記。在提示詞中使用這些標記來獨立定位和指導每個角色:「[person1] 將咖啡杯遞給 [person3],同時 [person2] 在背景中揮手。」
因為所有參考圖在同一生成過程中載入,角色可以自然互動——握手、對話、傳遞物品。單參考圖模型需要合成單獨的片段才能實現這一點。
臉部特徵、膚色、髮型和服裝從第 1 幀到片段結尾保持穩定。即使鏡頭角度變化或部分遮擋,也不會出現中途身份漂移。
參考圖可以是頭像照、全身照或風格化插畫。HappyHorse 無論來源圖像格式如何都能擷取身份特徵,不過正面拍攝、表情中性的照片產出最準確的結果。
前往 PonPon Video,從模型下拉選單中選擇 HappyHorse。
點擊參考圖像上傳區域並新增 1 到 9 張圖像。每張圖像應清楚展示一個人的臉部——正面、光線充足、遮擋最少。標註或記錄順序(person1、person2 等)。
使用標記引用每張上傳的圖像:[person1]、[person2] 等。用每個角色的具體動作描述場景:*「[person1] 坐在桌前打字,[person2] 站在身後指著螢幕。[person3] 拿著資料夾從門口進來。」*
選擇片段長度和長寬比。對於多角色場景,16:9 寬螢幕為角色定位提供更多空間。較長的時長(8-10 秒)允許更複雜的互動。
點擊 生成 並檢查每個角色在整個片段中是否與其參考圖匹配。如果某個角色出現漂移,嘗試使用光線更好或更正面角度的更清晰參考照片。
無論你是獨立創作者、設計團隊還是品牌方,每個模型都能適應你的工作方式。
[person1] and [person2] sit across from each other at a coffee shop table. [person1] gestures while speaking, [person2] nods and smiles. Warm afternoon light through the window. Shallow depth of field. 16:9, 8 seconds.
模型:HappyHorse · 參考圖:2 張 · 時長:8 秒 · 畫幅:16:9
[person1], [person2], [person3], and [person4] stand in a row in a modern office lobby. Each waves at the camera in sequence from left to right. Clean white background, professional attire. 16:9, 10 seconds.
模型:HappyHorse · 參考圖:4 張 · 時長:10 秒 · 畫幅:16:9
[person1] sits at the head of a dining table, [person2] and [person3] on either side, [person4] at the far end. [person1] raises a glass for a toast, others follow. Warm candlelight, rustic wooden table. 16:9, 10 seconds.
模型:HappyHorse · 參考圖:4 張 · 時長:10 秒 · 畫幅:16:9
[person1] in a lab coat hands a product box to [person2] in business casual. [person2] inspects the box and nods approvingly. Clean studio background, soft key light. 16:9, 6 seconds.
模型:HappyHorse · 參考圖:2 張 · 時長:6 秒 · 畫幅:16:9
短片、網路劇和解說影片,帶有固定的演員陣容。上傳一次角色參考圖,在各集中生成一致的場景——不同鏡頭之間無連續性錯誤。
將公司團隊照轉化為動畫介紹影片。為每個團隊成員上傳個人頭像照,並生成他們互動的場景——揮手、握手或一起簡報。
為節日或慶祝活動生成個人化的家庭影片。上傳家庭成員的照片,建立家庭晚餐、生日派對或公園散步的場景——每個人都可以被辨識。
時尚和生活風格品牌可以在多個產品影片中保持同一模特兒的身份。上傳模特兒的參考圖,生成她在不同場景穿著不同服裝的影片,無需重新預約拍攝。
| HappyHorse(1-9 張參考圖) | 其他模型 | |
|---|---|---|
| 最大參考圖數量 | 每次生成 9 張圖像——每張繫結到獨立的角色標記 | Kling 3.0:1 張參考圖。Veo 3.1:最多 3 個素材。Seedance 2.0:1-2 張參考圖 |
| 多角色互動 | 所有角色在同一次生成中算繪——被引用人物之間自然互動 | 單參考圖模型需要分別生成角色再合成 |
| 身份繫結方式 | 提示詞中的命名標記([person1]–[person9])——每個角色的明確控制 | 大多數模型使用單一隱式參考——無法引導多個身份 |
| 群組場景品質 | 每個人保持其參考身份——角色之間無臉部混合 | 只有 1 張參考圖的模型經常將次要角色的特徵與主要角色混合 |
| 適用場景 | 最適合多人敘事、團隊影片、家庭內容 | 更適合單一主體內容:肖像、單人產品演示、獨白 |
身份擷取在光線充足、正面拍攝的頭像或半身照上效果最好。側面、墨鏡或重陰影會降低匹配準確度。每張參考圖只有一個人。
更多的參考圖增加了生成的複雜性。先用 2-3 個角色驗證你的提示詞結構,然後再新增更多。超過 5 個角色在單個場景中,定位控制變得更難精確。
有多個角色時,模糊的空間描述會導致擁擠或歧義的構圖。指定位置:「[person1] 在左邊,[person2] 在中間,[person3] 在右邊。」
雖然 HappyHorse 支援最多 9 張參考圖,但 7-9 個角色的場景每人可用的視覺空間較少。身份準確度保持高水準,但隨著畫面變得更擁擠,個體角色的細節會減少。
加入數千名每天使用 PonPon 的創作者、設計團隊和品牌方。