每次生成最多 9 张参考图像
HappyHorse 接受 1 到 9 张参考图像——这是当前 AI 视频模型中最高的数量。每张参考图绑定到一个单独的角色标记,因此单次生成中包含 9 个不同人物的群组场景是可能的。
多参考图生成让你提供多张源图像——每个角色一张——以便 AI 模型在视频中保持每个人独特的外观。模型将每张参考图映射到提示词中的命名标记(如 [person1]、[person2]),将面部特征、身体比例和服装绑定到该标记。这与只能保持一个身份的单参考图模型根本不同,后者迫使多人场景中的次要角色只能被随机生成。
HappyHorse 接受 1 到 9 张参考图像——这是当前 AI 视频模型中最高的数量。每张参考图绑定到一个单独的角色标记,因此单次生成中包含 9 个不同人物的群组场景是可能的。
参考图像被分配给 [person1] 到 [person9] 等标记。在提示词中使用这些标记来独立定位和指导每个角色:"[person1] 将咖啡杯递给 [person3],同时 [person2] 在背景中挥手。"
因为所有参考图在同一生成过程中加载,角色可以自然交互——握手、对话、传递物品。单参考图模型需要合成单独的片段才能实现这一点。
面部特征、肤色、发型和服装从第 1 帧到片段结尾保持稳定。即使镜头角度变化或部分遮挡,也不会出现中途身份漂移。
参考图可以是头像照、全身照或风格化插画。HappyHorse 无论源图像格式如何都能提取身份特征,不过正面拍摄、表情中性的照片产生最准确的结果。
前往 PonPon Video,从模型下拉菜单中选择 HappyHorse。
点击参考图像上传区域并添加 1 到 9 张图像。每张图像应清楚展示一个人的面部——正面、光线充足、遮挡最少。标注或记录顺序(person1、person2 等)。
使用标记引用每张上传的图像:[person1]、[person2] 等。用每个角色的具体动作描述场景:*"[person1] 坐在桌前打字,[person2] 站在身后指着屏幕。[person3] 拿着文件夹从门口进来。"*
选择片段长度和宽高比。对于多角色场景,16:9 宽屏为角色定位提供更多空间。较长的时长(8-10 秒)允许更复杂的交互。
点击 生成 并检查每个角色在整个片段中是否与其参考图匹配。如果某个角色出现漂移,尝试使用光线更好或更正面角度的更清晰参考照片。
无论你是独立创作者、设计团队还是品牌方,每个模型都能适应你的工作方式。
[person1] and [person2] sit across from each other at a coffee shop table. [person1] gestures while speaking, [person2] nods and smiles. Warm afternoon light through the window. Shallow depth of field. 16:9, 8 seconds.
模型:HappyHorse · 参考图:2 张 · 时长:8秒 · 画幅:16:9
[person1], [person2], [person3], and [person4] stand in a row in a modern office lobby. Each waves at the camera in sequence from left to right. Clean white background, professional attire. 16:9, 10 seconds.
模型:HappyHorse · 参考图:4 张 · 时长:10秒 · 画幅:16:9
[person1] sits at the head of a dining table, [person2] and [person3] on either side, [person4] at the far end. [person1] raises a glass for a toast, others follow. Warm candlelight, rustic wooden table. 16:9, 10 seconds.
模型:HappyHorse · 参考图:4 张 · 时长:10秒 · 画幅:16:9
[person1] in a lab coat hands a product box to [person2] in business casual. [person2] inspects the box and nods approvingly. Clean studio background, soft key light. 16:9, 6 seconds.
模型:HappyHorse · 参考图:2 张 · 时长:6秒 · 画幅:16:9
短片、网络剧和解释视频,带有固定的演员阵容。上传一次角色参考图,在各集中生成一致的场景——不同镜头之间无连续性错误。
将公司团队照转化为动画介绍视频。为每个团队成员上传个人头像照,并生成他们互动的场景——挥手、握手或一起演示。
为节日或庆祝活动生成个性化的家庭视频。上传家庭成员的照片,创建家庭晚餐、生日派对或公园散步的场景——每个人都可以被识别。
时尚和生活方式品牌可以在多个产品视频中保持同一模特的身份。上传模特的参考图,生成她在不同场景穿着不同服装的视频,无需重新预约拍摄。
| HappyHorse(1-9 张参考图) | 其他模型 | |
|---|---|---|
| 最大参考图数量 | 每次生成 9 张图像——每张绑定到独立的角色标记 | Kling 3.0:1 张参考图。Veo 3.1:最多 3 个素材。Seedance 2.0:1-2 张参考图 |
| 多角色互动 | 所有角色在同一次生成中渲染——被引用人物之间自然互动 | 单参考图模型需要分别生成角色再合成 |
| 身份绑定方式 | 提示词中的命名标记([person1]–[person9])——每个角色的显式控制 | 大多数模型使用单一隐式参考——无法指导多个身份 |
| 群组场景质量 | 每个人保持其参考身份——角色之间无面部混合 | 只有 1 张参考图的模型经常将次要角色的特征与主要角色混合 |
| 适用场景 | 最适合多人叙事、团队视频、家庭内容 | 更适合单一主体内容:肖像、单人产品演示、独白 |
身份提取在光线充足、正面拍摄的头像或半身照上效果最好。侧面、墨镜或重阴影会降低匹配准确度。每张参考图只有一个人。
更多的参考图增加了生成的复杂性。先用 2-3 个角色验证你的提示词结构,然后再添加更多。超过 5 个角色在单个场景中,定位控制变得更难精确。
有多个角色时,模糊的空间描述会导致拥挤或歧义的构图。指定位置:"[person1] 在左边,[person2] 在中间,[person3] 在右边。"
虽然 HappyHorse 支持最多 9 张参考图,但 7-9 个角色的场景每人可用的视觉空间较少。身份准确度保持高水平,但随着画面变得更拥挤,个体角色的细节会减少。
加入数千名每天使用 PonPon 的创作者、设计团队和品牌方。