首帧锚定
你上传的图像成为视频的精确首帧。Kling 3.0 不会重新诠释或近似你的图像——它逐像素使用你的图像作为起点,并从中生成运动。这意味着你的美术指导、色彩分级和构图都完整保留。
图生视频(i2v)生成接收单张静态图像,产出一个视频片段,使该图像的内容以运动的方式活跃起来。输入图像成为首帧(或关键参考帧),模型生成后续帧,在添加运动的同时保持与源图像的视觉一致性——人物行走、头发飘动、水面荡漾、镜头横移。挑战在于在帧间保持身份和精细细节(特定面孔、衬衫上的标志、精确的色调)不出现漂移或变形伪影。
你上传的图像成为视频的精确首帧。Kling 3.0 不会重新诠释或近似你的图像——它逐像素使用你的图像作为起点,并从中生成运动。这意味着你的美术指导、色彩分级和构图都完整保留。
源图像中的面部、标志、文字和独特图案在生成的视频中始终保持一致。Kling 3.0 的时序注意力机制在每一帧都交叉参考源图像以防止身份漂移——第 150 帧的面部与第 1 帧的面部完全一致。
调整 Kling 3.0 添加到场景中的运动量。低强度:微妙的呼吸、轻柔的风、轻微的镜头漂移。中等:行走、转身、适度的环境运动。高强度:奔跑、动态镜头扫描、戏剧性动作。滑块让你拥有导演级的能量控制。
在文本提示词中描述你想要的运动:"她转身看向身后"、"镜头缓慢推进"、"树叶从左到右飘落"。Kling 3.0 遵循这些运动指令,同时保持源图像的内容不变。
Kling 3.0 自动检测并匹配你输入图像的宽高比——1:1、16:9、9:16、4:3、3:4 等。无需裁切或调整源图像大小以适应固定的视频格式。输出视频匹配输入尺寸。
从单张图像生成 5 到 15 秒的视频。如需更长的序列,在 Flow 中串联多个生成,使用一个片段的最后一帧作为下一个的首帧以保持连续性。
前往 PonPon 图生视频,从模型下拉菜单中选择 Kling 3.0。
拖放或点击上传你想要动画化的图像。使用高分辨率图像(最长边至少 1024px)以获得最佳效果。Kling 3.0 接受 JPEG、PNG 和 WebP 格式。
描述你想要的运动——而非场景本身(模型可以从你的图像中看到)。专注于动作:"女子缓慢微笑并微微歪头"、"镜头后拉揭示全景"、"海浪拍打岩石"。控制在 1-2 句话。
调整运动强度滑块(低/中/高)并选择视频时长(5 秒、10 秒或 15 秒)。较低强度配合较短时长对保留精细细节更安全。较高强度配合较长时长产生更戏剧性的结果,但可能出现轻微漂移。
点击 生成 并检查结果。检查身份、文字和精细细节是否在全程保持。如果运动太微妙,增加强度重新生成。如果细节在漂移,降低强度或缩短时长。
无论你是独立创作者、设计团队还是品牌方,每个模型都能适应你的工作方式。
She slowly looks up from the book and smiles. A gentle breeze moves her hair. Warm afternoon light shifts slightly as a cloud passes.
模型:Kling 3.0 · 时长:8秒 · 运动强度:中 · 来源:人像照片
Camera slowly orbits 45 degrees around the product. Soft reflections move across the surface. Background stays softly blurred.
模型:Kling 3.0 · 时长:6秒 · 运动强度:低 · 来源:白底产品图
Clouds drift slowly across the sky. Water in the lake ripples gently. Camera holds steady. Birds fly across the distant mountains.
模型:Kling 3.0 · 时长:15秒 · 运动强度:低 · 来源:风景照片
The warrior swings the sword in a wide arc. Sparks fly from the blade. Camera follows the motion with a slight pan right. Cape billows dramatically.
模型:Kling 3.0 · 时长:5秒 · 运动强度:高 · 来源:数字插画
将现有的产品照片转化为社交广告的短视频片段。一张静态产品照变成 6 秒的缓慢推进和微妙环境运动视频——无需重新拍摄、无需 3D 建模、无需 After Effects。从现有照片库中批量生产视频变体。
艺术家和插画师为社交媒体动画化其静态作品。一幅森林数字画获得轻柔的风、飘落的树叶和变化的光线。一幅角色肖像眨眼和呼吸。Instagram 和 TikTok 上动画帖子比静态图像获得 2-3 倍更多的互动。
将房地产摄影转化为漫游式视频片段。一张广角室内照变成平滑的镜头横移,揭示整个房间。为每个房间生成 6 秒片段,在 Flow 中串联,仅从静态照片即可创建完整的物业参观。
电影制作人和动画师将分镜帧转化为粗略的动画序列。每个绘制的帧变成 5-10 秒的动画片段,展示分镜笔记中描述的镜头运动和角色动作。在几小时而非几周内产出可用的动态预览。
| Kling 3.0 图生视频 | 其他图生视频模型 | |
|---|---|---|
| 身份保持 | 像素级锚定首帧 + 时序交叉注意力——15秒内漂移极少 | Sora 2:效果好但 8 秒后精细细节可能漂移。Veo 3.1:表现强但偶有颜色改变。Seedance 2.0:人脸可靠,文字/标志较弱 |
| 运动控制 | 强度滑块 + 文字提示词指定运动方向,可用运动画笔精确绘制路径 | Sora 2:仅文字提示词。Veo 3.1:基础强度控制。Seedance 2.0:文字提示词 + 有限强度选项 |
| 最长时长 | 每次生成最长 15 秒 | Sora 2:最长 20 秒。Veo 3.1:最长 8 秒。Seedance 2.0:最长 10 秒 |
| 画幅比例灵活性 | 自动匹配输入图像画幅,支持任意标准比例 | 大多数模型仅支持 16:9、9:16、1:1,自定义比例可能需要裁切 |
| 音频输出 | 内置原生音频生成(环境音和对话) | Sora 2:无原生音频。Veo 3.1:内置原生音频。Seedance 2.0:音乐同步但对话有限 |
至少 1024x1024 像素的输入图像会产生明显更好的视频质量。低分辨率源图像(低于 512px)可能导致输出模糊、伪影严重。如果图像较小,先使用 PonPon 的图像工具进行放大,再转化为视频。
模型已经看到你的图像——它不需要场景描述。编写描述运动的提示词:"她向左转"、"镜头推进"、"雨开始下了"。场景描述("一位穿红裙的女子在花园中")浪费了提示词容量,可能导致模型重新诠释你的图像。
如果你的图像包含必须保持完整的文字、标志或精细图案,使用低运动强度。高运动强度会增加细节漂移的可能。你随时可以在下次生成中增加强度,如果结果太静态的话。
Kling 3.0 将视频比例与你的图像匹配。如果你的图像是 4:3 但你需要 TikTok 的 9:16,先裁切图像而非依赖模型重新构图。有意识的裁切让你控制画面内容。
加入数千名每天使用 PonPon 的创作者、设计团队和品牌方。