数字人说话与对口型
在 PonPon 上让一个角色开口说话:用 Kling 3.0 让对口型根据音轨驱动一张脸、声音从何而来、一个实战示例、源素材技巧,以及如何与配音译制搭配。
数字人是一个嘴部随语音同步开合的角色。它需要两样东西:一张脸(一个人的图片或片段)和一段声音(一段音轨)。对口型把两者绑在一起,让角色看起来真的在说出那些话。
实现它的模型
在 PonPon 上,对口型运行在专为对话打造的 Kling 3.0 上。它专门的对口型能力会根据一段音轨驱动角色的嘴部,让一张静态人像或一段片段都能有说服力地念出一句台词。完整的实战示例参见对口型视频用例。
当你的代言人出现在多个镜头中时,用 Kling 3.0 多镜头叙事和多镜头角色一致性工作流,让这张脸在镜头之间保持一致。
声音从何而来
驱动嘴部的音频,可以来自 PonPon 里的任何地方:
工作原理
一个实战示例
假设你想让一位代言人来介绍一款产品:
产出的就是那张脸念出这句台词的一段短片。用短句来生成脚本,你就能只重跑某一句不理想的台词,而不必重做整条。
源素材技巧
- 用一张正面、嘴部清晰可见的脸——侧脸和极端角度对口型效果很差。
- 让音频干净:单个说话者,背景噪音极少。
- 让念白的情绪与那张脸相匹配;一张平静的人像念一句激动的台词会显得别扭。
- 让台词短一些。几句利落的短句,比一整段长独白更可靠地对上口型。
对口型 vs 配音译制
两者是互补的:
- 配音译制改变音频的语言,但不动画面。
- 对口型改变画面里的嘴部,让它去匹配你给的任何音频。
要把一段口播视频本地化?先把音频配音译制成目标语言,再让脸对口型去贴合配好的音轨——成片看起来就像母语录制的一样。要从头到尾了解音频这一侧,参见配音与音频基础。