會說話的虛擬人與對嘴
在 PonPon 上讓一個角色開口說話:對嘴如何用一段音軌驅動 Kling 3.0 上的一張臉、聲音從何而來、一個實戰範例、源素材技巧,以及如何搭配配音轉譯。
會說話的虛擬人,是一個嘴部隨著語音同步開合的角色。它需要兩種原料:一張臉(一個人的圖片或片段)和一個聲音(一段音軌)。對嘴把兩者綁在一起,讓角色看起來像是真的在說出那些話。
負責這件事的模型
在 PonPon 上,對嘴跑在 Kling 3.0 上,它就是為對話而生的。它專門的對嘴能力會用一段音軌驅動角色的嘴部,所以一張靜態人像或一個片段都能令人信服地說出一句台詞。要看一個完整的實戰範例,請參見對嘴影片應用案例。
當你的代言人橫跨多個鏡頭出現時,用 Kling 3.0 多鏡頭敘事和多鏡頭角色一致性工作流程,讓同一張臉在鏡頭切換間保持一致。
聲音從何而來
驅動嘴部的音訊,可以來自 PonPon 中的任何地方:
運作原理
一個實戰範例
假設你想要一位代言人來介紹一款產品:
於是你得到一段那張臉說出這句台詞的短片。用短句生成腳本,你就能只重跑某一句不夠好的台詞,而不必重來整段。
源素材技巧
- 使用一張正面的臉,嘴部清楚可見——側臉和極端角度對嘴效果差。
- 保持音訊乾淨:單一說話者,背景噪音極少。
- 讓表達的情緒與臉相匹配;一張平靜的人像去念一句激動的台詞會顯得很違和。
- 台詞要短。幾句精煉的句子,比一整段長獨白對嘴更可靠。
對嘴 vs 配音轉譯
兩者是互補的:
- 配音轉譯改變音訊的語言,但不動畫面。
- 對嘴改變畫面裡的嘴部,去匹配你給它的任何音訊。
要把一支講話頭像影片在地化?先把音訊配音轉譯成目標語言,再讓臉對嘴匹配這段譯製音軌——成果看起來就像原生錄製的一樣。音訊這一側的完整流程,請參見配音與音訊基礎。