配音與音訊基礎
PonPon 音訊工作室:文字轉語音、變聲、配音轉譯為 31 種語言、音效、音樂以及多人對話——由 ElevenLabs 和 MiniMax 驅動。
音訊工作室涵蓋了你在畫面之後會為影片加入的一切。它有六種模式,從底部那條列切換——語音和音樂由 ElevenLabs 驅動,MiniMax 作為第二種語音選項。

這條合成列在每種模式下用法相同:左側下拉切換模式(文字轉語音、變聲、配音轉譯等等),中間的控制項挑選提供方和語音,Generate 會顯示點數消耗。
配音(文字轉語音)
輸入你的腳本,挑一種語音,生成用於旁白、講解、廣告和無真人出鏡影片的語音。在 音訊 › 文字轉語音 開啟它。
- 在 ElevenLabs 與 MiniMax 語音之間選擇。MiniMax 額外提供情緒(中性、開心、悲傷、憤怒等)和語速控制。
- 按它被讀出來的方式去寫,而不是書面語——短句、自然的措辭。標點控制停頓。
提示
生成之前先把腳本朗讀一遍。如果讀著彆扭,聽起來也會彆扭——把長句拆成兩句,讓標點來定節奏。
變聲
已經有一段錄音了?變聲會用另一種語音重新演繹它,同時保留你的時機和表達——很適合匿名化或重塑旁白風格。還有一個降噪選項可以清理原始素材。
配音轉譯
用配音轉譯把現有音訊或影片翻譯並重新配音成另一種語言。PonPon 支援 31 種目標語言,所以一支影片無需重錄就能觸及多個市場。
音效
描述一個聲音——「鐵皮屋頂上的暴雨」、「科幻感的門咻咻聲」——在音效模式中生成它。你可以設定片段長度以及它對提示詞的貼合嚴格程度。在一段無聲成片下疊加音效,能讓它鮮活起來。
音樂
在音樂模式中生成背景音樂來營造氛圍。提示一種風格與能量感(「溫暖的 lo-fi,放鬆」 / 「強勁的電子,激昂」),而不是某首具體的歌,設好長度,如果你不想要人聲就切換到純音樂。
對話
對話模式會生成一段多人對話:逐行寫腳本,並給每個說話者分配不同的語音。
組合起來
一個典型的無真人出鏡影片是這樣的:在影片生成器中生成畫面,加上配音,放入音效和音樂,然後在 Flow 或 Studio 中拼接。