配音与音频基础
PonPon 音频工作室:文字转语音、变声、配音译制为 31 种语言、音效、音乐以及多人对话——由 ElevenLabs 和 MiniMax 驱动。
音频工作室涵盖了你在画面之后会为视频添加的一切。它有六种模式,从底部那条栏切换——语音和音乐由 ElevenLabs 驱动,MiniMax 作为第二种语音选项。

这条合成栏在每种模式下用法相同:左侧下拉切换模式(文字转语音、变声、配音译制等等),中间的控件挑选提供方和语音,Generate 会显示积分消耗。
配音(文字转语音)
输入你的脚本,挑一种语音,生成用于旁白、讲解、广告和无真人出镜视频的语音。在 音频 › 文字转语音 打开它。
- 在 ElevenLabs 与 MiniMax 语音之间选择。MiniMax 额外提供情绪(中性、开心、悲伤、愤怒等)和语速控制。
- 按它被读出来的方式去写,而不是书面语——短句、自然的措辞。标点控制停顿。
提示
生成之前先把脚本朗读一遍。如果读着别扭,听起来也会别扭——把长句拆成两句,让标点来定节奏。
变声
已经有一段录音了?变声会用另一种语音重新演绎它,同时保留你的时机和表达——很适合匿名化或重塑旁白风格。还有一个降噪选项可以清理原始素材。
配音译制
用配音译制把现有音频或视频翻译并重新配音成另一种语言。PonPon 支持 31 种目标语言,所以一个视频无需重录就能触达多个市场。
音效
描述一个声音——"铁皮屋顶上的暴雨"、"科幻感的门嗖嗖声"——在音效模式中生成它。你可以设置片段时长以及它对提示词的贴合严格程度。在一段无声成片下叠加音效,能让它鲜活起来。
音乐
在音乐模式中生成背景音乐来营造氛围。提示一种风格与能量感("温暖的 lo-fi,放松" / "强劲的电子,激昂"),而不是某首具体的歌,设好时长,如果你不想要人声就切换到纯音乐。
对话
对话模式会生成一段多人对话:逐行写脚本,并给每个说话者分配不同的语音。
组合起来
一个典型的无真人出镜视频是这样的:在视频生成器中生成画面,加上配音,放入音效和音乐,然后在 Flow 或 Studio 中拼装。