配音与音频基础

PonPon 音频工作室：文字转语音、变声、配音译制为 31 种语言、音效、音乐以及多人对话——由 ElevenLabs 和 MiniMax 驱动。

音频工作室涵盖了你在画面之后会为视频添加的一切。它有六种模式，从底部那条栏切换——语音和音乐由 ElevenLabs 驱动，MiniMax 作为第二种语音选项。

PonPon 音频工作室处于 Text to Speech 模式——合成栏里有模式选择器、语音提供方（ElevenLabs）、语音（Harry）以及 Generate。

这条合成栏在每种模式下用法相同：左侧下拉切换模式（文字转语音、变声、配音译制等等），中间的控件挑选提供方和语音，Generate 会显示积分消耗。

配音（文字转语音）

输入你的脚本，挑一种语音，生成用于旁白、讲解、广告和无真人出镜视频的语音。在音频 › 文字转语音打开它。

在 ElevenLabs 与 MiniMax 语音之间选择。MiniMax 额外提供情绪（中性、开心、悲伤、愤怒等）和语速控制。
按它被读出来的方式去写，而不是书面语——短句、自然的措辞。标点控制停顿。

提示

生成之前先把脚本朗读一遍。如果读着别扭，听起来也会别扭——把长句拆成两句，让标点来定节奏。

变声

已经有一段录音了？变声会用另一种语音重新演绎它，同时保留你的时机和表达——很适合匿名化或重塑旁白风格。还有一个降噪选项可以清理原始素材。

配音译制

用配音译制把现有音频或视频翻译并重新配音成另一种语言。PonPon 支持 31 种目标语言，所以一个视频无需重录就能触达多个市场。

音效

描述一个声音——"铁皮屋顶上的暴雨"、"科幻感的门嗖嗖声"——在音效模式中生成它。你可以设置片段时长以及它对提示词的贴合严格程度。在一段无声成片下叠加音效，能让它鲜活起来。

音乐

在音乐模式中生成背景音乐来营造氛围。提示一种风格与能量感（"温暖的 lo-fi，放松" / "强劲的电子，激昂"），而不是某首具体的歌，设好时长，如果你不想要人声就切换到纯音乐。

对话

对话模式会生成一段多人对话：逐行写脚本，并给每个说话者分配不同的语音。

组合起来

一个典型的无真人出镜视频是这样的：在视频生成器中生成画面，加上配音，放入音效和音乐，然后在 Flow 或 Studio 中拼装。

提示

想让声音直接嵌入渲染、而不是事后添加？用一个原生带音频的模型来生成视频，比如 Veo 3.1 或 Kling 3.0——它们会把画面和声音一起产出，对简单片段来说就省去了单独的音频步骤。

配音与音频基础

PonPon 音频工作室：文字转语音、变声、配音译制为 31 种语言、音效、音乐以及多人对话——由 ElevenLabs 和 MiniMax 驱动。

配音（文字转语音）

输入你的脚本，挑一种语音，生成用于旁白、讲解、广告和无真人出镜视频的语音。在音频 › 文字转语音打开它。

在 ElevenLabs 与 MiniMax 语音之间选择。MiniMax 额外提供情绪（中性、开心、悲伤、愤怒等）和语速控制。
按它被读出来的方式去写，而不是书面语——短句、自然的措辞。标点控制停顿。

提示

生成之前先把脚本朗读一遍。如果读着别扭，听起来也会别扭——把长句拆成两句，让标点来定节奏。

变声

配音译制

用配音译制把现有音频或视频翻译并重新配音成另一种语言。PonPon 支持 31 种目标语言，所以一个视频无需重录就能触达多个市场。

音效

音乐

对话

对话模式会生成一段多人对话：逐行写脚本，并给每个说话者分配不同的语音。

组合起来

一个典型的无真人出镜视频是这样的：在视频生成器中生成画面，加上配音，放入音效和音乐，然后在 Flow 或 Studio 中拼装。

提示

配音与音频基础

配音（文字转语音）

变声

配音译制

音效

音乐

对话

组合起来

相关文章

配音与音频基础

配音（文字转语音）

变声

配音译制

音效

音乐

对话

组合起来

相关文章