Conceptos básicos de locución y audio
El estudio de audio de PonPon: texto a voz, cambio de voz, doblaje a 31 idiomas, efectos de sonido, música y diálogos a varias voces, con ElevenLabs y MiniMax.
El estudio de audio cubre todo lo que añadirías a un video después de la imagen. Tiene seis modos, que se cambian desde la barra inferior; la voz y la música funcionan con ElevenLabs, con MiniMax como segunda opción de voz.

La barra del compositor funciona igual en todos los modos: el menú de la izquierda cambia el modo (texto a voz, cambio de voz, doblaje, etc.), los controles del centro eligen el proveedor y la voz, y Generate muestra el costo en créditos.
Locución (texto a voz)
Escribe tu guion, elige una voz y genera audio hablado para narración, explicativos, anuncios y videos sin rostro. Ábrelo en audio › texto a voz.
- Elige entre voces de ElevenLabs y MiniMax. MiniMax añade controles de emoción (neutral, alegre, triste, enojado y más) y de velocidad.
- Escribe como debe decirse, no como se escribe: frases cortas, fraseo natural. La puntuación controla las pausas.
Cambio de voz
¿Ya tienes una grabación? El cambio de voz la vuelve a interpretar con otra voz manteniendo tu tiempo y tu entrega: útil para anonimizar o reestilizar una narración. Hay una opción de reducción de ruido para limpiar la fuente.
Doblaje
Traduce y vuelve a doblar audio o video existente a otro idioma con el doblaje. PonPon admite 31 idiomas de destino, así que un video puede llegar a muchos mercados sin regrabar.
Efectos de sonido
Describe un sonido —«lluvia fuerte sobre un techo de chapa», «zumbido de puerta de ciencia ficción»— y genéralo en el modo efectos de sonido. Puedes fijar la duración del clip y qué tan fiel es al prompt. Superpón efectos bajo un clip para que un render silencioso cobre vida.
Música
Genera música de fondo para crear ambiente en el modo música. Indica un estilo y energía («lo-fi cálido, relajado» / «electrónica enérgica, animada») en lugar de una canción concreta, fija la duración y activa instrumental si no quieres voces.
Diálogo
El modo diálogo genera una conversación a varias voces: escribe el guion línea por línea y asigna una voz distinta a cada hablante.
Juntarlo todo
Un video sin rostro típico es: genera la parte visual en el generador de video, añade una locución, suma efectos de sonido y música, y luego ensámblalo en Flow o Studio.
Artículos relacionados
- Texto a videoCómo funciona la generación de video en PonPon: texto a video vs. imagen a video, elegir modelos como Veo 3.1, Sora 2 y Kling 3.0, y las pestañas Edit y Motion Control.
- Tu primer video con IAPaso a paso: inicia sesión, escribe un prompt, elige un modelo, ajusta relación de aspecto, duración y resolución, genera y descarga tu primer video con IA en PonPon.
- ¿Qué es PonPon?PonPon es un estudio de medios con IA: genera video, imágenes y audio, edítalos y aplica efectos con un clic, con más de 30 modelos en una pestaña del navegador.