Sprechende Avatare & Lippensync
Bringe eine Figur auf PonPon zum Sprechen: Wie Lippensync ein Gesicht mit einem Audiotrack animiert – mit Kling 3.0, Herkunft der Stimme, einem konkreten Beispiel, Tipps zur Quellqualität und der Kombination mit Dubbing.
Ein sprechender Avatar ist eine Figur, deren Mund sich synchron zur Sprache bewegt. Dafür braucht es zwei Zutaten: ein Gesicht (ein Bild oder Clip einer Person) und eine Stimme (ein Audiotrack). Der Lippensync verbindet beides, sodass die Figur so wirkt, als würde sie die Worte tatsächlich sagen.
Das Modell dahinter
Auf PonPon läuft Lippensync auf Kling 3.0, das für Dialoge ausgelegt ist. Die dedizierte Lippensync-Funktion steuert den Mund einer Figur anhand eines Audiotracks, sodass ein stehendes Porträt oder ein Clip eine Aussage überzeugend übermitteln kann. Einen vollständigen Praxisfall findest du im Lippensync-Video-Anwendungsfall.
Wenn dein Sprecher in mehreren Einstellungen vorkommt, sorge mit dem Kling 3.0 Multi-Shot-Storytelling und dem Workflow zur Multi-Shot-Charakterkonsistenz dafür, dass das Gesicht von Schnitt zu Schnitt gleich bleibt.
Woher die Stimme kommt
Der Audiotrack, der die Lippen steuert, kann aus verschiedenen Quellen in PonPon stammen:
- Text-to-Speech — Schreibe ein Skript und generiere eine Stimme. Ideal, wenn du den Text von Grund auf neu erstellst.
- Dubbing — Übersetze eine bestehende Zeile in eine andere Sprache und synchronisiere das Gesicht dann auf den gedubten Ton.
- Ein Upload — deine eigene aufgenommene Stimme.
So funktioniert es
- Wähle Kling 3.0 im Videogenerator.
- Stelle die Figur bereit – ein klares Porträt oder ein kurzer Clip.
- Stelle die Stimme bereit – generierten oder hochgeladenen Ton.
- Generieren. Das Modell passt den Mund (und natürliche Mikrobewegungen) an die Sprache an.
Ein Praxisbeispiel
Angenommen, du möchtest einen Sprecher vorstellen lassen, der ein Produkt präsentiert:
- Generiere in Text-to-Speech den Satz: *„Meet the new Aero — lighter, faster, yours.“*
- Lade ein scharfes, frontal aufgenommenes Porträt deines Sprechers hoch (real oder KI-generiert).
- Führe beides durch den Kling 3.0 Lippensync.
Das Ergebnis ist ein kurzer Clip, in dem dieses Gesicht den Satz spricht. Generiere das Skript in kurzen Sätzen, damit du eine einzelne schwache Zeile neu erstellen kannst, anstatt alles neu aufzunehmen.
Tipps zur Quellqualität
- Verwende ein frontales Gesicht, bei dem der Mund klar sichtbar ist – Profile und extreme Winkel synchronisieren schlecht.
- Halte den Ton sauber: ein Sprecher, minimale Hintergrundgeräusche.
- Passe die Energie des Vortrags ans Gesicht an; ein ruhiges Porträt, das einen aufgeregten Text liest, wirkt unnatürlich.
- Halte die Zeilen kurz. Wenige knappe Sätze synchronisieren zuverlässiger als ein langer Monolog.
Lippensync vs. Dubbing
Beides ergänzt sich:
- Dubbing ändert die Sprache des Audios, lässt das Bild aber unverändert.
- Lippensync verändert den Mund im Bild, damit er zum jeweiligen Audio passt.
Möchtest du ein Talking-Head-Video lokalisieren? Dubbe den Ton in die Zielsprache und synchronisiere dann das Gesicht auf den gedubten Track – das Ergebnis wirkt wie eine originale Aufnahme. Alles zur Audioseite findest du in Voiceover und Audio-Grundlagen.
Verwandte Artikel
- KI-SynchronisationSynchronisiere ein Video oder einen Audioclip mit KI auf PonPon in eine andere Sprache — 31 Zielsprachen, der Unterschied zwischen Synchronisation und Voiceover, ein Praxisbeispiel, Quelldatei-Vorbereitung und die Kombination mit Lippensynchronisation.
- Voiceover & AudioDas PonPon-Audiostudio: Text-to-Speech, Voice Changer, Synchronisation in 31 Sprachen, Soundeffekte, Musik und mehrstimmige Dialoge – powered by ElevenLabs und MiniMax.
- Text-zu-Video GrundlagenWie die Videogenerierung auf PonPon funktioniert: Text-zu-Video vs. Bild-zu-Video, die Auswahl von Modellen wie Veo 3.1, Sora 2 und Kling 3.0 sowie die Tabs Bearbeiten und Bewegungssteuerung.