KI-Medien-Glossar

Klare Definitionen der KI-Begriffe aus den Bereichen Bild, Video und Audio, denen du auf PonPon begegnest – von Seitenverhältnis und Inpainting bis hin zu Lippensynchronisation, nativem Audio, Guthaben und Text-to-Video.

Das Vokabular der KI-Medien, verständlich erklärt. Jeder Eintrag verlinkt auf den passenden Leitfaden für mehr Details.

A–C

Guthaben (Allowance) — die in deinem Tarif enthaltenen Credits, die sich jeden Zyklus erneuern; werden zuerst verbraucht. Siehe Credits und Tarife.

Seitenverhältnis (Aspect ratio) — die Form des Frames (16:9, 9:16, 1:1). Wird pro Ausgabe gewählt; siehe Ausgabeformate und Limits.

Batch — mehrere Bilder auf einmal generieren, um das beste auszuwählen. Siehe Ausgabeformate und Limits.

Credits — was du pro Generierung ausgibst; die Kosten hängen von Modell, Länge und Auflösung ab. Siehe Credits und Tarife.

D–L

Entrauschen (Denoise) — Hintergrundrauschen aus einer Audioquelle entfernen, bevor diese neu eingesprochen wird. Siehe Musik, Soundeffekte & Dialog.

Synchronisation (Dubbing) — vorhandenes Audio oder Video übersetzen und in einer anderen Sprache neu einsprechen. Siehe KI-Synchronisation.

Effekt (Effect) — eine Einmal-Tippen-Vorlage, die ein Foto in einen thematischen Clip verwandelt. Siehe Einmal-Tippen-Effekte.

Galerie (Gallery) — wo deine generierten Ergebnisse gesammelt werden, bereit zum Wiederverwenden, Bearbeiten oder Weiterverwenden in einem anderen Tool. Siehe Grundlagen der Bildgenerierung.

Gast (Guest) — Stöbern vor der Anmeldung; du kannst erkunden, aber nicht generieren. Siehe Konto und Anmeldung.

Bild-zu-Video (Image-to-video) — ein von dir bereitgestelltes Standbild animieren. Siehe Bild-zu-Video-Leitfaden.

Inpainting (annotate-edit) — nur einen markierten Bereich eines Bildes neu generieren. Siehe Anmerkungsbearbeitungen & Referenzbilder.

Instrumental — generierte Musik ohne Gesang, die als Hintergrund für einen Voiceover dient. Siehe Musik, Soundeffekte & Dialog.

Lippensynchronisation (Lip-sync) — den Mund einer Figur mit einer Audiospur synchronisieren. Siehe Sprechende Avatare & Lippensynchronisation.

M–R

Modell (Model) — die Engine, die die Generierung durchführt; jede hat unterschiedliche Stärken. Siehe Ein Modell wählen.

Bewegungspinsel (Motion brush) — den Bereich eines Shots anmalen, in dem Bewegung stattfinden soll, für präzisere Kontrolle. Siehe Kling 3.0 motion brush.

Bewegungssteuerung (Motion control) — eine ruhende Figur mit der Bewegung aus einem Referenzvideo antreiben. Siehe Grundlagen Text-to-Video.

Multi-Shot — mehrere Kameraschnittpunkte in einer einzigen Videogenerierung erzeugen. Siehe Kling 3.0 multi-shot und Prompts für Video.

Nativer Audio (Native audio) — Ton, der zusammen mit dem Bild von einem audiofähigen Videomodell generiert wird, wie Veo 3.1 native audio. Siehe Ein Modell wählen.

Negativraum (Negative space) — freie Fläche in einem Bild, oft zum späteren Einfügen von Text. Siehe Prompts für Bilder.

Prompt — die Textbeschreibung, die eine Generierung steuert. Siehe Prompts für Bilder und Prompts für Video.

Warteschlange (Queue) — eine kurze Wartezeit bei hoher Last; Pro-Tarife erhalten Priorität. Siehe Generierungen troubleshooten.

Referenzbild (Reference image) — ein angehängtes Bild, das Stil, Motiv oder Komposition vorgibt; mit @ erwähnen. Siehe Anmerkungsbearbeitungen & Referenzbilder.

Referenz-zu-Video (Reference-to-video) — ein Motiv oder einen Stil aus Referenzmedien in einen generierten Clip übertragen. Siehe Grundlagen Text-to-Video.

Auflösung (Resolution) — die Pixelgröße der Ausgabe (z. B. 1K–4K für Bilder); modellabhängig. Siehe Ausgabeformate und Limits.

Bonus-Credits (Reward credits) — zusätzliche Credits, die ablaufen können; werden nach deinem Guthaben, aber vor Aufladungen verbraucht. Siehe Credits und Tarife.

S–Z

Start-/Endframe (Start / end frame) — das erste (und optional letzte) Bild eines Videos; das Modell animiert von dort aus. Siehe Bild-zu-Video-Leitfaden.

Text-to-Image — ein Bild aus einer schriftlichen Beschreibung generieren. Siehe Grundlagen der Bildgenerierung.

Text-to-Video — einen Clip aus einer schriftlichen Beschreibung generieren. Siehe Was ist Text-to-Video-KI?.

Hochskalierung (Upscaling) — Auflösung und Details eines vorhandenen Bildes oder Videos erhöhen. Siehe Bearbeitungs- & Bereinigungstools.

Stimmenwechsler (Voice changer) — eine Aufnahme in einer anderen Stimme neu einsprechen, dabei das ursprüngliche Timing beibehalten. Siehe Musik, Soundeffekte & Dialog.

Voiceover (Text-to-Speech) — gesprochenes Audio aus einem Skript generieren. Siehe Voiceover und Audio-Grundlagen.

Einen Begriff nicht gefunden? Die FAQ beantwortet die häufigsten Fragen.