KI-Medien-Glossar
Klare Definitionen der KI-Begriffe aus den Bereichen Bild, Video und Audio, denen du auf PonPon begegnest – von Seitenverhältnis und Inpainting bis hin zu Lippensynchronisation, nativem Audio, Guthaben und Text-to-Video.
Das Vokabular der KI-Medien, verständlich erklärt. Jeder Eintrag verlinkt auf den passenden Leitfaden für mehr Details.
A–C
Guthaben (Allowance) — die in deinem Tarif enthaltenen Credits, die sich jeden Zyklus erneuern; werden zuerst verbraucht. Siehe Credits und Tarife.
Seitenverhältnis (Aspect ratio) — die Form des Frames (16:9, 9:16, 1:1). Wird pro Ausgabe gewählt; siehe Ausgabeformate und Limits.
Batch — mehrere Bilder auf einmal generieren, um das beste auszuwählen. Siehe Ausgabeformate und Limits.
Credits — was du pro Generierung ausgibst; die Kosten hängen von Modell, Länge und Auflösung ab. Siehe Credits und Tarife.
D–L
Entrauschen (Denoise) — Hintergrundrauschen aus einer Audioquelle entfernen, bevor diese neu eingesprochen wird. Siehe Musik, Soundeffekte & Dialog.
Synchronisation (Dubbing) — vorhandenes Audio oder Video übersetzen und in einer anderen Sprache neu einsprechen. Siehe KI-Synchronisation.
Effekt (Effect) — eine Einmal-Tippen-Vorlage, die ein Foto in einen thematischen Clip verwandelt. Siehe Einmal-Tippen-Effekte.
Galerie (Gallery) — wo deine generierten Ergebnisse gesammelt werden, bereit zum Wiederverwenden, Bearbeiten oder Weiterverwenden in einem anderen Tool. Siehe Grundlagen der Bildgenerierung.
Gast (Guest) — Stöbern vor der Anmeldung; du kannst erkunden, aber nicht generieren. Siehe Konto und Anmeldung.
Bild-zu-Video (Image-to-video) — ein von dir bereitgestelltes Standbild animieren. Siehe Bild-zu-Video-Leitfaden.
Inpainting (annotate-edit) — nur einen markierten Bereich eines Bildes neu generieren. Siehe Anmerkungsbearbeitungen & Referenzbilder.
Instrumental — generierte Musik ohne Gesang, die als Hintergrund für einen Voiceover dient. Siehe Musik, Soundeffekte & Dialog.
Lippensynchronisation (Lip-sync) — den Mund einer Figur mit einer Audiospur synchronisieren. Siehe Sprechende Avatare & Lippensynchronisation.
M–R
Modell (Model) — die Engine, die die Generierung durchführt; jede hat unterschiedliche Stärken. Siehe Ein Modell wählen.
Bewegungspinsel (Motion brush) — den Bereich eines Shots anmalen, in dem Bewegung stattfinden soll, für präzisere Kontrolle. Siehe Kling 3.0 motion brush.
Bewegungssteuerung (Motion control) — eine ruhende Figur mit der Bewegung aus einem Referenzvideo antreiben. Siehe Grundlagen Text-to-Video.
Multi-Shot — mehrere Kameraschnittpunkte in einer einzigen Videogenerierung erzeugen. Siehe Kling 3.0 multi-shot und Prompts für Video.
Nativer Audio (Native audio) — Ton, der zusammen mit dem Bild von einem audiofähigen Videomodell generiert wird, wie Veo 3.1 native audio. Siehe Ein Modell wählen.
Negativraum (Negative space) — freie Fläche in einem Bild, oft zum späteren Einfügen von Text. Siehe Prompts für Bilder.
Prompt — die Textbeschreibung, die eine Generierung steuert. Siehe Prompts für Bilder und Prompts für Video.
Warteschlange (Queue) — eine kurze Wartezeit bei hoher Last; Pro-Tarife erhalten Priorität. Siehe Generierungen troubleshooten.
Referenzbild (Reference image) — ein angehängtes Bild, das Stil, Motiv oder Komposition vorgibt; mit @ erwähnen. Siehe Anmerkungsbearbeitungen & Referenzbilder.
Referenz-zu-Video (Reference-to-video) — ein Motiv oder einen Stil aus Referenzmedien in einen generierten Clip übertragen. Siehe Grundlagen Text-to-Video.
Auflösung (Resolution) — die Pixelgröße der Ausgabe (z. B. 1K–4K für Bilder); modellabhängig. Siehe Ausgabeformate und Limits.
Bonus-Credits (Reward credits) — zusätzliche Credits, die ablaufen können; werden nach deinem Guthaben, aber vor Aufladungen verbraucht. Siehe Credits und Tarife.
S–Z
Start-/Endframe (Start / end frame) — das erste (und optional letzte) Bild eines Videos; das Modell animiert von dort aus. Siehe Bild-zu-Video-Leitfaden.
Text-to-Image — ein Bild aus einer schriftlichen Beschreibung generieren. Siehe Grundlagen der Bildgenerierung.
Text-to-Video — einen Clip aus einer schriftlichen Beschreibung generieren. Siehe Was ist Text-to-Video-KI?.
Hochskalierung (Upscaling) — Auflösung und Details eines vorhandenen Bildes oder Videos erhöhen. Siehe Bearbeitungs- & Bereinigungstools.
Stimmenwechsler (Voice changer) — eine Aufnahme in einer anderen Stimme neu einsprechen, dabei das ursprüngliche Timing beibehalten. Siehe Musik, Soundeffekte & Dialog.
Voiceover (Text-to-Speech) — gesprochenes Audio aus einem Skript generieren. Siehe Voiceover und Audio-Grundlagen.
Einen Begriff nicht gefunden? Die FAQ beantwortet die häufigsten Fragen.
Verwandte Artikel
- Modell auswählenWie du auf PonPon das richtige KI-Modell findest: Was jedes Bild- und Videomodell am besten kann, eine schnelle Entscheidungstabelle, ein praktischer Vergleich, direkte Gegenüberstellungen und die Standard-, Fast- und Pro-Stufen.
- Was ist Text-zu-Video?Eine verständliche Erklärung: Was Text-zu-Video-KI ist, wie sie aus einem Prompt einen bewegten Clip erstellt, ein praktisches Beispiel, was sie gut und weniger gut kann – und wie sie sich von Bild-zu-Video unterscheidet.
- FAQSchnelle Antworten rund um PonPon: Konten, Credits und Preise, was du erstellen kannst, deine eigenen Bilder, Datenschutz, Mobilgeräte, Dateiformate, fehlgeschlagene Generierungen und Nutzungsrechte.