Dasar-dasar teks ke video

Cara kerja pembuatan video di PonPon: teks ke video vs gambar ke video, memilih model seperti Veo 3.1, Sora 2, dan Kling 3.0, serta tab Edit dan Motion Control.

Generator video mengubah prompt — atau gambar — menjadi klip bergerak. Ada tiga tab: Buat Video, Edit Video, dan Motion Control. Sebagian besar pekerjaan dimulai dari tab Buat.

Generator video PonPon pada tab Buat Video — tiga tab di bagian atas, pemilih model, slot Start/End frame, kotak prompt, serta kontrol rasio aspek, durasi, resolusi, dan audio.

Satu generator, empat mode input

Tidak ada tombol ganti mode — PonPon menyimpulkan kebutuhan Anda dari apa yang Anda berikan:

Teks ke video — prompt saja, tanpa yang lain. Kebebasan maksimal; model menciptakan setiap frame.
Gambar ke video — unggah Start Frame dan model akan menganimasikannya sebagai frame pertama. Kontrol maksimal atas tampilan visual.
Morph awal → akhir — tambahkan End Frame juga, dan klip bertransisi dari satu gambar ke gambar lainnya.
Referensi ke video — lampirkan gambar/video referensi pada model yang mendukungnya untuk membawa subjek atau gaya ke dalam shot.

Catatan

Anda tidak perlu memilih mode — slot Start frame dan End frame serta lampiran referensi yang menentukan semuanya untuk Anda. Jika sudah punya gambar karakter atau produk yang Anda suka, mulai dari frame; jika sedang bereksplorasi, mulai dari teks.

Tulis gerakan, bukan sekadar adegan

Prompt gambar diam menggambarkan sebuah momen. Prompt video menggambarkan momen yang berubah — subjek, aksi, kamera, dan tempo:

Seorang peselancar mendayung dan berdiri di atas ombak saat matahari terbit, kamera mengikuti di samping pada ketinggian permukaan air, percikan air menangkap cahaya. Gerakan halus dan sinematik.

Memilih model

Pemilih adalah deretan chip. Masing-masing memiliki kekuatan yang jelas:

Veo 3.1 — bahasa kamera paling terkontrol plus audio native. Pilihan serbaguna yang sangat baik. Veo 3.1 Fast menghasilkan tampilan yang sama dengan lebih cepat.
Sora 2 — fisika dan realisme tekstur terbaik di kelasnya, dengan audio tersinkronisasi.
Kling 3.0 — gerakan presisi, lip-sync, dan penceritaan multi-shot (beberapa potongan kamera dalam satu generasi).
Seedance 2.0 — cepat dan ekspresif, diutamakan untuk format vertikal, dengan sinkronisasi beat audio-visual. Seedance 2.0 Fast bahkan lebih cepat lagi.
HappyHorse — yang paling serbaguna: pipeline teks, gambar, referensi, dan pengeditan, dengan banyak karakter referensi dan audio native.

Rasio aspek, durasi, resolusi, audio

Rasio aspek — 16:9 untuk YouTube, 9:16 untuk TikTok / Reels / Shorts, 1:1 untuk feed (disembunyikan saat Anda mulai dari gambar).
Durasi & resolusi — pilihan bergantung pada model yang digunakan.
Audio — untuk model berkemampuan audio, toggle menghasilkan suara bersama gambar; beberapa model (seperti HappyHorse) selalu menyertakannya.

Tips

Buat render awal yang singkat dan pada resolusi default. Gerakan terlihat sama pada 720p maupun 1080p, sehingga Anda bisa menilai apakah sebuah shot berhasil dengan sebagian kecil kredit sebelum berkomitmen pada versi panjang penuh beresolusi tinggi.

Lebih dari Buat: Edit dan Motion Control

Edit Video — masukkan klip yang sudah ada dan prompt untuk mengubah gaya atau memodifikasinya (video ke video), dengan opsi mempertahankan audio aslinya.
Motion Control — gerakkan gambar karakter diam menggunakan gerakan dari video referensi, dengan pilihan apakah karakter mengikuti gambar atau video tersebut.

Setelah render selesai

Susun shot dan jalankan ulang di Flow, atau buat karya multi-adegan di Studio.
Tambahkan narasi suara, musik, atau efek suara di studio audio.

Untuk metode yang lebih mendalam — bahasa kamera, struktur shot, dan solusi masalah umum — baca Cara membuat prompt untuk video.

Dasar-dasar teks ke video

Cara kerja pembuatan video di PonPon: teks ke video vs gambar ke video, memilih model seperti Veo 3.1, Sora 2, dan Kling 3.0, serta tab Edit dan Motion Control.

Generator video mengubah prompt — atau gambar — menjadi klip bergerak. Ada tiga tab: Buat Video, Edit Video, dan Motion Control. Sebagian besar pekerjaan dimulai dari tab Buat.

Satu generator, empat mode input

Tidak ada tombol ganti mode — PonPon menyimpulkan kebutuhan Anda dari apa yang Anda berikan:

Teks ke video — prompt saja, tanpa yang lain. Kebebasan maksimal; model menciptakan setiap frame.
Gambar ke video — unggah Start Frame dan model akan menganimasikannya sebagai frame pertama. Kontrol maksimal atas tampilan visual.
Morph awal → akhir — tambahkan End Frame juga, dan klip bertransisi dari satu gambar ke gambar lainnya.
Referensi ke video — lampirkan gambar/video referensi pada model yang mendukungnya untuk membawa subjek atau gaya ke dalam shot.

Catatan

Tulis gerakan, bukan sekadar adegan

Prompt gambar diam menggambarkan sebuah momen. Prompt video menggambarkan momen yang berubah — subjek, aksi, kamera, dan tempo:

Seorang peselancar mendayung dan berdiri di atas ombak saat matahari terbit, kamera mengikuti di samping pada ketinggian permukaan air, percikan air menangkap cahaya. Gerakan halus dan sinematik.

Memilih model

Pemilih adalah deretan chip. Masing-masing memiliki kekuatan yang jelas:

Veo 3.1 — bahasa kamera paling terkontrol plus audio native. Pilihan serbaguna yang sangat baik. Veo 3.1 Fast menghasilkan tampilan yang sama dengan lebih cepat.
Sora 2 — fisika dan realisme tekstur terbaik di kelasnya, dengan audio tersinkronisasi.
Kling 3.0 — gerakan presisi, lip-sync, dan penceritaan multi-shot (beberapa potongan kamera dalam satu generasi).
Seedance 2.0 — cepat dan ekspresif, diutamakan untuk format vertikal, dengan sinkronisasi beat audio-visual. Seedance 2.0 Fast bahkan lebih cepat lagi.
HappyHorse — yang paling serbaguna: pipeline teks, gambar, referensi, dan pengeditan, dengan banyak karakter referensi dan audio native.

Rasio aspek, durasi, resolusi, audio

Rasio aspek — 16:9 untuk YouTube, 9:16 untuk TikTok / Reels / Shorts, 1:1 untuk feed (disembunyikan saat Anda mulai dari gambar).
Durasi & resolusi — pilihan bergantung pada model yang digunakan.
Audio — untuk model berkemampuan audio, toggle menghasilkan suara bersama gambar; beberapa model (seperti HappyHorse) selalu menyertakannya.

Tips

Lebih dari Buat: Edit dan Motion Control

Edit Video — masukkan klip yang sudah ada dan prompt untuk mengubah gaya atau memodifikasinya (video ke video), dengan opsi mempertahankan audio aslinya.
Motion Control — gerakkan gambar karakter diam menggunakan gerakan dari video referensi, dengan pilihan apakah karakter mengikuti gambar atau video tersebut.

Setelah render selesai

Susun shot dan jalankan ulang di Flow, atau buat karya multi-adegan di Studio.
Tambahkan narasi suara, musik, atau efek suara di studio audio.

Untuk metode yang lebih mendalam — bahasa kamera, struktur shot, dan solusi masalah umum — baca Cara membuat prompt untuk video.

Dasar-dasar teks ke video

Satu generator, empat mode input

Tulis gerakan, bukan sekadar adegan

Memilih model

Rasio aspek, durasi, resolusi, audio

Lebih dari Buat: Edit dan Motion Control

Setelah render selesai

Artikel terkait

Dasar-dasar teks ke video

Satu generator, empat mode input

Tulis gerakan, bukan sekadar adegan

Memilih model

Rasio aspek, durasi, resolusi, audio

Lebih dari Buat: Edit dan Motion Control

Setelah render selesai

Artikel terkait