พื้นฐานการสร้างวิดีโอจากข้อความ

วิธีการทำงานของการสร้างวิดีโอบน PonPon: text-to-video กับ image-to-video, การเลือกโมเดลอย่าง Veo 3.1, Sora 2 และ Kling 3.0 รวมถึงแท็บ Edit และ Motion Control

video generator แปลง prompt — หรือรูปภาพ — ให้กลายเป็นคลิปวิดีโอ โดยมีสามแท็บ ได้แก่ Create Video, Edit Video และ Motion Control งานส่วนใหญ่เริ่มต้นที่แท็บ Create

The PonPon video generator on the Create Video tab — the three tabs across the top, the model picker, Start/End frame slots, prompt box, and the aspect-ratio, duration, resolution and audio controls.

เครื่องมือเดียว สี่โหมดอินพุต

ไม่มีสวิตช์โหมด — PonPon จะอนุมานสิ่งที่คุณต้องการจากสิ่งที่คุณให้ไป:

Text-to-video — ใช้ prompt เพียงอย่างเดียว อิสระสูงสุด; โมเดลจะสร้างทุกเฟรมเอง
Image-to-video — อัปโหลด Start Frame แล้วโมเดลจะนำรูปนั้นมาทำให้เคลื่อนไหวเป็นเฟรมแรก ควบคุมรูปลักษณ์ได้สูงสุด
Start → end morph — เพิ่ม End Frame ด้วย แล้วคลิปจะเปลี่ยนผ่านจากภาพหนึ่งไปอีกภาพหนึ่ง
Reference-to-video — แนบรูปภาพหรือวิดีโออ้างอิงในโมเดลที่รองรับ เพื่อนำตัวละครหรือสไตล์ไปใส่ในช็อต

หมายเหตุ

คุณไม่ต้องเลือกโหมดเอง — ช่อง Start frame และ End frame รวมถึงไฟล์อ้างอิงที่แนบมาจะตัดสินใจให้คุณเอง ถ้าคุณมีรูปตัวละครหรือสินค้าที่ชอบอยู่แล้ว ให้เริ่มจากเฟรม; ถ้ากำลังสำรวจแนวคิด ให้เริ่มจากข้อความ

เขียนถึงการเคลื่อนไหว ไม่ใช่แค่ฉาก

prompt สำหรับภาพนิ่งอธิบายช่วงเวลาหนึ่ง แต่ prompt สำหรับวิดีโออธิบายช่วงเวลาที่เปลี่ยนแปลง — ตัวละคร, การกระทำ, กล้อง และจังหวะ:

นักเล่นเซิร์ฟพายเรือออกไปแล้วลุกขึ้นยืนบนคลื่นตอนพระอาทิตย์ขึ้น กล้องติดตามข้างๆ ระดับน้ำ ละอองน้ำสะท้อนแสง การเคลื่อนไหวราบรื่นแบบภาพยนตร์

การเลือกโมเดล

ตัวเลือกโมเดลแสดงเป็นแถบชิป แต่ละตัวมีจุดแข็งที่ชัดเจน:

Veo 3.1 — ภาษากล้องที่ควบคุมได้มากที่สุดพร้อมเสียงในตัว เป็นตัวเลือกรอบด้านที่ดี Veo 3.1 Fast สร้างผลลัพธ์เดิมได้เร็วขึ้น
Sora 2 — ฟิสิกส์และความสมจริงของพื้นผิวที่ดีที่สุด พร้อมเสียงซิงค์
Kling 3.0 — การเคลื่อนไหวแม่นยำ, ลิปซิงค์, และการเล่าเรื่องหลายช็อต (ตัดกล้องหลายครั้งในการสร้างครั้งเดียว)
Seedance 2.0 — เร็วและแสดงออกได้ดี เหมาะสำหรับแนวตั้ง พร้อมซิงค์จังหวะเสียง-ภาพ Seedance 2.0 Fast เร็วยิ่งกว่า
HappyHorse — หลากหลายที่สุด: รองรับ text, image, reference และ pipeline การแก้ไข พร้อมตัวละครอ้างอิงหลายตัวและเสียงในตัว

สัดส่วนภาพ, ระยะเวลา, ความละเอียด, เสียง

สัดส่วนภาพ — 16:9 สำหรับ YouTube, 9:16 สำหรับ TikTok / Reels / Shorts, 1:1 สำหรับฟีด (ซ่อนอยู่เมื่อเริ่มจากรูปภาพ)
ระยะเวลาและความละเอียด — ตัวเลือกขึ้นอยู่กับโมเดลที่เลือก
เสียง — สำหรับโมเดลที่รองรับเสียง ปุ่มสลับจะสร้างเสียงพร้อมกับภาพ; บางโมเดล (เช่น HappyHorse) รวมเสียงไว้เสมอ

เคล็ดลับ

ทำให้การเรนเดอร์แรกๆ สั้น และใช้ความละเอียดเริ่มต้น การเคลื่อนไหวอ่านได้เหมือนกันที่ 720p และ 1080p ดังนั้นคุณสามารถตัดสินว่าช็อตใช้ได้หรือไม่ด้วยเครดิตเพียงเล็กน้อย ก่อนที่จะสร้างเวอร์ชันเต็มความยาวและความละเอียดสูง

นอกจาก Create: Edit และ Motion Control

Edit Video — นำคลิปที่มีอยู่มาพร้อม prompt เพื่อเปลี่ยนสไตล์หรือแก้ไข (video-to-video) โดยเลือกเก็บเสียงเดิมได้
Motion Control — ขับเคลื่อนรูปภาพตัวละครนิ่งด้วยการเคลื่อนไหวจากวิดีโออ้างอิง โดยเลือกว่าตัวละครจะตามรูปภาพหรือวิดีโอ

หลังการเรนเดอร์

จัดลำดับช็อตและรันใหม่ใน Flow หรือสร้างงานหลายฉากใน Studio
เพิ่ม voiceover, ดนตรี หรือเอฟเฟกต์เสียงใน audio studio

สำหรับวิธีการเชิงลึก — ภาษากล้อง, โครงสร้างช็อต และการแก้ปัญหาทั่วไป — อ่าน Prompting for video

พื้นฐานการสร้างวิดีโอจากข้อความ

เครื่องมือเดียว สี่โหมดอินพุต

ไม่มีสวิตช์โหมด — PonPon จะอนุมานสิ่งที่คุณต้องการจากสิ่งที่คุณให้ไป:

Text-to-video — ใช้ prompt เพียงอย่างเดียว อิสระสูงสุด; โมเดลจะสร้างทุกเฟรมเอง
Image-to-video — อัปโหลด Start Frame แล้วโมเดลจะนำรูปนั้นมาทำให้เคลื่อนไหวเป็นเฟรมแรก ควบคุมรูปลักษณ์ได้สูงสุด
Start → end morph — เพิ่ม End Frame ด้วย แล้วคลิปจะเปลี่ยนผ่านจากภาพหนึ่งไปอีกภาพหนึ่ง
Reference-to-video — แนบรูปภาพหรือวิดีโออ้างอิงในโมเดลที่รองรับ เพื่อนำตัวละครหรือสไตล์ไปใส่ในช็อต

หมายเหตุ

เขียนถึงการเคลื่อนไหว ไม่ใช่แค่ฉาก

นักเล่นเซิร์ฟพายเรือออกไปแล้วลุกขึ้นยืนบนคลื่นตอนพระอาทิตย์ขึ้น กล้องติดตามข้างๆ ระดับน้ำ ละอองน้ำสะท้อนแสง การเคลื่อนไหวราบรื่นแบบภาพยนตร์

การเลือกโมเดล

ตัวเลือกโมเดลแสดงเป็นแถบชิป แต่ละตัวมีจุดแข็งที่ชัดเจน:

Veo 3.1 — ภาษากล้องที่ควบคุมได้มากที่สุดพร้อมเสียงในตัว เป็นตัวเลือกรอบด้านที่ดี Veo 3.1 Fast สร้างผลลัพธ์เดิมได้เร็วขึ้น
Sora 2 — ฟิสิกส์และความสมจริงของพื้นผิวที่ดีที่สุด พร้อมเสียงซิงค์
Kling 3.0 — การเคลื่อนไหวแม่นยำ, ลิปซิงค์, และการเล่าเรื่องหลายช็อต (ตัดกล้องหลายครั้งในการสร้างครั้งเดียว)
Seedance 2.0 — เร็วและแสดงออกได้ดี เหมาะสำหรับแนวตั้ง พร้อมซิงค์จังหวะเสียง-ภาพ Seedance 2.0 Fast เร็วยิ่งกว่า
HappyHorse — หลากหลายที่สุด: รองรับ text, image, reference และ pipeline การแก้ไข พร้อมตัวละครอ้างอิงหลายตัวและเสียงในตัว

สัดส่วนภาพ, ระยะเวลา, ความละเอียด, เสียง

สัดส่วนภาพ — 16:9 สำหรับ YouTube, 9:16 สำหรับ TikTok / Reels / Shorts, 1:1 สำหรับฟีด (ซ่อนอยู่เมื่อเริ่มจากรูปภาพ)
ระยะเวลาและความละเอียด — ตัวเลือกขึ้นอยู่กับโมเดลที่เลือก
เสียง — สำหรับโมเดลที่รองรับเสียง ปุ่มสลับจะสร้างเสียงพร้อมกับภาพ; บางโมเดล (เช่น HappyHorse) รวมเสียงไว้เสมอ

เคล็ดลับ

นอกจาก Create: Edit และ Motion Control

Edit Video — นำคลิปที่มีอยู่มาพร้อม prompt เพื่อเปลี่ยนสไตล์หรือแก้ไข (video-to-video) โดยเลือกเก็บเสียงเดิมได้
Motion Control — ขับเคลื่อนรูปภาพตัวละครนิ่งด้วยการเคลื่อนไหวจากวิดีโออ้างอิง โดยเลือกว่าตัวละครจะตามรูปภาพหรือวิดีโอ

หลังการเรนเดอร์

จัดลำดับช็อตและรันใหม่ใน Flow หรือสร้างงานหลายฉากใน Studio
เพิ่ม voiceover, ดนตรี หรือเอฟเฟกต์เสียงใน audio studio

พื้นฐานการสร้างวิดีโอจากข้อความ

เครื่องมือเดียว สี่โหมดอินพุต

เขียนถึงการเคลื่อนไหว ไม่ใช่แค่ฉาก

การเลือกโมเดล

สัดส่วนภาพ, ระยะเวลา, ความละเอียด, เสียง

นอกจาก Create: Edit และ Motion Control

หลังการเรนเดอร์

บทความที่เกี่ยวข้อง

พื้นฐานการสร้างวิดีโอจากข้อความ

เครื่องมือเดียว สี่โหมดอินพุต

เขียนถึงการเคลื่อนไหว ไม่ใช่แค่ฉาก

การเลือกโมเดล

สัดส่วนภาพ, ระยะเวลา, ความละเอียด, เสียง

นอกจาก Create: Edit และ Motion Control

หลังการเรนเดอร์

บทความที่เกี่ยวข้อง