การเขียน Prompt สำหรับวิดีโอ

วิธีปฏิบัติจริงสำหรับการเขียน prompt วิดีโอ AI บน PonPon: โครงสร้างช็อต คำสั่งกล้องที่โมเดลเข้าใจ จังหวะ เคล็ดลับเฉพาะโมเดล และการแก้ปัญหาที่พบบ่อย

prompt วิดีโอที่ดีต้องอ่านแล้วเหมือนคำอธิบายช็อตที่ผู้กำกับมอบให้กับช่างภาพ โดยระบุตัวละคร การกระทำ มุมกล้อง และแสง — และหลีกเลี่ยงการยัดเยียดหลายช็อตไว้ในที่เดียว

โครงสร้างที่ใช้ได้ผล

เขียนตามลำดับนี้:

ตัวละคร/วัตถุหลัก — ใครหรืออะไร ระบุให้ชัด เช่น “หญิงสาวสวมเสื้อกันฝนสีแดง”
การกระทำ — สิ่งเดียวที่เปลี่ยนแปลงในช่วงคลิป เช่น “เดินเข้าหากล้องแล้วเงยหน้าขึ้นมอง”
ฉากและสภาพแวดล้อม — ที่ไหน และรายล้อมด้วยอะไร เช่น “บนถนนในเมืองยามค่ำที่เปียกฝน มีแสงนีออนสะท้อนในแอ่งน้ำ”
กล้อง — การเคลื่อนไหว เช่น “slow dolly in ระดับสายตา”
แสงและอารมณ์ — เช่น “แสงสีน้ำเงินเย็น, cinematic, moody”

หญิงสาวสวมเสื้อกันฝนสีแดงเดินเข้าหากล้องแล้วเงยหน้าขึ้นมอง บนถนนในเมืองยามค่ำที่เปียกฝนพร้อมแสงนีออนสะท้อน slow dolly in ระดับสายตา แสง cinematic สีเย็น 9:16, 5 วินาที

ภาษากล้องที่โมเดลเข้าใจ

ไทม์ไลน์ Studio ของ PonPon แสดงการเคลื่อนไหวกล้องที่โมเดลตอบสนองได้โดยตรง — ใช้คำเหล่านี้ใน prompt ได้เลย:

Push In / Pull Out — เคลื่อนเข้าหาหรือถอยออกจากตัวละคร
Pan Left / Right, Tilt Up / Down — หมุนกล้องในที่อยู่เดิม
Tracking — ติดตามตัวละครที่กำลังเคลื่อนไหวไปด้านข้าง
Orbit — วนรอบตัวละคร
Crane Up, Aerial — ยกขึ้นเหนือฉาก
Handheld — การเคลื่อนไหวแบบสั่นเล็กน้อยเป็นธรรมชาติ
Dolly Zoom — เอฟเฟกต์ให้ความรู้สึกวิงเวียน
Static — ช็อตกล้องนิ่ง

เคล็ดลับ

ระบุการเคลื่อนไหวหลัก หนึ่ง อย่างต่อคลิป การขอ “pan and zoom and orbit” พร้อมกันมักให้ผลยุ่งเหยิง — โมเดลไม่สามารถทำตามสามทิศทางในเวลาไม่กี่วินาทีได้

หนึ่งการกระทำต่อหนึ่งช็อต

ความผิดพลาดที่พบบ่อยที่สุดคือการอธิบายฉากทั้งหมดที่มีหลายเหตุการณ์ คลิปหนึ่งมีความยาวเพียงไม่กี่วินาที — ให้มี หนึ่ง จังหวะ หากต้องการเป็นซีเควนซ์ ให้สร้างแต่ละช็อตแยกกันแล้วนำมาประกอบใน Flow หรือใช้ multi-shot timeline ใน Studio บน Kling 3.0 เพื่อกำกับหลายตัดในการสร้างเดียว

หมายเหตุ

prompt มีขีดจำกัดความยาว (แต่ละโมเดลแตกต่างกัน) และ PonPon จะไม่ตัดทอน prompt ที่ยาวเกินไป — ระบบจะล้มเหลวแทนที่จะรัน ใส่สิ่งสำคัญไว้ก่อน และการระบุจังหวะที่ชัดเจนหนึ่งอย่างให้ผลดีกว่าการยัดรายละเอียดอยู่ดี

จังหวะและความยาว

ระหว่างการทดลองให้คลิปสั้น เพื่อประเมินการเคลื่อนไหวก่อน แล้วค่อยสร้างเวอร์ชันยาว
คำอย่าง “slow” “unhurried” “gentle” กับ “quick” “snappy” “energetic” ส่งผลต่อผลลัพธ์จริงๆ

เลือกโมเดลให้เหมาะกับช็อต

Veo 3.1 — ควบคุมกล้องได้แม่นยำที่สุด พร้อมเสียงดั้งเดิม ใช้เมื่อการเคลื่อนไหวสำคัญ
Kling 3.0 — เหมาะที่สุดสำหรับ บทสนทนา (lip-sync) และซีเควนซ์ multi-shot
Sora 2 — เมื่อฟิสิกส์และความสมจริงของพื้นผิวเป็นหัวใจหลักของช็อต
Seedance 2.0 — สร้างเร็ว แสดงออกได้ดี เหมาะกับคลิปโซเชียลแนวตั้ง

หมายเหตุ

โครงสร้าง prompt ที่ใช้ได้ผลสามารถนำไปใช้ข้ามโมเดลได้ — คำอธิบายช็อตเดียวกันรันได้บนทุกโมเดล ลองใช้ prompt เดียวกันบนสองหรือสามโมเดล แล้วเลือก take ที่ดีที่สุดแทนที่จะเขียนใหม่ทีละโมเดล

แก้ปัญหาที่พบบ่อย

ปัญหา	วิธีแก้
ใบหน้าหรือมือบิดเบี้ยว	ลดความซับซ้อนของการกระทำ ชะลอการเคลื่อนไหว หรือเริ่มจากภาพที่ชัดเจนด้วย image-to-video
กล้องไม่ทำตามคำสั่ง	ระบุการเคลื่อนไหวหนึ่งอย่างชัดเจนจากรายการด้านบน ลบทิศทางที่ขัดแย้ง
มีสิ่งเกิดขึ้นมากเกินไป	ตัดให้เหลือการกระทำเดียว แบ่งเป็นหลายช็อต
ลุคไม่ตรงแบรนด์	ใส่ Start Frame แทนการอธิบายสไตล์ด้วยคำ
เน้นตัวละครผิด	ใส่ตัวละครหลักไว้ก่อน ลดรายละเอียดฉากหลัง

ล็อคลุคด้วย First Frame

เมื่อ *สไตล์* สำคัญกว่าความประหลาดใจ ให้สร้างหรืออัปโหลดภาพนิ่งแล้วใส่ภาพเคลื่อนไหวด้วย Start Frame ใน video generator วิธีนี้จะหยุดการพนันกับลุค และให้โมเดลจัดการเฉพาะการเคลื่อนไหวเท่านั้น สำหรับพื้นฐาน ดูเพิ่มเติมได้ที่ Text-to-video basics

การเขียน Prompt สำหรับวิดีโอ

โครงสร้างที่ใช้ได้ผล

เขียนตามลำดับนี้:

ตัวละคร/วัตถุหลัก — ใครหรืออะไร ระบุให้ชัด เช่น “หญิงสาวสวมเสื้อกันฝนสีแดง”
การกระทำ — สิ่งเดียวที่เปลี่ยนแปลงในช่วงคลิป เช่น “เดินเข้าหากล้องแล้วเงยหน้าขึ้นมอง”
ฉากและสภาพแวดล้อม — ที่ไหน และรายล้อมด้วยอะไร เช่น “บนถนนในเมืองยามค่ำที่เปียกฝน มีแสงนีออนสะท้อนในแอ่งน้ำ”
กล้อง — การเคลื่อนไหว เช่น “slow dolly in ระดับสายตา”
แสงและอารมณ์ — เช่น “แสงสีน้ำเงินเย็น, cinematic, moody”

หญิงสาวสวมเสื้อกันฝนสีแดงเดินเข้าหากล้องแล้วเงยหน้าขึ้นมอง บนถนนในเมืองยามค่ำที่เปียกฝนพร้อมแสงนีออนสะท้อน slow dolly in ระดับสายตา แสง cinematic สีเย็น 9:16, 5 วินาที

ภาษากล้องที่โมเดลเข้าใจ

Push In / Pull Out — เคลื่อนเข้าหาหรือถอยออกจากตัวละคร
Pan Left / Right, Tilt Up / Down — หมุนกล้องในที่อยู่เดิม
Tracking — ติดตามตัวละครที่กำลังเคลื่อนไหวไปด้านข้าง
Orbit — วนรอบตัวละคร
Crane Up, Aerial — ยกขึ้นเหนือฉาก
Handheld — การเคลื่อนไหวแบบสั่นเล็กน้อยเป็นธรรมชาติ
Dolly Zoom — เอฟเฟกต์ให้ความรู้สึกวิงเวียน
Static — ช็อตกล้องนิ่ง

เคล็ดลับ

หนึ่งการกระทำต่อหนึ่งช็อต

หมายเหตุ

จังหวะและความยาว

ระหว่างการทดลองให้คลิปสั้น เพื่อประเมินการเคลื่อนไหวก่อน แล้วค่อยสร้างเวอร์ชันยาว
คำอย่าง “slow” “unhurried” “gentle” กับ “quick” “snappy” “energetic” ส่งผลต่อผลลัพธ์จริงๆ

เลือกโมเดลให้เหมาะกับช็อต

Veo 3.1 — ควบคุมกล้องได้แม่นยำที่สุด พร้อมเสียงดั้งเดิม ใช้เมื่อการเคลื่อนไหวสำคัญ
Kling 3.0 — เหมาะที่สุดสำหรับ บทสนทนา (lip-sync) และซีเควนซ์ multi-shot
Sora 2 — เมื่อฟิสิกส์และความสมจริงของพื้นผิวเป็นหัวใจหลักของช็อต
Seedance 2.0 — สร้างเร็ว แสดงออกได้ดี เหมาะกับคลิปโซเชียลแนวตั้ง

หมายเหตุ

แก้ปัญหาที่พบบ่อย

ปัญหา	วิธีแก้
ใบหน้าหรือมือบิดเบี้ยว	ลดความซับซ้อนของการกระทำ ชะลอการเคลื่อนไหว หรือเริ่มจากภาพที่ชัดเจนด้วย image-to-video
กล้องไม่ทำตามคำสั่ง	ระบุการเคลื่อนไหวหนึ่งอย่างชัดเจนจากรายการด้านบน ลบทิศทางที่ขัดแย้ง
มีสิ่งเกิดขึ้นมากเกินไป	ตัดให้เหลือการกระทำเดียว แบ่งเป็นหลายช็อต
ลุคไม่ตรงแบรนด์	ใส่ Start Frame แทนการอธิบายสไตล์ด้วยคำ
เน้นตัวละครผิด	ใส่ตัวละครหลักไว้ก่อน ลดรายละเอียดฉากหลัง

การเขียน Prompt สำหรับวิดีโอ

โครงสร้างที่ใช้ได้ผล

ภาษากล้องที่โมเดลเข้าใจ

หนึ่งการกระทำต่อหนึ่งช็อต

จังหวะและความยาว

เลือกโมเดลให้เหมาะกับช็อต

แก้ปัญหาที่พบบ่อย

ล็อคลุคด้วย First Frame

บทความที่เกี่ยวข้อง

การเขียน Prompt สำหรับวิดีโอ

โครงสร้างที่ใช้ได้ผล

ภาษากล้องที่โมเดลเข้าใจ

หนึ่งการกระทำต่อหนึ่งช็อต

จังหวะและความยาว

เลือกโมเดลให้เหมาะกับช็อต

แก้ปัญหาที่พบบ่อย

ล็อคลุคด้วย First Frame

บทความที่เกี่ยวข้อง