การสร้างเสียงแวดล้อม
Veo 3.1 วิเคราะห์สภาพแวดล้อมใน prompt และสร้างเสียงแวดล้อมที่เหมาะสม — เสียงคลื่นทะเลสำหรับฉากชายหาด เสียงรถยนต์สำหรับถนนในเมือง เสียงนกสำหรับป่า เสียงพูดคุยในร้านกาแฟ ชั้นเสียงแวดล้อมคงอยู่ตลอดคลิปและตอบสนองต่อการเปลี่ยนแปลงภาพ
Native audio ในการสร้างวิดีโอ AI หมายความว่าโมเดลสร้างเสียงและภาพพร้อมกันจาก prompt เดียวกัน แทนที่จะสร้างวิดีโอไม่มีเสียงแล้วค่อยใส่เสียงในขั้นตอนหลัง เสียงซิงค์ตามเวลาได้อย่างแม่นยำ — ประตูปิดดังพอดีกับเฟรมที่ประตูปิด เสียงเท้าลงจังหวะพร้อมการเคลื่อนขา เสียงดนตรีพุ่งสูงตรงกับการเปลี่ยนฉากภาพ ต่างจากโมเดลที่สร้างวิดีโอก่อนแล้วใช้โมเดลเสียงแยกต่างหากเพิ่มเสียง ซึ่งมักส่งผลให้เกิดความไม่ตรงกันเล็กน้อยในจังหวะเวลา แนวทางของ Veo 3.1 เรนเดอร์ประสบการณ์ภาพและเสียงแบบสมบูรณ์ร่วมกัน โดยถือว่าเสียงเป็น output ชั้นแรกควบคู่กับพิกเซล
Veo 3.1 วิเคราะห์สภาพแวดล้อมใน prompt และสร้างเสียงแวดล้อมที่เหมาะสม — เสียงคลื่นทะเลสำหรับฉากชายหาด เสียงรถยนต์สำหรับถนนในเมือง เสียงนกสำหรับป่า เสียงพูดคุยในร้านกาแฟ ชั้นเสียงแวดล้อมคงอยู่ตลอดคลิปและตอบสนองต่อการเปลี่ยนแปลงภาพ
การกระทำสร้างเสียงที่สอดคล้องในเฟรมที่เกิดขึ้นพอดี: วางแก้วบนโต๊ะเกิดเสียงกระทบ รถผ่านสร้างเสียงเครื่องยนต์ที่เปลี่ยนระดับตาม Doppler เสียงฝนกระทบกระจกเกิดเสียงเม็ดฝน เสียงเหล่านี้สร้างขึ้นตามบริบท ไม่ได้เลือกจากไลบรารี
ใส่ข้อความพูดใน prompt และ Veo 3.1 จะสร้างเสียงพูดที่ตรงกับตัวละครบนหน้าจอ ลักษณะเสียงปรับตามตัวละครที่อธิบาย — เสียงเด็กสำหรับเด็ก เสียงทุ้มสำหรับชายร่างใหญ่ ความแม่นยำของการขยับปากพอสมควรสำหรับตัวละครที่หันหน้าตรง
ระบุสไตล์ดนตรีพร้อมฉาก: "เปียโนเบาๆ", "อิเล็กทรอนิกส์สดใส", "ออร์เคสตราที่สร้างความตึงเครียด" Veo 3.1 สร้างดนตรีพื้นหลังที่เหมาะกับอารมณ์โดยไม่กลบเสียงส่วนหน้า ดนตรีตอบสนองต่อพลังงานของฉาก — เบาลงระหว่างบทสนทนา พุ่งขึ้นระหว่างแอคชัน
เสียงแวดล้อม เอฟเฟกต์เสียง บทสนทนา และดนตรีผสมรวมกันใน output — ไม่ใช่เป็นแทร็กแยกต่างหากแต่เป็นฉากเสียงที่สอดคล้องกัน ฉากร้านกาแฟอาจผสมเสียงเครื่องชงกาแฟ เสียงพูดคุยเบาๆ เสียงแก้วกระทบ และเพลงแจ๊สเบาๆ ทั้งหมดด้วยระดับเสียงสัมพัทธ์ที่เหมาะสม
ไปที่ PonPon Video และเลือก Veo 3.1 จากเมนูโมเดล
ใส่รายละเอียดเสียงใน prompt: เสียงสภาพแวดล้อม ("ถนนที่คึกคัก", "ห้องสมุดที่เงียบสงบ") เสียงเฉพาะ ("เสียงเท้าสะท้อนบนหินอ่อน") บทสนทนา ("เธอพูดว่า: 'ตามฉันมา'") และดนตรี ("เสียงเชลโลเศร้าในพื้นหลัง") ยิ่งใส่รายละเอียดเสียงมากเท่าไร output เสียงยิ่งสมบูรณ์มากขึ้น
แม้คุณไม่กล่าวถึงเสียง Veo 3.1 ก็สร้างเสียงแวดล้อมที่เหมาะสมตามบริบท ฉากป่าได้รับเสียงนกและลมโดยอัตโนมัติ ฉากครัวได้รับเสียงซ่าและเสียงกระทบ การระบุเสียงใน prompt ให้การควบคุม การละเว้นจะได้ค่าเริ่มต้นที่สมเหตุสมผล
คลิก Generate และดูผลลัพธ์พร้อมเสียง (ไม่ปิดเสียง) ตรวจสอบว่าเสียงตรงกับการกระทำในภาพ — ประตูปิด เสียงเท้า บทสนทนาตรงกับการขยับปาก สร้างใหม่หากองค์ประกอบเสียงบางส่วนหายไปหรือไม่ตรงจังหวะ
วิดีโอที่ดาวน์โหลดมีแทร็กเสียงฝังอยู่ ไม่ต้องส่งออกเสียงแยกต่างหาก หากต้องการแยกเสียงสำหรับการตัดต่อ ให้นำเข้าวิดีโอในโปรแกรมตัดต่อมาตรฐานใดก็ได้แล้วแยกแทร็กเสียงออก
ไม่ว่าคุณจะเป็นครีเอเตอร์คนเดียว เอเจนซี หรือแบรนด์ — ทุกโมเดลปรับตัวให้เข้ากับวิธีทำงานของคุณ
ผู้หญิงคนหนึ่งเดินบนถนนโตเกียวยามฝนตกตอนกลางคืน ป้ายนีออนสะท้อนบนทางเท้าเปียก เธอถือร่มใสอยู่ในมือ เสียง: เสียงฝนกระทบร่ม เสียงล้อรถไกลๆ บนถนนเปียก เสียงดนตรีเบาๆ จากทางประตูบาร์ เสียงส้นรองเท้าคลิกบนคอนกรีต 16:9, 8 วินาที
Model: Veo 3.1 · Duration: 8s · Aspect: 16:9
ภาพมุมสูงค่อยๆ ลงต่ำเหนือทะเลสาบบนภูเขาที่หมอกปกคลุมในยามเช้า ป่าสนล้อมรอบน้ำ เสียง: เสียงนกร้องตอนเช้า ลมเบาๆ พัดผ่านใบสน เสียงนกลูนร้องข้ามทะเลสาบ เสียงคลื่นเบาๆ กระทบฝั่งหิน ไม่มีดนตรี 16:9, 8 วินาที
Model: Veo 3.1 · Duration: 8s · Aspect: 16:9
กล่องหูฟังไร้สายสไตล์ล้ำเปิดขึ้นบนพื้นผิวหินอ่อน หูฟังหนึ่งข้างลอยขึ้นและหมุนช้าๆ เสียงชายที่อบอุ่นพูดว่า: "ออกแบบมาเพื่อหายไป สร้างขึ้นเพื่อประสิทธิภาพ" ดนตรีอิเล็กทรอนิกส์แบบ ambient เบาๆ เบสนุ่มนวล แสงสตูดิโอสะอาด 16:9, 6 วินาที
Model: Veo 3.1 · Duration: 6s · Aspect: 16:9
เพื่อนสองคนนั่งที่โต๊ะร้านกาแฟกลางแจ้ง คนหนึ่งโน้มตัวไปข้างหน้าพูดว่า: "ฉันได้งานแล้ว" อีกคนหยุดแล้วยิ้มกว้าง: "ฉันรู้ว่าต้องได้" พื้นหลัง: เสียงเครื่องชงกาแฟ เสียงรถยนต์เบาๆ เสียงนกในต้นไม้ใกล้ๆ แสงบ่ายอบอุ่น 16:9, 8 วินาที
Model: Veo 3.1 · Duration: 8s · Aspect: 16:9
ผลิตวิดีโอโฆษณา 15 วินาทีพร้อม voiceover ดนตรีพื้นหลัง และเอฟเฟกต์เสียงสินค้า — ทั้งหมดจาก prompt เดียว ไม่ต้องจ้างนักพากย์เสียง ซื้อลิขสิทธิ์ดนตรี หรือซิงค์เสียงในขั้นตอนหลัง สร้าง 10 เวอร์ชันและทดสอบ A/B แพ็คเกจภาพและเสียงทั้งหมด
สร้างวิดีโอ "บรรยากาศ" หรือ "ทำงานด้วยกัน" ที่มีเสียงสภาพแวดล้อมสมบูรณ์: เสียงฝนกระทบกระจก เสียงไฟฝืนแตก เสียงฟ้าร้องไกลๆ เพลงแจ๊สเบาๆ คอนเทนต์เหล่านี้ทำผลงานได้ดีบน YouTube เป็นคอนเทนต์พื้นหลัง ลูปภาพและเสียงที่ซิงค์กันสมบูรณ์พร้อมใช้ทันที
ผู้กำกับและนักเขียนบทสร้างต้นแบบฉากพร้อมเสียงสมบูรณ์เพื่อประเมินอารมณ์และจังหวะก่อนเริ่มผลิตจริง สร้างฉากทางเดินตึงเครียดพร้อมเสียงเท้าสะท้อนและดนตรี drone เบาๆ หรือฉากตลาดร่าเริงพร้อมเสียงพ่อค้าและกีตาร์สดใส ประเมินความรู้สึกไม่ใช่แค่ภาพ
แปลงส่วนของสคริปต์เป็นคลิปวิดีโอสั้นที่ผู้บรรยาย AI พูดประเด็นสำคัญพร้อมภาพพื้นหลังและเสียงแวดล้อมที่เหมาะสม เชื่อมคลิปใน Flow สำหรับลำดับที่ยาวขึ้น เสียงผู้บรรยาย เสียงฉาก และภาพสร้างขึ้นพร้อมกัน
| Veo 3.1 | โมเดลอื่น | |
|---|---|---|
| แนวทางด้านเสียง | Ambient-first: สร้างภูมิทัศน์เสียงสิ่งแวดล้อมสมบูรณ์ (ambient + SFX + ดนตรี) โดยมีบทสนทนาเป็นชั้นหนึ่ง | Kling 3.0: dialogue-first — แข็งแกร่งที่สุดในเรื่องการพูดที่ซิงค์ปาก เสียงแวดล้อมเป็นรอง Seedance 2.0: music-sync — ดีที่สุดสำหรับการเคลื่อนไหวตามจังหวะ เสียงแวดล้อมจำกัด |
| คุณภาพเสียงแวดล้อม | เสียงสิ่งแวดล้อมหลายชั้นสมบูรณ์ พร้อมความลึกเชิงพื้นที่ (เสียงฝน + รถ + ดนตรีไกลๆ พร้อมกัน) | Kling 3.0: เสียงแวดล้อมพอใช้ รองจากคุณภาพบทสนทนา Seedance 2.0: เสียงแวดล้อมน้อยมาก เน้นดนตรี Sora 2: ไม่มี native audio |
| คุณภาพบทสนทนา | การพูดเป็นธรรมชาติและการซิงค์ปากพอสมควร เหมาะสำหรับประโยคสั้น ความแม่นยำน้อยกว่า Kling สำหรับบทสนทนายาว | Kling 3.0: การแมปโฟนีมแม่นยำระดับเฟรม รองรับหลายภาษา ควบคุมอารมณ์ — มาตรฐานสำหรับ AI dialogue Seedance 2.0: ความสามารถบทสนทนาจำกัด |
| การสร้างดนตรี | สร้างดนตรีพื้นหลังที่ตรงกับอารมณ์ฉาก ไม่สามารถเลือกแนวดนตรีได้ — อธิบายใน prompt | Seedance 2.0: music-sync คือจุดแข็งหลัก — การเต้นและท่าทางตามจังหวะ Kling 3.0: ดนตรีพื้นหลังพื้นฐาน Sora 2: ไม่มีเสียง |
| กรณีใช้งานที่เหมาะสมที่สุด | ฉากภาพยนตร์ คอนเทนต์บรรยากาศ สปอตโฆษณาพร้อมภูมิทัศน์เสียงสมบูรณ์ | Kling 3.0: คอนเทนต์หน้ากล้อง ฉากบทสนทนา การซิงค์ปาก Seedance 2.0: มิวสิควิดีโอ คอนเทนต์เต้น Sora 2: วิดีโอไม่มีเสียงสำหรับใส่เสียงเองในขั้นตอนหลัง |
Veo 3.1 สร้างเสียงตามบริบทโดยค่าเริ่มต้น แต่การระบุเสียงใน prompt ให้ผลที่มีรายละเอียดมากกว่า "ชายหาด" ให้เสียงคลื่นทั่วไป "คลื่นซัดหิน นกนางนวลร้อง ลมพัดผ่านหญ้าชายหาด เสียงเด็กหัวเราะไกลๆ" ให้ภูมิทัศน์เสียงที่ชั้นและน่าดื่มด่ำ
จุดแข็งของ Veo 3.1 คือภูมิทัศน์เสียงแวดล้อมสมบูรณ์ สำหรับฉากที่ความแม่นยำของบทสนทนาและการซิงค์ปากเป็นสิ่งสำคัญ — การพูดตรงหน้ากล้อง สัมภาษณ์ การนำเสนอ — การซิงค์ปากของ Kling 3.0 ให้การซิงค์เสียงพูดที่เชื่อถือได้มากกว่า
Veo 3.1 จัดการบทสนทนา 1–2 ประโยคต่อคลิปได้ดี การพูดเดี่ยวที่ยาวหรือบทสนทนาโต้ตอบรวดเร็วอาจลดคุณภาพการซิงค์ สำหรับบทสนทนาที่ยาว ให้สร้างคลิปสั้นๆ แล้วเชื่อมใน Flow
โดยค่าเริ่มต้น Veo 3.1 อาจเพิ่มดนตรีพื้นหลังเบาๆ ในฉากภาพยนตร์ หากต้องการเสียงสิ่งแวดล้อมล้วนโดยไม่มีดนตรี ให้ใส่ "no background music" หรือ "ambient sound only" ใน prompt สิ่งนี้มีประโยชน์เมื่อวางแผนจะใส่เพลงของตัวเองในขั้นตอนหลัง
เข้าร่วมกับครีเอเตอร์ เอเจนซี และแบรนด์นับพันที่ใช้ PonPon ทุกวัน