Avatar biết nói & đồng bộ môi
Tạo nhân vật biết nói trên PonPon: cách đồng bộ môi điều khiển khuôn mặt từ bản âm thanh với Kling 3.0, nguồn giọng nói đến từ đâu, ví dụ thực tế, mẹo chọn ảnh nguồn và cách kết hợp với lồng tiếng.
Avatar biết nói là nhân vật có miệng chuyển động theo lời thoại. Để tạo ra một avatar như vậy, bạn cần hai yếu tố: một khuôn mặt (ảnh hoặc clip của một người) và một giọng nói (bản âm thanh). Đồng bộ môi kết nối hai yếu tố này lại, khiến nhân vật trông như đang thực sự nói ra những từ đó.
Mô hình xử lý
Trên PonPon, đồng bộ môi chạy trên Kling 3.0 — mô hình được tối ưu cho hội thoại. Tính năng đồng bộ môi chuyên dụng của nó điều khiển miệng nhân vật theo bản âm thanh, giúp một bức chân dung tĩnh hay một đoạn clip có thể truyền tải lời thoại một cách thuyết phục. Để xem ví dụ thực tế đầy đủ, hãy xem trường hợp sử dụng video đồng bộ môi.
Khi người dẫn chương trình của bạn xuất hiện trong nhiều cảnh quay, hãy giữ nguyên khuôn mặt xuyên suốt các cảnh bằng tính năng kể chuyện nhiều cảnh của Kling 3.0 và quy trình nhất quán nhân vật nhiều cảnh.
Nguồn giọng nói
Âm thanh dùng để điều khiển chuyển động môi có thể đến từ bất kỳ nguồn nào trong PonPon:
- Chuyển văn bản thành giọng nói — nhập kịch bản và tạo giọng đọc. Phù hợp nhất khi bạn viết lời thoại từ đầu.
- Lồng tiếng — dịch lời thoại sang ngôn ngữ khác, rồi đồng bộ môi theo bản lồng tiếng đó.
- Tải lên — giọng nói tự thu âm của bạn.
Cách thực hiện
- Chọn Kling 3.0 trong trình tạo video.
- Cung cấp nhân vật — một chân dung rõ nét hoặc một đoạn clip ngắn.
- Cung cấp giọng nói — âm thanh đã tạo sẵn hoặc tải lên.
- Tạo video. Mô hình sẽ khớp chuyển động môi (và các vi chuyển động tự nhiên) với lời thoại.
Ví dụ thực tế
Giả sử bạn muốn một người dẫn chương trình giới thiệu sản phẩm:
- Trong chuyển văn bản thành giọng nói, tạo lời thoại: *"Meet the new Aero — lighter, faster, yours."*
- Tải lên ảnh chân dung rõ nét, nhìn thẳng vào máy của người dẫn (thật hoặc do AI tạo ra).
- Đưa cả hai vào tính năng đồng bộ môi của Kling 3.0.
Kết quả là một đoạn clip ngắn với khuôn mặt đó đọc đúng lời thoại. Hãy viết kịch bản thành từng câu ngắn để bạn có thể tạo lại một câu yếu thay vì làm lại toàn bộ.
Mẹo chọn ảnh nguồn
- Dùng khuôn mặt nhìn thẳng vào máy, miệng phải thấy rõ — góc nghiêng và góc cực đoan sẽ đồng bộ kém.
- Giữ âm thanh sạch: một người nói, tiếng ồn nền tối thiểu.
- Hãy khớp năng lượng của giọng đọc với biểu cảm khuôn mặt; một chân dung bình thản đọc lời thoại hứng khởi sẽ trông thiếu tự nhiên.
- Giữ lời thoại ngắn. Vài câu súc tích sẽ đồng bộ ổn định hơn một đoạn độc thoại dài.
Đồng bộ môi so với lồng tiếng
Hai tính năng này bổ trợ cho nhau:
- Lồng tiếng thay đổi ngôn ngữ của âm thanh nhưng không thay đổi hình ảnh.
- Đồng bộ môi thay đổi chuyển động miệng trong hình ảnh để khớp với bất kỳ âm thanh nào bạn cung cấp.
Địa phương hóa video người nói? Lồng tiếng sang ngôn ngữ đích, rồi đồng bộ môi theo bản lồng tiếng đó — kết quả trông như được quay trực tiếp bằng ngôn ngữ đó. Để xem toàn bộ quy trình xử lý âm thanh, hãy xem Cơ bản về lồng tiếng và âm thanh.
Bài viết liên quan
- Lồng tiếng AILồng tiếng video hoặc đoạn âm thanh sang ngôn ngữ khác bằng AI trên PonPon — 31 ngôn ngữ đích, sự khác biệt giữa lồng tiếng và thuyết minh, ví dụ thực tế, chuẩn bị nguồn âm và kết hợp với lip-sync.
- Lồng tiếng & âm thanhStudio âm thanh PonPon: chuyển văn bản thành giọng nói, thay đổi giọng, lồng tiếng 31 ngôn ngữ, hiệu ứng âm thanh, âm nhạc và hội thoại đa giọng — được hỗ trợ bởi ElevenLabs và MiniMax.
- Cơ bản tạo video từ văn bảnCách tạo video hoạt động trên PonPon: tạo video từ văn bản so với tạo video từ ảnh, chọn mô hình như Veo 3.1, Sora 2 và Kling 3.0, cùng các tab Chỉnh sửa và Kiểm soát chuyển động.