Avatar biết nói & đồng bộ môi

Tạo nhân vật biết nói trên PonPon: cách đồng bộ môi điều khiển khuôn mặt từ bản âm thanh với Kling 3.0, nguồn giọng nói đến từ đâu, ví dụ thực tế, mẹo chọn ảnh nguồn và cách kết hợp với lồng tiếng.

Avatar biết nói là nhân vật có miệng chuyển động theo lời thoại. Để tạo ra một avatar như vậy, bạn cần hai yếu tố: một khuôn mặt (ảnh hoặc clip của một người) và một giọng nói (bản âm thanh). Đồng bộ môi kết nối hai yếu tố này lại, khiến nhân vật trông như đang thực sự nói ra những từ đó.

Mô hình xử lý

Trên PonPon, đồng bộ môi chạy trên Kling 3.0 — mô hình được tối ưu cho hội thoại. Tính năng đồng bộ môi chuyên dụng của nó điều khiển miệng nhân vật theo bản âm thanh, giúp một bức chân dung tĩnh hay một đoạn clip có thể truyền tải lời thoại một cách thuyết phục. Để xem ví dụ thực tế đầy đủ, hãy xem trường hợp sử dụng video đồng bộ môi.

Khi người dẫn chương trình của bạn xuất hiện trong nhiều cảnh quay, hãy giữ nguyên khuôn mặt xuyên suốt các cảnh bằng tính năng kể chuyện nhiều cảnh của Kling 3.0 và quy trình nhất quán nhân vật nhiều cảnh.

Nguồn giọng nói

Âm thanh dùng để điều khiển chuyển động môi có thể đến từ bất kỳ nguồn nào trong PonPon:

Chuyển văn bản thành giọng nói — nhập kịch bản và tạo giọng đọc. Phù hợp nhất khi bạn viết lời thoại từ đầu.
Lồng tiếng — dịch lời thoại sang ngôn ngữ khác, rồi đồng bộ môi theo bản lồng tiếng đó.
Tải lên — giọng nói tự thu âm của bạn.

Cách thực hiện

Chọn Kling 3.0 trong trình tạo video.
Cung cấp nhân vật — một chân dung rõ nét hoặc một đoạn clip ngắn.
Cung cấp giọng nói — âm thanh đã tạo sẵn hoặc tải lên.
Tạo video. Mô hình sẽ khớp chuyển động môi (và các vi chuyển động tự nhiên) với lời thoại.

Ví dụ thực tế

Giả sử bạn muốn một người dẫn chương trình giới thiệu sản phẩm:

Trong chuyển văn bản thành giọng nói, tạo lời thoại: *"Meet the new Aero — lighter, faster, yours."*
Tải lên ảnh chân dung rõ nét, nhìn thẳng vào máy của người dẫn (thật hoặc do AI tạo ra).
Đưa cả hai vào tính năng đồng bộ môi của Kling 3.0.

Kết quả là một đoạn clip ngắn với khuôn mặt đó đọc đúng lời thoại. Hãy viết kịch bản thành từng câu ngắn để bạn có thể tạo lại một câu yếu thay vì làm lại toàn bộ.

Mẹo chọn ảnh nguồn

Dùng khuôn mặt nhìn thẳng vào máy, miệng phải thấy rõ — góc nghiêng và góc cực đoan sẽ đồng bộ kém.
Giữ âm thanh sạch: một người nói, tiếng ồn nền tối thiểu.
Hãy khớp năng lượng của giọng đọc với biểu cảm khuôn mặt; một chân dung bình thản đọc lời thoại hứng khởi sẽ trông thiếu tự nhiên.
Giữ lời thoại ngắn. Vài câu súc tích sẽ đồng bộ ổn định hơn một đoạn độc thoại dài.

Đồng bộ môi so với lồng tiếng

Hai tính năng này bổ trợ cho nhau:

Lồng tiếng thay đổi ngôn ngữ của âm thanh nhưng không thay đổi hình ảnh.
Đồng bộ môi thay đổi chuyển động miệng trong hình ảnh để khớp với bất kỳ âm thanh nào bạn cung cấp.

Địa phương hóa video người nói? Lồng tiếng sang ngôn ngữ đích, rồi đồng bộ môi theo bản lồng tiếng đó — kết quả trông như được quay trực tiếp bằng ngôn ngữ đó. Để xem toàn bộ quy trình xử lý âm thanh, hãy xem Cơ bản về lồng tiếng và âm thanh.

Avatar biết nói & đồng bộ môi

Mô hình xử lý

Nguồn giọng nói

Âm thanh dùng để điều khiển chuyển động môi có thể đến từ bất kỳ nguồn nào trong PonPon:

Chuyển văn bản thành giọng nói — nhập kịch bản và tạo giọng đọc. Phù hợp nhất khi bạn viết lời thoại từ đầu.
Lồng tiếng — dịch lời thoại sang ngôn ngữ khác, rồi đồng bộ môi theo bản lồng tiếng đó.
Tải lên — giọng nói tự thu âm của bạn.

Cách thực hiện

Chọn Kling 3.0 trong trình tạo video.
Cung cấp nhân vật — một chân dung rõ nét hoặc một đoạn clip ngắn.
Cung cấp giọng nói — âm thanh đã tạo sẵn hoặc tải lên.
Tạo video. Mô hình sẽ khớp chuyển động môi (và các vi chuyển động tự nhiên) với lời thoại.

Ví dụ thực tế

Giả sử bạn muốn một người dẫn chương trình giới thiệu sản phẩm:

Trong chuyển văn bản thành giọng nói, tạo lời thoại: *"Meet the new Aero — lighter, faster, yours."*
Tải lên ảnh chân dung rõ nét, nhìn thẳng vào máy của người dẫn (thật hoặc do AI tạo ra).
Đưa cả hai vào tính năng đồng bộ môi của Kling 3.0.

Mẹo chọn ảnh nguồn

Dùng khuôn mặt nhìn thẳng vào máy, miệng phải thấy rõ — góc nghiêng và góc cực đoan sẽ đồng bộ kém.
Giữ âm thanh sạch: một người nói, tiếng ồn nền tối thiểu.
Hãy khớp năng lượng của giọng đọc với biểu cảm khuôn mặt; một chân dung bình thản đọc lời thoại hứng khởi sẽ trông thiếu tự nhiên.
Giữ lời thoại ngắn. Vài câu súc tích sẽ đồng bộ ổn định hơn một đoạn độc thoại dài.

Đồng bộ môi so với lồng tiếng

Hai tính năng này bổ trợ cho nhau:

Lồng tiếng thay đổi ngôn ngữ của âm thanh nhưng không thay đổi hình ảnh.
Đồng bộ môi thay đổi chuyển động miệng trong hình ảnh để khớp với bất kỳ âm thanh nào bạn cung cấp.

Avatar biết nói & đồng bộ môi

Mô hình xử lý

Nguồn giọng nói

Cách thực hiện

Ví dụ thực tế

Mẹo chọn ảnh nguồn

Đồng bộ môi so với lồng tiếng

Bài viết liên quan

Avatar biết nói & đồng bộ môi

Mô hình xử lý

Nguồn giọng nói

Cách thực hiện

Ví dụ thực tế

Mẹo chọn ảnh nguồn

Đồng bộ môi so với lồng tiếng

Bài viết liên quan