Tạo âm thanh gốc
Kling 3.0 không dán âm thanh vào sau khi dựng. Lời thoại, chuyển động môi và âm thanh môi trường được tạo đồng thời — khớp theo từng khung hình, chứ không phải ước lượng.
Lip sync AI tạo ra chuyển động miệng chân thực được đồng bộ với âm thanh lời nói — ánh xạ các âm vị thành chuyển động khuôn mặt để nhân vật trông như đang nói một cách tự nhiên. Khác với hoạt hình keyframe truyền thống (mất hàng giờ cho mỗi giây phim) hay lồng tiếng hậu kỳ (thường bị lệch), lip sync gốc dựng lời nói và video cùng lúc, loại bỏ lỗi căn chỉnh ngay từ gốc.
Kling 3.0 không dán âm thanh vào sau khi dựng. Lời thoại, chuyển động môi và âm thanh môi trường được tạo đồng thời — khớp theo từng khung hình, chứ không phải ước lượng.
Tạo nhân vật nói tiếng Anh, tiếng Trung, tiếng Nhật và nhiều ngôn ngữ khác. Lip sync thích ứng với ngữ âm của từng ngôn ngữ một cách tự nhiên.
Mô tả sắc thái cảm xúc trong prompt — thì thầm, hét lớn, cười, khóc. Kling 3.0 ánh xạ vi biểu cảm khuôn mặt theo cách thể hiện giọng nói để màn trình diễn trở nên nhất quán.
Ngoài lời thoại, Kling 3.0 còn dựng âm thanh môi trường — tiếng phòng, tiếng bước chân, tiếng ồn nền. Toàn bộ không gian âm thanh, không chỉ riêng lời nói.
Mô hình ánh xạ mỗi âm vị tới đúng khẩu hình tại đúng khung hình — không phải ước lượng trong một khoảng. Các cụm phụ âm phức tạp và lời nói nhanh vẫn được giữ chính xác.
Tạo các đoạn lời thoại đầy đủ tới 15 giây với lip sync nhất quán xuyên suốt. Đủ dài cho một đoạn quảng cáo, một bài giới thiệu sản phẩm hay một cảnh hội thoại. Nối các đoạn trong Flow để có chuỗi cảnh dài hơn.
Truy cập PonPon Video và chọn Kling 3.0 từ menu thả xuống chọn mô hình.
Đưa nội dung lời nói vào prompt — ví dụ: *Một người dẫn chương trình tin tức nhìn vào camera và nói "Tin nóng: tương lai của video đã ở đây."* Kling 3.0 sẽ tạo giọng nói và chuyển động môi khớp tương ứng.
Chỉ định ngôn ngữ (tiếng Anh, tiếng Trung, tiếng Nhật, v.v.) và sắc thái cảm xúc (điềm tĩnh, phấn khích, thì thầm) trong prompt. Mô hình điều chỉnh ánh xạ âm vị và biểu cảm khuôn mặt cho phù hợp.
Nhấn Generate và kiểm tra độ chính xác của lip sync. Chú ý đến các cụm phụ âm và các đoạn chuyển cảm xúc. Tạo lại với cách diễn đạt đã chỉnh nếu có âm tiết bị lệch.
Tải đoạn video kèm âm thanh đã nhúng. Với các chuỗi lời thoại dài hơn, nối các đoạn trong Flow để giữ nguyên danh tính nhân vật qua các lần cắt cảnh.
Dù bạn là creator cá nhân, agency hay thương hiệu — mọi mô hình đều thích ứng với cách bạn làm việc.
A professional woman in a navy blazer stands in a modern office and speaks directly to the camera: "Our new platform saves your team 10 hours a week. Try it free today." Calm, confident tone. Eye contact with the camera. Soft office ambient lighting. 16:9, 10 seconds.
Mô hình: Kling 3.0 · Thời lượng: 10s · Tỷ lệ: 16:9
A young man in a casual T-shirt sits at a desk and speaks in Japanese: "こんにちは、PonPonへようこそ。今日は新しい機能をご紹介します。" Natural, friendly delivery. Warm room lighting. 16:9, 8 seconds.
Mô hình: Kling 3.0 · Thời lượng: 8s · Ngôn ngữ: Tiếng Nhật
Close-up of a woman sitting on a park bench in autumn. She looks down, then slowly looks up with tears in her eyes and whispers: "I thought you weren't coming back." Soft afternoon light, shallow depth of field. 16:9, 10 seconds.
Mô hình: Kling 3.0 · Thời lượng: 10s · Sắc thái: Thì thầm đầy cảm xúc
A male news anchor in a dark suit behind a studio desk reads: "In a breakthrough announcement today, researchers demonstrated the first fully autonomous AI video generation system." Professional, authoritative tone. Studio lighting, teleprompter eye line. 16:9, 12 seconds.
Mô hình: Kling 3.0 · Thời lượng: 12s · Sắc thái: Chuyên nghiệp
Tạo cùng một người đại diện sản phẩm trình bày bài giới thiệu của bạn bằng tiếng Anh, tiếng Nhật và tiếng Tây Ban Nha — mỗi ngôn ngữ đều có lip sync gốc. Không cần diễn viên lồng tiếng, không cần studio lồng tiếng, không cần quay lại.
Tạo người dẫn AI cho TikTok, Reels và YouTube Shorts, nơi nhân vật nói trực tiếp với camera bằng chuyển động môi tự nhiên. Đăng bài mỗi ngày mà không cần quay phim.
Biến nội dung viết thành video, nơi một nhân vật AI truyền tải các điểm chính với lời nói đồng bộ. Tái sử dụng bài blog và bản ghi podcast thành video mà không cần studio.
Viết kịch bản, tạo lời thoại của từng nhân vật thành một đoạn riêng, rồi dựng chúng lại với nhau. Chế độ multi-shot của Kling 3.0 giữ cho nhân vật nhất quán qua các lần cắt cảnh.
| Lip Sync gốc của Kling 3.0 | Công cụ truyền thống / khác | |
|---|---|---|
| Phương pháp đồng bộ | Âm thanh và video được tạo cùng lúc — đồng bộ là tích hợp sẵn | Âm thanh thêm vào ở hậu kỳ — cần căn chỉnh thủ công hoặc công cụ riêng |
| Thời gian thiết lập | Bằng không — chỉ cần mô tả lời thoại trong prompt | Thu âm → nhập vào → căn chỉnh → dựng (hơn 30 phút mỗi đoạn) |
| Đa ngôn ngữ | Ánh xạ âm vị gốc cho từng ngôn ngữ | Cần công cụ lồng tiếng riêng hoặc thu âm lại thủ công |
| Điều khiển cảm xúc | Vi biểu cảm khuôn mặt tự động khớp với sắc thái giọng nói | Keyframe thủ công hoặc cảm xúc cài sẵn hạn chế |
| Chi phí | Đã bao gồm trong credit tạo nội dung tiêu chuẩn của Kling 3.0 | Gói thuê công cụ riêng + phí diễn viên lồng tiếng |
Độ chính xác lip sync cao nhất ở góc 0–30° so với chính diện. Vượt quá góc nghiêng 45°, độ chân thực của khẩu hình giảm. Nếu cảnh quay cần góc nghiêng, hãy giữ lời thoại ở mức câu đơn giản.
Các prompt với lối nói tự nhiên cho lip sync tốt hơn so với văn bản văn chương hoặc quá trang trọng. Hãy đọc to lời thoại trước khi viết prompt — nếu nghe gượng gạo khi nói ra, nó sẽ đồng bộ kém.
Các đoạn chỉ có một người nói cho lip sync chính xác nhất. Với hội thoại, hãy tạo lời thoại của từng nhân vật riêng rồi cắt ghép lại trong Flow hoặc trình biên tập của bạn.
Nếu lời thoại không phải tiếng Anh, hãy nêu rõ ngôn ngữ trong prompt (ví dụ: "nói bằng tiếng Nhật"). Điều này kích hoạt đúng bộ âm vị và cải thiện độ chính xác đồng bộ cho ngôn ngữ đó.
Tham gia cùng hàng nghìn creator, agency và thương hiệu sử dụng PonPon mỗi ngày.
Bắt đầu với credits miễn phí hàng ngày. Không cần thẻ tín dụng.