말하는 아바타와 립싱크
PonPon에서 캐릭터가 말하게 만드는 방법: Kling 3.0으로 오디오 트랙에 맞춰 얼굴을 움직이는 립싱크 원리, 보이스의 출처, 실전 예제, 소스 팁, 그리고 더빙과의 조합까지 살펴봅니다.
말하는 아바타는 입이 말소리에 맞춰 움직이는 캐릭터를 뜻합니다. 여기에는 두 가지 재료가 필요합니다. 얼굴(사람의 이미지나 클립)과 보이스(오디오 트랙)입니다. 립싱크는 이 둘을 묶어 캐릭터가 실제로 말을 하고 있는 것처럼 보이게 만듭니다.
이 작업을 수행하는 모델
PonPon에서 립싱크는 대화에 특화된 Kling 3.0 위에서 동작합니다. 전용 립싱크 기능이 오디오 트랙에 맞춰 캐릭터의 입을 움직여 주기 때문에, 정지된 인물 사진이나 클립으로도 대사를 설득력 있게 전달할 수 있습니다. 전체 실전 예제는 립싱크 영상 활용 사례를 참고하세요.
스포크스퍼슨이 여러 컷에 걸쳐 등장한다면, Kling 3.0 멀티샷 스토리텔링과 멀티샷 캐릭터 일관성 워크플로로 컷마다 같은 얼굴을 유지하세요.
보이스의 출처
입을 움직이는 오디오는 PonPon 어디에서든 가져올 수 있습니다.
- 텍스트 음성 변환 — 스크립트를 입력하면 보이스를 생성합니다. 대사를 처음부터 작성할 때 가장 적합합니다.
- 더빙 — 기존 대사를 다른 언어로 번역한 뒤, 그 보이스에 맞춰 얼굴을 립싱크합니다.
- 업로드 — 직접 녹음한 자신의 보이스.
작동 방식
- 영상 생성기에서 Kling 3.0을 선택합니다.
- 캐릭터를 제공합니다. 선명한 인물 사진이나 짧은 클립이면 됩니다.
- 보이스를 제공합니다. 생성하거나 업로드한 오디오입니다.
- 생성합니다. 모델이 말소리에 맞춰 입(그리고 자연스러운 미세 움직임)을 일치시킵니다.
실전 예제
스포크스퍼슨이 제품을 소개하게 만들고 싶다고 가정해 봅시다.
- 텍스트 음성 변환에서 다음 대사를 생성합니다. *"새로워진 Aero를 만나보세요 — 더 가볍고, 더 빠르고, 온전히 당신의 것."*
- 스포크스퍼슨의 깔끔한 정면 인물 사진(실제 인물이든 AI로 생성한 것이든)을 업로드합니다.
- 두 가지를 Kling 3.0 립싱크에 함께 넣어 실행합니다.
그러면 해당 얼굴이 대사를 전달하는 짧은 클립이 완성됩니다. 스크립트를 짧은 문장으로 생성하면, 전체 테이크를 다시 찍는 대신 어색한 한 줄만 다시 돌릴 수 있습니다.
소스 팁
- 입이 또렷하게 보이는 정면 얼굴을 사용하세요. 측면이나 극단적인 각도는 싱크가 잘 맞지 않습니다.
- 오디오는 깨끗하게 유지하세요. 화자는 한 명, 배경 소음은 최소로 합니다.
- 전달의 에너지를 얼굴과 맞추세요. 차분한 인물 사진이 흥분된 대사를 읽으면 어색해 보입니다.
- 대사는 짧게 유지하세요. 짧고 간결한 몇 문장이 긴 독백 하나보다 싱크가 더 안정적으로 맞습니다.
립싱크 vs 더빙
이 둘은 서로를 보완합니다.
- 더빙은 오디오의 언어를 바꾸되 화면은 그대로 둡니다.
- 립싱크는 주어진 오디오에 맞춰 화면 속의 입을 바꿉니다.
토킹 헤드 영상을 현지화하시나요? 오디오를 대상 언어로 더빙한 뒤, 더빙된 트랙에 맞춰 얼굴을 립싱크하세요. 결과물이 원래 그 언어로 녹화된 것처럼 보입니다. 오디오 쪽 전체 흐름은 보이스오버 및 오디오 기초를 참고하세요.
관련 아티클
- AI 더빙PonPon에서 AI로 영상이나 오디오 클립을 다른 언어로 더빙하세요 — 31개 대상 언어, 더빙과 보이스오버의 차이, 실전 예제, 소스 준비 방법, 립싱크와의 조합까지.
- 내레이션과 오디오PonPon 오디오 스튜디오: 텍스트 음성 변환, 보이스 체인저, 31개 언어 더빙, 음향 효과, 음악, 다중 음성 대화 — ElevenLabs와 MiniMax 기반.
- 텍스트로 영상 만들기PonPon에서 영상 생성이 작동하는 방식: 텍스트로 영상 생성과 이미지로 영상 생성의 차이, Veo 3.1, Sora 2, Kling 3.0 같은 모델 선택, 그리고 Edit 및 Motion Control 탭.