Kiến thức cơ bản về tạo video từ văn bản
Cách tạo video hoạt động trên PonPon: tạo video từ văn bản so với tạo video từ ảnh, chọn mô hình như Veo 3.1, Sora 2 và Kling 3.0, cùng các tab Chỉnh sửa và Kiểm soát chuyển động.
Công cụ tạo video biến một đoạn mô tả — hoặc một hình ảnh — thành một đoạn clip chuyển động. Công cụ này có ba tab: Tạo Video, Chỉnh sửa Video và Kiểm soát chuyển động. Hầu hết các tác vụ bắt đầu ở tab Tạo.

Một công cụ, bốn chế độ nhập
Không có công tắc chuyển chế độ — PonPon tự suy luận bạn muốn gì từ những gì bạn cung cấp:
- Tạo video từ văn bản — chỉ cần một mô tả, không cần gì khác. Tự do tối đa; mô hình tự tạo ra từng khung hình.
- Tạo video từ ảnh — tải lên Khung bắt đầu và mô hình sẽ tạo hoạt ảnh từ khung hình đầu tiên đó. Kiểm soát tối đa về ngoại hình.
- Ghép hình từ đầu đến cuối — thêm cả Khung kết thúc và clip sẽ chuyển tiếp từ ảnh này sang ảnh kia.
- Tạo video từ ảnh tham chiếu — đính kèm ảnh/video tham chiếu trên mô hình hỗ trợ để đưa một nhân vật hoặc phong cách vào cảnh quay.
Hãy mô tả chuyển động, không chỉ là khung cảnh
Mô tả ảnh tĩnh diễn đạt một khoảnh khắc. Mô tả video diễn đạt một khoảnh khắc có sự thay đổi — chủ thể, hành động, góc máy và nhịp độ:
Một người lướt sóng chèo ra và đứng lên trên ngọn sóng lúc bình minh, máy quay theo dọc mặt nước, những tia nước bắn lấp lánh dưới ánh sáng. Chuyển động mượt mà, điện ảnh.
Chọn mô hình
Bộ chọn hiển thị dưới dạng một hàng các nút. Mỗi mô hình có thế mạnh rõ ràng:
- Veo 3.1 — ngôn ngữ máy quay có thể kiểm soát nhất cộng với âm thanh gốc. Mô hình đa năng xuất sắc. Veo 3.1 Fast tạo ra kết quả tương tự nhưng nhanh hơn.
- Sora 2 — vật lý và kết cấu chân thực hàng đầu, cùng với âm thanh đồng bộ.
- Kling 3.0 — chuyển động chính xác, khớp môi, và kể chuyện nhiều cảnh (nhiều cú cắt máy trong một lần tạo).
- Seedance 2.0 — nhanh và biểu cảm, ưu tiên dọc, với đồng bộ nhịp âm thanh-hình ảnh. Seedance 2.0 Fast còn nhanh hơn nữa.
- HappyHorse — linh hoạt nhất: hỗ trợ văn bản, ảnh, tham chiếu và các quy trình chỉnh sửa, với nhiều nhân vật tham chiếu và âm thanh gốc.
Tỷ lệ khung hình, thời lượng, độ phân giải, âm thanh
- Tỷ lệ khung hình — 16:9 cho YouTube, 9:16 cho TikTok / Reels / Shorts, 1:1 cho feed (ẩn khi bạn bắt đầu từ ảnh).
- Thời lượng & độ phân giải — các tùy chọn phụ thuộc vào mô hình.
- Âm thanh — với các mô hình hỗ trợ âm thanh, một nút bật/tắt sẽ tạo âm thanh cùng với hình ảnh; một số mô hình (như HappyHorse) luôn bao gồm âm thanh.
Ngoài tab Tạo: Chỉnh sửa và Kiểm soát chuyển động
- Chỉnh sửa Video — đưa vào một clip có sẵn cùng với mô tả để thay đổi phong cách hoặc chỉnh sửa nó (video-sang-video), có thể giữ nguyên âm thanh gốc.
- Kiểm soát chuyển động — điều khiển một ảnh nhân vật tĩnh bằng chuyển động từ một video tham chiếu, chọn xem nhân vật theo ảnh hay theo video.
Sau khi hoàn thành render
- Sắp xếp các cảnh quay và chạy lại chúng trong Flow, hoặc tạo một tác phẩm nhiều cảnh trong Studio.
- Thêm lồng tiếng, nhạc hoặc hiệu ứng âm thanh trong studio âm thanh.
Để tìm hiểu phương pháp chuyên sâu hơn — ngôn ngữ máy quay, cấu trúc cảnh quay và các cách xử lý thường gặp — hãy đọc Cách viết mô tả cho video.
Bài viết liên quan
- Video AI đầu tiênHướng dẫn từng bước: đăng nhập, viết prompt, chọn mô hình, đặt tỷ lệ khung hình, thời lượng và độ phân giải, tạo video và tải xuống video AI đầu tiên trên PonPon.
- Viết prompt cho videoPhương pháp thực tiễn để viết prompt video AI trên PonPon: cấu trúc cảnh quay, các lệnh camera mà mô hình hiểu được, nhịp độ, mẹo theo từng mô hình, và cách khắc phục lỗi thường gặp.
- Cơ bản tạo ảnh AIViết prompt ảnh hiệu quả, lựa chọn mô hình phù hợp như GPT Image 2, Nano Banana Pro và Seedream 5.0, sử dụng ảnh tham chiếu, và chỉnh sửa kết quả bằng các công cụ chú thích.