什么是文生视频 AI?
一篇通俗易懂的讲解:文生视频 AI 是什么、它如何把一条提示词变成一段动态片段、一个实战示例、它擅长和不擅长什么,以及它与图生视频有何不同。
文生视频是一种把书面描述变成一小段动态片段的 AI。你输入一句话——"一只纸船在黄昏时分顺着雨水沟漂流"——模型就会生成把它呈现出来的画面帧,整个过程不涉及任何相机、素材或剪辑软件。
本页讲清这个概念。当你准备好真正做一个时,跳到文生视频基础。
用大白话讲它的原理
一个文生视频模型,是在海量的视频及其配套描述上训练出来的。由此,它学会了世界上的事物通常如何呈现、如何运动——水怎么流、脸怎么转、光怎么洒在一个表面上。
当你给它一条提示词时,它并不是把现有的片段拼接起来。它从零生成新的画面帧,预测出一段既符合你的文字、又能在前后帧之间保持物理连贯的序列。结果是一段从未存在过的原创片段。
当你点击生成时发生了什么
具体来说,当你输入一条提示词并按下生成:
- 你设好几个选项——一个模型、一个宽高比(比如 9:16)、一个时长,在某些模型上还有音频。
- 模型读取你的提示词,产出一段几秒长的画面帧序列。
- 短暂等待之后(视模型和时长而定,从几秒到一分钟),一段片段出现了——可供下载、编辑或延长。
一条像*"一只柯基在阳光明媚的海滩上朝镜头奔跑,慢动作,扬起的沙子,9:16,5 秒"*这样的提示词,给了模型一个主体、一个动作、一种镜头关系和一个格式——构想这个镜头所需的一切。
它擅长什么——又不擅长什么
擅长:
- 仅凭一个想法,就快速召唤出一种观感或瞬间。
- 空镜、定场镜头、氛围片段和社交短片。
- 在投入之前,廉价地探索众多变体。
仍然困难:
- 长篇、完美一致的叙事——片段通常只有几秒。
- 精确的文字、精准的 logo,以及手部这类精细细节,都可能晃动出错。
- 对每个元素的字面级掌控;你执导的是一位能干、但偏即兴的合作者。
注意
把提示词少当成命令、多当成对一个剧组的指导。你描述的镜头越清晰——主体、单个动作、镜头、光线——结果就越接近。硬塞进三个场景,你只会得到一团糊。
文生视频 vs 图生视频
两者是一对姊妹:
- 文生视频从你的文字凭空构想每一帧。自由度最高,但对确切观感的掌控较弱。
- 图生视频从你提供的一张静态图出发并让它动起来。对观感的掌控最强,因为第一帧锁定在你的图片上。
一个常见的工作流会同时用到两者:在图片生成器里生成一张你满意的画面,然后让它动起来。
在 PonPon 上试一试
PonPon 通过一个统一的视频生成器运行文生视频,你可以在各模型之间切换——每个都有自己的强项:Veo 3.1 擅长镜头控制,Sora 2 擅长符合真实世界的物理表现,Kling 3.0 擅长多镜头叙事,Seedance 2.0 擅长快速的竖屏短片。要弄清该选哪个,阅读如何选择模型;要写出能命中的提示词,阅读视频提示词写作。