什麼是文字生影片 AI?
一篇大白話的講解:什麼是文字生影片 AI、它如何把一條提示詞變成一段動態影片、一個實戰範例、它擅長與不擅長什麼,以及它與圖片生影片有何不同。
文字生影片是一種把書面描述變成一段短動態影片的 AI。你輸入一句話——「一艘紙船在黃昏時分順著排水溝漂流」——模型就會生成讓它鮮活起來的畫面,全程不涉及任何攝影機、素材或剪輯軟體。
本頁解釋這個概念。當你準備好真正做一段時,請直接跳到文字生影片基礎。
它的運作原理,用大白話講
一個文字生影片模型,是在海量的「影片+描述」配對上訓練出來的。從中,它學會了世界上的事物通常長什麼樣、如何運動——水如何流動、一張臉如何轉動、光線如何灑過一個表面。
當你給它一條提示詞,它並不是把現成的片段拼湊起來。它從零生成新的畫面,預測出一段既符合你文字、又能在前後幀之間保持物理連貫的序列。成果是一段前所未見的原創影片。
你按下生成時發生了什麼
具體來說,當你輸入一條提示詞並按下生成:
- 你設定幾個選項——一個模型、一個長寬比(例如 9:16)、一個長度,在某些模型上還有音訊。
- 模型讀取你的提示詞,產出一段幾秒長的畫面序列。
- 短暫等待之後(從幾秒到一分鐘,取決於模型和長度),一段影片出現了——可以下載、編輯或延展。
像 *「一隻柯基在陽光普照的海灘上朝鏡頭奔跑,慢動作,揚起的沙子,9:16,5 秒」* 這樣的提示詞,給了模型一個主體、一個動作、一種鏡頭關係和一個格式——這就是它編出這個鏡頭所需的一切。
它擅長什麼——又不擅長什麼
擅長:
- 僅憑一個想法,就快速召喚出某種造型或瞬間。
- B-roll 空鏡、定場鏡頭、氛圍片段和社群短片。
- 在投入之前,廉價地探索許多變體。
仍然困難:
- 又長又完美一致的敘事——片段通常只有幾秒。
- 精確的文字、精準的標誌,以及手部這類精細細節都可能不穩。
- 對每個元素的逐字掌控;你是在指導一位能力出眾、但偏即興發揮的合作者。
注意
把提示詞當作給攝製組的導演指示,而不是一條命令。你描述的鏡頭越清晰——主體、一個動作、鏡頭、光線——成果就越接近。塞進三個場景,你只會得到一團糊。
文字生影片 vs 圖片生影片
兩者是一對兄弟:
- 文字生影片從你的文字編出每一幀。自由度最高,對確切造型的掌控較少。
- 圖片生影片從你提供的一張靜態圖出發讓它動起來。對造型的掌控最強,因為第一幀被鎖定為你的圖片。
一個常見的工作流程把兩者都用上:在圖片生成器裡生成一張你喜歡的畫面,再讓它動起來。
在 PonPon 上試試
PonPon 透過單一的影片生成器來執行文字生影片,你可以在各模型之間切換——每個都有自己的強項:Veo 3.1 擅長鏡頭掌控,Sora 2 擅長符合現實的物理表現,Kling 3.0 擅長多鏡頭敘事,Seedance 2.0 擅長快速的直式短片。想了解該選哪個,請閱讀如何選擇模型;想寫出見效的提示詞,請閱讀影片提示詞寫作。