输出格式与限制
你能为 PonPon 的输出设定什么——宽高比、分辨率、片段时长、批量数量、参考图与文件上限——附上具体的取值范围,以及它们为何取决于模型。
大多数输出限制来自模型,而非 PonPon——所以当你切换模型时,确切的选项也会随之改变。选择器始终显示当前模型支持的内容;本页给你这些取值范围和文件方面的事实。
宽高比
| 输出 | 选项 |
|---|---|
| 图片 | 从 21:9 到 2:3——包括 1:1(头像、信息流)、16:9(横幅)、9:16(Stories),外加"自动"以匹配一张参考图片 |
| 视频 | 16:9(YouTube)、9:16(TikTok / Reels / Shorts)、1:1(信息流)——从图片开始时会隐藏 1:1,因为画面已经决定了比例 |
图片分辨率
图片的取值从 0.5K 到 4K,按这个阶梯排列——某个模型具体提供哪几档,取决于该模型:
| 档位 | 像素 |
|---|---|
| 0.5K | 512 |
| 1K | 1024 |
| 2K | 2048 |
| 4K | 4096 |
例如,GPT Image 2 开放 1K / 2K / 4K。分辨率越高,消耗的积分越多。
提示
在默认分辨率下迭代,只为要保留的那一版才上高分辨率。构图在 1K 下和在 4K 下读起来是一样的,所以你能用一小部分积分就判断好镜头。
视频分辨率与时长
两者都由模型设定。作为一个具体参考,Sora 2 输出 1080p、最高 24 fps,单次生成的片段最长 12 秒;Sora 2 Pro 把上限再抬高,而 Kling 3.0 能生成原生 4K。在调试镜头时让片段保持短一些,定下后再投入一次更长的渲染。要做更长的作品,在 Flow 或 Studio 中把多个片段排序拼接。
数量、批量与参考图
| 限制 | 取值 |
|---|---|
| 每次生成的参考图片 | 最多 10 张 |
| 每批的图片数 | 由你决定——挑出最好的 |
| Midjourney V8 的输出 | 每次生成始终为 4 张 |
| 每个账号的并发生成数 | 最多 10 个(图片、视频和音频合计) |
音频
在音频工作室里,音效和音乐片段允许你直接设定时长;配音和配音译制的时长则跟随你的脚本或源素材。语音覆盖 31 种语言。
文件格式
| 类型 | 下载 |
|---|---|
| 图片 | PNG 或 JPG(背景移除给出透明 PNG) |
| 视频 | 标准 MP4 |
| 音频 | MP3 |
规律
如果你想要的某个选项不在那里,几乎总是因为当前模型不提供它——换个模型,它可能就出现了。如何选择模型梳理了各模型分别能做什么,而文生视频基础和图片生成基础会结合实际场景讲解这些控件。