输出格式与限制

你能为 PonPon 的输出设定什么——宽高比、分辨率、片段时长、批量数量、参考图与文件上限——附上具体的取值范围，以及它们为何取决于模型。

大多数输出限制来自模型，而非 PonPon——所以当你切换模型时，确切的选项也会随之改变。选择器始终显示当前模型支持的内容；本页给你这些取值范围和文件方面的事实。

宽高比

输出	选项
图片	从 21:9 到 2:3——包括 1:1（头像、信息流）、16:9（横幅）、9:16（Stories），外加"自动"以匹配一张参考图片
视频	16:9（YouTube）、9:16（TikTok / Reels / Shorts）、1:1（信息流）——从图片开始时会隐藏 1:1，因为画面已经决定了比例

图片分辨率

图片的取值从 0.5K 到 4K，按这个阶梯排列——某个模型具体提供哪几档，取决于该模型：

档位	像素
0.5K	512
1K	1024
2K	2048
4K	4096

例如，GPT Image 2 开放 1K / 2K / 4K。分辨率越高，消耗的积分越多。

提示

在默认分辨率下迭代，只为要保留的那一版才上高分辨率。构图在 1K 下和在 4K 下读起来是一样的，所以你能用一小部分积分就判断好镜头。

视频分辨率与时长

两者都由模型设定。作为一个具体参考，Sora 2 输出 1080p、最高 24 fps，单次生成的片段最长 12 秒；Sora 2 Pro 把上限再抬高，而 Kling 3.0 能生成原生 4K。在调试镜头时让片段保持短一些，定下后再投入一次更长的渲染。要做更长的作品，在 Flow 或 Studio 中把多个片段排序拼接。

数量、批量与参考图

限制	取值
每次生成的参考图片	最多 10 张
每批的图片数	由你决定——挑出最好的
Midjourney V8 的输出	每次生成始终为 4 张
每个账号的并发生成数	最多 10 个（图片、视频和音频合计）

音频

在音频工作室里，音效和音乐片段允许你直接设定时长；配音和配音译制的时长则跟随你的脚本或源素材。语音覆盖 31 种语言。

文件格式

类型	下载
图片	PNG 或 JPG（背景移除给出透明 PNG）
视频	标准 MP4
音频	MP3

规律

如果你想要的某个选项不在那里，几乎总是因为当前模型不提供它——换个模型，它可能就出现了。如何选择模型梳理了各模型分别能做什么，而文生视频基础和图片生成基础会结合实际场景讲解这些控件。

输出格式与限制

你能为 PonPon 的输出设定什么——宽高比、分辨率、片段时长、批量数量、参考图与文件上限——附上具体的取值范围，以及它们为何取决于模型。

宽高比

输出	选项
图片	从 21:9 到 2:3——包括 1:1（头像、信息流）、16:9（横幅）、9:16（Stories），外加"自动"以匹配一张参考图片
视频	16:9（YouTube）、9:16（TikTok / Reels / Shorts）、1:1（信息流）——从图片开始时会隐藏 1:1，因为画面已经决定了比例

图片分辨率

图片的取值从 0.5K 到 4K，按这个阶梯排列——某个模型具体提供哪几档，取决于该模型：

档位	像素
0.5K	512
1K	1024
2K	2048
4K	4096

例如，GPT Image 2 开放 1K / 2K / 4K。分辨率越高，消耗的积分越多。

提示

在默认分辨率下迭代，只为要保留的那一版才上高分辨率。构图在 1K 下和在 4K 下读起来是一样的，所以你能用一小部分积分就判断好镜头。

视频分辨率与时长

数量、批量与参考图

限制	取值
每次生成的参考图片	最多 10 张
每批的图片数	由你决定——挑出最好的
Midjourney V8 的输出	每次生成始终为 4 张
每个账号的并发生成数	最多 10 个（图片、视频和音频合计）

音频

在音频工作室里，音效和音乐片段允许你直接设定时长；配音和配音译制的时长则跟随你的脚本或源素材。语音覆盖 31 种语言。

文件格式

类型	下载
图片	PNG 或 JPG（背景移除给出透明 PNG）
视频	标准 MP4
音频	MP3

输出格式与限制

宽高比

图片分辨率

视频分辨率与时长

数量、批量与参考图

音频

文件格式

规律

相关文章

输出格式与限制

宽高比

图片分辨率

视频分辨率与时长

数量、批量与参考图

音频

文件格式

规律

相关文章