VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

论文标题：VPO: Aligning Text-to-Video Generation Models with Prompt Optimization
论文链接：https://arxiv.org/abs/2503.20491
版本信息：arXiv v2，ICCV 2025
作者团队：Tsinghua University、Zhipu AI
代码与数据：论文声明公开于 https://github.com/thu-coai/VPO

摘要

本文研究的是文本到视频生成中的 prompt optimization 问题。现有 T2V 模型通常在详尽、结构良好的视频描述上训练，但真实用户输入往往短、模糊、结构松散，导致推理阶段的 prompt 分布与训练阶段 caption 分布不一致。VPO 将这个问题重新定义为一个对 prompt optimizer 本身进行 alignment 的问题，提出 harmless、accurate、helpful 三个原则，并通过 Principle-Based SFT 与 Multi-Feedback Preference Optimization 两阶段训练构建视频 prompt 优化器。

与直接调用 LLM 做 few-shot prompt rewriting 不同，VPO 的核心差异在于：它不只追求“写得更长、更详细”，还显式约束优化后 prompt 是否安全、是否忠实保留用户意图，以及是否真正提升下游视频生成质量。实验显示，VPO 在 CogVideoX、Open-Sora 等模型上提升了视频质量、文本对齐与安全性，并能与 Diffusion DPO 形成互补。

背景与动机

T2V 模型的训练数据通常来自经过人工或自动清洗的高质量 text-video pairs，其中 caption 往往包含主体、动作、场景、镜头、风格等细节。真实用户输入则更接近自然查询，例如一句简短描述，甚至包含歧义或不安全内容。这种训练-推理分布差异会直接影响生成质量。

已有方案多依赖 LLM in-context learning 对用户输入做扩写，例如官方 prompt refiner 或 GPT-4o few-shot rewriting。这类方案的问题是缺少面向视频生成结果的闭环反馈：LLM 可能改变用户意图、遗漏关键约束、引入安全风险，或者生成语义丰富但对视频模型并不友好的 prompt。VPO 的动机正是把 prompt optimizer 从“文本改写器”提升为“面向 T2V 生成质量和安全性的对齐模块”。

论文借鉴 LLM alignment 中的 HHH 思路，但针对 prompt optimizer 重写为三条原则：harmless 表示优化后的 prompt 应避免血腥、暴力等有害内容；accurate 表示除了安全改写外应忠实保留用户意图；helpful 表示 prompt 应具备足够细节，并能提升视频生成质量。

方法

VPO 的整体框架由两个阶段组成。

第一阶段是 Principle-Based SFT。作者从 VidProM 中构建用户查询集合，保留约 18k 通用查询和 2k 安全相关查询，并划分为 SFT 与 DPO 数据。初始 optimized prompt 由 LLM few-shot 生成，但这些 prompt 不直接作为最终监督数据，而是再经过 principle-based critique and refinement。LLM-as-a-judge 会围绕 harmlessness、accuracy、helpfulness 给出 critique：例如是否包含不安全内容，是否遗漏用户原始细节，是否场景描述过于含糊。若发现问题，则根据 critique 生成 refined prompt；若没有问题，则保留初始 optimized prompt。最终用标准 SFT 训练出初始 prompt optimizer。

第二阶段是 Multi-Feedback Preference Optimization。VPO 在 SFT 模型基础上构造 DPO 偏好数据，偏好信号来自两个层面。Text-level feedback 继续由 LLM-as-a-judge 判断 prompt 是否安全、准确、清晰，并通过 critique/refinement 构造 chosen/rejected prompt 对。Video-level feedback 则更关键：对于通过文本检查的 prompt，作者用目标视频生成模型生成视频，再用 VisionReward 评估视频质量，分数更高的 prompt 作为 chosen。最终将 text-level 与 video-level preference pairs 合并，用 DPO 优化 SFT 模型。

这个设计的技术要点在于把“prompt 是否好”拆成两个互补标准：文本侧保证不偏离用户意图和安全原则，视频侧保证 prompt 对实际生成模型有帮助。只使用视频奖励可能会牺牲安全性，只使用文本反馈又无法保证视频质量；VPO 试图通过多反馈机制同时覆盖这两类风险。

实验设计

论文在 CogVideoX-2B、CogVideoX-5B 与 Open-Sora 1.2 上评估 VPO。主要 baseline 包括原始用户 query、Promptist、GLM-4 few-shot、GPT-4o few-shot，以及官方 prompt optimization 方法。评估基准包括 VBench、MonetBench、T2VSafetyBench 子集，并额外构造 500 条查询用于文本级 alignment 评估。

在 CogVideoX-2B 上，VPO 的 MonetBench overall 从原始 query 的 3.27 提升到 3.76；VBench 中 Human Action、Scene、Multiple Objects、Appearance Style 等指标也整体优于 baseline。CogVideoX-5B 上，VPO 的 MonetBench overall 达到 4.15，高于原始 query 的 3.77，也高于 GPT-4o few-shot 的 4.03。

在 query alignment 评估中，VPO 的 aligned 比例达到约 94.6% 至 94.8%，高于 GLM-4 few-shot 和 GPT-4o few-shot。误差类型被拆为 unsafe、imprecise、refusal，VPO 在 unsafe 和 refusal 上都更低，说明训练一个专门的 prompt optimizer 能缓解通用 LLM 对敏感词过度拒绝或错误扩写的问题。

论文还评估了 Open-Sora 1.2 上的泛化能力。将基于 CogVideoX-2B 训练的 prompt optimizer 迁移到 Open-Sora 1.2 后，VBench 多项指标和 MonetBench overall 都有提升，说明 VPO 学到的不完全是某个生成模型的特定偏好，而包含一定通用 prompt 优化规律。

关键实验结论

第一，prompt optimization 对 T2V 质量提升非常显著。原始用户 query 与优化后 prompt 之间存在稳定差距，这支持论文的核心问题设定：真实用户输入与训练 caption 分布不匹配，是影响 T2V 生成质量的重要因素。

第二，多反馈偏好优化是必要的。VPO-SFT 已经优于许多 baseline，但完整 VPO 进一步提升了 MonetBench 与 VBench 表现。尤其是 VPO 相比 “w/o text-level feedback” 在安全与 alignment 上更稳，说明只追求视频奖励会带来安全退化风险。

第三，VPO 可以作为一种 prompt-space RLHF。论文将 VPO 与 Diffusion DPO 比较，发现 VPO 不仅能超过 Diffusion DPO，还能与其组合产生额外收益。这一点很有启发：视频模型 alignment 不一定只发生在生成模型参数层，也可以发生在输入 prompt optimizer 层。

第四，迭代优化存在收益上限。论文显示第 1 至第 3 次迭代 prompt optimization 能带来小幅提升，之后趋于稳定。这说明 VPO 具备一定“保持好 prompt 不被破坏”的能力，但也暗示反复改写不是无限有效的。

技术评价

VPO 的优势在于问题定义清晰：它没有把 prompt optimization 简化为“让 LLM 把句子写长”，而是把安全、忠实、质量三个目标纳入训练闭环。尤其是 video-level feedback 的引入，使 prompt optimizer 可以直接面向下游生成质量优化，这比纯文本侧改写更贴近 T2V 场景。

方法上的主要成本是数据与训练链路较重。VPO 需要 VidProM 查询、LLM critique/refinement、视频生成、VisionReward 打分、DPO 训练等多个环节。对于实际业务落地，这意味着构建成本、推理成本和评估成本都高于简单 prompt rewriting。若目标是快速上线，VPO 更像高质量离线训练方案，而不是轻量 prompt engineering。

另一个值得关注的问题是 reward model 可靠性。Video-level preference 依赖 VisionReward，如果 reward model 对某些视频维度存在偏差，DPO 会将这种偏差传递给 prompt optimizer。论文通过人工评估和多 benchmark 缓解了这个担忧，但在垂直业务场景中仍需要重新验证 reward 与用户偏好的相关性。

结论

VPO 将 T2V prompt optimization 推向了 alignment 视角：优化 prompt 不只是补充细节，而是要在安全、忠实、生成质量之间做平衡。它适合用于构建面向真实用户输入的高质量视频 prompt 优化器，尤其适合需要安全约束、用户意图保真和跨模型泛化的业务场景。对你当前关注的短剧/视频生成链路而言，VPO 的价值主要在于提供了一套可训练、可评估、可闭环迭代的 prompt optimizer 范式。

本文作者：XD 转载请标明出处：http://www.eadst.com/blog/327

本站采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

上一篇
论文速读 RAPO: The Devil is in the Prompts

原 论文速读 VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

作者：XD / 发表： 2026年5月15日 09:55 / 更新： 2026年5月15日 09:55 / 科研学习 / 阅读量：3

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

摘要

背景与动机

方法

实验设计

关键实验结论

技术评价

结论

论文速读 VPO: Aligning Text-to-Video Generation Models with Prompt Optimization