论文速读 VPO: Aligning Text-to-Video Generation Models with Prompt Optimization
作者:XD / 发表: 2026年5月15日 09:55 / 更新: 2026年5月15日 09:55 / 科研学习 / 阅读量:3
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization
论文标题:VPO: Aligning Text-to-Video Generation Models with Prompt Optimization
论文链接:https://arxiv.org/abs/2503.20491
版本信息:arXiv v2,ICCV 2025
作者团队:Tsinghua University、Zhipu AI
代码与数据:论文声明公开于 https://github.com/thu-coai/VPO
摘要
本文研究的是文本到视频生成中的 prompt optimization 问题。现有 T2V 模型通常在详尽、结构良好的视频描述上训练,但真实用户输入往往短、模糊、结构松散,导致推理阶段的 prompt 分布与训练阶段 caption 分布不一致。VPO 将这个问题重新定义为一个对 prompt optimizer 本身进行 alignment 的问题,提出 harmless、accurate、helpful 三个原则,并通过 Principle-Based SFT 与 Multi-Feedback Preference Optimization 两阶段训练构建视频 prompt 优化器。
与直接调用 LLM 做 few-shot prompt rewriting 不同,VPO 的核心差异在于:它不只追求“写得更长、更详细”,还显式约束优化后 prompt 是否安全、是否忠实保留用户意图,以及是否真正提升下游视频生成质量。实验显示,VPO 在 CogVideoX、Open-Sora 等模型上提升了视频质量、文本对齐与安全性,并能与 Diffusion DPO 形成互补。
背景与动机
T2V 模型的训练数据通常来自经过人工或自动清洗的高质量 text-video pairs,其中 caption 往往包含主体、动作、场景、镜头、风格等细节。真实用户输入则更接近自然查询,例如一句简短描述,甚至包含歧义或不安全内容。这种训练-推理分布差异会直接影响生成质量。
已有方案多依赖 LLM in-context learning 对用户输入做扩写,例如官方 prompt refiner 或 GPT-4o few-shot rewriting。这类方案的问题是缺少面向视频生成结果的闭环反馈:LLM 可能改变用户意图、遗漏关键约束、引入安全风险,或者生成语义丰富但对视频模型并不友好的 prompt。VPO 的动机正是把 prompt optimizer 从“文本改写器”提升为“面向 T2V 生成质量和安全性的对齐模块”。
论文借鉴 LLM alignment 中的 HHH 思路,但针对 prompt optimizer 重写为三条原则:harmless 表示优化后的 prompt 应避免血腥、暴力等有害内容;accurate 表示除了安全改写外应忠实保留用户意图;helpful 表示 prompt 应具备足够细节,并能提升视频生成质量。
方法
VPO 的整体框架由两个阶段组成。
第一阶段是 Principle-Based SFT。作者从 VidProM 中构建用户查询集合,保留约 18k 通用查询和 2k 安全相关查询,并划分为 SFT 与 DPO 数据。初始 optimized prompt 由 LLM few-shot 生成,但这些 prompt 不直接作为最终监督数据,而是再经过 principle-based critique and refinement。LLM-as-a-judge 会围绕 harmlessness、accuracy、helpfulness 给出 critique:例如是否包含不安全内容,是否遗漏用户原始细节,是否场景描述过于含糊。若发现问题,则根据 critique 生成 refined prompt;若没有问题,则保留初始 optimized prompt。最终用标准 SFT 训练出初始 prompt optimizer。
第二阶段是 Multi-Feedback Preference Optimization。VPO 在 SFT 模型基础上构造 DPO 偏好数据,偏好信号来自两个层面。Text-level feedback 继续由 LLM-as-a-judge 判断 prompt 是否安全、准确、清晰,并通过 critique/refinement 构造 chosen/rejected prompt 对。Video-level feedback 则更关键:对于通过文本检查的 prompt,作者用目标视频生成模型生成视频,再用 VisionReward 评估视频质量,分数更高的 prompt 作为 chosen。最终将 text-level 与 video-level preference pairs 合并,用 DPO 优化 SFT 模型。
这个设计的技术要点在于把“prompt 是否好”拆成两个互补标准:文本侧保证不偏离用户意图和安全原则,视频侧保证 prompt 对实际生成模型有帮助。只使用视频奖励可能会牺牲安全性,只使用文本反馈又无法保证视频质量;VPO 试图通过多反馈机制同时覆盖这两类风险。
实验设计
论文在 CogVideoX-2B、CogVideoX-5B 与 Open-Sora 1.2 上评估 VPO。主要 baseline 包括原始用户 query、Promptist、GLM-4 few-shot、GPT-4o few-shot,以及官方 prompt optimization 方法。评估基准包括 VBench、MonetBench、T2VSafetyBench 子集,并额外构造 500 条查询用于文本级 alignment 评估。
在 CogVideoX-2B 上,VPO 的 MonetBench overall 从原始 query 的 3.27 提升到 3.76;VBench 中 Human Action、Scene、Multiple Objects、Appearance Style 等指标也整体优于 baseline。CogVideoX-5B 上,VPO 的 MonetBench overall 达到 4.15,高于原始 query 的 3.77,也高于 GPT-4o few-shot 的 4.03。
在 query alignment 评估中,VPO 的 aligned 比例达到约 94.6% 至 94.8%,高于 GLM-4 few-shot 和 GPT-4o few-shot。误差类型被拆为 unsafe、imprecise、refusal,VPO 在 unsafe 和 refusal 上都更低,说明训练一个专门的 prompt optimizer 能缓解通用 LLM 对敏感词过度拒绝或错误扩写的问题。
论文还评估了 Open-Sora 1.2 上的泛化能力。将基于 CogVideoX-2B 训练的 prompt optimizer 迁移到 Open-Sora 1.2 后,VBench 多项指标和 MonetBench overall 都有提升,说明 VPO 学到的不完全是某个生成模型的特定偏好,而包含一定通用 prompt 优化规律。
关键实验结论
第一,prompt optimization 对 T2V 质量提升非常显著。原始用户 query 与优化后 prompt 之间存在稳定差距,这支持论文的核心问题设定:真实用户输入与训练 caption 分布不匹配,是影响 T2V 生成质量的重要因素。
第二,多反馈偏好优化是必要的。VPO-SFT 已经优于许多 baseline,但完整 VPO 进一步提升了 MonetBench 与 VBench 表现。尤其是 VPO 相比 “w/o text-level feedback” 在安全与 alignment 上更稳,说明只追求视频奖励会带来安全退化风险。
第三,VPO 可以作为一种 prompt-space RLHF。论文将 VPO 与 Diffusion DPO 比较,发现 VPO 不仅能超过 Diffusion DPO,还能与其组合产生额外收益。这一点很有启发:视频模型 alignment 不一定只发生在生成模型参数层,也可以发生在输入 prompt optimizer 层。
第四,迭代优化存在收益上限。论文显示第 1 至第 3 次迭代 prompt optimization 能带来小幅提升,之后趋于稳定。这说明 VPO 具备一定“保持好 prompt 不被破坏”的能力,但也暗示反复改写不是无限有效的。
技术评价
VPO 的优势在于问题定义清晰:它没有把 prompt optimization 简化为“让 LLM 把句子写长”,而是把安全、忠实、质量三个目标纳入训练闭环。尤其是 video-level feedback 的引入,使 prompt optimizer 可以直接面向下游生成质量优化,这比纯文本侧改写更贴近 T2V 场景。
方法上的主要成本是数据与训练链路较重。VPO 需要 VidProM 查询、LLM critique/refinement、视频生成、VisionReward 打分、DPO 训练等多个环节。对于实际业务落地,这意味着构建成本、推理成本和评估成本都高于简单 prompt rewriting。若目标是快速上线,VPO 更像高质量离线训练方案,而不是轻量 prompt engineering。
另一个值得关注的问题是 reward model 可靠性。Video-level preference 依赖 VisionReward,如果 reward model 对某些视频维度存在偏差,DPO 会将这种偏差传递给 prompt optimizer。论文通过人工评估和多 benchmark 缓解了这个担忧,但在垂直业务场景中仍需要重新验证 reward 与用户偏好的相关性。
结论
VPO 将 T2V prompt optimization 推向了 alignment 视角:优化 prompt 不只是补充细节,而是要在安全、忠实、生成质量之间做平衡。它适合用于构建面向真实用户输入的高质量视频 prompt 优化器,尤其适合需要安全约束、用户意图保真和跨模型泛化的业务场景。对你当前关注的短剧/视频生成链路而言,VPO 的价值主要在于提供了一套可训练、可评估、可闭环迭代的 prompt optimizer 范式。
