论文速读 RAPO: The Devil is in the Prompts
作者:XD / 发表: 2026年5月15日 09:53 / 更新: 2026年5月15日 09:53 / 科研学习 / 阅读量:3
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
论文标题:The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
论文链接:https://arxiv.org/abs/2504.11739
版本信息:arXiv v2,CVPR 2025
作者团队:Shanghai Jiao Tong University、Shanghai Artificial Intelligence Laboratory、Fudan University
项目主页:https://whynothaha.github.io
摘要
本文提出 RAPO(Retrieval-Augmented Prompt Optimization),目标是将简短的用户 prompt 转换为更接近 T2V 训练数据分布的高质量 prompt。与直接使用 GPT-4 或 Open-Sora prompt refiner 进行自由扩写不同,RAPO 显式利用训练集 prompt 的词汇和句式分布:先从训练数据构建 relation graph,检索与用户输入相关的 subject、action、atmosphere modifiers,再通过 sentence refactoring 将增强后的 prompt 改写成训练 prompt 风格,最后用 prompt discriminator 在两条优化分支中选择更适合生成的视频 prompt。
论文的核心观点是:T2V 模型对 prompt 的敏感性不仅体现在“有没有足够细节”,还体现在“细节是否符合模型训练时见过的词汇组合和句式结构”。RAPO 因此不是单纯依赖 LLM 的常识扩写,而是把训练数据中的 prompt distribution 当作外部知识库进行检索增强。
背景与动机
大规模 T2V 模型通常在长而细致的 caption 上训练,因此短 prompt 会浪费模型潜力。已有 T2I/T2V prompt optimization 方法大多让 LLM 直接添加空间、颜色、关系等描述,但这种扩写并不一定符合目标视频模型的训练分布。论文指出,视频生成尤其依赖动词-宾语短语、动作描述、场景结构和句式组织;如果 LLM 生成过长、过复杂或与训练数据风格不一致的 prompt,反而可能干扰生成。
RAPO 的动机可以概括为:prompt optimizer 应该学习目标 T2V 模型“吃得惯”的语言,而不是生成一个人类读起来最丰富的描述。训练数据中的 caption 包含模型偏好的词汇、修饰语和句法模式,因此可以被组织成可检索的 prompt knowledge base。
方法
RAPO 包含三个模块:word augmentation、sentence refactoring 和 prompt selection。
Word augmentation module 首先从训练 prompt 数据库构建 relation graph。图中的 scene 作为 core node,subject、action、atmosphere 等 modifiers 作为 sub-nodes 与 scene 相连。对于用户输入,模型用 sentence transformer 提取语义特征,检索 top-k 相关 scenes,再从这些 scenes 上取相关 modifiers。随后使用 frozen LLM 通过 retrieval-merge instruction 逐个将 modifiers 合并进原始 prompt。这个过程强调 relevant、straightforward、semantic-preserving,避免一次性堆叠大量修饰词导致语义失控。
Sentence refactoring module 解决的是格式一致性问题。增强后的 prompt 虽然包含更多相关词,但未必符合训练 prompt 的句式分布。作者构建约 86k prompt pairs,用 fine-tuned LLM 将 word-augmented prompt 改写为更接近训练 caption 的结构,同时保持主体、动作和场景语义。换言之,这个模块不只是扩写,而是做 prompt style transfer。
Prompt selection module 则处理 LLM 改写的不确定性。RAPO 有两条候选分支:一条是 relation graph + refactoring 得到的 prompt,另一条是 frozen LLM 直接 instruction rewriting 得到的 prompt。作者训练一个 prompt discriminator,在给定原始用户 prompt 的情况下选择更适合 T2V 生成的候选。训练标签来自实际生成视频后的评估结果,即根据不同 benchmark 维度选择相应指标判断哪条 prompt 更优。
这种结构的关键是将检索、改写和选择拆开:检索保证补充信息来自训练分布,改写保证语言形态贴近训练 caption,选择机制则避免某一条分支在特定输入上失效。
实验设计
论文主要在 LaVie 和 Latte 两个 T2V 模型上验证 RAPO,并使用 VBench、EvalCrafter、T2V-CompBench 进行评估。LaVie 属于 diffusion-based video generation,Latte 属于 DiT 架构。作者使用 Vimeo25M 作为分析数据源,从中筛选约 2.1M 有效句子构建 relation graph。Relation graph 构建中使用 Mistral 抽取 scenes 与 modifiers,检索使用 all-MiniLM-L6-v2。Refactoring model 和 prompt discriminator 均基于 LLaMA 3.1 进行 LoRA fine-tuning。
Baseline 包括原始短 prompt、GPT-4 prompt optimization、Open-Sora prompt refiner。论文强调这些 baseline 虽能增加描述细节,但未必贴合训练 prompt 的词汇与结构,因此在某些指标上甚至会低于原始 prompt。
关键实验结论
在 VBench 上,RAPO 对 LaVie 的 Total Score 从 80.89% 提升到 82.38%,对 Latte 从 77.03% 提升到 79.97%。最显著的提升来自 multiple objects 维度:LaVie 从 37.71% 提升到 64.86%,Latte 从 29.55% 提升到 52.78%。这说明 RAPO 对多对象绑定和复杂组合场景尤其有效。
在 EvalCrafter 上,RAPO 也取得最高 Final Sum Score:LaVie 从 248 提升到 256,Latte 从 217 提升到 227。提升主要体现在 text-video alignment 与 visual quality 等维度。T2V-CompBench 结果同样显示,RAPO 在 consistent attribute binding、dynamic attribute binding、action binding 和 object interactions 上优于 GPT-4 与 Open-Sora prompt refiner。
论文的分析部分进一步解释了 multiple objects 提升的原因:加入相关的空间位置描述和训练分布中常见的 modifier,可以缓解多对象 prompt 在文本编码器中发生属性混淆的问题。Prompt length distribution 分析也表明,RAPO 生成的 prompt 长度分布最接近训练集,而 GPT-4/Open-Sora 生成的 prompt 往往过长或过复杂。
消融实验显示三个模块存在协同效应。单独 word augmentation、sentence refactoring 或 prompt selection 都能带来一定提升,但完整 RAPO 的 VBench Total Score 最高,为 82.38%。此外,在不同 LLM 上的消融显示 GPT-4、Mistral、LLaMA 的总分差距很小,说明框架收益不完全依赖某一个强 LLM。
技术评价
RAPO 的优势在于非常贴近 T2V 训练数据分布。它不是让 LLM 凭空“想象一个更丰富的 prompt”,而是从训练 caption 中检索模型实际见过的 modifiers 和句式。这一点对业务视频生成很有价值,因为不同底模的 prompt 偏好常常不同,通用 LLM 改写出来的人类友好描述未必是模型友好描述。
RAPO 尤其适合多对象、复杂空间关系、动作绑定等 prompt 敏感任务。论文中 multiple objects 维度的大幅提升说明,prompt 中的关系词和位置描述对缓解文本编码混淆很重要。对于短剧分镜生成,这对应到人物、道具、动作、空间关系的精确绑定:不是简单把 prompt 写长,而是要补充模型可理解的关系描述。
RAPO 的限制也比较明确。第一,它依赖目标模型或相近模型的训练数据 caption 分布;如果业务方拿不到训练 caption,relation graph 的构建会变困难。第二,方法偏向生成质量优化,对安全、意图保真、用户敏感输入处理没有 VPO 那样系统的 alignment 约束。第三,prompt discriminator 的标签来自视频评估指标,因此其可靠性取决于评估维度选择是否覆盖真实业务偏好。
结论
RAPO 提供了一条 retrieval-augmented prompt optimization 路线:将训练 caption 分布显式结构化为 relation graph,通过检索相关 modifiers、句式重构和候选选择,把用户短 prompt 转换为更符合目标 T2V 模型偏好的输入。它的核心贡献不在于提出新的生成模型,而在于证明“prompt 的词汇、长度和句式分布”本身就是影响视频生成质量的关键变量。对于需要面向特定视频底模做 prompt 适配的场景,RAPO 是一个很有落地价值的框架。
