The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation

论文标题：The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
论文链接：https://arxiv.org/abs/2504.11739
版本信息：arXiv v2，CVPR 2025
作者团队：Shanghai Jiao Tong University、Shanghai Artificial Intelligence Laboratory、Fudan University
项目主页：https://whynothaha.github.io

摘要

本文提出 RAPO（Retrieval-Augmented Prompt Optimization），目标是将简短的用户 prompt 转换为更接近 T2V 训练数据分布的高质量 prompt。与直接使用 GPT-4 或 Open-Sora prompt refiner 进行自由扩写不同，RAPO 显式利用训练集 prompt 的词汇和句式分布：先从训练数据构建 relation graph，检索与用户输入相关的 subject、action、atmosphere modifiers，再通过 sentence refactoring 将增强后的 prompt 改写成训练 prompt 风格，最后用 prompt discriminator 在两条优化分支中选择更适合生成的视频 prompt。

论文的核心观点是：T2V 模型对 prompt 的敏感性不仅体现在“有没有足够细节”，还体现在“细节是否符合模型训练时见过的词汇组合和句式结构”。RAPO 因此不是单纯依赖 LLM 的常识扩写，而是把训练数据中的 prompt distribution 当作外部知识库进行检索增强。

背景与动机

大规模 T2V 模型通常在长而细致的 caption 上训练，因此短 prompt 会浪费模型潜力。已有 T2I/T2V prompt optimization 方法大多让 LLM 直接添加空间、颜色、关系等描述，但这种扩写并不一定符合目标视频模型的训练分布。论文指出，视频生成尤其依赖动词-宾语短语、动作描述、场景结构和句式组织；如果 LLM 生成过长、过复杂或与训练数据风格不一致的 prompt，反而可能干扰生成。

RAPO 的动机可以概括为：prompt optimizer 应该学习目标 T2V 模型“吃得惯”的语言，而不是生成一个人类读起来最丰富的描述。训练数据中的 caption 包含模型偏好的词汇、修饰语和句法模式，因此可以被组织成可检索的 prompt knowledge base。

方法

RAPO 包含三个模块：word augmentation、sentence refactoring 和 prompt selection。

Word augmentation module 首先从训练 prompt 数据库构建 relation graph。图中的 scene 作为 core node，subject、action、atmosphere 等 modifiers 作为 sub-nodes 与 scene 相连。对于用户输入，模型用 sentence transformer 提取语义特征，检索 top-k 相关 scenes，再从这些 scenes 上取相关 modifiers。随后使用 frozen LLM 通过 retrieval-merge instruction 逐个将 modifiers 合并进原始 prompt。这个过程强调 relevant、straightforward、semantic-preserving，避免一次性堆叠大量修饰词导致语义失控。

Sentence refactoring module 解决的是格式一致性问题。增强后的 prompt 虽然包含更多相关词，但未必符合训练 prompt 的句式分布。作者构建约 86k prompt pairs，用 fine-tuned LLM 将 word-augmented prompt 改写为更接近训练 caption 的结构，同时保持主体、动作和场景语义。换言之，这个模块不只是扩写，而是做 prompt style transfer。

Prompt selection module 则处理 LLM 改写的不确定性。RAPO 有两条候选分支：一条是 relation graph + refactoring 得到的 prompt，另一条是 frozen LLM 直接 instruction rewriting 得到的 prompt。作者训练一个 prompt discriminator，在给定原始用户 prompt 的情况下选择更适合 T2V 生成的候选。训练标签来自实际生成视频后的评估结果，即根据不同 benchmark 维度选择相应指标判断哪条 prompt 更优。

这种结构的关键是将检索、改写和选择拆开：检索保证补充信息来自训练分布，改写保证语言形态贴近训练 caption，选择机制则避免某一条分支在特定输入上失效。

实验设计

论文主要在 LaVie 和 Latte 两个 T2V 模型上验证 RAPO，并使用 VBench、EvalCrafter、T2V-CompBench 进行评估。LaVie 属于 diffusion-based video generation，Latte 属于 DiT 架构。作者使用 Vimeo25M 作为分析数据源，从中筛选约 2.1M 有效句子构建 relation graph。Relation graph 构建中使用 Mistral 抽取 scenes 与 modifiers，检索使用 all-MiniLM-L6-v2。Refactoring model 和 prompt discriminator 均基于 LLaMA 3.1 进行 LoRA fine-tuning。

Baseline 包括原始短 prompt、GPT-4 prompt optimization、Open-Sora prompt refiner。论文强调这些 baseline 虽能增加描述细节，但未必贴合训练 prompt 的词汇与结构，因此在某些指标上甚至会低于原始 prompt。

关键实验结论

在 VBench 上，RAPO 对 LaVie 的 Total Score 从 80.89% 提升到 82.38%，对 Latte 从 77.03% 提升到 79.97%。最显著的提升来自 multiple objects 维度：LaVie 从 37.71% 提升到 64.86%，Latte 从 29.55% 提升到 52.78%。这说明 RAPO 对多对象绑定和复杂组合场景尤其有效。

在 EvalCrafter 上，RAPO 也取得最高 Final Sum Score：LaVie 从 248 提升到 256，Latte 从 217 提升到 227。提升主要体现在 text-video alignment 与 visual quality 等维度。T2V-CompBench 结果同样显示，RAPO 在 consistent attribute binding、dynamic attribute binding、action binding 和 object interactions 上优于 GPT-4 与 Open-Sora prompt refiner。

论文的分析部分进一步解释了 multiple objects 提升的原因：加入相关的空间位置描述和训练分布中常见的 modifier，可以缓解多对象 prompt 在文本编码器中发生属性混淆的问题。Prompt length distribution 分析也表明，RAPO 生成的 prompt 长度分布最接近训练集，而 GPT-4/Open-Sora 生成的 prompt 往往过长或过复杂。

消融实验显示三个模块存在协同效应。单独 word augmentation、sentence refactoring 或 prompt selection 都能带来一定提升，但完整 RAPO 的 VBench Total Score 最高，为 82.38%。此外，在不同 LLM 上的消融显示 GPT-4、Mistral、LLaMA 的总分差距很小，说明框架收益不完全依赖某一个强 LLM。

技术评价

RAPO 的优势在于非常贴近 T2V 训练数据分布。它不是让 LLM 凭空“想象一个更丰富的 prompt”，而是从训练 caption 中检索模型实际见过的 modifiers 和句式。这一点对业务视频生成很有价值，因为不同底模的 prompt 偏好常常不同，通用 LLM 改写出来的人类友好描述未必是模型友好描述。

RAPO 尤其适合多对象、复杂空间关系、动作绑定等 prompt 敏感任务。论文中 multiple objects 维度的大幅提升说明，prompt 中的关系词和位置描述对缓解文本编码混淆很重要。对于短剧分镜生成，这对应到人物、道具、动作、空间关系的精确绑定：不是简单把 prompt 写长，而是要补充模型可理解的关系描述。

RAPO 的限制也比较明确。第一，它依赖目标模型或相近模型的训练数据 caption 分布；如果业务方拿不到训练 caption，relation graph 的构建会变困难。第二，方法偏向生成质量优化，对安全、意图保真、用户敏感输入处理没有 VPO 那样系统的 alignment 约束。第三，prompt discriminator 的标签来自视频评估指标，因此其可靠性取决于评估维度选择是否覆盖真实业务偏好。

结论

RAPO 提供了一条 retrieval-augmented prompt optimization 路线：将训练 caption 分布显式结构化为 relation graph，通过检索相关 modifiers、句式重构和候选选择，把用户短 prompt 转换为更符合目标 T2V 模型偏好的输入。它的核心贡献不在于提出新的生成模型，而在于证明“prompt 的词汇、长度和句式分布”本身就是影响视频生成质量的关键变量。对于需要面向特定视频底模做 prompt 适配的场景，RAPO 是一个很有落地价值的框架。

本文作者：XD 转载请标明出处：http://www.eadst.com/blog/326

本站采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。