EADST

论文速读 RAPO: The Devil is in the Prompts

The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation

论文标题:The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
论文链接:https://arxiv.org/abs/2504.11739
版本信息:arXiv v2,CVPR 2025
作者团队:Shanghai Jiao Tong University、Shanghai Artificial Intelligence Laboratory、Fudan University
项目主页:https://whynothaha.github.io

摘要

本文提出 RAPO(Retrieval-Augmented Prompt Optimization),目标是将简短的用户 prompt 转换为更接近 T2V 训练数据分布的高质量 prompt。与直接使用 GPT-4 或 Open-Sora prompt refiner 进行自由扩写不同,RAPO 显式利用训练集 prompt 的词汇和句式分布:先从训练数据构建 relation graph,检索与用户输入相关的 subject、action、atmosphere modifiers,再通过 sentence refactoring 将增强后的 prompt 改写成训练 prompt 风格,最后用 prompt discriminator 在两条优化分支中选择更适合生成的视频 prompt。

论文的核心观点是:T2V 模型对 prompt 的敏感性不仅体现在“有没有足够细节”,还体现在“细节是否符合模型训练时见过的词汇组合和句式结构”。RAPO 因此不是单纯依赖 LLM 的常识扩写,而是把训练数据中的 prompt distribution 当作外部知识库进行检索增强。

背景与动机

大规模 T2V 模型通常在长而细致的 caption 上训练,因此短 prompt 会浪费模型潜力。已有 T2I/T2V prompt optimization 方法大多让 LLM 直接添加空间、颜色、关系等描述,但这种扩写并不一定符合目标视频模型的训练分布。论文指出,视频生成尤其依赖动词-宾语短语、动作描述、场景结构和句式组织;如果 LLM 生成过长、过复杂或与训练数据风格不一致的 prompt,反而可能干扰生成。

RAPO 的动机可以概括为:prompt optimizer 应该学习目标 T2V 模型“吃得惯”的语言,而不是生成一个人类读起来最丰富的描述。训练数据中的 caption 包含模型偏好的词汇、修饰语和句法模式,因此可以被组织成可检索的 prompt knowledge base。

方法

RAPO 包含三个模块:word augmentation、sentence refactoring 和 prompt selection。

Word augmentation module 首先从训练 prompt 数据库构建 relation graph。图中的 scene 作为 core node,subject、action、atmosphere 等 modifiers 作为 sub-nodes 与 scene 相连。对于用户输入,模型用 sentence transformer 提取语义特征,检索 top-k 相关 scenes,再从这些 scenes 上取相关 modifiers。随后使用 frozen LLM 通过 retrieval-merge instruction 逐个将 modifiers 合并进原始 prompt。这个过程强调 relevant、straightforward、semantic-preserving,避免一次性堆叠大量修饰词导致语义失控。

Sentence refactoring module 解决的是格式一致性问题。增强后的 prompt 虽然包含更多相关词,但未必符合训练 prompt 的句式分布。作者构建约 86k prompt pairs,用 fine-tuned LLM 将 word-augmented prompt 改写为更接近训练 caption 的结构,同时保持主体、动作和场景语义。换言之,这个模块不只是扩写,而是做 prompt style transfer。

Prompt selection module 则处理 LLM 改写的不确定性。RAPO 有两条候选分支:一条是 relation graph + refactoring 得到的 prompt,另一条是 frozen LLM 直接 instruction rewriting 得到的 prompt。作者训练一个 prompt discriminator,在给定原始用户 prompt 的情况下选择更适合 T2V 生成的候选。训练标签来自实际生成视频后的评估结果,即根据不同 benchmark 维度选择相应指标判断哪条 prompt 更优。

这种结构的关键是将检索、改写和选择拆开:检索保证补充信息来自训练分布,改写保证语言形态贴近训练 caption,选择机制则避免某一条分支在特定输入上失效。

实验设计

论文主要在 LaVie 和 Latte 两个 T2V 模型上验证 RAPO,并使用 VBench、EvalCrafter、T2V-CompBench 进行评估。LaVie 属于 diffusion-based video generation,Latte 属于 DiT 架构。作者使用 Vimeo25M 作为分析数据源,从中筛选约 2.1M 有效句子构建 relation graph。Relation graph 构建中使用 Mistral 抽取 scenes 与 modifiers,检索使用 all-MiniLM-L6-v2。Refactoring model 和 prompt discriminator 均基于 LLaMA 3.1 进行 LoRA fine-tuning。

Baseline 包括原始短 prompt、GPT-4 prompt optimization、Open-Sora prompt refiner。论文强调这些 baseline 虽能增加描述细节,但未必贴合训练 prompt 的词汇与结构,因此在某些指标上甚至会低于原始 prompt。

关键实验结论

在 VBench 上,RAPO 对 LaVie 的 Total Score 从 80.89% 提升到 82.38%,对 Latte 从 77.03% 提升到 79.97%。最显著的提升来自 multiple objects 维度:LaVie 从 37.71% 提升到 64.86%,Latte 从 29.55% 提升到 52.78%。这说明 RAPO 对多对象绑定和复杂组合场景尤其有效。

在 EvalCrafter 上,RAPO 也取得最高 Final Sum Score:LaVie 从 248 提升到 256,Latte 从 217 提升到 227。提升主要体现在 text-video alignment 与 visual quality 等维度。T2V-CompBench 结果同样显示,RAPO 在 consistent attribute binding、dynamic attribute binding、action binding 和 object interactions 上优于 GPT-4 与 Open-Sora prompt refiner。

论文的分析部分进一步解释了 multiple objects 提升的原因:加入相关的空间位置描述和训练分布中常见的 modifier,可以缓解多对象 prompt 在文本编码器中发生属性混淆的问题。Prompt length distribution 分析也表明,RAPO 生成的 prompt 长度分布最接近训练集,而 GPT-4/Open-Sora 生成的 prompt 往往过长或过复杂。

消融实验显示三个模块存在协同效应。单独 word augmentation、sentence refactoring 或 prompt selection 都能带来一定提升,但完整 RAPO 的 VBench Total Score 最高,为 82.38%。此外,在不同 LLM 上的消融显示 GPT-4、Mistral、LLaMA 的总分差距很小,说明框架收益不完全依赖某一个强 LLM。

技术评价

RAPO 的优势在于非常贴近 T2V 训练数据分布。它不是让 LLM 凭空“想象一个更丰富的 prompt”,而是从训练 caption 中检索模型实际见过的 modifiers 和句式。这一点对业务视频生成很有价值,因为不同底模的 prompt 偏好常常不同,通用 LLM 改写出来的人类友好描述未必是模型友好描述。

RAPO 尤其适合多对象、复杂空间关系、动作绑定等 prompt 敏感任务。论文中 multiple objects 维度的大幅提升说明,prompt 中的关系词和位置描述对缓解文本编码混淆很重要。对于短剧分镜生成,这对应到人物、道具、动作、空间关系的精确绑定:不是简单把 prompt 写长,而是要补充模型可理解的关系描述。

RAPO 的限制也比较明确。第一,它依赖目标模型或相近模型的训练数据 caption 分布;如果业务方拿不到训练 caption,relation graph 的构建会变困难。第二,方法偏向生成质量优化,对安全、意图保真、用户敏感输入处理没有 VPO 那样系统的 alignment 约束。第三,prompt discriminator 的标签来自视频评估指标,因此其可靠性取决于评估维度选择是否覆盖真实业务偏好。

结论

RAPO 提供了一条 retrieval-augmented prompt optimization 路线:将训练 caption 分布显式结构化为 relation graph,通过检索相关 modifiers、句式重构和候选选择,把用户短 prompt 转换为更符合目标 T2V 模型偏好的输入。它的核心贡献不在于提出新的生成模型,而在于证明“prompt 的词汇、长度和句式分布”本身就是影响视频生成质量的关键变量。对于需要面向特定视频底模做 prompt 适配的场景,RAPO 是一个很有落地价值的框架。

相关标签
About Me
XD
Goals determine what you are going to be.
Category
标签云
Domain Translation Paper Streamlit diffusers Hilton Nginx ModelScope 音频 Zip transformers 第一性原理 Animate 多进程 VGG-16 算法题 Breakpoint Attention GIT Pytorch UI Card scipy uWSGI Plate Land Ptyhon 多线程 云服务器 Clash NameSilo 阿里云 Baidu Python SVR IndexTTS2 腾讯云 CAM Data Disk LeetCode FP64 EXCEL CLAP Qwen2 Algorithm 财报 VPN git-lfs PyTorch icon Rebuttal YOLO Bert Math InvalidArgumentError 搞笑 git OpenAI XGBoost C++ FP32 Augmentation Cloudreve 证件照 Sklearn LaTeX logger Django Bitcoin Pickle Google 图形思考法 论文速读 DeepSeek QWEN API printf 公式 Quantization GoogLeNet DeepStream Template Jupyter Firewall torchinfo HuggingFace Qwen2.5 Heatmap hf Git 净利润 Vmess PIP Docker ResNet-50 Input ChatGPT 图标 Agent Github OpenCV Plotly Distillation v2ray BeautifulSoup Hotel Magnet Datetime 递归学习法 Claude Color Hungarian GPT4 Interview Conda 关于博主 WebCrawler llama.cpp LLM PDB COCO Markdown Base64 Proxy 强化学习 RAR WAN 继承 Qwen Crawler TensorFlow Dataset CTC FlashAttention Tensor HaggingFace Jetson 飞书 Miniforge 顶会 SAM SQLite AI JSON Quantize Pillow Image2Text PyCharm CV TSV Password Gemma Tracking 报税 Mixtral XML Bipartite tar CC Safetensors GGML Statistics ONNX Permission News Random CEIR NLP mmap Excel Transformers BF16 Use uwsgi FP16 LoRA Review RGB Diagram Web Windows Bin 版权 Llama v0.dev OCR MD5 SQL GPTQ Food FP8 Search Pandas Tiktoken Shortcut Numpy tqdm Logo Freesound Linux Ubuntu CSV LLAMA Michelin VSCode BTC Video UNIX Vim Paddle Knowledge CUDA TensorRT SPIE FastAPI Website 签证 Anaconda 域名 PDF NLTK TTS
站点统计

本站现有博文326篇,共被浏览823679

本站已经建立2529天!

热门文章
文章归档
回到顶部