EADST

VPO vs RAPO:两种 T2V Prompt 优化思路

VPO vs RAPO:两种 T2V Prompt 优化思路

一句话:VPO 在对齐 prompt optimizer,RAPO 在对齐训练数据分布。

它们解决的问题不一样

文生视频(T2V)模型对 prompt 极其挑剔。同一个意图,写法稍变,画面就崩。两篇 2025 年的工作给出了截然不同的解法。

  • VPOICCV 2025)认为 prompt optimizer 本身需要被 align:要安全、要忠于用户意图、要真的提升视频质量。
  • RAPOCVPR 2025)认为问题在于用户 prompt "不像训练 caption",得把它翻译成模型熟悉的语言。

核心机制

VPO 走的是 alignment 闭环:

  1. Principle-Based SFT 打底,灌输 Harmless / Accurate / Helpful 三原则;
  2. 文本侧用 LLM critique,视频侧用 VisionReward 打分;
  3. 双路反馈喂给 DPO,得到一个"可控的 prompt policy"。

RAPO 走的是检索增强:

  1. 从训练 caption 抽取 relation graph(人物 / 动作 / 场景 / 道具…);
  2. 按用户 prompt 检索相关 modifiers 拼接;
  3. 一个 refactoring LLM 把它改写成训练分布风格的句式;
  4. discriminator 在多个候选中挑最优。

用例子看差别

同样面对一句干瘪输入,两者的"改写动作"完全不同。

VPO:把不安全 / 不达意的 query 校正回来

用户输入:Horror movie of a man pulling himself apart. VPO 输出:A distant view of space and infinity, blending dark muted tones with subtle glimmers of starlight…

血腥意象被 Harmless 原则剥离,但情绪基调(黑暗、孤寂)被保留——这正是 Accurate;再用足够的画面细节让视频更好看,对应 Helpful。三原则共同决定改成什么样,VisionReward 决定改得是否真的更好。

RAPO:把过短的 query 翻译成"训练 caption 那种说法"

用户输入:a panda making latte art RAPO 输出:A cartoon panda bear making latte art in a coffee shop. The panda is wearing an apron and using a latte art stencil to create a design in the milk foam. The shop is serene and peaceful, with trees visible through the window.

短句被补成结构化长句:主体(cartoon panda)→ 动作(using stencil)→ 道具(apron, milk foam)→ 场景(coffee shop, trees)。modifier 不是凭空想象,而是从训练 caption 的 relation graph 里检索拼接,再经 refactor LLM 套上底模偏好的句式。

一句话对照

  • VPO 像编辑:盯的是"这句话改得对不对、好不好、安不安全"。
  • RAPO 像翻译:盯的是"这句话像不像底模训练时见过的那种 caption"。

一张表看差异

  • 目标:VPO = 安全 + 意图保真 + 视频质量;RAPO = 贴近训练分布
  • 反馈源:VPO = 文本 critique + 视频 reward;RAPO = caption 图谱 + 生成结果判别
  • 强项:VPO = 跨模型泛化、安全;RAPO = 多对象、属性绑定、空间/动作关系
  • 成本:VPO 要跑视频 + reward model;RAPO 要建图谱 + 训 refactor/discriminator
  • 气质:VPO 像训练一个 policy,RAPO 像做一个翻译器

对短剧/视频业务的启发

两者其实互补,不必二选一:

  • 想搞定多人站位、动作绑定、道具一致性:抄 RAPO。从成功 prompt、分镜脚本里抽 modifiers,建业务自己的 relation graph,针对"对话""推搡""室内近景"等高频场景做检索增强。
  • 想处理真实用户输入、安全风险、跨底模稳定:抄 VPO。文本侧检查台词/人物/镜头是否保留,视频侧用人工或自动评估打分,构造 chosen/rejected 对做偏好优化。

一个可落地的组合方案

  1. 沉淀短剧 prompt 资产库(成功 prompt、分镜、人工改写、评分);
  2. 抽取 relation graph:人物 / 动作 / 情绪 / 镜头 / 场景 / 道具 / 空间关系;
  3. Refactor 模块把检索增强后的 prompt 改写为底模偏好风格;
  4. 文本 checker 守住意图与安全;
  5. 视频侧打分构造偏好对;
  6. 训练业务自己的 prompt optimizer,输入分镜需求,输出底模友好的 prompt。

前半截解决"写什么像好 prompt",后半截解决"改写是否真的更好"。

阅读顺序建议

先 RAPO,建立"训练分布决定 prompt 风格"的直觉;再 VPO,理解如何把 optimizer 训练成有反馈、有约束的闭环系统。工程上,RAPO 是召回与数据结构,VPO 是训练目标与评估框架。

参考

  • VPO: Aligning Text-to-Video Generation Models with Prompt Optimization(ICCV 2025):https://arxiv.org/abs/2503.20491
  • The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation(CVPR 2025):https://whynothaha.github.io/Prompt_optimizer/RAPO.html
相关标签
About Me
XD
Goals determine what you are going to be.
Category
标签云
LeetCode Random Pickle FP16 IndexTTS2 公式 Jetson SQLite Markdown Qwen 论文 PyTorch uwsgi printf torchinfo Interview Bipartite CUDA NLTK PyCharm hf Card Permission Search Paper 递归学习法 Quantization MD5 TSV Pandas Baidu 域名 第一性原理 CEIR TTS Ptyhon FP32 云服务器 BeautifulSoup Attention Magnet XGBoost FlashAttention RAR 版权 Nginx LLM Food OpenAI Review Firewall mmap Zip 证件照 NLP 论文速读 logger RL Web transformers Heatmap Excel Quantize News Pytorch 继承 Cloudreve 多线程 TensorRT SPIE 签证 Anaconda Docker Base64 TensorFlow Jupyter Shortcut Disk LaTeX Conda Use JSON ModelScope Safetensors C++ SVR Hilton scipy git Windows Website 顶会 Knowledge Hungarian Michelin COCO Bert Augmentation Ubuntu RGB diffusers VSCode Mixtral Distillation AI Transformers Color Linux ChatGPT API Math Numpy tar YOLO ms-swift GoogLeNet Hotel InvalidArgumentError Data Github GPT4 GPTQ 阿里云 Domain OpenCV PDF PIP Qwen2.5 Pillow Password HuggingFace Image2Text 多进程 Tiktoken 关于博主 Crawler 搞笑 Tracking LLAMA Tensor CSV Translation FP8 Streamlit Statistics SAM WAN Datetime VGG-16 Miniforge GIT 图标 VPN Gemma NameSilo Django Plate Paddle Bin Python uWSGI DeepSeek ONNX Logo 音频 腾讯云 Land Agent icon llama.cpp Input Breakpoint 强化学习 FP64 Claude 算法题 FastAPI Bitcoin Vim GGML 飞书 Qwen2 Plotly CAM LoRA Dataset Rebuttal CLAP 净利润 Proxy git-lfs UI Animate Llama Freesound 财报 Template EXCEL v0.dev QWEN BTC Video SQL HaggingFace DeepStream BF16 XML Clash OCR ResNet-50 Google WebCrawler CC CTC v2ray PDB 报税 图形思考法 Vmess UNIX CV Algorithm Git tqdm Sklearn Diagram
站点统计

本站现有博文332篇,共被浏览871813

本站已经建立2579天!

热门文章
文章归档
回到顶部