⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-12 更新
AdsQA: Towards Advertisement Video Understanding
Authors:Xinwei Long, Kai Tian, Peng Xu, Guoli Jia, Jingxuan Li, Sa Yang, Yihua Shao, Kaiyan Zhang, Che Jiang, Hao Xu, Yang Liu, Jiaheng Ma, Bowen Zhou
Large language models (LLMs) have taken a great step towards AGI. Meanwhile, an increasing number of domain-specific problems such as math and programming boost these general-purpose models to continuously evolve via learning deeper expertise. Now is thus the time further to extend the diversity of specialized applications for knowledgeable LLMs, though collecting high quality data with unexpected and informative tasks is challenging. In this paper, we propose to use advertisement (ad) videos as a challenging test-bed to probe the ability of LLMs in perceiving beyond the objective physical content of common visual domain. Our motivation is to take full advantage of the clue-rich and information-dense ad videos’ traits, e.g., marketing logic, persuasive strategies, and audience engagement. Our contribution is three-fold: (1) To our knowledge, this is the first attempt to use ad videos with well-designed tasks to evaluate LLMs. We contribute AdsQA, a challenging ad Video QA benchmark derived from 1,544 ad videos with 10,962 clips, totaling 22.7 hours, providing 5 challenging tasks. (2) We propose ReAd-R, a Deepseek-R1 styled RL model that reflects on questions, and generates answers via reward-driven optimization. (3) We benchmark 14 top-tier LLMs on AdsQA, and our \texttt{ReAd-R}~achieves the state-of-the-art outperforming strong competitors equipped with long-chain reasoning capabilities by a clear margin.
大型语言模型(LLM)在迈向通用人工智能(AGI)方面取得了巨大进步。与此同时,越来越多的特定领域问题,如数学和编程,推动了这些通用模型的持续进化,通过学习更专业的知识来不断提升自身能力。因此,现在正是进一步扩展知识型LLM的专用应用多样性的时机,尽管收集高质量且包含意外和信息的任务数据具有挑战性。在本文中,我们建议使用广告视频作为一个充满挑战的测试平台,以检测LLM在感知超越普通视觉领域的客观物理内容之外的能力。我们的动机是充分利用广告视频丰富线索和信息密集的特点,例如营销逻辑、策略说服力和观众参与度等。我们的贡献分为三个部分:(1)据我们所知,这是首次尝试使用设计良好的任务广告视频来评估LLM的表现。我们贡献了AdsQA,一个广告视频问答基准测试,从收集了1,544个广告视频共含了十万多个剪辑片段的视频库,总计时长达到约二十二小时,包含五个充满挑战的任务。(2)我们提出了ReAd-R模型,这是一个基于Deepseek-R1风格的强化学习模型,该模型会反思问题并通过奖励驱动优化来生成答案。(3)我们在AdsQA上对十四个顶级LLM进行了基准测试,并且我们的ReAd-R模型在众多长链推理能力强大的竞争者中表现领先具有标杆性优势。
论文及项目相关链接
PDF ICCV-2025
Summary
大型语言模型(LLMs)在通用人工智能(AGI)方面取得了巨大进展,但针对特定领域问题如数学和编程的持续进化仍需提升。本文提议利用广告视频作为挑战性的测试平台,探索LLMs超越普通视觉领域的客观物理内容感知能力。文章的创新之处在于,首次尝试利用设计良好的任务评估LLMs的视频理解能力。创建了首个广告视频问答基准测试AdsQA,并推出反映问题的ReAd-R模型,通过奖励驱动优化生成答案。对顶尖LLMs进行基准测试显示,ReAd-R模型具有出色的长链推理能力,达到业界领先水平。
Key Takeaways
- 大型语言模型(LLMs)在通用人工智能方面取得显著进展。
- 特定领域问题(如数学和编程)对LLMs的进化有推动作用。
- 广告视频被用作测试LLMs感知能力的平台,超越普通视觉领域的客观物理内容。
- 首次尝试利用广告视频创建问答基准测试AdsQA。
- 推出ReAd-R模型,通过奖励驱动优化生成答案,反映问题。
- ReAd-R模型具备强大的长链推理能力,在基准测试中表现领先。
点此查看论文截图



