⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-05 更新
EgoExo-Con: Exploring View-Invariant Video Temporal Understanding
Authors:Minjoon Jung, Junbin Xiao, Junghyun Kim, Byoung-Tak Zhang, Angela Yao
Can Video-LLMs achieve consistent temporal understanding when videos capture the same event from different viewpoints? To study this, we introduce EgoExo-Con (Consistency), a benchmark of comprehensively synchronized egocentric and exocentric video pairs with human-refined queries in natural language. EgoExo-Con emphasizes two temporal understanding tasks: Temporal Verification and Temporal Grounding. It evaluates not only correctness but consistency across viewpoints. Our analysis reveals two critical limitations of existing Video-LLMs: (1) models often fail to maintain consistency, with results far worse than their single-view performances. (2) When naively finetuned with synchronized videos of both viewpoints, the models show improved consistency but often underperform those trained on a single view. For improvements, we propose View-GRPO, a novel reinforcement learning framework that effectively strengthens view-specific temporal reasoning while encouraging consistent comprehension across viewpoints. Our method demonstrates its superiority over naive SFT and GRPO, especially for improving cross-view consistency. All resources will be made publicly available.
当视频从不同视角捕捉同一事件时,视频大型语言模型(Video-LLMs)能否实现一致的时间理解?为了研究这个问题,我们引入了EgoExo-Con(一致性)基准测试,这是一个包含全面同步的第一人称和第三人称视频对以及人类用自然语言精细查询的基准测试。EgoExo-Con强调两种时间理解任务:时间验证和时间基础。它不仅评估正确性,还评估不同视角之间的一致性。我们的分析揭示了现有Video-LLMs的两个关键局限性:(1)模型往往不能保持一致性,其多视角的结果比单一视角的结果要差得多。(2)当用两个视角的同步视频进行简单微调时,模型的一致性有所提高,但在单一视角上的训练往往表现较差。为了改进这一点,我们提出了View-GRPO,这是一种新的强化学习框架,它能有效地加强特定视角的时间推理,同时鼓励不同视角之间的一致理解。我们的方法在公开测试集上优于简单的微调方法和GRPO方法,特别是在提高跨视角一致性方面表现优越。所有资源都将公开发布。
论文及项目相关链接
PDF project page: \url{https://minjoong507.github.io/projects/EgoExo-Con/}
Summary
视频理解领域的一个研究引入了EgoExo-Con(一致性)基准测试,该测试包含全面同步的第一人称和第三人称视频对,以及人类以自然语言精修的查询。EgoExo-Con强调两种时间理解任务:时间验证和时间定位。它不仅评估正确性,还评估不同视角下的一致性。分析显示现有视频理解大模型存在两大局限:一是难以保持一致性,单视角表现较好但在多视角下结果较差;二是简单微调无法改善跨视角一致性。为此,研究提出了View-GRPO这一新型强化学习框架,能有效强化特定视角的时间推理能力,同时鼓励跨视角的一致性理解。此框架相较于传统方法有明显优势。
Key Takeaways
- 引入EgoExo-Con基准测试,包含同步的第一人称和第三人称视频对,用于研究视频理解模型在不同视角下的表现。
- 强调时间验证和时间定位两种时间理解任务,同时评估模型的正确性和不同视角下的一致性。
- 分析发现现有视频理解大模型在维持跨视角一致性上存在局限。
- 简单微调模型并不能改善跨视角一致性。
- 提出了View-GRPO强化学习框架,能有效强化特定视角的时间推理能力,并鼓励跨视角的一致性理解。
- View-GRPO框架相较于传统方法具有明显优势。
点此查看论文截图
Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders
Authors:Ali Rasekh, Erfan Bagheri Soula, Omid Daliran, Simon Gottschalk, Mohsen Fayyaz
Despite significant advances in Multimodal Large Language Models (MLLMs), understanding complex temporal dynamics in videos remains a major challenge. Our experiments show that current Video Large Language Model (Video-LLM) architectures have critical limitations in temporal understanding, struggling with tasks that require detailed comprehension of action sequences and temporal progression. In this work, we propose a Video-LLM architecture that introduces stacked temporal attention modules directly within the vision encoder. This design incorporates a temporal attention in vision encoder, enabling the model to better capture the progression of actions and the relationships between frames before passing visual tokens to the LLM. Our results show that this approach significantly improves temporal reasoning and outperforms existing models in video question answering tasks, specifically in action recognition. We improve on benchmarks including VITATECS, MVBench, and Video-MME by up to +5.5%. By enhancing the vision encoder with temporal structure, we address a critical gap in video understanding for Video-LLMs. Project page and code are available at: https://alirasekh.github.io/STAVEQ2/.
尽管多模态大型语言模型(MLLM)取得了重大进展,但理解视频中的复杂时间动态仍然是一个主要挑战。我们的实验表明,当前的视频大型语言模型(Video-LLM)架构在时间理解方面存在关键局限,难以应对要求详细了解动作序列和时间进展的任务。在这项工作中,我们提出了一种Video-LLM架构,该架构直接在视觉编码器内引入堆叠的时间注意力模块。这种设计在视觉编码器中融入了时间注意力,使模型能够更好地捕捉动作的进展以及帧之间的关系,然后将视觉令牌传递给LLM。我们的结果表明,这种方法在视频问答任务中显著提高了时间推理能力,特别是在动作识别方面超过了现有模型。我们在包括VITATECS、MVBench和Video-MME在内的基准测试中提高了高达+5.5%。通过增强视觉编码器的时间结构,我们解决了视频理解方面的一个关键空白领域。项目页面和代码可在:https://alirasekh.github.io/STAVEQ2/找到。
论文及项目相关链接
PDF Accepted to NeurIPS 2025
Summary
本文指出,尽管多模态大型语言模型(MLLMs)取得了显著进展,但在理解视频的复杂时间动态方面仍存在巨大挑战。当前视频大型语言模型(Video-LLM)架构在理解时间方面存在关键局限性,难以完成需要详细理解动作序列和时间进展的任务。为此,本文提出了一种新的Video-LLM架构,该架构在视觉编码器内直接引入堆叠的时间注意模块。通过加入时间注意力机制,模型能够更好地捕捉动作的进展和帧之间的关系,然后将视觉令牌传递给LLM。实验结果表明,该方法在视频问答任务中的时间推理能力显著提高,特别是在动作识别方面。改进后的模型在VITATECS、MVBench和Video-MME等基准测试上的表现提高了高达+5.5%。通过增强视觉编码器的时间结构,解决了Video-LLM在视频理解方面的关键差距。
Key Takeaways
- 当前Video-LLM在理解视频复杂时间动态方面存在挑战。
- 现有Video-LLM架构在理解时间方面存在关键局限性,难以完成需要详细理解动作序列和时间进展的任务。
- 新提出的Video-LLM架构引入了堆叠的时间注意模块,增强了模型的时空理解能力。
- 加入时间注意力机制有助于模型捕捉动作的进展和帧之间的关系。
- 新架构在视频问答任务中的时间推理能力显著提高,特别是在动作识别方面。
- 改进后的模型在多个基准测试上的表现有显著提升。
点此查看论文截图
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
Authors:Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
Modern multimodal large language models (MLLMs) can reason over hour-long video, yet their key-value (KV) cache grows linearly with time-quickly exceeding the fixed memory of phones, AR glasses, and edge robots. Prior compression schemes either assume the whole video and user query are available offline or must first build the full cache, so memory still scales with stream length. InfiniPot-V is the first training-free, query-agnostic framework that enforces a hard, length-independent memory cap for streaming video understanding. During video encoding it monitors the cache and, once a user-set threshold is reached, runs a lightweight compression pass that (i) removes temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii) keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four open-source MLLMs and four long-video and streaming-video benchmarks, InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation, and matches or surpasses full-cache accuracy-even in multi-turn dialogues. By dissolving the KV cache bottleneck without retraining or query knowledge, InfiniPot-V closes the gap for on-device streaming video assistants.
现代的多模态大型语言模型(MLLMs)能够对长达数小时的视频进行推理,然而其键值(KV)缓存会随时间线性增长,很快超过手机、AR眼镜和边缘机器人的固定内存。之前的压缩方案要么假设整个视频和用户查询都可以离线使用,要么必须先建立完整的缓存,因此内存仍然会随着流长度的增加而扩展。InfiniPot-V是第一个无需训练、与查询无关的框架,它为流式视频理解强制执行一个硬性的、与长度无关的内存上限。在视频编码过程中,它会监控缓存,一旦达到用户设定的阈值,就会运行一个轻量级的压缩过程,该过程(i)通过时间轴冗余(TaR)指标删除时间上的冗余标记,(ii)通过值范数(VaN)排名保留语义上重要的标记。在四个开源的MLLM和四个长视频及流式视频基准测试中,InfiniPot-V将峰值GPU内存减少了高达94%,保持实时生成,并在多轮对话中匹配或超越了全缓存的准确率。通过消除无需重新训练或查询知识的KV缓存瓶颈,InfiniPot-V缩小了设备流媒体视频助理之间的差距。
论文及项目相关链接
PDF NeurIPS 2025
Summary
大型多模态语言模型在处理长达一小时的视频时,其键值缓存会随着时间线性增长,迅速超过手机、AR眼镜和边缘机器人的固定内存。以往压缩方案要么假设整个视频和用户查询都可以离线访问,要么必须先建立完整的缓存,因此内存仍然随流长度而增长。InfiniPot-V是首个无需训练、无需查询知识的框架,它为流式视频理解强制执行固定的内存限制。在视频编码过程中,它会监控缓存,在用户设定的阈值被达到时,运行一个轻量级的压缩过程,通过时间轴冗余(TaR)指标去除时间冗余的令牌,并通过值范数(VaN)排名保留语义重要的令牌。在四个开源大型多模态语言模型和四个长视频及流媒体基准测试中,InfiniPot-V将峰值GPU内存最多减少94%,保持实时生成速度,甚至在多轮对话中达到或超过了全缓存的准确性。通过解决键值缓存瓶颈而无需重新训练或了解查询知识,InfiniPot-V填补了在线流式视频助理的空白。
Key Takeaways
- 现代多模态大型语言模型处理长视频时面临内存挑战。
- 以往的压缩方案不能适应流式视频的内存需求。
- InfiniPot-V是首个针对流式视频理解的训练免费、查询无关框架。
- InfiniPot-V在视频编码过程中实时监控缓存并压缩数据。
- 通过时间轴冗余和值范数排名机制,InfiniPot-V去除冗余并保持语义重要性。
- 在多个基准测试中,InfiniPot-V显著减少GPU内存使用并提高生成速度。
点此查看论文截图
VideoExplorer: Think With Videos For Agentic Long-Video Understanding
Authors:Huaying Yuan, Zheng Liu, Junjie Zhou, Hongjin Qian, Yan Shu, Nicu Sebe, Ji-Rong Wen, Zhicheng Dou
Long-video understanding~(LVU) is a challenging problem in computer vision. Existing methods either downsample frames for single-pass reasoning, sacrificing fine-grained details, or depend on textual reasoning over task-agnostic representations, hindering task-specific perception and exploration. In this paper, we propose VideoExplorer, a framework grounded in the principle of ``thinking with video’’, which naturally intertwines planning, temporal grounding, and scalable perception into a coherent reasoning process. Rather than reasoning over a static context, VideoExplorer iteratively formulates sub-questions, locates relevant moments, and performs task-oriented, temporally scalable video understanding until reaching the final answer, enabling faithful, efficient, and interpretable reasoning. To address the lack of LVU training resources, we construct a long-video reasoning dataset using difficulty-adaptive sampling to ensure high-quality trajectories on complex tasks. Building on this dataset, we design a two-stage training pipeline: supervised trajectory initialization followed by trajectory-level preference optimization, encouraging adaptive temporal grounding and iterative information integration guided by downstream rewards. Extensive evaluations on popular long-video understanding and reasoning benchmarks demonstrate VideoExplorer’s significant advantage over existing baselines, highlighting its robustness, adaptability, and efficiency. Our code is made publicly available in this repository(https://github.com/yhy-2000/VideoDeepResearch).
长视频理解(LVU)是计算机视觉领域的一个难题。现有方法要么对帧进行降采样以进行单次推理,牺牲了精细细节,要么依赖于任务无关表示上的文本推理,阻碍了特定任务的感知和探索。在本文中,我们提出了VideoExplorer框架,该框架基于“用视频思考”的原则,将规划、时间定位和可扩展感知自然地融合到一个连贯的推理过程中。VideoExplorer不是对静态上下文进行推理,而是迭代地制定子问题,定位相关时刻,并进行面向任务的、可扩展的视频理解,直到得到最终答案,从而实现忠实、高效和可解释的推理。为了解决LVU训练资源的缺乏,我们构建了一个长视频推理数据集,采用难度自适应采样,以确保复杂任务的高质量轨迹。基于该数据集,我们设计了一个两阶段训练管道:监督轨迹初始化,然后是轨迹级别的偏好优化,鼓励自适应时间定位和迭代信息整合,由下游奖励引导。在流行长视频理解和推理基准测试上的广泛评估表明,VideoExplorer相对于现有基线具有显著优势,突显了其稳健性、适应性和效率。我们的代码已在本仓库公开可用(https://github.com/yhy-2000/VideoDeepResearch)。
论文及项目相关链接
Summary
长视频理解(LVU)是计算机视觉中的一个挑战性问题。现有方法要么降低帧分辨率进行单次推理,牺牲了细节,要么依赖于任务无关表示上的文本推理,阻碍了特定任务的感知和探索。本文提出VideoExplorer框架,以“用视频思考”的原则为基础,自然地将规划、时间定位和可伸缩感知融入一个合理的推理过程中。VideoExplorer通过迭代地提出子问题、定位相关时刻,并执行面向任务的、可伸缩的视频理解,直到得到最终答案,从而实现忠实、高效和可解释的推理。为应对LVU训练资源的缺乏,我们利用难度自适应采样构建了一个长视频推理数据集,确保在复杂任务上的高质量轨迹。在此基础上,我们设计了一个两阶段的训练管道:监督轨迹初始化,随后是轨迹层面的偏好优化,鼓励自适应时间定位以及迭代信息整合由下游奖励引导。在流行长视频理解和推理基准测试上的评估表明,VideoExplorer相比现有基线具有显著优势,体现了其稳健性、适应性和效率。我们的代码已公开于 https://github.com/yhy-2000/VideoDeepResearch。
Key Takeaways
- 长视频理解(LVU)是计算机视觉领域的一个挑战性问题。
- 现有方法存在缺陷:降低帧分辨率导致细节丢失,依赖文本推理影响任务特定感知和探索。
- VideoExplorer框架提出“用视频思考”原则,结合规划、时间定位和可伸缩感知。
- VideoExplorer通过迭代子问题、定位相关时刻,实现忠实、高效和可解释的推理。
- 缺乏LVU训练资源,构建了一个长视频推理数据集以应对此问题。
- 两阶段训练管道设计:监督轨迹初始化后,进行轨迹层面的偏好优化。
点此查看论文截图
VidText: Towards Comprehensive Evaluation for Video Text Understanding
Authors:Zhoufaran Yang, Yan Shu, Jing Wang, Zhifei Yang, Yan Zhang, Yu Li, Keyang Lu, Gangyan Zeng, Shaohui Liu, Yu Zhou, Nicu Sebe
Visual texts embedded in videos carry rich semantic information, which is crucial for both holistic video understanding and fine-grained reasoning about local human actions. However, existing video understanding benchmarks largely overlook textual information, while OCR-specific benchmarks are constrained to static images, limiting their ability to capture the interaction between text and dynamic visual contexts. To address this gap, we propose VidText, a new benchmark designed for comprehensive and in-depth evaluation of video text understanding. VidText offers the following key features: 1) It covers a wide range of real-world scenarios and supports multilingual content, encompassing diverse settings where video text naturally appears. 2) It introduces a hierarchical evaluation framework with video-level, clip-level, and instance-level tasks, enabling assessment of both global summarization and local retrieval capabilities. 3) The benchmark also introduces a set of paired perception reasoning tasks, ranging from visual text perception to cross-modal reasoning between textual and visual information. Extensive experiments on 18 state-of-the-art Large Multimodal Models (LMMs) reveal that current models struggle across most tasks, with significant room for improvement. Further analysis highlights the impact of both model-intrinsic factors, such as input resolution and OCR capability, and external factors, including the use of auxiliary information and Chain-of-Thought reasoning strategies. We hope VidText will fill the current gap in video understanding benchmarks and serve as a foundation for future research on multimodal reasoning with video text in dynamic environments.
视频中的嵌入文本携带丰富的语义信息,这对于整体视频理解和局部人类动作的精细推理都至关重要。然而,现有的视频理解基准测试在很大程度上忽视了文本信息,而专门针对OCR的基准测试仅限于静态图像,限制了其捕捉文本和动态视觉上下文之间交互的能力。为了解决这一差距,我们提出了VidText,这是一个旨在为视频文本理解进行全面和深入评估的新基准测试。VidText提供以下关键功能:1)它涵盖广泛的真实场景,并支持多语言内容,涵盖视频文本自然出现的各种设置。2)它引入了分层评估框架,包括视频级别、剪辑级别和实例级别的任务,能够评估全局总结和局部检索能力。3)该基准测试还引入了一系列配对感知推理任务,从视觉文本感知到文本和视觉信息之间的跨模态推理。对18个最新先进的大型多模态模型(LMMs)的广泛实验表明,当前模型在大多数任务上都遇到了困难,有很大的改进空间。进一步的分析突出了模型内在因素的影响,如输入分辨率和OCR能力,以及外部因素的影响,包括使用辅助信息和链式思维推理策略。我们希望VidText能够填补当前视频理解基准测试的空白,并成为未来在动态环境中进行多模态推理研究的基础。
论文及项目相关链接
Summary:
视频中的文字信息携带丰富的语义信息,对于整体视频理解和局部人类行为的精细推理都至关重要。然而,现有的视频理解基准测试大多忽略了文本信息,而专门针对OCR的基准测试仅限于静态图像,无法捕捉文本与动态视觉上下文之间的交互。为解决这一空白,我们提出了VidText,这是一个为全面深入地评估视频文本理解而设计的新基准测试。它覆盖多种现实场景并支持多语言内容,引入分层评估框架,包括视频级、剪辑级和实例级任务,以及一系列配对感知推理任务,从视觉文本感知到文本和视觉信息之间的跨模态推理。对18种最新大型多模态模型的广泛实验表明,当前模型在大多数任务上表现不佳,仍有很大改进空间。
Key Takeaways:
- 视频中的文字信息对整体视频理解和局部人类行为推理至关重要。
- 现有视频理解基准测试忽略了文本信息,OCR基准测试受限于静态图像。
- VidText填补了视频文本理解的基准测试空白,覆盖多种现实场景并支持多语言。
- VidText引入分层评估框架,包括视频级、剪辑级和实例级任务。
- VidText提供配对感知推理任务,涉及视觉文本感知和跨模态推理。
- 广泛实验表明,当前模型在VidText基准测试上的表现不佳,存在改进空间。
点此查看论文截图
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
Authors:Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery (DVD) agent to leverage an agentic search strategy over segmented video clips. Unlike previous video agents that rely on predefined workflows applied uniformly across different queries, our approach emphasizes the autonomous and adaptive nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools to orchestrate adaptive workflow for different queries in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates our advantage. Our DVD agent achieves state-of-the-art performance on the challenging LVBench dataset, reaching an accuracy of 74.2%, which substantially surpasses all prior works, and further improves to 76.0% with transcripts. The code has been released at https://github.com/microsoft/DeepVideoDiscovery.
长视频理解面临着巨大的挑战,这主要是由于其庞大的时空复杂性和在这种扩展语境下进行问答的难度。虽然大型语言模型(LLM)在视频分析能力和长文本处理能力方面取得了显著的进步,但在处理信息密集的一小时长视频时,它们仍然表现出一些局限性。为了克服这些局限性,我们提出了深度视频发现(DVD)代理,采用分段视频剪辑的代理搜索策略。不同于以前依赖于为不同查询统一应用预定工作流程的视频代理,我们的方法强调代理的自主性和适应性。通过在多粒度视频数据库上提供一系列以搜索为中心的工具,我们的DVD代理利用LLM的高级推理能力来规划其当前观察状态,根据收集的信息战略性地选择工具来协调适应不同查询的工作流程。我们在多个长视频理解基准测试上进行了全面评估,证明了我们的优势。我们的DVD代理在具有挑战性的LVBench数据集上达到了74.2%的准确率,这大大超过了所有先前的工作,并且在使用字幕的情况下进一步提高到7.%。相关代码已发布在 https://github.com/microsoft/DeepVideoDiscovery 。
论文及项目相关链接
PDF Accepted to NeurIPS 2025
Summary
长视频理解面临巨大的挑战,如复杂的时空信息和长时间上下文的问题回答。大型语言模型(LLM)虽然能处理视频分析和处理长时间上下文,但在处理信息密集的小时级视频时仍有局限。为解决此问题,我们提出了深度视频发现(DVD)代理,采用代理搜索策略对视频片段进行分割。与依赖预设工作流对不同查询进行统一处理的传统视频代理不同,我们的方法强调了代理的自主性和适应性。DVD代理在多维视频数据库上提供一系列搜索中心工具,利用LLM的高级推理能力规划当前观测状态,并根据所获得的信息为不同查询协调自适应工作流程。我们的方法在不同长时间视频理解基准测试集上进行全面评估表现出优势,特别是在具有挑战性的LVBench数据集上,准确率达到了惊人的高度,不使用字幕的情况下准确率为74.2%,超越所有先前的工作;使用字幕后进一步提高至76.0%。代码已发布在https://github.com/microsoft/DeepVideoDiscovery。
Key Takeaways
- 长视频理解存在巨大挑战,主要因为时空复杂性以及长上下文中的问答难度。
- 大型语言模型(LLM)在处理信息密集的长视频时存在局限性。
- 提出的深度视频发现(DVD)代理采用代理搜索策略分割视频片段,强调自主性和适应性。
- DVD代理在多维视频数据库上提供搜索中心工具,利用LLM的高级推理能力进行规划和选择。
- 在多个长视频理解基准测试集上进行了全面评估,表现出显著优势。
- 在具有挑战性的LVBench数据集上达到了最高性能标准,准确率为74.2%(不使用字幕)和76.0%(使用字幕)。
点此查看论文截图
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video
Authors:Shuhang Xun, Sicheng Tao, Jungang Li, Yibo Shi, Zhixin Lin, Zhanhui Zhu, Yibo Yan, Hanqian Li, Linghao Zhang, Shikang Wang, Yixin Liu, Hanbo Zhang, Ying Ma, Xuming Hu
Multimodal Large Language Models (MLLMs) increasingly excel at perception, understanding, and reasoning. However, current benchmarks inadequately evaluate their ability to perform these tasks continuously in dynamic, real-world environments. To bridge this gap, we introduce RTV-Bench, a fine-grained benchmark for MLLM real-time video analysis. RTV-Bench uses three key principles: (1) Multi-Timestamp Question Answering (MTQA), where answers evolve with scene changes; (2) Hierarchical Question Structure, combining basic and advanced queries; and (3) Multi-dimensional Evaluation, assessing the ability of continuous perception, understanding, and reasoning. RTV-Bench contains 552 diverse videos (167.2 hours) and 4,631 high-quality QA pairs. We evaluated leading MLLMs, including proprietary (GPT-4o, Gemini 2.0), open-source offline (Qwen2.5-VL, VideoLLaMA3), and open-source real-time (VITA-1.5, InternLM-XComposer2.5-OmniLive) models. Experiment results show open-source real-time models largely outperform offline ones but still trail top proprietary models. Our analysis also reveals that larger model size or higher frame sampling rates do not significantly boost RTV-Bench performance, sometimes causing slight decreases. This underscores the need for better model architectures optimized for video stream processing and long sequences to advance real-time video analysis with MLLMs. Our benchmark toolkit is available at: https://github.com/LJungang/RTV-Bench.
多模态大型语言模型(MLLMs)在感知、理解和推理方面越来越出色。然而,当前的基准测试未能充分评估它们在动态、现实环境中连续执行这些任务的能力。为了弥补这一差距,我们推出了RTV-Bench,这是针对MLLM实时视频分析的高精度基准测试。RTV-Bench采用三个关键原则:(1)多时间戳问答(MTQA),答案随场景变化而演变;(2)分层问题结构,结合基本和高级查询;(3)多维评估,评估连续感知、理解和推理的能力。RTV-Bench包含552个多样化视频(167.2小时)和4631组高质量问答对。我们评估了领先的多模态大型语言模型,包括专有模型(GPT-4o、Gemini 2.0)、开源离线模型(Qwen2.5-VL、VideoLLaMA3)和开源实时模型(VITA-1.5、InternLM-XComposer2.5-OmniLive)。实验结果表明,开源实时模型大多优于离线模型,但仍落后于顶级专有模型。我们的分析还表明,更大的模型规模或更高的帧采样率并不会显著提高RTV-Bench的性能,有时甚至会导致轻微下降。这强调了在视频流处理和长序列优化方面需要更好的模型架构,以推动使用MLLMs的实时视频分析的发展。我们的基准测试工具包可在以下网址获取:https://github.com/LJungang/RTV-Bench 。
论文及项目相关链接
PDF Accepted by NeurIPS 2025 Datasets and Benchmarks Track;
摘要
多模态大型语言模型(MLLMs)在感知、理解和推理方面越来越出色。然而,当前的标准评估无法充分衡量其在动态现实环境中的连续任务执行能力。为此,我们推出RTV-Bench,一个针对MLLM实时视频分析的精细基准测试。RTV-Bench采用三个关键原则:1)多时间戳问答(MTQA),答案随场景变化而演变;2)分层问题结构,结合基本和高级查询;3)多维度评估,评估连续感知、理解和推理的能力。RTV-Bench包含552个多样化视频(167.2小时)和4631个高质量问答对。我们评估了领先的多模态大型语言模型,包括专有(GPT-4o、Gemini 2.0)、开源离线(Qwen2.5-VL、VideoLLaMA3)和开源实时模型(VITA-1.5、InternLM-XComposer2.5-OmniLive)。实验结果表明,开源实时模型大多优于离线模型,但仍落后于顶级专有模型。分析还显示,模型规模增大或帧采样率提高并不显著增强RTV-Bench的性能,有时甚至会导致轻微下降。这强调了在视频流处理和长序列优化方面需要更好的模型架构,以推动MLLM在实时视频分析方面的应用。我们的基准测试工具包可在:链接获取。
关键见解
- 多模态大型语言模型在感知、理解和推理方面表现出色,但在动态现实环境中的连续任务执行能力的评估存在差距。
- RTV-Bench是一个新的基准测试,用于评估多模态大型语言模型在实时视频分析方面的性能。
- RTV-Bench采用三个关键原则:多时间戳问答、分层问题结构和多维度评估。
- 实验表明,开源实时模型表现优于离线模型,但仍落后于专有模型。
- 模型规模增大或帧采样率提高对RTV-Bench性能的影响并不显著,甚至可能导致性能下降。
- 需要更好的模型架构来优化视频流处理和长序列处理,以推动实时视频分析的进步。
点此查看论文截图
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding
Authors:Zongxia Li, Xiyang Wu, Guangyao Shi, Yubin Qin, Hongyang Du, Fuxiao Liu, Tianyi Zhou, Dinesh Manocha, Jordan Lee Boyd-Graber
Vision-Language Models (VLMs) have achieved strong results in video understanding, yet a key question remains: do they truly comprehend visual content or only learn shallow correlations between vision and language? Real visual understanding, especially of physics and common sense, is essential for AI systems that interact with the physical world. Current evaluations mostly use real-world videos similar to training data, so high benchmark scores may not reflect real reasoning ability. To address this, we propose negative-control tests using videos that depict physically impossible or logically inconsistent events. We introduce VideoHallu, a synthetic dataset of physics- and commonsense-violating scenes generated with Veo2, Sora, and Kling. It includes expert-annotated question-answer pairs across four categories of violations. Tests of leading VLMs (Qwen-2.5-VL, Video-R1, VideoChat-R1) show that, despite strong results on benchmarks such as MVBench and MMVU, they often miss these violations, exposing gaps in visual reasoning. Reinforcement learning fine-tuning on VideoHallu improves recognition of such violations without reducing standard benchmark performance. Our data is available at https://github.com/zli12321/VideoHallu.git.
视觉语言模型(VLMs)在视频理解方面取得了显著成果,但关键问题仍然存在:它们是否真的理解视觉内容,还是只学习视觉和语言之间的浅层关联?真正的视觉理解,尤其是对物理和常识的理解,对于与物理世界交互的AI系统至关重要。当前的评估主要使用与现实世界视频相似的训练数据,因此高基准测试分数可能并不能反映真实的推理能力。为了解决这一问题,我们提出使用描绘物理上不可能或逻辑上不一致事件的负面控制测试。我们引入了VideoHallu,这是一个通过Veo2、Sora和Kling生成的违反物理和常识的合成数据集。它包含四个类别违规的专家注释问答对。对领先的VLMs(Qwen-2.5-VL、Video-R1、VideoChat-R1)的测试表明,尽管它们在MVBench和MMVU等基准测试上表现强劲,但它们往往会忽略这些违规行为,暴露出视觉推理上的差距。在VideoHallu上进行强化学习微调,可以提高对这些违规行为的识别能力,同时不降低标准基准测试的性能。我们的数据可在https://github.com/zli12321/VideoHallu.git获取。
论文及项目相关链接
Summary
本文探讨了视觉语言模型(VLMs)在视频理解中的表现,指出模型是否真正理解了视觉内容,还是仅仅学习了视觉和语言的浅层关联。为了评估模型的视觉推理能力,作者提出了使用描绘物理上不可能或逻辑上不一致事件的负面控制测试,并介绍了一个名为VideoHallu的合成数据集,包含违反物理和常识的场景,并带有专家注释的问题答案对。研究表明,尽管在MVBench和MMVU等基准测试上表现良好,领先的VLMs在识别这些违规事件时仍存在缺陷。通过VideoHallu进行强化学习微调,可提高对这些违规事件的识别能力,同时不降低标准基准测试的性能。
Key Takeaways
- 视觉语言模型(VLMs)在视频理解中表现出色,但存在是否真正理解视觉内容的疑问。
- 当前评估方法主要使用与训练数据相似的现实世界视频,因此高基准测试分数可能无法反映真正的推理能力。
- 为了评估模型的视觉推理能力,提出了使用描绘物理上不可能或逻辑上不一致事件的负面控制测试。
- 介绍了一个名为VideoHallu的合成数据集,包含违反物理和常识的场景,用于测试模型的视觉理解能力。
- 领先的VLMs在识别这些违规事件时存在缺陷,暴露了视觉推理的差距。
- 通过VideoHallu进行强化学习微调可以提高模型对违规事件的识别能力。
点此查看论文截图