⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-08-01 更新
Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding
Authors:Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu
Human intelligence requires correctness and robustness, with the former being foundational for the latter. In video understanding, correctness ensures the accurate interpretation of visual content, and robustness maintains consistent performance in challenging conditions. Despite advances in video large language models (video LLMs), existing benchmarks inadequately reflect the gap between these models and human intelligence in maintaining correctness and robustness in video interpretation. We introduce the Video Thinking Test (Video-TT), to assess if video LLMs can interpret real-world videos as effectively as humans. Video-TT reflects genuine gaps in understanding complex visual narratives, and evaluates robustness against natural adversarial questions. Video-TT comprises 1,000 YouTube Shorts videos, each with one open-ended question and four adversarial questions that probe visual and narrative complexity. Our evaluation shows a significant gap between video LLMs and human performance.
人类的智能需要正确性和稳健性,前者是后者的基础。在视频理解中,正确性确保对视觉内容的准确解释,而稳健性则维持了在挑战条件下的稳定表现。尽管视频大型语言模型(Video LLMs)有所进展,但现有基准测试并未充分反映出这些模型在维持视频解读中的正确性和稳健性与人类智能之间的差距。我们推出视频思维测试(Video-TT),旨在评估视频LLMs是否能像人类一样有效地解读现实世界的视频。Video-TT反映了在理解复杂视觉叙事方面的真实差距,并评估了面对自然对抗性问题时的稳健性。Video-TT包含1000个YouTube短视频,每个视频都有一个开放性问题以及四个针对视觉和叙事复杂性的对抗性问题。我们的评估显示,视频LLMs与人类性能之间存在显著差距。
论文及项目相关链接
PDF ICCV 2025; Project page: https://zhangyuanhan-ai.github.io/video-tt/
Summary
视频理解领域中,人类智能需要正确性与稳健性,其中正确性为基础。在视频理解中,正确性确保视觉内容的准确解读,而稳健性则维持了在复杂环境下的稳定表现。尽管视频大型语言模型(video LLMs)有所发展,现有基准测试并不能充分反映这些模型在维持视频解读的正确性与稳健性方面与人类智能之间的差距。为此,我们推出视频思维测试(Video-TT),旨在评估视频LLMs是否如人类般有效地解读现实世界的视频。Video-TT反映了在理解复杂视觉叙事方面的真实差距,并评估了面对自然对抗性问题的稳健性。该测试包含1000个YouTube短视频,每个视频附带一个开放性问题及四个针对视觉和叙事复杂性的对抗性问题。评估结果显示视频LLMs与人类性能之间存在显著差距。
Key Takeaways
- 人类智能在视频理解中需要正确性和稳健性。
- 现有基准测试未能充分反映视频LLMs与人类在视频理解上的差距。
- 推出视频思维测试(Video-TT),以评估视频LLMs的解读能力。
- Video-TT包含1000个短视频,每个视频附带一个开放性问题及四个对抗性问题。
- Video-TT旨在测试模型在理解复杂视觉叙事和面对对抗性问题时的表现。
- 视频LLMs在视频理解方面与人类存在显著差距。
点此查看论文截图






VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding
Authors:Shihao Wang, Guo Chen, De-an Huang, Zhiqi Li, Minghan Li, Guilin Li, Jose M. Alvarez, Lei Zhang, Zhiding Yu
Recent studies have revealed that selecting informative and relevant video frames can significantly improve the performance of Video Large Language Models (Video-LLMs). Current methods, such as reducing inter-frame redundancy, employing separate models for image-text relevance assessment, or utilizing temporal video grounding for event localization, substantially adopt unsupervised learning paradigms, whereas they struggle to address the complex scenarios in long video understanding. We propose Instructed Temporal Grounding for Videos (VideoITG), featuring customized frame sampling aligned with user instructions. The core of VideoITG is the VidThinker pipeline, an automated annotation framework that explicitly mimics the human annotation process. First, it generates detailed clip-level captions conditioned on the instruction; then, it retrieves relevant video segments through instruction-guided reasoning; finally, it performs fine-grained frame selection to pinpoint the most informative visual evidence. Leveraging VidThinker, we construct the VideoITG-40K dataset, containing 40K videos and 500K instructed temporal grounding annotations. We then design a plug-and-play VideoITG model, which takes advantage of visual language alignment and reasoning capabilities of Video-LLMs, for effective frame selection in a discriminative manner. Coupled with Video-LLMs, VideoITG achieves consistent performance improvements across multiple multimodal video understanding benchmarks, showing its superiority and great potentials for video understanding.
近期研究指出,选取具有信息量和相关性的视频帧,能显著提升视频大语言模型(Video-LLM)的性能。当前的方法,如减少帧间冗余、采用单独的模型进行图文相关性评估,或使用基于时间的视频定位进行事件定位等,主要采用无监督学习模式,难以应对长视频理解中的复杂场景。为此,我们提出基于用户指令的视频指令化时间定位方法(VideoITG),具有自定义帧采样与用户指令对齐的特点。VideoITG的核心是VidThinker管道,一个模仿人类标注过程的自动化标注框架。首先,它根据指令生成详细的片段级描述;然后,通过指令引导推理检索相关视频片段;最后,进行精细帧选择,确定最具信息量的视觉证据。借助VidThinker,我们构建了包含4万视频和50万个指令化时间定位标注的VideoITG-40K数据集。接着,我们设计了一款即插即用的VideoITG模型,该模型利用视频大语言模型的视觉语言对齐和推理能力,以判别方式进行有效帧选择。配合视频大语言模型,VideoITG在多个多媒体视频理解基准测试中实现了性能持续提升,证明了其在视频理解领域的优越性及巨大潜力。
论文及项目相关链接
PDF Technical Report
Summary
本文提出一种针对视频的指令化时间定位方法(VideoITG),通过模仿人类标注过程,构建自动化标注框架VidThinker,用于生成基于指令的详细片段级描述、通过指令引导的推理以及精细化的帧选择。利用VideoITG,构建VideoITG-40K数据集,并设计一款即插即用的VideoITG模型,结合视频大型语言模型(Video-LLM)的视觉语言对齐和推理能力,实现有效的帧选择。该方法在多个多媒体视频理解基准测试中表现优越,具有巨大的视频理解潜力。
Key Takeaways
- 近期研究发现选择有信息量和相关性的视频帧能显著提升视频大型语言模型(Video-LLM)性能。
- 当前方法主要采取无监督学习模式,但在处理长视频复杂场景时存在困难。
- 提出的VideoITG方法通过模仿人类标注过程,构建自动化标注框架VidThinker。
- VidThinker包含三个阶段:基于指令生成详细片段级描述、通过指令引导的推理以及精细化的帧选择。
- 利用VideoITG构建VideoITG-40K数据集,包含40K视频和500K指令化时间定位标注。
- 设计的VideoITG模型结合Video-LLM的视觉语言对齐和推理能力,实现有效的帧选择。
点此查看论文截图




Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation
Authors:Sahid Hossain Mustakim, S M Jishanul Islam, Ummay Maria Muna, Montasir Chowdhury, Mohammed Jawwadul Islam, Sadia Ahmmed, Tashfia Sikder, Syed Tasdid Azam Dhrubo, Swakkhar Shatabda
Multimodal Large Language Models (MLLMs) are increasingly used for content moderation, yet their robustness in short-form video contexts remains underexplored. Current safety evaluations often rely on unimodal attacks, failing to address combined attack vulnerabilities. In this paper, we introduce a comprehensive framework for evaluating the tri-modal safety of MLLMs. First, we present the Short-Video Multimodal Adversarial (SVMA) dataset, comprising diverse short-form videos with human-guided synthetic adversarial attacks. Second, we propose ChimeraBreak, a novel tri-modal attack strategy that simultaneously challenges visual, auditory, and semantic reasoning pathways. Extensive experiments on state-of-the-art MLLMs reveal significant vulnerabilities with high Attack Success Rates (ASR). Our findings uncover distinct failure modes, showing model biases toward misclassifying benign or policy-violating content. We assess results using LLM-as-a-judge, demonstrating attack reasoning efficacy. Our dataset and findings provide crucial insights for developing more robust and safe MLLMs.
多模态大型语言模型(MLLMs)越来越多地用于内容审核,但其在短视频上下文中的稳健性仍然被忽视。当前的安全评估通常依赖于单模态攻击,无法应对组合攻击漏洞。在本文中,我们引入了一个全面框架,以评估MLLMs的三模态安全性。首先,我们提出了短视频多模态对抗(SVMA)数据集,其中包含多种带有由人类引导的合成对抗性攻击的短视频。其次,我们提出了一种新型的三模态攻击策略—— ChimeraBreak,可以同时挑战视觉、听觉和语义推理路径。在最新MLLMs上的广泛实验表明存在显著漏洞,攻击成功率(ASR)很高。我们的研究发现了不同的失败模式,显示出模型偏向于误判良性或违反政策的内容。我们使用LLM作为法官进行评估,证明了攻击推理的有效性。我们的数据集和研究结果对于开发更稳健和安全的多模态大型语言模型提供了关键见解。
论文及项目相关链接
PDF Accepted as long paper, SVU Workshop at ICCV 2025
Summary
本文介绍了多模态大型语言模型(MLLMs)在短视频内容审核中的应用及其存在的安全问题。文章提出了一个全面的框架来评估MLLMs的三模态安全性,并介绍了Short-Video Multimodal Adversarial(SVMA)数据集和ChimeraBreak新型三模态攻击策略。实验表明,MLLMs存在显著的安全漏洞,对良性或违规内容的误判表现出模型偏见。
Key Takeaways
- 多模态大型语言模型(MLLMs)在短视频内容审核中的使用越来越普遍,但其稳健性仍待探索。
- 当前的安全评估主要依赖单模态攻击,无法应对组合攻击漏洞。
- 提出了一个评估MLLMs三模态安全性的全面框架。
- 介绍了Short-Video Multimodal Adversarial(SVMA)数据集,包含带有人工合成对抗攻击的短视频。
- 提出了ChimeraBreak新型三模态攻击策略,同时挑战视觉、听觉和语义推理路径。
- 实验表明,MLLMs存在显著的安全漏洞,攻击成功率较高。
点此查看论文截图




VRU-Accident: A Vision-Language Benchmark for Video Question Answering and Dense Captioning for Accident Scene Understanding
Authors:Younggun Kim, Ahmed S. Abdelrahman, Mohamed Abdel-Aty
Ensuring the safety of vulnerable road users (VRUs), such as pedestrians and cyclists, is a critical challenge for autonomous driving systems, as crashes involving VRUs often result in severe or fatal consequences. While multimodal large language models (MLLMs) have shown promise in enhancing scene understanding and decision making in autonomous vehicles, there is currently no standardized benchmark to quantitatively evaluate their reasoning abilities in complex, safety-critical scenarios involving VRUs. To address this gap, we present VRU-Accident, a large-scale vision-language benchmark designed to evaluate MLLMs in high-risk traffic scenarios involving VRUs. VRU-Accident comprises 1K real-world dashcam accident videos, annotated with 6K multiple-choice question-answer pairs across six safety-critical categories (with 24K candidate options and 3.4K unique answer choices), as well as 1K dense scene descriptions. Unlike prior works, our benchmark focuses explicitly on VRU-vehicle accidents, providing rich, fine-grained annotations that capture both spatial-temporal dynamics and causal semantics of accidents. To assess the current landscape of MLLMs, we conduct a comprehensive evaluation of 17 state-of-the-art models on the multiple-choice VQA task and on the dense captioning task. Our findings reveal that while MLLMs perform reasonably well on visually grounded attributes, they face significant challenges in reasoning and describing accident causes, types, and preventability.
确保脆弱道路使用者(如步行者和骑自行车的人)的安全对于自动驾驶系统来说是一个关键挑战,因为涉及脆弱道路使用者的交通事故常常会导致严重或致命的后果。尽管多模态大型语言模型(MLLMs)在增强自动驾驶场景理解和决策制定方面表现出了潜力,但目前还没有一个标准化的基准来定量评估它们在涉及脆弱道路使用者的复杂、安全关键的场景中的推理能力。为了弥补这一空白,我们推出了VRU-Accident,这是一个大规模视觉语言基准测试,旨在评估涉及脆弱道路使用者的高风险交通场景中的MLLMs。VRU-Accident包含1000个真实世界的行车记录仪事故视频,这些视频被标注了6000个选择题答案对,跨越六个安全关键类别(包含24000个候选选项和3400个独特答案),以及1000个密集场景描述。与以前的工作不同,我们的基准测试明确地关注于VRU-车辆事故,提供丰富、精细的标注,捕捉事故的时空动态和因果语义。为了评估当前MLLMs的状况,我们对17个最新模型进行了全面的多选题问答任务和密集描述任务评估。我们的研究发现,虽然MLLMs在视觉基础上的属性表现良好,但在推理和描述事故原因、类型和可预防性方面仍面临重大挑战。
论文及项目相关链接
PDF 22 pages, 11 figures, 5 tables
摘要
针对自主驾驶系统中保障脆弱道路使用者(VRUs)如行人及骑行者的安全问题,本文提出VRU-Accident大型视觉语言基准测试。该测试包含千余真实行车记录事故视频,涵盖六大关键安全类别,包含问答配对及密集场景描述等丰富精细标注。该基准测试专注于评估多模态大型语言模型(MLLMs)在处理涉及VRUs的事故时的性能挑战,评估其描述事故起因、类型及可预防性的能力。分析发现,虽然MLLMs在视觉属性方面的表现较好,但在事故推理和描述方面仍存在挑战。
关键见解
- 自主驾驶系统面临保障脆弱道路使用者的重大挑战。涉及VRUs的事故常导致严重或致命后果。
- 多模态大型语言模型(MLLMs)在增强自主车辆场景理解和决策方面展现潜力。
- 目前缺乏标准化基准测试来评估MLLMs在处理涉及VRUs的复杂、安全关键场景中的推理能力。
- VRU-Accident基准测试包含大量真实事故视频,并配备丰富的标注信息,着重关注涉及VRUs的事故。
- 该基准测试旨在评估MLLMs在处理事故的空间时间动态及因果语义方面的能力。
- 分析发现,虽然MLLMs在视觉属性方面表现良好,但在事故推理和描述方面存在显著挑战。
点此查看论文截图






Infinite Video Understanding
Authors:Dell Zhang, Xiangyu Chen, Jixiang Luo, Mengxi Jia, Changzhi Sun, Ruilong Ren, Jingren Liu, Hao Sun, Xuelong Li
The rapid advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have ushered in remarkable progress in video understanding. However, a fundamental challenge persists: effectively processing and comprehending video content that extends beyond minutes or hours. While recent efforts like Video-XL-2 have demonstrated novel architectural solutions for extreme efficiency, and advancements in positional encoding such as HoPE and VideoRoPE++ aim to improve spatio-temporal understanding over extensive contexts, current state-of-the-art models still encounter significant computational and memory constraints when faced with the sheer volume of visual tokens from lengthy sequences. Furthermore, maintaining temporal coherence, tracking complex events, and preserving fine-grained details over extended periods remain formidable hurdles, despite progress in agentic reasoning systems like Deep Video Discovery. This position paper posits that a logical, albeit ambitious, next frontier for multimedia research is Infinite Video Understanding – the capability for models to continuously process, understand, and reason about video data of arbitrary, potentially never-ending duration. We argue that framing Infinite Video Understanding as a blue-sky research objective provides a vital north star for the multimedia, and the wider AI, research communities, driving innovation in areas such as streaming architectures, persistent memory mechanisms, hierarchical and adaptive representations, event-centric reasoning, and novel evaluation paradigms. Drawing inspiration from recent work on long/ultra-long video understanding and several closely related fields, we outline the core challenges and key research directions towards achieving this transformative capability.
大型语言模型(LLM)及其多模态扩展(MLLM)的快速发展为视频理解带来了显著的进步。然而,一个基本挑战仍然存在:有效处理和理解超过分钟或小时的视频内容。尽管最近的努力,如Video-XL-2,已经展示了极端效率的新型架构解决方案,以及如HoPE和VideoRoPE++等位置编码的进展旨在改进广泛上下文中的时空理解,但当前最先进的模型在面对长时间序列的大量视觉标记时,仍面临重大的计算和内存约束。此外,尽管在诸如Deep Video Discovery等智能推理系统方面取得了进展,但维持时间连贯性、追踪复杂事件以及在延长时期保持精细细节仍然是非常巨大的挑战。这篇立场论文认为,多媒体研究的一个合乎逻辑但雄心勃勃的下一个前沿是无限视频理解——模型连续处理、理解和推理任意潜在无限持续时间的视频数据的能力。我们认为,将无限视频理解作为蓝天研究目标,为多媒体和更广泛的AI研究社区提供了一个重要的北极星,推动流媒体架构、持久性记忆机制、分层和自适应表示、以事件为中心的推理以及新型评估范式等领域的创新。我们从最近关于长/超长视频理解和几个相关领域的作品中汲取灵感,概述了实现这一变革性能力的核心挑战和关键研究方向。
论文及项目相关链接
Summary
随着大型语言模型(LLMs)及其多模态扩展(MLLMs)的快速发展,视频理解领域已经取得了显著的进步。然而,处理和理解超过分钟或小时的视频内容的挑战仍然存在。当前最先进的技术在面临大量视觉标记时仍面临计算能力和内存约束。尽管有深度视频发现等进步,但维持时间连贯性、追踪复杂事件以及在长期内保留精细细节仍是艰巨的挑战。本文提出无限视频理解是多媒体研究的新前沿,并讨论了实现这一变革性能力的核心挑战和关键研究方向。
Key Takeaways
- 大型语言模型(LLMs)和多模态扩展(MLLMs)的快速发展推动了视频理解领域的显著进步。
- 处理和理解超过分钟或小时的视频内容仍存在挑战。
- 当前技术面临计算能力和内存约束,尤其是在处理大量视觉标记时。
- 维持时间连贯性、追踪复杂事件以及在长期内保留精细细节是艰巨的挑战。
- 无限视频理解作为多媒体研究的新前沿,需要解决核心挑战。
- 实现无限视频理解的关键研究方向包括流媒体架构、持久记忆机制、分层和自适应表示、事件导向推理和新型评估范式。
点此查看论文截图


AuroraLong: Bringing RNNs Back to Efficient Open-Ended Video Understanding
Authors:Weili Xu, Enxin Song, Wenhao Chai, Xuexiang Wen, Tian Ye, Gaoang Wang
The challenge of long video understanding lies in its high computational complexity and prohibitive memory cost, since the memory and computation required by transformer-based LLMs scale quadratically with input sequence length. We propose AuroraLong to address this challenge by replacing the LLM component in MLLMs with a linear RNN language model that handles input sequence of arbitrary length with constant-size hidden states. To further increase throughput and efficiency, we combine visual token merge with linear RNN models by reordering the visual tokens by their sizes in ascending order. Despite having only 2B parameters and being trained exclusively on public data, AuroraLong achieves performance comparable to Transformer-based models of similar size trained on private datasets across multiple video benchmarks. This demonstrates the potential of efficient, linear RNNs to democratize long video understanding by lowering its computational entry barrier. To our best knowledge, we are the first to use a linear RNN based LLM backbone in a LLaVA-like model for open-ended video understanding.
长视频理解的挑战在于其较高的计算复杂度和巨大的内存成本,因为基于变压器的LLM所需的内存和计算量随输入序列长度呈二次方增长。为了解决这一挑战,我们提出了AuroraLong方案,用线性RNN语言模型替换MLLM中的LLM组件,该模型能够以恒定大小的隐藏状态处理任意长度的输入序列。为了进一步提高吞吐量和效率,我们通过按视觉令牌大小升序重新排序,将视觉令牌合并与线性RNN模型相结合。尽管AuroraLong只有2B个参数,并且只接受公开数据的训练,但在多个视频基准测试中,其性能与在私有数据集上训练的类似大小的基于转换器的模型相当。这证明了高效的线性RNN有潜力通过降低计算入门门槛来实现长视频理解的普及。据我们所知,我们是第一个在用于开放式视频理解的LLaVA类模型中,使用基于线性RNN的LLM主干。
论文及项目相关链接
PDF ICCV 2025 Camera Ready
摘要
针对长视频理解面临的挑战,如高计算复杂度和高昂的内存成本,我们提出了AuroraLong方案。该方案通过用线性RNN语言模型替换MLLMs中的LLM组件,以处理任意长度的输入序列并保持恒定大小的隐藏状态,从而解决这一问题。为进一步增加吞吐量和效率,我们通过按视觉令牌大小升序重新排序,将视觉令牌合并与线性RNN模型相结合。尽管AuroraLong仅拥有2B参数,且仅在公共数据上进行训练,但在多个视频基准测试中,其性能与类似大小的基于Transformer的模型相当,这些模型是在私有数据集上训练的。这证明了高效的线性RNN在降低长视频理解的计算入门门槛方面具有潜力。据我们所知,我们是首次在LLaVA类模型中,使用基于线性RNN的LLM主干进行开放式视频理解。
关键见解
- 长视频理解面临高计算复杂度和内存成本挑战。
- AuroraLong通过线性RNN语言模型处理任意长度输入序列来解决这一问题,保持恒定大小的隐藏状态。
- 通过重新排序视觉令牌大小,结合了视觉令牌合并与线性RNN模型,提高了吞吐量和效率。
- AuroraLong在公共数据上训练,参数规模仅为2B,性能却与私有数据集上训练的类似大小的基于Transformer的模型相当。
- 实验结果证明了高效线性RNN在长视频理解领域的潜力。
- 这是首次使用基于线性RNN的LLM主干在LLaVA类模型中进行开放式视频理解。
点此查看论文截图





Flash-VStream: Efficient Real-Time Understanding for Long Video Streams
Authors:Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Xiaojie Jin
Benefiting from the advances in large language models and cross-modal alignment, existing multimodal large language models have achieved prominent performance in image and short video understanding. However, the understanding of long videos is still challenging, as their long-context nature results in significant computational and memory overhead. Most existing work treats long videos in the same way as short videos, which is inefficient for real-world applications and hard to generalize to even longer videos. To address these issues, we propose Flash-VStream, an efficient video language model capable of processing extremely long videos and responding to user queries in real time. Particularly, we design a Flash Memory module, containing a low-capacity context memory to aggregate long-context temporal information and model the distribution of information density, and a high-capacity augmentation memory to retrieve detailed spatial information based on this distribution. Compared to existing models, Flash-VStream achieves significant reductions in inference latency. Extensive experiments on long video benchmarks and comprehensive video benchmarks, i.e., EgoSchema, MLVU, LVBench, MVBench and Video-MME, demonstrate the state-of-the-art performance and outstanding efficiency of our method. Code is available at https://github.com/IVGSZ/Flash-VStream.
得益于大型语言模型和跨模态对齐技术的进步,现有的多模态大型语言模型在图像和短视频理解方面取得了显著的性能。然而,对长视频的理解仍然具有挑战性,因为长视频的长上下文特性导致计算和内存开销显著增加。现有的大多数工作都将长视频与短视频以相同的方式处理,这对于实际应用来说效率低下,并且难以推广到更长的视频。为了解决这些问题,我们提出了Flash-VStream,这是一种高效的视频语言模型,能够处理极长的视频并在实时中响应用户查询。特别是,我们设计了一个Flash Memory模块,包含一个低容量的上下文内存,用于聚合长上下文的临时信息并模拟信息密度的分布,以及一个基于这种分布的高容量增强内存,用于检索详细的空间信息。与现有模型相比,Flash-VStream在推理延迟方面实现了显著减少。在Long Video Benchmarks和全面的视频基准测试(即EgoSchema、MLVU、LVBench、MVBench和视频MME)上的大量实验表明,我们的方法具有最先进的性能和出色的效率。代码可通过https://github.com/IVGSZ/Flash-VStream获取。
论文及项目相关链接
PDF Accepted by ICCV 2025
Summary
基于大型语言模型和跨模态对齐技术的进步,现有的多模态大型语言模型在图像和短视频理解方面表现出显著性能。然而,长视频理解仍然存在挑战,因为其长上下文特性导致计算和内存开销较大。大多数现有工作将长视频与短视频一视同仁,这对于实际应用效率低下,难以推广到更长的视频。为解决这些问题,我们提出了Flash-VStream高效视频语言模型,能够处理极长视频并实时响应用户查询。通过设计Flash Memory模块,包含低容量上下文内存以聚集长上下文临时信息并模拟信息密度分布,以及高容量增强内存以基于该分布检索详细的空间信息。与现有模型相比,Flash-VStream实现了推理延迟的显著降低。在长按视频基准测试和综合视频基准测试(如EgoSchema、MLVU、LVBench、MVBench和视频MME)上的广泛实验证明了我们的方法的最新性能和出色效率。相关代码可访问于[网址](中文语境下,可使用中文网址)。
Key Takeaways
- 大型语言模型和跨模态对齐的进步推动了视频理解的发展。
- 长视频理解面临计算与内存开销大的挑战。
- 现有方法处理长视频时效率较低,难以推广至更长视频。
- Flash-VStream模型通过设计Flash Memory模块处理长视频,包含低容量上下文内存和高容量增强内存。
- 低容量上下文内存可聚集长上下文信息并模拟信息密度分布。
- 高容量增强内存基于信息密度分布检索详细空间信息。
- Flash-VStream相比现有模型降低了推理延迟。
点此查看论文截图






Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
Authors:Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery agent to leverage an agentic search strategy over segmented video clips. Different from previous video agents manually designing a rigid workflow, our approach emphasizes the autonomous nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools, formulates appropriate parameters for actions, and iteratively refines its internal reasoning in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates the advantage of the entire system design. Our DVD agent achieves SOTA performance, significantly surpassing prior works by a large margin on the challenging LVBench dataset. Comprehensive ablation studies and in-depth tool analyses are also provided, yielding insights to further advance intelligent agents tailored for long-form video understanding tasks. The code has been released in https://github.com/microsoft/DeepVideoDiscovery.
长视频理解由于巨大的时空复杂性和在如此扩展的上下文下进行问答的困难而面临重大挑战。虽然大型语言模型(LLM)在视频分析能力和长上下文处理方面取得了显著的进步,但在处理信息密集的小时长的视频时,它们仍然表现出局限性。为了克服这些局限性,我们提出了Deep Video Discovery代理,采用基于分割的视频片段的代理搜索策略。不同于以前的手动设计刚性工作流程的视频代理,我们的方法强调代理的自主性。通过在多粒度视频数据库上提供一套以搜索为中心的工具,我们的DVD代理利用LLM的高级推理能力来规划其当前观察状态,战略性地选择工具,为行动制定适当参数,并根据收集的信息迭代地优化其内部推理。我们在多个长视频理解基准测试上对系统进行了全面评估,证明了整个系统设计的优势。我们的DVD代理达到了最先进的性能,在具有挑战性的LVBench数据集上大大超越了以前的工作。还提供了全面的消融研究和深入的工具分析,为针对长视频理解任务进一步改进智能代理提供了见解。代码已发布在https://github.com/microsoft/DeepVideoDiscovery。
论文及项目相关链接
PDF V3 draft. Under review
Summary:针对长视频理解的挑战,提出了一种基于深度视频发现代理的搜索策略。该策略具备自主学习能力,可以在多粒度视频数据库上实现灵活的视频剪辑搜索,显著提升了在复杂长视频中的信息处理能力。该代理在多个长视频理解基准测试中表现优异,特别是在LVBench数据集上取得了显著超越先前工作的性能。代码已发布在微软GitHub上。
Key Takeaways:
- 长视频理解面临巨大的挑战,包括复杂的时空复杂性和长上下文中的问答难度。
- 大型语言模型在长视频处理上仍存在局限,而新提出的Deep Video Discovery代理可以克服这些限制。
- Deep Video Discovery代理使用一种自主的学习策略,能够在多粒度视频数据库上进行灵活的搜索。
- 该代理具备强大的推理能力,能够根据当前观察状态进行规划,选择工具并设置适当的参数。
- 在多个长视频理解基准测试中进行了全面的评估,证明了该系统的优势。特别是在LVBench数据集上的表现显著超越了先前的作品。
- 研究者提供了全面的消融研究和深入的工具分析,为进一步改进适合长视频理解任务的智能代理提供了见解。
点此查看论文截图



Vidi: Large Multimodal Models for Video Understanding and Editing
Authors: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu, Zhenfang Chen
Humans naturally share information with those they are connected to, and video has become one of the dominant mediums for communication and expression on the Internet. To support the creation of high-quality large-scale video content, a modern pipeline requires a comprehensive understanding of both the raw input materials (e.g., the unedited footage captured by cameras) and the editing components (e.g., visual effects). In video editing scenarios, models must process multiple modalities (e.g., vision, audio, text) with strong background knowledge and handle flexible input lengths (e.g., hour-long raw videos), which poses significant challenges for traditional models. In this report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a wide range of video understand editing scenarios. The first release focuses on temporal retrieval, i.e., identifying the time ranges within the input videos corresponding to a given text query, which plays a critical role in intelligent editing. The model is capable of processing hour-long videos with strong temporal understanding capability, e.g., retrieve time ranges for certain queries. To support a comprehensive evaluation in real-world scenarios, we also present the VUE-TR benchmark, which introduces five key advancements. 1) Video duration: significantly longer than videos of existing temporal retrival datasets, 2) Audio support: includes audio-based queries, 3) Query format: diverse query lengths/formats, 4) Annotation quality: ground-truth time ranges are manually annotated. 5) Evaluation metric: a refined IoU metric to support evaluation over multiple time ranges. Remarkably, Vidi significantly outperforms leading proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task, indicating its superiority in video editing scenarios.
人类自然与其所联系的人分享信息,视频已成为互联网上进行交流和表达的主导媒介之一。为了支持高质量大规模视频内容的创作,现代流水线需要全面理解原始输入材料(例如摄像机拍摄未经编辑的素材)和编辑组件(例如视觉效果)。在视频编辑场景中,模型必须处理多种模态(例如视觉、音频、文本)并具备强大的背景知识,同时处理灵活输入长度(例如长达数小时的原视频),这对传统模型提出了重大挑战。在本报告中,我们介绍了Vidi,这是一系列用于广泛视频理解编辑场景的大型多模态模型(LMMs)。首次发布重点关注时间检索,即识别与给定文本查询对应输入视频中的时间段,这在智能编辑中起着关键作用。该模型具有处理长达数小时的视频的强烈时间理解能力,例如检索某些查询的时间范围。为了支持真实场景中的全面评估,我们还推出了VUE-TR基准测试,它引入了五个关键进展。1)视频时长:显著长于现有时间检索数据集的视频;2)音频支持:包含基于音频的查询;3)查询格式:多样的查询长度/格式;4)注释质量:通过手动标注真实的时间范围;5)评估指标:精细的IoU指标以支持多个时间范围的评估。值得注意的是,Vidi在时间上检索任务上显著优于领先的专有模型,如GPT-4o和Gemini,这表明其在视频编辑场景中的优越性。
论文及项目相关链接
摘要
视频在互联网上已成为主导的信息传播媒介之一。为支持高质量的大规模视频内容的创作,对原始素材和编辑组件的综合理解至关重要。在此背景下,报告介绍了Vidi系列大型多模态模型(LMMs),针对广泛的视频理解编辑场景。首款发布的产品侧重于时间检索,即根据文本查询识别输入视频中的时间范围,这在智能编辑中发挥着关键作用。该模型具备处理长达数小时的视频的强大时间理解能力。为支持真实场景下的全面评估,报告还推出了VUE-TR基准测试,包含五大关键进展。报告最后展示了Vidi模型在性能上的优越性,尤其是在时间检索任务上,显著优于GPT-4o和Gemini等主流模型。
关键见解
- 视频在互联网沟通中的重要性日益凸显,成为主导的信息传播媒介之一。
- 现代视频内容创作需要理解原始素材和编辑组件的综合模型。
- Vidi系列大型多模态模型(LMMs)旨在支持广泛的视频理解编辑场景。
- 报告关注的时间检索在智能编辑中发挥着关键作用。
- Vidi模型能够处理长达数小时的视频并具有强大的时间理解能力。
- VUE-TR基准测试包含五大关键进展,用于支持真实场景下的全面评估。
点此查看论文截图





Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
Authors:Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
State-of-the-art transformer-based large multimodal models (LMMs) struggle to handle hour-long video inputs due to the quadratic complexity of the causal self-attention operations, leading to high computational costs during training and inference. Existing token compression-based methods reduce the number of video tokens but often incur information loss and remain inefficient for extremely long sequences. In this paper, we explore an orthogonal direction to build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to encode video tokens with linear complexity. Without any token reduction, VAMBA can encode more than 1024 frames (640$\times$360) on a single GPU, while transformer-based models can only encode 256 frames. On long video input, VAMBA achieves at least 50% reduction in GPU memory usage during training and inference, and nearly doubles the speed per training step compared to transformer-based LMMs. Our experimental results demonstrate that VAMBA improves accuracy by 4.3% on the challenging hour-long video understanding benchmark LVBench over prior efficient video LMMs, and maintains strong performance on a broad spectrum of long and short video understanding tasks.
当前最先进的基于transformer的大型多模态模型(LMMs)在处理长达数小时的视频输入时面临困难,因为因果自注意力操作的二次复杂性导致了训练和推理过程中的计算成本高昂。现有的基于令牌压缩的方法减少了视频令牌的数量,但往往会造成信息丢失,并且对于极长的序列来说仍然效率低下。在本文中,我们探索了一个建立混合Mamba-Transformer模型(VAMBA)的正交方向,该模型采用Mamba-2块以线性复杂度编码视频令牌。在不减少令牌的情况下,VAMBA可以在单个GPU上编码超过1024帧(640×360),而基于transformer的模型只能编码256帧。对于长视频输入,VAMBA在训练和推理期间实现了GPU内存使用至少减少50%,并且与基于transformer的LMM相比,每步训练速度几乎提高一倍。我们的实验结果表明,在具有挑战性的长达一小时的视频理解基准测试LVBench上,VAMBA在之前的效率视频LMM的基础上提高了4.3%的准确率,并且在广泛的长期和短期视频理解任务上保持了强大的性能。
论文及项目相关链接
PDF ICCV 2025 Camera Ready Version. Project Page: https://tiger-ai-lab.github.io/Vamba/
Summary
视频理解领域的大型多模态模型在处理长达一小时的视频输入时面临计算成本高的问题。现有研究尝试通过减少视频令牌数量来降低计算成本,但这样做会导致信息损失,且对于超长序列仍不够高效。本文探索了一种构建混合Mamba-Transformer模型(VAMBA)的新方向,该模型采用具有线性复杂度的Mamba-2块对视频令牌进行编码。无需减少令牌数量,VAMBA能在单个GPU上编码超过1024帧(640×360)的视频,而基于Transformer的模型只能编码256帧。在长视频输入方面,VAMBA在训练和推理期间实现了GPU内存使用至少减少50%,并且与基于Transformer的大型多模态模型相比,训练步骤速度几乎翻倍。实验结果表明,VAMBA在具有挑战性的长达一小时的视频理解基准测试LVBench上的准确率提高了4.3%,并且在广泛的长短视频理解任务上表现强劲。
Key Takeaways
- 大型多模态模型在处理长视频时面临计算成本高的挑战。
- 现有方法通过减少视频令牌数量来降低成本,但会导致信息损失和效率问题。
- VAMBA模型采用Mamba-2块进行视频令牌编码,具有线性复杂度,无需减少令牌数量。
- VAMBA能在单个GPU上处理更多的视频帧。
- VAMBA显著减少了训练和推理期间的GPU内存使用。
- VAMBA的训练步骤速度几乎是现有模型的两倍。
点此查看论文截图





LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents
Authors:Boyu Chen, Zhengrong Yue, Siran Chen, Zikang Wang, Yang Liu, Peng Li, Yali Wang
Existing MLLMs encounter significant challenges in modeling the temporal context within long videos. Currently, mainstream Agent-based methods use external tools to assist a single MLLM in answering long video questions. Despite such tool-based support, a solitary MLLM still offers only a partial understanding of long videos, resulting in limited performance. In order to better address long video tasks, we introduce LVAgent, the first framework enabling multi-round dynamic collaboration of MLLM agents in long video understanding. Our method consists of four key steps: 1) Selection: We pre-select appropriate agents from the model library to form optimal agent teams based on different tasks. 2) Perception: We design an effective retrieval scheme for long videos to improve the coverage of critical temporal segments while maintaining computational efficiency. 3) Action: Agents answer long video questions and exchange reasons. 4) Reflection: We evaluate each agent’s performance in each round of discussion and optimize the agent team for dynamic collaboration. The agents iteratively refine their answers by multi-round dynamical collaboration of MLLM agents. LVAgent is the first agent system method that outperforms all closed-source models (like GPT-4o) and open-source models (like InternVL-2.5 and Qwen2-VL) in the long video understanding tasks. Our LVAgent achieves an accuracy of 80% on four mainstream long video understanding tasks. Notably, LVAgent improves accuracy by 13.3% on LongVideoBench. Code is available at https://github.com/64327069/LVAgent.
现有的MLLM在处理长视频中的时间上下文建模时面临重大挑战。目前主流的基于代理的方法使用外部工具来协助单个MLLM回答长视频问题。尽管有基于工具的支持,单个MLLM仍然只能对长视频有局部理解,导致性能有限。为了更好地处理长视频任务,我们引入了LVAgent,这是第一个使MLLM代理进行多轮动态协作的长视频理解框架。我们的方法分为四个关键步骤:1)选择:我们从模型库中预先选择适当的代理,根据不同的任务形成最优代理团队。2)感知:我们为长视频设计了一种有效的检索方案,以提高关键时间段的覆盖率,同时保持计算效率。3)行动:代理回答长视频问题并交流理由。4)反思:我们评估每个代理在每轮讨论中的表现,优化代理团队进行动态协作。通过MLLM代理的多轮动态协作,代理能够不断地完善其答案。LVAgent是首个在长视频理解任务中优于所有闭源模型(如GPT-4o)和开源模型(如InternVL-2.5和Qwen2-VL)的代理系统方法。我们的LVAgent在四个主流的长视频理解任务上达到了80%的准确率。值得注意的是,LVAgent在LongVideoBench上的准确率提高了13.3%。代码可在https://github.com/64327069/LVAgent获取。
论文及项目相关链接
PDF accepted in ICCV 2025
Summary
本文介绍了在处理长视频理解任务时,现有MLLM面临的挑战。为此,提出了LVAgent框架,通过多轮动态协作的MLLM代理实现长视频理解。LVAgent包括选择、感知、行动和反思四个关键步骤,能有效提高长视频任务的性能。LVAgent在主流长视频理解任务上的准确率达到80%,在LongVideoBench上的准确率提高13.3%。
Key Takeaways
- MLLM在处理长视频理解任务时面临挑战。
- LVAgent框架通过多轮动态协作的MLLM代理解决此问题。
- LVAgent包括选择、感知、行动和反思四个关键步骤。
- LVAgent能有效提高长视频任务的性能。
- LVAgent在主流长视频理解任务上的准确率为80%。
- LVAgent在LongVideoBench上的准确率较其他模型提高13.3%。
点此查看论文截图




