嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-25 更新

SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding

Authors:Yuan Sheng, Yanbin Hao, Chenxu Li, Shuo Wang, Xiangnan He

Long video understanding remains challenging due to its complex, diverse, and temporally scattered content. Although video large language models (Video-LLMs) can process videos lasting tens of minutes, applying them to truly long sequences is computationally prohibitive and often leads to unfocused or inconsistent reasoning. A promising solution is to select only the most informative frames, yet existing approaches typically ignore temporal dependencies or rely on unimodal evidence, limiting their ability to provide complete and query-relevant context. We propose a Semantic-Visual Consensus Evidence Selection (SeViCES) framework for effective and reliable long video understanding. SeViCES is training-free and model-agnostic, and introduces two key components. The Semantic-Visual Consensus Frame Selection (SVCFS) module selects frames through (1) a temporal-aware semantic branch that leverages LLM reasoning over captions, and (2) a cluster-guided visual branch that aligns embeddings with semantic scores via mutual information. The Answer Consensus Refinement (ACR) module further resolves inconsistencies between semantic- and visual-based predictions by fusing evidence and constraining the answer space. Extensive experiments on long video understanding benchmarks show that SeViCES consistently outperforms state-of-the-art methods in both accuracy and robustness, demonstrating the importance of consensus-driven evidence selection for Video-LLMs.

长视频理解由于其内容的复杂、多样和时序分散性仍然具有挑战性。尽管视频大型语言模型(Video-LLMs)可以处理长达数十分钟的视频,但将其应用于真正的长序列在计算上是禁止的,并且通常会导致推理不专注或不一致。一种有前景的解决方案是只选择最具信息量的帧,但现有方法通常忽略时间依赖性或依赖于单模态证据,这限制了它们提供完整和与查询相关的上下文的能力。我们提出了一个用于有效和可靠的长视频理解的语义视觉共识证据选择(SeViCES)框架。SeViCES是免培训的,模型无偏好,并引入了两个关键组件。语义视觉共识帧选择(SVCFS)模块通过(1)一个基于时间感知的语义分支,利用LLM对字幕进行推理;(2)一个受聚类引导的视觉分支,通过相互信息将嵌入与语义分数对齐,来选择帧。答案共识细化(ACR)模块进一步解决了语义和视觉预测之间的不一致性,通过融合证据并约束答案空间来解决这一问题。在长按视频理解基准测试上的大量实验表明,SeViCES在准确性和稳健性方面始终优于最新方法,证明了共识驱动的证据选择在Video-LLM中的重要性。

论文及项目相关链接

PDF

Summary

本文提出一种针对有效可靠的长视频理解的语义视觉共识证据选择(SeViCES)框架。框架包括语义视觉共识帧选择(SVCFS)和答案共识细化(ACR)两个关键组件。SVCFS通过利用LLM对字幕进行推理的语义分支和通过聚类引导的视觉分支选择帧,而ACR解决了语义和视觉预测之间不一致的问题。实验表明,SeViCES在长短视频理解基准测试中表现优异。

Key Takeaways

  • 长视频理解面临复杂、多样和时序分散内容的挑战。
  • 视频大型语言模型(Video-LLMs)在处理几十分钟的长视频时存在计算量大和不一致推理的问题。
  • 现有方法忽略时序依赖性或依赖单模态证据,限制了其提供完整和查询相关上下文的能力。
  • SeViCES框架包括SVCFS和ACR两个关键组件,用于有效和可靠的长视频理解。
  • SVCFS模块通过语义分支和视觉分支选择帧,实现语义视觉共识。
  • ACR模块解决了语义和视觉预测之间不一致的问题,通过融合证据并约束答案空间进行细化。

Cool Papers

点此查看论文截图

Think With Videos For Agentic Long-Video Understanding

Authors:Huaying Yuan, Zheng Liu, Junjie Zhou, Hongjin Qian, Yan Shu, Nicu Sebe, Ji-Rong Wen, Zhicheng Dou

Long-video understanding~(LVU) is a challenging problem in computer vision. Existing methods either downsample frames for single-pass reasoning, sacrificing fine-grained details, or depend on textual reasoning over task-agnostic representations, hindering task-specific perception and exploration. In this paper, we propose VideoExplorer, a framework grounded in the principle of ``thinking with video’’, which naturally intertwines planning, temporal grounding, and scalable perception into a coherent reasoning process. Rather than reasoning over a static context, VideoExplorer iteratively formulates sub-questions, locates relevant moments, and performs task-oriented, temporally scalable video understanding until reaching the final answer, enabling faithful, efficient, and interpretable reasoning. To address the lack of LVU training resources, we construct a long-video reasoning dataset using difficulty-adaptive sampling to ensure high-quality trajectories on complex tasks. Building on this dataset, we design a two-stage training pipeline: supervised trajectory initialization followed by trajectory-level preference optimization, encouraging adaptive temporal grounding and iterative information integration guided by downstream rewards. Extensive evaluations on popular long-video understanding and reasoning benchmarks demonstrate VideoExplorer’s significant advantage over existing baselines, highlighting its robustness, adaptability, and efficiency. Our code is made publicly available in this repository(https://github.com/yhy-2000/VideoDeepResearch).

长视频理解(LVU)是计算机视觉领域的一个难题。现有方法要么对帧进行降采样以进行单次推理,牺牲了细微的细节,要么依赖于任务无关表示上的文本推理,阻碍了针对特定任务的感知和探索。在本文中,我们提出了VideoExplorer框架,该框架基于“用视频思考”的原则,将规划、时间定位和可扩展感知自然地结合到一个连贯的推理过程中。VideoExplorer不是对静态上下文进行推理,而是迭代地制定子问题,定位相关时刻,并执行面向任务的、可扩展的视频理解,直到达到最终答案,从而实现忠实、高效和可解释的推理。为了解决LVU训练资源的缺乏,我们使用难度自适应采样构建了一个长视频推理数据集,以确保在复杂任务上的高质量轨迹。基于该数据集,我们设计了一个两阶段训练管道:监督轨迹初始化,然后是轨迹级别的偏好优化,鼓励自适应时间定位以及由下游奖励引导的迭代信息集成。在流行的长视频理解和推理基准测试上的广泛评估表明,VideoExplorer相对于现有基准测试具有显著优势,突显了其稳健性、适应性和效率。我们的代码已在此仓库中公开提供(https://github.comcom/yhy-2000/VideoDeepResearch)。

论文及项目相关链接

PDF

Summary
视频理解(LVU)是计算机视觉中的一项挑战性问题。现有方法要么降低帧分辨率以进行单次推理,牺牲了细节,要么依赖于任务无关的文本推理表示,阻碍了特定任务的感知和探索。本文提出VideoExplorer框架,以“用视频思考”的原则为基础,自然地将规划、时间定位和可扩展感知融入一个连贯的推理过程中。VideoExplorer通过迭代地提出子问题、定位相关时刻,并执行面向任务的、时间可扩展的视频理解,直至得出最终答案,从而实现忠实、高效和可解释的推理。为解决LVU训练资源匮乏的问题,我们利用难度自适应采样构建了一个长视频推理数据集,确保在复杂任务上的高质量轨迹。在此基础上,我们设计了一个两阶段训练管道:监督轨迹初始化,随后进行轨迹级别的偏好优化,鼓励自适应时间定位以及迭代信息整合,由下游奖励引导。在流行的大规模视频理解和推理基准测试上的广泛评估表明,VideoExplorer相较于现有基线有显著优势,体现了其稳健性、适应性和效率。我们的代码已公开在GitHub仓库中。

Key Takeaways

  1. LVU是计算机视觉中的挑战性问题,现有方法存在细节损失或任务特定感知和探索的障碍。
  2. VideoExplorer框架基于“用视频思考”原则,结合规划、时间定位和可扩展感知进行推理。
  3. VideoExplorer通过迭代子问题、相关时刻定位和任务导向的视频理解达到最终答案。
  4. 为解决LVU训练资源问题,构建了长视频推理数据集,采用难度自适应采样。
  5. 提出了两阶段训练管道:监督轨迹初始化和轨迹级别偏好优化。
  6. 偏好优化鼓励自适应时间定位以及迭代信息整合,由下游奖励引导。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-10-25 ACS-SegNet An Attention-Based CNN-SegFormer Segmentation Network for Tissue Segmentation in Histopathology
下一篇 
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-10-25 Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge
  目录