发布日期: 2025-09-20

更新日期: 2025-11-27

文章字数: 1.5k

阅读时长: 5 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-09-20 更新

Dense Video Understanding with Gated Residual Tokenization

Authors:Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu

High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing content, it fails for tasks like lecture comprehension, where information appears in nearly every frame and requires precise temporal alignment. To address this gap, we introduce Dense Video Understanding (DVU), which enables high-FPS video comprehension by reducing both tokenization time and token overhead. Existing benchmarks are also limited, as their QA pairs focus on coarse content changes. We therefore propose DIVE (Dense Information Video Evaluation), the first benchmark designed for dense temporal reasoning. To make DVU practical, we present Gated Residual Tokenization (GRT), a two-stage framework: (1) Motion-Compensated Inter-Gated Tokenization uses pixel-level motion estimation to skip static regions during tokenization, achieving sub-linear growth in token count and compute. (2) Semantic-Scene Intra-Tokenization Merging fuses tokens across static regions within a scene, further reducing redundancy while preserving dynamic semantics. Experiments on DIVE show that GRT outperforms larger VLLM baselines and scales positively with FPS. These results highlight the importance of dense temporal information and demonstrate that GRT enables efficient, scalable high-FPS video understanding.

在视频理解中，高时间分辨率对于捕捉精细的细节至关重要。然而，当前大多数的视频大型语言模型（VLLM）和基准测试都依赖于低帧率采样，如均匀采样或关键帧选择，从而丢弃了密集的时间信息。这种权衡避免了每一帧进行令牌化的高昂成本，否则会导致随着视频长度的增加，计算冗余和令牌线性增长。虽然这种权衡对于缓慢变化的内容有效，但对于诸如讲座理解之类的任务却行不通，在这些任务中，信息几乎出现在每一帧中，需要精确的时间对齐。为了解决这一差距，我们引入了密集视频理解（DVU），它通过减少令牌化时间和令牌开销，实现了高帧率视频理解。现有的基准测试也有局限性，它们的问答对侧重于粗略的内容变化。因此，我们提出了DIVE（密集信息视频评估），这是针对密集时间推理而设计的第一个基准测试。为了使DVU实用，我们提出了门控残差令牌化（GRT），这是一个两阶段框架：（1）运动补偿门控令牌化使用像素级运动估计在令牌化过程中跳过静态区域，实现令牌计数和计算的次线性增长。（2）语义场景内令牌化合并合并场景内静态区域内的令牌，进一步减少冗余，同时保留动态语义。在DIVE上的实验表明，GRT优于较大的VLLM基准测试，并随着FPS的增长而积极发展。这些结果强调了密集时间信息的重要性，并证明GRT能够实现高效、可扩展的高帧率视频理解。

论文及项目相关链接

PDF

摘要

在视频理解中，高时间分辨率对于捕捉精细的粒度细节至关重要。然而，现有的视频大型语言模型（VLLMs）和基准测试主要依赖于低帧率采样，如均匀采样或关键帧选择，从而丢弃了密集的时间信息。这种权衡避免了每帧令牌化的高昂成本，但随着视频长度的增加，避免了冗余计算和令牌线性增长。尽管这种平衡对于缓慢变化的内容有效，但对于讲座理解等任务却失败了，在这些任务中，信息几乎出现在每一帧中，需要精确的时间对齐。为解决这一差距，我们引入了密集视频理解（DVU），通过减少令牌化时间和令牌开销，实现了高帧率视频理解。此外，现有的基准测试也有限，其问答对侧重于粗略的内容变化。因此，我们提出了密集信息视频评估（DIVE），这是为密集时间推理设计的第一个基准测试。为了使DVU实用，我们提出了门控残差令牌化（GRT），这是一个两阶段框架：（1）运动补偿门控令牌化使用像素级运动估计在令牌化过程中跳过静态区域，实现令牌计数和计算的次线性增长。（2）语义场景内令牌化合并合并场景内静态区域的令牌，进一步减少冗余，同时保留动态语义。在DIVE上的实验表明，GRT优于较大的VLLM基准测试，并且随着帧率（FPS）的提高而积极发展。这些结果强调了密集时间信息的重要性，并证明GRT能够实现高效、可扩展的高帧率视频理解。

关键见解