⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-19 更新
Dense Video Understanding with Gated Residual Tokenization
Authors:Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu
High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing content, it fails for tasks like lecture comprehension, where information appears in nearly every frame and requires precise temporal alignment. To address this gap, we introduce Dense Video Understanding (DVU), which enables high-FPS video comprehension by reducing both tokenization time and token overhead. Existing benchmarks are also limited, as their QA pairs focus on coarse content changes. We therefore propose DIVE (Dense Information Video Evaluation), the first benchmark designed for dense temporal reasoning. To make DVU practical, we present Gated Residual Tokenization (GRT), a two-stage framework: (1) Motion-Compensated Inter-Gated Tokenization uses pixel-level motion estimation to skip static regions during tokenization, achieving sub-linear growth in token count and compute. (2) Semantic-Scene Intra-Tokenization Merging fuses tokens across static regions within a scene, further reducing redundancy while preserving dynamic semantics. Experiments on DIVE show that GRT outperforms larger VLLM baselines and scales positively with FPS. These results highlight the importance of dense temporal information and demonstrate that GRT enables efficient, scalable high-FPS video understanding.
在视频理解中,高时间分辨率对于捕捉精细的细节至关重要。然而,当前的大多数视频大型语言模型(VLLM)和基准测试主要依赖于低帧率采样,例如均匀采样或关键帧选择,这导致了大量密集的时间信息的丢失。这种折衷是为了避免对每一帧进行令牌化的高昂成本,后者会导致冗余的计算以及随着视频长度的增加呈线性增长的令牌数量。这种折衷策略适用于内容缓慢变化的情况,但对于讲座理解等任务则行不通,因为这些任务的信息几乎出现在每一帧中,需要精确的时间对齐。为了弥补这一空白,我们引入了密集视频理解(DVU),通过减少令牌化时间和令牌开销来实现高帧率视频理解。现有的基准测试也有局限性,它们的问答对侧重于粗略的内容变化。因此,我们提出了DIVE(密集信息视频评估),这是为密集时间推理设计的第一个基准测试。为了使DVU实用,我们提出了门控残差令牌化(GRT)的两阶段框架:(1)运动补偿的跨门令牌化使用像素级运动估计在令牌化过程中跳过静态区域,实现令牌计数和计算的次线性增长。(2)场景内的语义令牌合并融合了场景内静态区域内的令牌,进一步减少了冗余,同时保留了动态语义。在DIVE上的实验表明,GRT优于较大的VLLM基准测试,并且随着帧率的提高而积极扩展。这些结果强调了密集时间信息的重要性,并证明GRT能够实现高效、可扩展的高帧率视频理解。
论文及项目相关链接
摘要
高时间分辨率对于视频理解中捕捉精细粒度细节至关重要。然而,当前视频大型语言模型(VLLMs)和基准测试主要依赖于低帧率采样,如均匀采样或关键帧选择,从而丢弃了密集的时间信息。这种权衡避免了每帧标记带来的高昂成本,但随着视频长度的增加,它导致了冗余计算和令牌线性增长。虽然这种权衡适用于缓慢变化的内容,但对于讲座理解等任务却行不通,在这些任务中,信息几乎出现在每一帧中,需要精确的时间对齐。为解决这一差距,我们引入了密集视频理解(DVU),通过减少标记化时间和令牌开销,实现了高帧率视频理解。现有的基准测试也有局限性,它们的问答对侧重于粗略的内容变化。因此,我们提出了DIVE(密集信息视频评估),这是第一个用于密集时间推理的基准测试。为了实用化DVU,我们提出了门控残差令牌化(GRT),这是一个两阶段框架:(1)运动补偿门控令牌化使用像素级运动估计在令牌化过程中跳过静态区域,实现令牌计数和计算的次线性增长。(2)语义场景内令牌化合并合并场景内静态区域内的令牌,进一步减少冗余,同时保留动态语义。在DIVE上的实验表明,GRT优于较大的VLLM基准测试,并且随着帧率的提高而积极扩展。这些结果强调了密集时间信息的重要性,并证明GRT能够实现高效、可扩展的高帧率视频理解。
关键见解
- 高时间分辨率对于捕获视频中的精细粒度细节至关重要。
- 当前VLLMs和基准测试主要依赖低帧率采样,这可能导致丢失密集的时间信息。
- 现有基准测试(如DIVE)专注于密集时间推理,挑战了传统的视频理解方法。
- 引入的Dense Video Understanding(DVU)方法通过减少标记时间和令牌开销,实现了高帧率视频理解。
- Gated Residual Tokenization(GRT)是一个两阶段框架,旨在实现高效的视频理解,通过运动补偿和语义场景内令牌化合并来减少冗余信息。
- GRT在DIVE上的表现优于大型VLLM基准测试,证明了其在高帧率视频理解中的有效性。
点此查看论文截图



