嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-25 更新

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

Authors:Jianxiang He, Meisheng Hong, Jungang Li, Ziyang Chen, Weiyu Guo, Xuming Hu, Hui Xiong

Multimodal large language models (MLLMs) demonstrate exceptional performance in vision-language tasks, yet their processing of long videos is constrained by input context length and high computational costs. Sparse frame sampling thus becomes a necessary preprocessing step, with sampled frame quality directly impacting downstream performance. Existing keyframe search algorithms achieve a balance between efficiency and sampled frame quality but heavily rely on the visual modality alone. This makes them difficult to adapt to text-related tasks and often leads to retrieval results deviating from core semantic content. To address this, we propose the VISUAL-SUBTITLE INTEGRATION (VSI), a multimodal keyframe retrieval framework. It employs a dual-branch collaborative retrieval approach combining Video Search and Subtitle Match to fuse complementary visual and textual information for precise localization. Experiments on LongVideoBench and VideoMME demonstrate that VSI achieves state-of-the-art accuracy in keyframe retrieval while delivering breakthrough performance in text-related tasks and exhibiting strong generalization across other tasks.

多模态大型语言模型(MLLMs)在视觉语言任务中表现出卓越的性能,然而它们在处理长视频时受到输入上下文长度和计算成本高的限制。因此,稀疏帧采样成为必要的预处理步骤,采样帧的质量直接影响下游性能。现有的关键帧搜索算法在效率和采样帧质量之间取得平衡,但过度依赖视觉模式。这使得它们难以适应文本相关任务,并且经常导致检索结果与核心语义内容偏离。为了解决这个问题,我们提出了视觉字幕集成(VSI)多模态关键帧检索框架。它采用双分支协同检索方法,结合视频搜索和字幕匹配,融合互补的视觉和文本信息,实现精确定位。在LongVideoBench和VideoMME上的实验表明,VSI在关键帧检索方面达到了最先进的准确性,同时在文本相关任务上表现出突破性的性能,并在其他任务中表现出强大的泛化能力。

论文及项目相关链接

PDF 9 pages,3 figures

Summary

本文介绍了多模态大型语言模型在处理长视频时的挑战,包括输入上下文长度和计算成本的问题。为解决这些问题,提出了一种新的多模态关键帧检索框架——视觉字幕融合(VSI)。该框架采用双分支协同检索方法,结合视频搜索和字幕匹配,融合视觉和文本信息,实现精确的定位。实验结果表明,VSI在关键帧检索上达到了最先进的准确性,同时在文本相关任务上表现出卓越的性能,并具有较强的任务泛化能力。

Key Takeaways

  1. 多模态大型语言模型在处理长视频时面临输入上下文长度和计算成本的挑战。
  2. 现有关键帧搜索算法在效率和采样帧质量之间取得平衡,但过于依赖视觉模式,难以适应文本相关任务。
  3. 提出的VISUAL-SUBTITLE INTEGRATION(VSI)框架采用双分支协同检索方法,结合视频搜索和字幕匹配。
  4. VSI框架融合视觉和文本信息,实现精确的关键帧检索定位。
  5. 实验结果表明,VSI在关键帧检索上达到最先进的准确性。
  6. VSI在文本相关任务上表现出卓越的性能。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-11-25 Sparse Mixture-of-Experts for Multi-Channel Imaging Are All Channel Interactions Required?
下一篇 
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-11-25 UI-Styler Ultrasound Image Style Transfer with Class-Aware Prompts for Cross-Device Diagnosis Using a Frozen Black-Box Inference Network
  目录