嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-01 更新

Temporal Preference Optimization for Long-Form Video Understanding

Authors:Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy

Despite significant advancements in video large multimodal models (video-LMMs), achieving effective temporal grounding in long-form videos remains a challenge for existing models. To address this limitation, we propose Temporal Preference Optimization (TPO), a novel post-training framework designed to enhance the temporal grounding capabilities of video-LMMs through preference learning. TPO adopts a self-training approach that enables models to differentiate between well-grounded and less accurate temporal responses by leveraging curated preference datasets at two granularities: localized temporal grounding, which focuses on specific video segments, and comprehensive temporal grounding, which captures extended temporal dependencies across entire video sequences. By optimizing on these preference datasets, TPO significantly enhances temporal understanding while reducing reliance on manually annotated data. Extensive experiments on three long-form video understanding benchmarks–LongVideoBench, MLVU, and Video-MME–demonstrate the effectiveness of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO establishes itself as the leading 7B model on the Video-MME benchmark, underscoring the potential of TPO as a scalable and efficient solution for advancing temporal reasoning in long-form video understanding. Project page: https://ruili33.github.io/tpo_website.

尽管视频大型多模态模型(video-LMMs)取得了显著进展,但在长视频中实现有效的时序定位仍然是现有模型的挑战。为了解决这一限制,我们提出了时序偏好优化(TPO),这是一种新型的后训练框架,旨在通过偏好学习提高视频-LMMs的时序定位能力。TPO采用自我训练的方法,使模型能够在两个粒度上利用精选的偏好数据集来区分良好的时序响应和较不准确的时序响应:局部时序定位,侧重于特定视频片段;全面时序定位,捕捉整个视频序列中的扩展时序依赖关系。通过这些偏好数据集进行优化,TPO在提高时序理解的同时,减少了对手动注释数据的依赖。在LongVideoBench、MLVU和Video-MME三个长视频理解基准测试上的大量实验证明,TPO在两种最先进的视频-LMMs中都有效。值得注意的是,LLaVA-Video-TPO在Video-MME基准测试中成为领先的7B模型,凸显了TPO作为推进长视频理解中时序推理的可扩展和高效解决方案的潜力。项目页面:https://ruili33.github.io/tpo_website。

论文及项目相关链接

PDF

Summary
视频大型多模态模型(video-LMMs)在长视频中的时序定位仍然是一个挑战。为解决这个问题,我们提出了时序偏好优化(TPO)这一新型后训练框架,旨在通过偏好学习来提升video-LMMs的时序定位能力。TPO采用自我训练的方式,让模型能够在精细化的偏好数据集中区分精准和不太精准的时序响应。该框架涵盖了局部时序定位(关注特定视频片段)和全面时序定位(捕捉整个视频序列中的时序依赖关系)两种粒度。通过对这些偏好数据集的优化,TPO提高了时序理解能力,同时降低了对人工标注数据的依赖。在三个长视频理解基准测试上的实验证明,TPO在两种最先进的video-LMMs中都有效。特别是LLaVA-Video-TPO在Video-MME基准测试中成为领先的7B模型,突显了TPO在推进长视频理解中的时序推理方面的潜力和效率。

Key Takeaways

  1. 尽管视频大型多模态模型(video-LMMs)有所发展,但在长视频中的时序定位仍然是一个挑战。
  2. 提出了Temporal Preference Optimization (TPO)框架,旨在增强video-LMMs的时序定位能力。
  3. TPO采用自我训练的方式,利用偏好数据集来区分精准和不太精准的时序响应。
  4. TPO涵盖局部和全面的时序定位两种粒度,以更全面地捕捉视频中的时序信息。
  5. TPO提高了模型的时序理解能力,同时降低了对人工标注数据的依赖。
  6. 在多个长视频理解基准测试上,TPO显著提升了视频模型的表现。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-02-01 Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models
下一篇 
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-02-01 Waveform-Specific Performance of Deep Learning-Based Super-Resolution for Ultrasound Contrast Imaging
  目录