⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-05-29 更新
MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding
Authors:Fuwen Luo, Shengfeng Lou, Chi Chen, Ziyue Wang, Chenliang Li, Weizhou Shen, Jiyue Guo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu
Video temporal understanding is crucial for multimodal large language models (MLLMs) to reason over events in videos. Despite recent advances in general video understanding, current MLLMs still struggle with fine-grained temporal reasoning. While reinforcement learning (RL) has been explored to address this issue recently, existing RL approaches remain limited in effectiveness. In this work, we propose MUSEG, a novel RL-based method that enhances temporal understanding by introducing timestamp-aware multi-segment grounding. MUSEG enables MLLMs to align queries with multiple relevant video segments, promoting more comprehensive temporal reasoning. To facilitate effective learning, we design a customized RL training recipe with phased rewards that progressively guides the model toward temporally grounded reasoning. Extensive experiments on temporal grounding and time-sensitive video QA tasks demonstrate that MUSEG significantly outperforms existing methods and generalizes well across diverse temporal understanding scenarios. View our project at https://github.com/THUNLP-MT/MUSEG.
视频时间理解对于多模态大型语言模型(MLLMs)理解视频中的事件至关重要。尽管最近在通用视频理解方面取得了进展,但当前的MLLMs在精细时间推理方面仍然面临困难。虽然强化学习(RL)最近被探索用于解决这个问题,但现有的RL方法的有效性仍然有限。在这项工作中,我们提出了MUSEG,这是一种基于RL的新型方法,通过引入时间戳感知的多段定位,增强了时间理解。MUSEG使MLLMs能够将查询与多个相关视频片段对齐,从而促进更全面的时间推理。为了进行有效的学习,我们设计了一个定制的RL训练配方,带有分阶段奖励,逐步引导模型进行时间基础推理。在时间定位和时间敏感的视频问答任务上的大量实验表明,MUSEG显著优于现有方法,并在各种时间理解场景中具有良好的泛化能力。请在我们的项目网站https://github.com/THUNLP-MT/MUSEG查看我们的项目。
论文及项目相关链接
Summary
视频时序理解对多模态大型语言模型(MLLMs)在视频中的事件推理至关重要。尽管有最近的进展,但当前的MLLMs在精细时序推理方面仍有困难。本文提出MUSEG,一种基于强化学习(RL)的新方法,通过引入时间戳感知的多段落定位,提高时序理解。MUSEG使MLLMs能够将查询与多个相关视频段落对齐,从而促进更全面的时序推理。为进行有效学习,我们设计了一种定制的RL训练配方,分阶段奖励逐步引导模型进行时序推理。大量实验表明,MUSEG在时序定位和时间敏感性视频问答任务上显著优于现有方法,并在各种时序理解场景中具有良好的泛化能力。
Key Takeaways
- 视频时序理解在多模态大型语言模型中非常重要,对于视频中的事件推理很关键。
- 当前的多模态大型语言模型在精细时序推理方面存在困难。
- MUSEG是一种基于强化学习的新方法,旨在提高视频时序理解。
- MUSEG通过引入时间戳感知的多段落定位,促进更全面的时序推理。
- MUSEG能使模型将查询与多个相关的视频段落对齐。
- 定制的RL训练配方和分阶段奖励策略有助于模型有效学习并提升时序推理能力。
点此查看论文截图





