嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-19 更新

CacheFlow: Compressive Streaming Memory for Efficient Long-Form Video Understanding

Authors:Shrenik Patel, Daivik Patel

Long-form video question answering (VQA) overwhelms current vision-language models (VLMs) because attention and key-value (KV) caches grow with runtime, forcing either expensive inference or near-sighted sliding windows. We introduce CacheFlow, a training-free pipeline that pairs Dynamic Token Dropping (DTD) with a compressive long-term memory. DTD prunes per-patch tokens online via cosine similarity to the previous frame, and surviving tokens are packed into fixed-size blocks. This online, per-frame processing makes our approach fundamentally suited for live streaming VQA. As blocks are processed, each one’s keys are summarized by a tiny recurrent encoder to form a retrieval index, while the block’s full KV pairs are offloaded and later rehydrated for generation, preserving answer fidelity. At inference, a consensus-based retrieval mechanism retrieves only the Top-K most relevant blocks and attends over both the retrieved and local context for precise, long-range reasoning. CacheFlow is drop-in, architecture-agnostic, and requires no fine-tuning. Experiments on both offline and streaming VQA benchmarks demonstrate that CacheFlow outperforms current strong baselines, while processing up to 87% less tokens. Our dual approach enables VLMs to be both efficient and context-aware, paving the way for practical long-form video understanding.

长视频问答(VQA)给当前的视觉语言模型(VLM)带来了挑战,因为随着运行时的增长,注意力机制和键值(KV)缓存也随之增长,这迫使模型进行昂贵的推理或使用目光短浅的滑动窗口。我们引入了CacheFlow,这是一种无需训练的管道,它结合了动态令牌丢弃(DTD)和压缩长期内存。DTD通过余弦相似度在线剔除每块令牌的前一帧数据,将剩余令牌打包成固定大小的块。这种在线、逐帧处理方式使我们的方法从根本上适用于流媒体视频问答。在处理块的过程中,每个块的键都被微小的循环编码器总结成检索索引,而块的完整键值对被卸载并在后续重新加载以生成答案,确保答案的准确性。在推理过程中,基于共识的检索机制只检索出最相关的前K个块,并在检索结果和本地上下文上进行精准的长程推理。CacheFlow是随插随用的,与架构无关,不需要微调。在离线以及流媒体视频问答基准测试上的实验表明,CacheFlow超越了当前的优秀基准测试水平,同时处理的令牌减少了高达87%。我们的双重方法使VLM既高效又具备上下文意识,为实际的长视频理解铺平了道路。

论文及项目相关链接

PDF

Summary

本文介绍了针对长视频问答(VQA)的CacheFlow方法,解决了当前视觉语言模型(VLMs)在处理长视频时的困境。该方法结合了动态令牌丢弃(DTD)和压缩长期内存技术,实现在线、按帧处理,适用于实时流媒体VQA。通过压缩编码块并保留关键信息,CacheFlow在推理阶段能够高效检索相关块,同时关注本地和检索到的上下文,实现精确的长程推理。CacheFlow具有通用性,无需微调即可应用于各种架构,并在离线及流媒体VQA测试中表现出超越现有基准的性能。

Key Takeaways

  1. CacheFlow解决了长视频问答中视觉语言模型面临的挑战。
  2. 通过结合动态令牌丢弃(DTD)和压缩长期内存技术,CacheFlow实现了高效的视频处理。
  3. CacheFlow采用在线、按帧处理方式,适用于实时流媒体VQA。
  4. 该方法通过压缩编码块并保留关键信息,提高了检索效率和答案精度。
  5. CacheFlow采用共识检索机制,能够高效检索最相关的块,并关注本地和检索到的上下文,实现精确的长程推理。
  6. CacheFlow具有通用性,可应用于各种架构,无需微调。

Cool Papers

点此查看论文截图

ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding

Authors:Yuan Zhou, Litao Hua, Shilong Jin, Wentao Huang, Haoran Duan

Keyframe selection has become essential for video understanding with vision-language models (VLMs) due to limited input tokens and the temporal sparsity of relevant information across video frames. Video understanding often relies on effective keyframes that are not only informative but also causally decisive. To this end, we propose Reinforced Causal Search with Information Bottleneck (ReaSon), a framework that formulates keyframe selection as an optimization problem with the help of a novel Causal Information Bottleneck (CIB), which explicitly defines keyframes as those satisfying both predictive sufficiency and causal necessity. Specifically, ReaSon employs a learnable policy network to select keyframes from a visually relevant pool of candidate frames to capture predictive sufficiency, and then assesses causal necessity via counterfactual interventions. Finally, a composite reward aligned with the CIB principle is designed to guide the selection policy through reinforcement learning. Extensive experiments on NExT-QA, EgoSchema, and Video-MME demonstrate that ReaSon consistently outperforms existing state-of-the-art methods under limited-frame settings, validating its effectiveness and generalization ability.

在视觉语言模型(VLMs)的视频理解中,关键帧选择变得至关重要,因为存在输入标记有限和视频帧之间相关信息的时序稀疏性。视频理解通常依赖于既具有信息性又具有因果决定性的有效关键帧。为此,我们提出了基于信息瓶颈的强化因果搜索(ReaSon)框架,该框架将关键帧选择公式化为一个优化问题,借助新颖的因果信息瓶颈(CIB),明确地将关键帧定义为满足预测充分性和因果必要性的帧。具体来说,ReaSon使用一个可学习的策略网络从视觉相关的候选帧池中选取关键帧,以捕捉预测充分性,然后通过反事实干预来评估因果必要性。最后,设计了一种与CIB原则一致的复合奖励,通过强化学习引导选择策略。在NExT-QA、EgoSchema和视频MME上的大量实验表明,在有限帧设置下,ReaSon始终优于现有最先进的方法,验证了其有效性和泛化能力。

论文及项目相关链接

PDF Accepted to AAAI 2026. Code is available at: https://github.com/robin-hlt/AAAI26-ReaSon

Summary

视频理解中,关键帧的选择对于视觉语言模型(VLMs)至关重要。面对有限的输入标记和跨视频帧的时空信息稀疏性,有效的关键帧不仅需要包含信息,还需要具有决定性的因果作用。为此,我们提出了基于信息瓶颈的强化因果搜索(ReaSon)框架,它将关键帧选择公式化为一个优化问题,并借助新颖的因果信息瓶颈(CIB)明确地将关键帧定义为同时满足预测充分性和因果必要性的帧。具体来说,ReaSon使用一个可学习的策略网络从视觉相关的候选帧池中选取关键帧,以捕捉预测充分性,然后通过反事实干预评估因果必要性。最后,设计了一个与CIB原则一致的复合奖励来通过强化学习引导选择策略。在NExT-QA、EgoSchema和Video-MME上的广泛实验表明,在有限帧设置下,ReaSon始终优于现有最先进的方法,验证了其有效性和泛化能力。

Key Takeaways

  1. 关键帧选择在视频理解中对于视觉语言模型至关重要。
  2. 有限的输入标记和跨视频帧的时空信息稀疏性是挑战之一。
  3. ReaSon框架通过优化问题处理关键帧选择。
  4. 预测充分性和因果必要性是定义关键帧的两个核心要素。
  5. 策略网络负责从视觉相关候选帧中选择关键帧。
  6. 反事实干预用于评估因果必要性。

Cool Papers

点此查看论文截图

GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory

Authors:Jeong Hun Yeo, Sangyun Chung, Sungjune Park, Dae Hoe Kim, Jinyoung Moon, Yong Man Ro

Long-video understanding remains a significant challenge for Multimodal Large Language Models (MLLMs) due to inherent token limitations and the complexity of capturing long-term temporal dependencies. Existing methods often fail to capture the global context and complex event relationships necessary for deep video reasoning. To address this, we introduce GCAgent, a novel Global-Context-Aware Agent framework that achieves comprehensive long-video understanding. Our core innovation is the Schematic and Narrative Episodic Memory. This memory structurally models events and their causal and temporal relations into a concise, organized context, fundamentally resolving the long-term dependency problem. Operating in a multi-stage Perception-Action-Reflection cycle, our GCAgent utilizes a Memory Manager to retrieve relevant episodic context for robust, context-aware inference. Extensive experiments confirm that GCAgent significantly enhances long-video understanding, achieving up to 23.5% accuracy improvement on the Video-MME Long split over a strong MLLM baseline. Furthermore, our framework establishes state-of-the-art performance among comparable 7B-scale MLLMs, achieving 73.4% accuracy on the Long split and the highest overall average (71.9%) on the Video-MME benchmark, validating our agent-based reasoning paradigm and structured memory for cognitively-inspired long-video understanding.

长视频理解对于多模态大型语言模型(MLLMs)来说仍然是一个巨大的挑战,这主要是由于固有的标记限制以及捕捉长期时间依赖关系的复杂性。现有方法往往无法捕捉到全局上下文和复杂的事件关系,这对于深度视频推理是必要的。为了解决这个问题,我们引入了GCAgent,这是一个全新的全局上下文感知代理框架,实现了全面的长视频理解。我们的核心创新是场景和叙事性情节记忆。这种记忆以结构化的方式建模事件及其因果和时间关系,形成一个简洁、有组织化的上下文,从根本上解决了长期依赖问题。我们的GCAgent在一个多阶段的感知-行动-反思循环中运行,利用内存管理器检索相关的情节上下文,进行稳健的上下文感知推理。大量实验证实,GCAgent显著增强了长视频理解能力,在Video-MME Long split上相较于先进的MLLM基准测试提高了高达23.5%的准确率。此外,我们的框架在可比的7B规模MLLM中建立了最先进的性能,在Long split上达到了73.4%的准确率,并在Video-MME基准测试中获得了最高的总体平均准确率(71.9%),这验证了我们的基于代理的推理范式和结构化记忆对认知启发长视频理解的实用性。

论文及项目相关链接

PDF

Summary

本文介绍了针对多模态大型语言模型(MLLMs)在处理长视频理解时面临的挑战,提出一种全新的全局上下文感知代理框架GCAgent,实现了全面的长视频理解。其核心创新是“图式叙事性情景记忆”,该记忆结构性地模拟事件及其因果和时间关系,以解决长期依赖问题。GCAgent在多阶段感知-行动-反思循环中运行,通过内存管理器检索相关情景上下文进行稳健的上下文感知推理。实验证明,GCAgent在Video-MME长分割上提高了高达23.5%的准确率,在可比的7B规模MLLMs上建立了最先进的性能,验证了基于代理的推理范式和结构记忆对认知启发长视频理解的效用。

Key Takeaways

  1. 长视频理解对于多模态大型语言模型(MLLMs)仍是一个挑战,需要解决内在标记限制和长期时间依赖性问题。
  2. 现有方法往往无法捕捉全局上下文和复杂事件关系,对于深度视频推理至关重要。
  3. GCAgent是一个全新的全局上下文感知代理框架,实现了全面的长视频理解。
  4. GCAgent的核心创新是“图式叙事性情景记忆”,用于解决长期依赖问题并结构性地模拟事件及其关系。
  5. GCAgent运行在多阶段感知-行动-反思循环中,并通过内存管理器检索相关情景上下文进行稳健的上下文感知推理。
  6. 实验结果显示,GCAgent在Video-MME长分割上的准确率提高了高达23.5%,并在类似规模的MLLMs上达到了最先进的性能。

Cool Papers

点此查看论文截图

VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

Authors:Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara

Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning and navigation. To bridge this gap, we present VIR-Bench, a novel benchmark consisting of 200 travel videos that frames itinerary reconstruction as a challenging task designed to evaluate and push forward MLLMs’ geospatial-temporal intelligence. Experimental results reveal that state-of-the-art MLLMs, including proprietary ones, struggle to achieve high scores, underscoring the difficulty of handling videos that span extended spatial and temporal scales. Moreover, we conduct an in-depth case study in which we develop a prototype travel-planning agent that leverages the insights gained from VIR-Bench. The agent’s markedly improved itinerary recommendations verify that our evaluation protocol not only benchmarks models effectively but also translates into concrete performance gains in user-facing applications.

近期多模态大语言模型(MLLMs)的进步极大地增强了视频理解能力,为实际应用开辟了新可能性。然而,当前的视频基准测试主要侧重于室内场景或近距离户外活动,与长途旅行相关的挑战在很大程度上尚未被探索。掌握扩展的地理时空轨迹对于下一代MLLMs至关重要,它为实体AI规划和导航等现实任务提供了支持。为了弥补这一空白,我们推出了VIR-Bench,这是一个由200个旅行视频组成的新基准测试,它将行程重建设定为一个具有挑战性的任务,旨在评估和推动MLLMs的地理时空智能。实验结果表明,包括专有模型在内的最先进MLLMs在取得高分方面存在困难,这表明处理跨越广阔空间和时间的视频非常困难。此外,我们进行了一项深入的案例研究,开发了一个利用VIR-Bench所获得见解的原型旅行规划代理。该代理的行程推荐显著改善,证明我们的评估协议不仅有效地评估了模型,而且还转化为面向用户的应用中的具体性能提升。

论文及项目相关链接

PDF AAAI 2026

Summary

近期多模态大型语言模型(MLLMs)的进步极大地提升了视频理解能力,为实际应用开辟了新的可能性。然而,当前视频基准测试主要集中在室内场景或近距离户外活动,对于远距离旅行相关的挑战仍待探索。掌握扩展的地理时空轨迹对于下一代MLLMs至关重要,这是实现实体AI规划和导航等现实任务的基础。为了缩小这一差距,我们推出了VIR-Bench基准测试,其中包括200个旅行视频,将行程重建设定为一项具有挑战性的任务,旨在评估和推动MLLMs的地理时空智能。实验结果显示,包括专有模型在内的最新MLLMs得分不高,说明处理大范围空间和时间尺度的视频非常困难。此外,我们进行了一项深入的案例研究,开发了一个利用VIR-Bench见解的旅行规划代理原型,其行程推荐显著改善,证明我们的评估协议不仅有效地评估了模型,而且转化为面向用户的应用中的实际性能提升。

Key Takeaways

  1. 多模态大型语言模型(MLLMs)在视频理解方面取得显著进步,但现有基准测试主要集中在室内和近距离活动,缺乏针对远距离旅行的研究。
  2. 掌握扩展的地理时空轨迹对下一代MLLMs至关重要,这是实现实体AI规划和导航等任务的基础。
  3. VIR-Bench基准测试包含200个旅行视频,旨在评估MLLMs处理地理时空智能的能力。
  4. 当前MLLMs在处理大范围空间和时间尺度的视频时表现困难。
  5. 深入案例研究显示,利用VIR-Bench见解开发的旅行规划代理能显著改善行程推荐。
  6. VIR-Bench基准测试不仅有效评估了模型性能,而且提高了面向用户的应用的实际性能。
  7. 多模态语言模型在视频理解方面仍面临挑战,尤其是处理复杂地理时空信息的长期旅行视频。

Cool Papers

点此查看论文截图

ViMoNet: A Multimodal Vision-Language Framework for Human Behavior Understanding from Motion and Video

Authors:Rajan Das Gupta, Md Yeasin Rahat, Nafiz Fahad, Abir Ahmed, Liew Tze Hui

This study investigates how large language models (LLMs) can be used to understand human behavior using motion and video data. We think that mixing both types is essential to completely capture the nuanced movements and meanings of human actions, in contrast to recent models that simply concentrate on motion data or films. To address this, we provide ViMoNet, a straightforward yet effective framework for comprehending, characterizing, and deducing human action. ViMoNet employs a joint training strategy that leverages the advantages of two data types: detailed motion-text data, which is more exact, and generic video-text data, which is more comprehensive but less detailed. This aids in the model’s acquisition of rich data regarding time and space in human behavior. Additionally, we provide a brand new dataset named VIMOS that contains a variety of films, motion sequences, instructions, and subtitles. We developed ViMoNet-Bench, a standardized benchmark with carefully labeled samples, to evaluate how well models understand human behavior. Our tests show that ViMoNet outperforms existing methods in caption generation, motion understanding, and behavior interpretation.

本研究探讨了如何使用大型语言模型(LLM)通过动作和视频数据来理解人类行为。我们认为,混合两种类型的数据对于完全捕捉人类行为的细微动作和含义至关重要,与最近仅专注于动作数据或电影的模型形成对比。为了解决这一问题,我们提供了ViMoNet,这是一个简单有效的框架,用于理解、表征和推断人类行为。ViMoNet采用联合训练策略,利用两种数据类型的优点:详细的动作文本数据更加精确,而通用的视频文本数据更加全面但不够详细。这有助于模型获取有关人类行为的时间和空间的丰富数据。此外,我们提供了一个全新的数据集VIMOS,其中包含各种电影、运动序列、指令和字幕。为了评估模型对人类行为的理解程度,我们开发了ViMoNet-Bench,这是一个带有精心标注样本的标准基准测试。我们的测试表明,在字幕生成、动作理解和行为解释方面,ViMoNet的表现优于现有方法。

论文及项目相关链接

PDF This is the preprint version of the manuscript. It is currently being prepared for submission to an academic conference

Summary

本研究探讨了如何使用大型语言模型(LLM)通过动作和视频数据理解人类行为。研究发现,混合两种类型的数据对于全面捕捉人类动作的细微动作和含义至关重要,与最近仅专注于运动数据或电影的模型形成对比。为此,研究提出了ViMoNet,一个简单有效的框架,用于理解、表征和推断人类行为。ViMoNet采用联合训练策略,利用两种数据类型的优势:详细的运动文本数据更精确,通用的视频文本数据更全面但不太详细。这有助于模型获得有关人类行为时间和空间的丰富数据。此外,研究还推出了全新的VIMOS数据集,包含各种电影、运动序列、指令和字幕。为了评估模型对人类行为的理解程度,研究还开发了标准化的ViMoNet-Bench基准测试,带有精心标记的样本。测试表明,ViMoNet在生成字幕、理解运动和解释行为方面优于现有方法。

Key Takeaways

  1. 大型语言模型(LLM)可用于通过动作和视频数据理解人类行为。
  2. 混合运动文本数据和视频文本数据对于全面理解人类行为至关重要。
  3. ViMoNet是一个简单有效的框架,用于理解、表征和推断人类行为,采用联合训练策略。
  4. ViMoNet在生成字幕、理解运动和解释行为方面优于现有方法。
  5. 推出了全新的VIMOS数据集,包含各种电影、运动序列、指令和字幕,以支持人类行为研究。
  6. 研究还开发了标准化的ViMoNet-Bench基准测试,以评估模型对人类行为的理解程度。

Cool Papers

点此查看论文截图

APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval

Authors:Hong Gao, Yiming Bao, Xuezhen Tu, Bin Zhong, Linan Yue, Minling Zhang

Current multimodal large language models (MLLMs) struggle with hour-level video understanding, facing significant challenges not only in modeling the substantial information volume of long videos but also in overcoming the memory wall and resource constraints during both training and inference. Although recent training-free approaches have alleviated resource demands by compressing visual features, their reliance on incomplete visual information limits the performance potential. To address these limitations, we propose Adaptive Pivot Visual information Retrieval (APVR), a training-free framework that hierarchically retrieves and retains sufficient and important visual information. It breakthroughs the memory wall limitation via two complementary components: Pivot Frame Retrieval employs query expansion and iterative spatio-semantic confidence scoring to identify relevant video frames, and Pivot Token Retrieval performs query-aware attention-driven token selection within up to 1024 pivot frames. This dual granularity approach enables the processing of hour-long videos while maintaining semantic fidelity. Experimental validations on three different baseline MLLMs demonstrate significant performance improvements up to 9.5%, 4.6% and 9.7% on LongVideoBench, VideoMME and MLVU, respectively. APVR achieves state-of-the-art results for both training-free and training-based approaches.

当前的多模态大型语言模型(MLLMs)在小时级别的视频理解上遇到了困难,不仅面临对长视频大量信息的建模挑战,而且在训练和推理过程中都面临着突破内存限制和资源约束的挑战。尽管最近的无训练方法通过压缩视觉特征减轻了资源需求,但它们对不完整视觉信息的依赖限制了性能潜力。为了解决这些局限性,我们提出了自适应枢轴视觉信息检索(APVR),这是一种无训练框架,可以分层检索和保留充足且重要的视觉信息。它通过两个互补的组件突破了内存墙的限制:枢轴帧检索利用查询扩展和迭代的空间语义置信度打分来识别相关的视频帧,而枢轴令牌检索则在上至1 024个枢轴帧内执行查询感知的注意力驱动令牌选择。这种双重粒度的方法能够在保持语义保真度的同时处理长达一小时的视频。在LongVideoBench、VideoMME和MLVU三个不同的基线MLLM上的实验验证表明,APVR的性能分别提高了9.5%、4.6%和9.7%。APVR在无训练和基于训练的方法中都达到了最新的研究结果。

论文及项目相关链接

PDF Accepted by AAAI 2026

Summary

该研究针对当前多模态大型语言模型在处理长达数小时的视频时面临的挑战,提出了一种名为自适应枢轴视觉信息检索(APVR)的训练外框架。该框架能够层次地检索和保留重要且充足的视觉信息,突破内存限制。它通过两个互补组件——枢轴帧检索和枢轴令牌检索来实现这一目标。实验验证表明,该框架在三个不同的基准测试集上均实现了显著的性能提升。

Key Takeaways

  1. 当前多模态大型语言模型在处理长视频时面临挑战,包括处理大量信息和克服内存限制。
  2. 训练外方法可以缓解资源需求,但依赖于不完全的视觉信息限制了性能潜力。
  3. 自适应枢轴视觉信息检索(APVR)是一种训练外框架,可以层次地检索和保留重要的视觉信息。
  4. APVR通过两个互补组件实现:枢轴帧检索和枢轴令牌检索。
  5. 枢轴帧检索采用查询扩展和迭代时空语义置信度评分来识别相关视频帧。
  6. 枢轴令牌检索执行查询感知的注意力驱动令牌选择在最多1024个枢轴帧内。

Cool Papers

点此查看论文截图

OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding

Authors:Dianbing Xi, Jiepeng Wang, Yuanzhi Liang, Xi Qiu, Yuchi Huo, Rui Wang, Chi Zhang, Xuelong Li

In this paper, we propose a novel framework for controllable video diffusion, OmniVDiff , aiming to synthesize and comprehend multiple video visual content in a single diffusion model. To achieve this, OmniVDiff treats all video visual modalities in the color space to learn a joint distribution, while employing an adaptive control strategy that dynamically adjusts the role of each visual modality during the diffusion process, either as a generation modality or a conditioning modality. Our framework supports three key capabilities: (1) Text-conditioned video generation, where all modalities are jointly synthesized from a textual prompt; (2) Video understanding, where structural modalities are predicted from rgb inputs in a coherent manner; and (3) X-conditioned video generation, where video synthesis is guided by finegrained inputs such as depth, canny and segmentation. Extensive experiments demonstrate that OmniVDiff achieves state-of-the-art performance in video generation tasks and competitive results in video understanding. Its flexibility and scalability make it well-suited for downstream applications such as video-to-video translation, modality adaptation for visual tasks, and scene reconstruction.

本文提出了一种新的可控视频扩散框架,名为OmniVDiff,旨在在一个单一的扩散模型中合成和理解多个视频视觉内容。为实现这一目标,OmniVDiff处理彩色空间中的所有视频视觉模式来学习联合分布,同时采用自适应控制策略,在扩散过程中动态调整每种视觉模式的作用,既可以作为生成模式,也可以作为条件模式。我们的框架支持三种关键功能:(1)文本控制视频生成,其中所有模式都从一个文本提示中联合合成;(2)视频理解,其中结构模式以连贯的方式从RGB输入中进行预测;(3)X控制视频生成,其中视频合成由深度、Canny和分段等精细输入引导。大量实验表明,OmniVDiff在视频生成任务上达到了最新技术水平,并在视频理解方面取得了有竞争力的结果。其灵活性和可扩展性使其非常适合下游应用,如视频到视频的翻译、视觉任务的模态适应和场景重建。

论文及项目相关链接

PDF Accepted by AAAI 2026. Our project page: https://tele-ai.github.io/OmniVDiff/

Summary

本文提出了一种新型的可控视频扩散框架OmniVDiff,旨在在一个单一的扩散模型中合成和理解多种视频视觉内容。OmniVDiff处理所有视频视觉模式来学习联合分布,采用自适应控制策略在扩散过程中动态调整各种视觉模式的作用。该框架支持文本引导的视频生成、视频理解和X条件视频生成等三个核心能力。实验表明,OmniVDiff在视频生成任务上达到了最先进的性能,并在视频理解方面取得了有竞争力的结果。其灵活性和可扩展性使其成为视频到视频翻译、视觉任务的模态适应和场景重建等下游应用的理想选择。

Key Takeaways

  1. OmniVDiff是一个新型可控视频扩散框架,可在一个扩散模型中同时合成和理解多种视频视觉内容。
  2. 该框架处理所有视频视觉模式来学习联合分布,实现多模态视频内容的理解和生成。
  3. OmniVDiff采用自适应控制策略,根据需要在扩散过程中动态调整各种视觉模式的作用。
  4. 该框架支持文本引导的视频生成、视频理解和X条件视频生成等核心能力。
  5. 实验表明,OmniVDiff在视频生成任务上表现优秀,并在视频理解方面取得有竞争力的结果。
  6. OmniVDiff具有灵活性和可扩展性,适用于多种下游应用,如视频到视频翻译、视觉任务的模态适应和场景重建等。

Cool Papers

点此查看论文截图

TEMPLE: Incentivizing Temporal Understanding of Video Large Language Models via Progressive Pre-SFT Alignment

Authors:Shicheng Li, Lei Li, Kun Ouyang, Shuhuai Ren, Yuanxin Liu, Yuanxing Zhang, Fuzheng Zhang, Lingpeng Kong, Qi Liu, Xu Sun

Video Large Language Models (Video LLMs) have achieved significant success by adopting the paradigm of large-scale pre-training followed by supervised fine-tuning (SFT). However, existing approaches struggle with temporal reasoning due to weak temporal correspondence in the data and over-reliance on the next-token prediction paradigm}, which collectively result in the absence temporal supervision. To address these limitations, we propose TEMPLE (TEMporal Preference LEarning), a systematic framework that enhances temporal reasoning capabilities through Direct Preference Optimization (DPO). To address temporal information scarcity in data, we introduce an automated pipeline for systematically constructing temporality-intensive preference pairs comprising three steps: selecting temporally rich videos, designing video-specific perturbation strategies, and evaluating model responses on clean and perturbed inputs. Complementing this data pipeline, we provide additional supervision signals via preference learning and propose a novel Progressive Pre-SFT Alignment strategy featuring two key innovations: a curriculum learning strategy which progressively increases perturbation difficulty to maximize data efficiency; and applying preference optimization before instruction tuning to incentivize fundamental temporal alignment. Extensive experiments demonstrate that our approach consistently improves Video LLM performance across multiple benchmarks with a relatively small set of self-generated DPO data. Our findings highlight TEMPLE as a scalable and efficient complement to SFT-based methods, paving the way for developing reliable Video LLMs.

视频大型语言模型(Video LLMs)通过采用大规模预训练后结合监督微调(SFT)的模式取得了巨大成功。然而,现有方法由于数据中的时间对应性较弱以及对下一个令牌预测模式的过度依赖,从而在时间推理方面遇到了困难,这些因素共同导致了时间监督的缺失。为了克服这些局限性,我们提出了TEMPLE(时空偏好学习)系统框架,它通过直接偏好优化(DPO)增强时间推理能力。为解决数据中时间信息匮乏的问题,我们引入了一个自动化管道,用于系统地构建包含三个步骤的时间密集偏好对:选择时间丰富的视频、设计针对视频的扰动策略,并在干净和受干扰的输入上评估模型响应。补充这一数据管道的同时,我们通过偏好学习提供额外的监督信号,并提出一种新型渐进式Pre-SFT对齐策略,其中包括两个关键创新点:一种课程学习策略,逐步增加扰动难度以最大化数据效率;以及在指令调整之前应用偏好优化,以激励基本的时间对齐。大量实验表明,我们的方法在使用自我生成的少量DPO数据的情况下,能够在多个基准测试中持续提高视频LLM的性能。我们的研究结果表明,TEMPLE可以作为基于SFT的方法的可扩展和有效的补充,为开发可靠的视频LLM铺平了道路。

论文及项目相关链接

PDF Accepted to AAAI 2026. Code available at https://github.com/lscpku/TEMPLE

Summary

基于大规模预训练与监督微调(SFT)的视频大语言模型(Video LLMs)取得了显著成功,但在时间推理方面存在局限。为改善这一状况,本文提出TEMPLE框架,通过直接偏好优化(DPO)增强模型的时间推理能力。为应对数据中时间信息的稀缺性,研究团队构建了自动化管道,用于系统地构建时间密集型的偏好对。此外,通过偏好学习提供额外的监督信号,并提出一种新型的渐进式预SFT对齐策略,包含渐进式课程学习策略以及偏好优化前的指令微调。实验证明,该方法在多个基准测试中均提高了Video LLM的性能,且仅使用少量自生成的DPO数据。本研究表明,TEMPLE可作为SFT方法的可靠补充,为开发可靠的视频大语言模型铺平道路。

Key Takeaways

  1. Video LLMs已取得显著成功,但在时间推理方面存在挑战。
  2. TEMPLE框架旨在通过直接偏好优化(DPO)增强模型的时间推理能力。
  3. 为应对数据中的时间信息稀缺问题,研究团队构建了自动化管道来系统地创建时间密集型的偏好对。
  4. 通过偏好学习提供额外监督信号。
  5. 新型渐进式预SFT对齐策略包括渐进式课程学习策略以及早期的偏好优化。
  6. 实验证明,TEMPLE在多个基准测试中提高了Video LLM的性能。

Cool Papers

点此查看论文截图

SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding

Authors:Zhenyu Yang, Yuhang Hu, Zemin Du, Dizhan Xue, Shengsheng Qian, Jiahong Wu, Fan Yang, Weiming Dong, Changsheng Xu

Despite the significant advancements of Large Vision-Language Models (LVLMs) on established benchmarks, there remains a notable gap in suitable evaluation regarding their applicability in the emerging domain of long-context streaming video understanding. Current benchmarks for video understanding typically emphasize isolated single-instance text inputs and fail to evaluate the capacity to sustain temporal reasoning throughout the entire duration of video streams. To address these limitations, we introduce SVBench, a pioneering benchmark with temporal multi-turn question-answering chains specifically designed to thoroughly assess the capabilities of streaming video understanding of current LVLMs. We design a semi-automated annotation pipeline to obtain 49,979 Question-Answer (QA) pairs of 1,353 streaming videos, which includes generating QA chains that represent a series of consecutive multi-turn dialogues over video segments and constructing temporal linkages between successive QA chains. Our experimental results, obtained from 14 models in dialogue and streaming evaluations, reveal that while the closed-source GPT-4o outperforms others, most open-source LVLMs struggle with long-context streaming video understanding. We also construct a StreamingChat model, which significantly outperforms open-source LVLMs on our SVBench and achieves comparable performance on diverse vision-language benchmarks. We expect SVBench to advance the research of streaming video understanding by providing a comprehensive and in-depth analysis of current LVLMs. Our benchmark and model can be accessed at https://github.com/sotayang/SVBench.

尽管大型视觉语言模型(LVLMs)在既定基准测试中取得了显著进展,但在长语境流媒体视频理解等新兴领域,其适用性仍存在明显的评价差距。当前视频理解的基准测试通常侧重于孤立的单一实例文本输入,无法评估在整个视频流过程中维持时间推理的能力。为了解决这些局限性,我们引入了SVBench,这是一个具有时间多轮问答链的开创性基准测试,专门设计用于全面评估当前LVLMs的流媒体视频理解能力。我们设计了一个半自动注释管道,获得了49979个问答对,涉及1353个流媒体视频,包括生成代表视频片段上连续多轮对话的QA链,以及在连续QA链之间构建时间链接。我们的实验结果来自14个模型在对话和流媒体评估中的表现,结果显示,尽管闭源GPT-4o表现优于其他模型,但大多数开源LVLMs在长按上下文流媒体视频理解方面表现困难。我们还构建了一个StreamingChat模型,该模型在我们的SVBench上显著优于开源LVLMs,并在各种视觉语言基准测试中表现相当。我们希望通过SVBench推进流媒体视频理解的研究,为当前LVLMs提供全面深入的分析。我们的基准测试和模型可通过https://github.com/sotayang/SVBench访问。

论文及项目相关链接

PDF ICLR 2025 Accepted (Spotlight)

Summary

本文介绍了一项针对长视频理解领域的大型视觉语言模型(LVLMs)评估的新基准SVBench。该基准通过设计包含连续多轮对话的视频片段问答链,评估LVLMs在流式视频理解方面的能力。实验结果显示,GPT-4o表现最佳,而大多数开源LVLMs在处理长视频理解方面存在困难。同时,提出了StreamingChat模型,该模型在SVBench上的表现优于开源LVLMs并在多种视觉语言基准上实现了良好表现。

Key Takeaways

  1. SVBench是一个针对长视频理解的大型视觉语言模型评估的新基准。
  2. SVBench通过设计包含连续多轮对话的视频片段问答链,强调对视频流全程的推理能力评估。
  3. 当前的大型视觉语言模型在流式视频理解方面存在局限性。
  4. GPT-4o在SVBench上的表现最佳,多数开源模型处理长视频存在困难。
  5. 提出的StreamingChat模型在SVBench上表现优于大多数开源模型。
  6. SVBench期望能推动长视频理解的深入研究。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-11-19 MergeSlide Continual Model Merging and Task-to-Class Prompt-Aligned Inference for Lifelong Learning on Whole Slide Images
下一篇 
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-11-19 Free-Form Scene Editor Enabling Multi-Round Object Manipulation like in a 3D Engine
  目录