⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-27 更新
Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos
Authors:Yayuan Li, Aadit Jain, Filippos Bellos, Jason J. Corso
We introduce Mistake Attribution (MATT), a task for fine-grained understanding of human mistakes in egocentric video. Unlike prior mistake understanding work, which lacks fine-grained output, MATT concretely attributes mistakes to the input instruction text or the attempt video. MATT determines what part of the instruction is violated (semantic role), when the deviation becomes irreversible (the Point-of-No-Return, PNR), and where the mistake appears in the PNR frame. We develop MisEngine, a data engine that automatically constructs attribution-rich mistake samples from existing datasets and inherits their annotations. Applied to large egocentric corpora, MisEngine yields EPIC-KITCHENS-M and Ego4D-M, two datasets that are up to two orders of magnitude larger than prior mistake datasets. We then present MisFormer, a unified attention-based model for mistake attribution across semantic (what), temporal (when), and spatial (where) dimensions, trained using MisEngine supervision. Experiments on our new datasets and prior benchmarks show that MisFormer outperforms strong video-language, temporal localization, hand-object interaction, and mistake-detection baselines.
我们引入了名为“错误归因”(Mistake Attribution,简称MATT)的任务,该任务旨在精细理解以自我为中心的视频中的人的错误。不同于之前缺乏精细输出的错误理解工作,MATT能够将错误具体归因于输入的指令文本或尝试视频。MATT能够确定哪部分指令被违反(语义角色),何时偏差变得不可逆(无法挽回点PNR),以及错误出现在PNR帧的哪个位置。我们开发了MisEngine数据引擎,它能够自动从现有数据集中构建丰富的错误样本并继承其注释。应用于大规模自我中心语料库,MisEngine产生了EPIC-KITCHENS-M和Ego4D-M两个数据集,这两个数据集的大小比之前的错误数据集大两个数量级。然后我们提出了MisFormer,这是一个统一的基于注意力的模型,能够在语义(是什么)、时间(何时)和空间(何处)维度上进行错误归因,使用MisEngine的监督进行训练。在我们新的数据集和之前的基准测试上的实验表明,MisFormer超越了强大的视频语言、时间定位、手物交互和错误检测基线。
论文及项目相关链接
PDF 11 pages, 4 figures, 6 tables
Summary
本文介绍了针对个人视频中的错误进行精细理解的任务——错误归因(MATT)。与先前缺乏精细输出的错误理解工作不同,MATT能够具体地将错误归因于输入的指令文本或尝试的视频。MATT确定了违反指令的部分(语义角色)、偏差变得不可逆转的时间点(不可逆转点,PNR)以及在PNR帧中出现错误的位置。开发了一个名为MisEngine的数据引擎,它能够自动从现有数据集中构建富含归因的错误样本并继承其注释。应用于大规模的以自我为中心的数据集,生成了EPIC-KITCHENS-M和Ego4D-M两个数据集,这两个数据集比先前的错误数据集大两到三个数量级。然后提出了MisFormer模型,这是一个统一的基于注意力的模型,用于在语义、时间和空间维度上进行错误归因训练,并使用MisEngine监督。在新型数据集和先前基准测试上的实验表明,MisFormer优于强大的视频语言、时间定位、手物交互和错误检测基线模型。
Key Takeaways
- 引入了Mistake Attribution(MATT)任务,旨在精细理解个人视频中的错误。
- MATT能够具体地将错误归因于输入指令文本或尝试视频的不同部分。
- MATT确定了违反指令的语义角色、偏差变得不可逆转的点(PNR),以及错误在PNR帧中的位置。
- 开发了MisEngine数据引擎,可从现有数据集中自动构建富含归因的错误样本。
- MisEngine应用于大规模数据集,生成了EPIC-KITCHENS-M和Ego4D-M两个大型数据集。
- 提出了MisFormer模型,这是一个统一的基于注意力的模型,用于在多个维度上进行错误归因。
点此查看论文截图
CounterVQA: Evaluating and Improving Counterfactual Reasoning in Vision-Language Models for Video Understanding
Authors:Yuefei Chen, Jiang Liu, Xiaodong Lin, Ruixiang Tang
Vision Language Models (VLMs) have recently shown significant advancements in video understanding, especially in feature alignment, event reasoning, and instruction-following tasks. However, their capability for counterfactual reasoning, inferring alternative outcomes under hypothetical conditions, remains underexplored. This capability is essential for robust video understanding, as it requires identifying underlying causal structures and reasoning about unobserved possibilities, rather than merely recognizing observed patterns. To systematically evaluate this capability, we introduce CounterVQA, a video-based benchmark featuring three progressive difficulty levels that assess different aspects of counterfactual reasoning. Through comprehensive evaluation of both state-of-the-art open-source and closed-source models, we uncover a substantial performance gap: while these models achieve reasonable accuracy on simple counterfactual questions, performance degrades significantly on complex multi-hop causal chains. To address these limitations, we develop a post-training method, CFGPT, that enhances a model’s visual counterfactual reasoning ability by distilling its counterfactual reasoning capability from the language modality, yielding consistent improvements across all CounterVQA difficulty levels. Dataset and code will be further released.
视觉语言模型(VLMs)在视频理解方面最近取得了重大进展,特别是在特征对齐、事件推理和指令跟随任务方面。然而,它们在反事实推理方面的能力,即在假设条件下推断替代结果的能力,仍然被探索得不够。这种能力对于鲁棒的视频理解至关重要,因为它需要识别潜在的因果结构并对未观察到的可能性进行推理,而不仅仅是识别观察到的模式。为了系统地评估这种能力,我们引入了CounterVQA,这是一个基于视频的标准基准测试,包含三个逐级增加的难度级别,旨在评估反事实推理的不同方面。通过对最先进的开源和闭源模型的全面评估,我们发现了一个显著的性能差距:虽然这些模型在简单的反事实问题上取得了合理的准确性,但在复杂的多元因果链上,性能会显著下降。为了解决这些局限性,我们开发了一种后训练方法CFGPT,它通过提炼语言模态的反事实推理能力,提高了模型的视觉反事实推理能力,在所有的CounterVQA难度级别上都实现了持续的改进。数据集和代码将陆续发布。
论文及项目相关链接
Summary
本文主要介绍了针对视觉语言模型(VLMs)在视频理解中的反事实推理能力评估的问题。作者提出了CounterVQA基准测试,该测试包含三个难度级别,旨在评估模型在不同方面的反事实推理能力。研究发现,现有的模型在简单反事实问题上的准确性较高,但在复杂的多跳因果链上的性能显著下降。为解决这一问题,作者提出了一种后训练方法CFGPT,该方法通过蒸馏语言模态的模型来提高模型的视觉反事实推理能力,并能在所有CounterVQA难度级别上实现一致的提升。
Key Takeaways
- VLMs在视频理解方面已取得显著进展,但在反事实推理方面仍显不足。
- 反事实推理能力对于鲁棒的视频理解至关重要,要求模型能够识别潜在的因果结构和推理未观察到的可能性。
- CounterVQA基准测试被引入以评估模型的反事实推理能力,包含三个难度级别。
- 现有模型在简单反事实问题上的表现较好,但在复杂多跳因果链上的性能显著下降。
- 提出了一种后训练方法CFGPT,通过蒸馏语言模态的模型来提升模型的视觉反事实推理能力。
- CFGPT方法在所有CounterVQA难度级别上都能实现性能提升。
点此查看论文截图
Vidi2: Large Multimodal Models for Video Understanding and Creation
Authors: Vidi Team, Celong Liu, Chia-Wen Kuo, Chuang Huang, Dawei Du, Fan Chen, Guang Chen, Haoji Zhang, Haojun Zhao, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qihang Fan, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Weiyan Tao, Wen Zhong, Xiaohui Shen, Xin Gu, Zhenfang Chen, Zuhua Lin
Video has emerged as the primary medium for communication and creativity on the Internet, driving strong demand for scalable, high-quality video production. Vidi models continue to evolve toward next-generation video creation and have achieved state-of-the-art performance in multimodal temporal retrieval (TR). In its second release, Vidi2 advances video understanding with fine-grained spatio-temporal grounding (STG) and extends its capability to video question answering (Video QA), enabling comprehensive multimodal reasoning. Given a text query, Vidi2 can identify not only the corresponding timestamps but also the bounding boxes of target objects within the output time ranges. This end-to-end spatio-temporal grounding capability enables potential applications in complex editing scenarios, such as plot or character understanding, automatic multi-view switching, and intelligent, composition-aware reframing and cropping. To enable comprehensive evaluation of STG in practical settings, we introduce a new benchmark, VUE-STG, which offers four key improvements over existing STG datasets: 1) Video duration: spans from roughly 10s to 30 mins, enabling long-context reasoning; 2) Query format: queries are mostly converted into noun phrases while preserving sentence-level expressiveness; 3) Annotation quality: all ground-truth time ranges and bounding boxes are manually annotated with high accuracy; 4) Evaluation metric: a refined vIoU/tIoU/vIoU-Intersection scheme. In addition, we upgrade the previous VUE-TR benchmark to VUE-TR-V2, achieving a more balanced video-length distribution and more user-style queries. Remarkably, the Vidi2 model substantially outperforms leading proprietary systems, such as Gemini 3 Pro (Preview) and GPT-5, on both VUE-TR-V2 and VUE-STG, while achieving competitive results with popular open-source models with similar scale on video QA benchmarks.
视频已成为互联网上沟通和创造的主要媒介,对可扩展、高质量视频制作的需求强劲。Vidi模型不断向下一代视频创作发展,并在多模态时间检索(TR)方面达到了最先进的表现。在第二次发布中,Vidi2通过精细的时空定位(STG)推动了视频理解的发展,并将其能力扩展到了视频问答(Video QA),实现了全面的多模态推理。给定文本查询,Vidi2不仅可以识别对应的时间戳,还可以识别输出时间范围内目标对象的边界框。这种端到端的时空定位能力为复杂的编辑场景(如情节或角色理解、自动多视角切换、智能感知重新构图和裁剪等)提供了潜在的应用可能性。为了在实际环境中全面评估STG,我们引入了一个新的基准测试VUE-STG,相对于现有的STG数据集,它在四个方面进行了改进:1)视频时长:从大约10秒到30分钟不等,实现了长上下文推理;2)查询格式:将查询转换为名词短语的同时保留句子级别的表达力;3)注释质量:所有真实的时间范围和边界框都进行了高精度的人工标注;4)评价指标:细化的vIoU/tIoU/vIoU-Intersection方案。此外,我们将之前的VUE-TR基准测试升级为VUE-TR-V2,实现了更平衡的视频长度分布和更多用户风格的查询。值得注意的是,Vidi2模型在VUE-TR-V2和VUE-STG上显著优于领先的专有系统,如Gemini 3 Pro(预览版)和GPT-5,同时在视频QA基准测试上与规模相似的流行开源模型取得了具有竞争力的结果。
论文及项目相关链接
Summary
视频已成为互联网主要的信息传递和创意展示媒介,推动了对可扩展、高质量视频制作的大规模需求。Vidi模型不断进化至下一代视频创作,在多模态时间检索(TR)方面达到业界领先性能。Vidi2的推出推动了视频理解的精细化,具有精细化的时空定位(STG)能力,并进一步扩展到视频问答(Video QA),实现全面的多模态推理。它能根据文本查询找到对应的时间戳和输出时间范围内的目标对象边界框。这种端到端的时空定位能力为复杂编辑场景(如剧情或角色理解、自动多视角切换等)提供了潜力。为评估实际应用中的STG性能,我们推出了新的基准测试VUE-STG,它在四个关键方面对现有STG数据集进行了改进。同时,我们在VUE-TR基准测试的基础上进行了升级,实现了更均衡的视频长度分布和用户风格查询。值得注意的是,Vidi2模型在VUE-TR-V2和VUE-STG上大幅超越了领先的专有系统,如Gemini 3 Pro(预览版)和GPT-5,同时在视频问答基准测试上与流行的开源模型取得竞争结果。
Key Takeaways
- 视频已成为主要互联网媒介,推动了可扩展高质量视频制作的需求。
- Vidi模型在多模态时间检索方面表现出卓越性能。
- Vidi2具备精细化的时空定位能力,并能进行视频问答。
- Vidi2模型的应用潜力在于复杂编辑场景,如剧情或角色理解、自动多视角切换等。
- 为评估时空定位性能,推出了新的基准测试VUE-STG,对现有数据集进行了多方面的改进。
- Vidi2模型在多项基准测试中超越了领先的专有系统和开源模型。
- 视频理解的进步推动了视频编辑和应用的发展。
点此查看论文截图
VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning
Authors:Boyu Chen, Zikang Wang, Zhengrong Yue, Kainan Yan, Chenyun Yu, Yi Huang, Zijun Liu, Yafei Wen, Xiaoxin Chen, Yang Liu, Peng Li, Yali Wang
By leveraging tool-augmented Multimodal Large Language Models (MLLMs), multi-agent frameworks are driving progress in video understanding. However, most of them adopt static and non-learnable tool invocation mechanisms, which limit the discovery of diverse clues essential for robust perception and reasoning regarding temporally or spatially complex videos. To address this challenge, we propose a novel Multi-agent system for video understanding, namely VideoChat-M1. Instead of using a single or fixed policy, VideoChat-M1 adopts a distinct Collaborative Policy Planning (CPP) paradigm with multiple policy agents, which comprises three key processes. (1) Policy Generation: Each agent generates its unique tool invocation policy tailored to the user’s query; (2) Policy Execution: Each agent sequentially invokes relevant tools to execute its policy and explore the video content; (3) Policy Communication: During the intermediate stages of policy execution, agents interact with one another to update their respective policies. Through this collaborative framework, all agents work in tandem, dynamically refining their preferred policies based on contextual insights from peers to effectively respond to the user’s query. Moreover, we equip our CPP paradigm with a concise Multi-Agent Reinforcement Learning (MARL) method. Consequently, the team of policy agents can be jointly optimized to enhance VideoChat-M1’s performance, guided by both the final answer reward and intermediate collaborative process feedback. Extensive experiments demonstrate that VideoChat-M1 achieves SOTA performance across eight benchmarks spanning four tasks. Notably, on LongVideoBench, our method outperforms the SOTA model Gemini 2.5 pro by 3.6% and GPT-4o by 15.6%.
通过利用工具增强的多模态大型语言模型(MLLMs),多智能体框架正在推动视频理解领域的进步。然而,其中大多数采用静态且不可学习的工具调用机制,这限制了发现对于时间或空间复杂视频进行稳健感知和推理所必需的多种线索。为了解决这一挑战,我们提出了一种用于视频理解的新型多智能体系统,即VideoChat-M1。VideoChat-M1并不采用单一或固定的策略,而是采用独特的协作政策规划(CPP)范式,拥有多个政策智能体,这包括三个关键过程。(1)政策生成:每个智能体根据其用户的查询生成其独特的工具调用政策;(2)政策执行:每个智能体按顺序调用相关工具来执行其政策并探索视频内容;(3)政策通信:在政策执行的中间阶段,智能体彼此之间进行交互以更新其各自的政策。通过这一协作框架,所有智能体协同工作,根据来自同龄人的上下文线索动态调整其首选政策,以有效响应用户的查询。此外,我们的CPP范式配备了简洁的多智能体强化学习(MARL)方法。因此,政策智能体团队可以共同优化,以提高VideoChat-M1的性能,既受最终答案奖励的指导,也受中间协作过程反馈的影响。大量实验表明,VideoChat-M1在四个任务跨八个基准测试中实现了卓越的性能。值得注意的是,在LongVideoBench上,我们的方法优于SOTA模型Gemini 2.5 pro 3.6%,优于GPT-4o 15.6%。
论文及项目相关链接
PDF 21 pages, 9 figures
摘要
借助工具增强的多模态大语言模型(MLLMs),多智能体框架正在推动视频理解的进展。然而,大多数框架采用静态和非可学习的工具调用机制,这限制了发现对复杂视频进行时间或空间感知和推理所必需的多样线索。为解决此挑战,我们提出了一种用于视频理解的新型多智能体系统,即VideoChat-M1。VideoChat-M1采用独特的协同策略规划(CPP)范式,配备多个策略智能体,包含三个关键过程:策略生成、策略执行和策略通信。各智能体根据用户查询生成独特的工具调用策略,按顺序调用相关工具执行策略并探索视频内容,并在执行策略的中间阶段相互交互以更新各自策略。通过此协同框架,所有智能体协同工作,根据来自同龄人的上下文洞察动态优化其首选策略,以有效响应用户查询。此外,我们为CPP范式配备了简洁的多智能体强化学习(MARL)方法,可联合优化策略智能体团队,以提高VideoChat-M1的性能,既受最终答案奖励的指导,也受中间协同过程反馈的影响。广泛实验表明,VideoChat-M1在四项任务的八个基准测试中实现了卓越性能。特别是在LongVideoBench上,我们的方法较SOTA模型Gemini高出2.5%,较GPT-4高出15.6%。
关键见解
- 多模态大语言模型和多智能体框架的融合推动了视频理解的进步。
- 当前多数方法采用静态和非可学习的工具调用机制,限制了复杂视频理解中线索的挖掘。
- VideoChat-M1通过采用协同策略规划(CPP)范式解决此问题,包含策略生成、执行和通信三个关键过程。
- 多智能体强化学习(MARL)方法用于优化智能体团队的性能。
- VideoChat-M1在多个基准测试中实现了卓越性能,特别是相较于现有技术领先模型有显著的提升。
- 这种协同框架能够实现动态策略调整和优化,根据同龄智能体的上下文洞察和用户查询来执行。
点此查看论文截图
Alternating Perception-Reasoning for Hallucination-Resistant Video Understanding
Authors:Bowei Pu, Chuanbin Liu, Yifan Ge, Peicheng Zhou, Yiwei Sun, Zhiying Lu, Jiankang Wang, Hongtao Xie
Sufficient visual perception is the foundation of video reasoning. Nevertheless, existing Video Reasoning LLMs suffer from perception shortcuts, relying on a flawed single-step perception paradigm. This paradigm describes the video and then conducts reasoning, which runs the risk of insufficient evidence and emergent hallucinations. To address these issues, we introduce a new framework that integrates a loop-based paradigm with an anti-hallucination reward. First, to address the insufficient evidence, we introduce the Perception Loop Reasoning (PLR) paradigm. Instead of describing the video at once, each loop requires the model to describe a video segment with precise timestamps, analyze this segment, and decide the next action. Second, for the risk of hallucinations, the Factual-Aware Evaluator (FAE) evaluates each perception result as a reliable anti-hallucination reward. This reward encourages the model to provide sufficient and precise video evidence. Our FAE, which performs comparably to GPT-4o, is tuned on our AnetHallu-117K, a large-scale hallucination judgment preference dataset. Extensive experiments show that our Video-PLR achieves the state-of-the-art in both 3B and 7B parameter scales and has the best data efficiency. Our code, models, and datasets are released on: https://github.com/BoweiPu/VideoPLR.
充分的视觉感知是视频推理的基础。然而,现有的视频推理大型语言模型存在感知捷径的问题,依赖于有缺陷的单步感知模式。这种模式先描述视频,然后进行推理,存在证据不足和出现幻觉的风险。为了解决这些问题,我们引入了一个新框架,该框架结合了循环感知模式和抗幻觉奖励。首先,为了解决证据不足的问题,我们引入了感知循环推理(PLR)模式。这种模式不要求一次性描述视频,而是每个循环都需要模型使用精确的时间戳描述视频片段,分析该片段,并决定下一个动作。其次,为了应对幻觉风险,事实感知评估器(FAE)作为可靠的抗幻觉奖励,评估每一次感知结果。这一奖励鼓励模型提供充足且精确的视频证据。我们的事实感知评估器与GPT-4o表现相当,并在我们的大规模幻觉判断偏好数据集AnetHallu-117K上进行了调整。大量实验表明,我们的视频感知循环推理(Video-PLR)在3B和7B参数规模上均达到了最新水平,并且数据效率最高。我们的代码、模型和数据集已发布在:https://github.com/BoweiPu/VideoPLR。
论文及项目相关链接
PDF 32 pages, 36 figures
Summary
视频感知是视频推理的基础。现有视频推理大型语言模型存在感知捷径问题,依赖于有缺陷的单步感知范式。这种范式描述视频然后进行推理,存在证据不足和出现幻觉的风险。为解决这些问题,我们引入了一个新框架,结合循环感知范式和抗幻觉奖励。首先,为解决证据不足的问题,我们提出感知循环推理(PLR)范式。该范式不要求一次性描述整个视频,而是要求模型按精确时间戳描述视频片段、分析片段并决定下一步行动。其次,为解决幻觉风险,我们采用事实感知评估器(FAE)评估每次感知结果,作为可靠的抗幻觉奖励。奖励鼓励模型提供充足且精确的视频证据。我们的FAE在大型幻觉判断偏好数据集AnetHallu-117K上进行了微调,性能可与GPT-4o相媲美。实验表明,我们的视频PLR在3B和7B参数规模上均达到最新水平,并且数据效率最高。
Key Takeaways
- 视频感知是视频推理的基础。
- 现有视频推理大型语言模型存在感知捷径问题。
- 提出感知循环推理(PLR)范式解决证据不足的问题。
- 采用事实感知评估器(FAE)评估感知结果,减少幻觉风险。
- FAE在大型幻觉判断偏好数据集AnetHallu-117K上进行训练。
- 视频PLR在参数规模和数据效率上均达到最新水平。
点此查看论文截图
LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
Authors:Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini
Intuitive physics understanding in video diffusion models plays an essential role in building general-purpose physically plausible world simulators, yet accurately evaluating such capacity remains a challenging task due to the difficulty in disentangling physics correctness from visual appearance in generation. To the end, we introduce LikePhys, a training-free method that evaluates intuitive physics in video diffusion models by distinguishing physically valid and impossible videos using the denoising objective as an ELBO-based likelihood surrogate on a curated dataset of valid-invalid pairs. By testing on our constructed benchmark of twelve scenarios spanning over four physics domains, we show that our evaluation metric, Plausibility Preference Error (PPE), demonstrates strong alignment with human preference, outperforming state-of-the-art evaluator baselines. We then systematically benchmark intuitive physics understanding in current video diffusion models. Our study further analyses how model design and inference settings affect intuitive physics understanding and highlights domain-specific capacity variations across physical laws. Empirical results show that, despite current models struggling with complex and chaotic dynamics, there is a clear trend of improvement in physics understanding as model capacity and inference settings scale.
在视频扩散模型中,直观物理学理解在构建通用性物理可信的世界模拟器方面扮演着至关重要的角色。然而,准确评估这种能力仍然是一项具有挑战性的任务,因为很难将物理正确性从视觉外观中分离出来。为此,我们引入了LikePhys,这是一种无需训练的方法,通过区分物理上有效和不可能的视频来评估视频扩散模型中的直观物理学。我们使用去噪目标作为基于ELBO(证据下限)的似然性替代物,在一个有效的有效-无效对精选数据集上进行评估。通过在我们构建的涵盖四个物理领域的十二个场景基准测试上进行测试,我们展示了我们的评估指标——可信度偏好误差(PPE)与人类偏好高度一致,优于最新的评估基准。然后,我们对当前的视频扩散模型中的直观物理学理解进行了系统评估。我们的研究进一步分析了模型设计和推理设置如何影响直观物理学理解,并突出了不同物理定律领域的特定能力差异。实证结果表明,尽管当前模型在处理复杂和混沌动力学方面存在困难,但随着模型能力和推理设置的扩展,物理理解呈现出明显的改进趋势。
论文及项目相关链接
PDF 22 pages, 9 figures
摘要
视频扩散模型中直觉物理理解在构建通用物理模拟世界中起着关键作用,但准确评估这种能力仍是一项挑战,因为生成中的物理正确性很难与视觉效果区分开来。为此,我们引入了LikePhys这一无需训练的方法,通过区分物理上有效和不可能的视频来评估视频扩散模型中的直觉物理。我们使用降噪目标作为基于ELBO的似然性替代来在有效与无效的视频对集上进行评估。通过在涵盖四个物理领域的十二种场景构建的基准测试,我们证明了我们的评估指标——可理解性偏好误差(PPE)与人类偏好高度一致,优于现有的评估基线。然后我们对当前视频扩散模型中的直觉物理理解进行了系统评估。我们的研究进一步分析了模型设计和推理设置如何影响直觉物理理解,并强调了不同物理定律下的领域特定能力差异。实验结果表明,尽管当前模型在复杂和混沌动力学方面表现困难,但随着模型容量和推理设置的扩大,对物理知识的理解存在明显的改善趋势。
要点
- 视频扩散模型中直觉物理理解的重要性:在构建通用物理模拟世界时起到关键作用。
- 评价挑战:物理正确性与视觉效果的区分困难。
- LikePhys方法:无需训练,通过区分物理上有效和无效的视频来评估直觉物理。
- 评估指标——可理解性偏好误差(PPE):与人类偏好高度一致,优于现有评估基线。
- 对当前视频扩散模型的直觉物理理解进行系统的评估。
- 模型设计和推理设置对直觉物理理解的影响:分析不同领域的特定能力差异。
点此查看论文截图
Video Understanding with Large Language Models: A Survey
Authors:Yolo Y. Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao Huang, Zeliang Zhang, Pinxin Liu, Mingqian Feng, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo, Chenliang Xu
With the burgeoning growth of online video platforms and the escalating volume of video content, the demand for proficient video understanding tools has intensified markedly. Given the remarkable capabilities of large language models (LLMs) in language and multimodal tasks, this survey provides a detailed overview of recent advancements in video understanding that harness the power of LLMs (Vid-LLMs). The emergent capabilities of Vid-LLMs are surprisingly advanced, particularly their ability for open-ended multi-granularity (general, temporal, and spatiotemporal) reasoning combined with commonsense knowledge, suggesting a promising path for future video understanding. We examine the unique characteristics and capabilities of Vid-LLMs, categorizing the approaches into three main types: Video Analyzer x LLM, Video Embedder x LLM, and (Analyzer + Embedder) x LLM. Furthermore, we identify five sub-types based on the functions of LLMs in Vid-LLMs: LLM as Summarizer, LLM as Manager, LLM as Text Decoder, LLM as Regressor, and LLM as Hidden Layer. Furthermore, this survey presents a comprehensive study of the tasks, datasets, benchmarks, and evaluation methodologies for Vid-LLMs. Additionally, it explores the expansive applications of Vid-LLMs across various domains, highlighting their remarkable scalability and versatility in real-world video understanding challenges. Finally, it summarizes the limitations of existing Vid-LLMs and outlines directions for future research. For more information, readers are recommended to visit the repository at https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding.
随着在线视频平台的蓬勃发展和视频内容的不断增加,对熟练的视频理解工具的需求也显著增强。鉴于大型语言模型(LLM)在语言和多模式任务中的出色能力,这篇综述提供了关于利用LLM(视频LLM)进行视频理解的最新进展的详细介绍。视频LLM的新兴功能令人惊讶地先进,尤其是其结合常识知识进行开放式多粒度(一般、时间和时空)推理的能力,这为未来的视频理解开辟了一条充满希望的道路。我们研究了视频LLM的独特特征和功能,将方法分为三类:视频分析器xLLM、视频嵌入器xLLM和(分析器+嵌入器)xLLM。此外,根据LLM在视频LLM中的功能,我们确定了五个子类型:LLM作为摘要器、LLM作为管理器、LLM作为文本解码器、LLM作为回归器和LLM作为隐藏层。此外,这篇综述对视频LLM的任务、数据集、基准测试和评估方法进行了全面的研究。还探讨了视频LLM在各个领域的应用广泛性,突出了其在现实世界的视频理解挑战中的出色可扩展性和通用性。最后,总结了现有视频LLM的局限性,并指出了未来研究的方向。更多信息请访问https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding仓库查阅。
论文及项目相关链接
PDF Accepted to IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)
Summary
随着在线视频平台的迅猛发展和视频内容的激增,对专业视频理解工具的需求显著增强。鉴于大型语言模型(LLMs)在语言和多媒体任务中的卓越能力,这篇综述提供了关于利用LLMs进行视频理解的最新进展的详细概述。Vid-LLMs的新兴能力令人惊讶,特别是在结合常识知识进行的开放多粒度(一般、时间和时空)推理方面表现出色,为未来的视频理解指明了有希望的道路。
Key Takeaways
- 在线视频平台和视频内容的增长导致了对专业视频理解工具的需求增加。
- 大型语言模型(LLMs)在视频理解方面表现出卓越的能力。
- Vid-LLMs具有开放多粒度的推理能力,并结合了常识知识。
- Vid-LLMs的独特特性和能力可分为三类:Video Analyzer x LLM,Video Embedder x LLM和(Analyzer + Embedder)x LLM。
- LLM在Vid-LLMs中的功能可分为五种亚型:总结者、管理者、文本解码器、回归器和隐藏层。
- 此综述还研究了Vid-LLMs的任务、数据集、基准测试和评估方法。
- Vid-LLMs在各个领域有着广泛的应用,展示了其在现实视频理解挑战中的可扩展性和通用性。