嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-22 更新

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

Authors:Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu

The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI’s ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses six core competencies that focus on perceptivity and interactivity, encompassing 987 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.

近年来,多模态大型语言模型(MLLMs)的发展显著提高了AI对视觉模式的理解能力。然而,现有的评估基准测试仍然局限于单轮问答,忽视了现实世界场景中多轮对话的复杂性。为了弥补这一差距,我们引入了MT-Video-Bench,这是一个全面的视频理解基准测试,用于评估多轮对话中的MLLMs。具体来说,我们的MT-Video-Bench主要评估六个以感知和交互为重点的核心能力,包括987个精心挑选的来自不同领域的多轮对话。这些能力严格与现实生活应用对齐,如交互式体育分析和基于多轮对话的智能辅导。通过MT-Video-Bench,我们对各种最先进的开源和闭源MLLMs进行了广泛评估,揭示了它们在处理多轮视频对话方面的性能差异和局限性。该基准测试将公开可用,以促进未来的研究。

论文及项目相关链接

PDF Project Website: https://github.com/NJU-LINK/MT-Video-Bench

Summary

多媒体大型语言模型(MLLMs)的发展增强了AI对视觉模态的理解能力。然而,现有的评估基准测试仍然局限于单轮问答,忽略了真实场景中多轮对话的复杂性。为了弥补这一差距,我们推出了MT-Video-Bench,这是一个全面的视频理解基准测试,用于评估MLLMs在多轮对话中的表现。它主要评估六个核心技能,包括感知力和互动性,涵盖来自不同领域的精心挑选的987个多轮对话。该基准测试与实际应用紧密相关,如交互式体育分析和基于多轮视频智能辅导等。通过对各种先进的开源和闭源MLLMs进行广泛评估,揭示了它们在处理多轮视频对话方面的性能差异和局限性。该基准测试将公开发布以促进未来研究。

Key Takeaways

  1. 多模态大型语言模型(MLLMs)的发展增强了AI对视觉模态的理解。
  2. 现有评估基准测试主要关注单轮问答,忽略了多轮对话的复杂性。
  3. 引入MT-Video-Bench基准测试,用于评估MLLMs在多轮对话中的表现。
  4. MT-Video-Bench主要评估感知力和互动性六个核心技能。
  5. 基准测试涵盖来自不同领域的987个多轮对话实例。
  6. MT-Video-Bench与实际应用紧密相关,如交互式体育分析和智能辅导。

Cool Papers

点此查看论文截图

LongInsightBench: A Comprehensive Benchmark for Evaluating Omni-Modal Models on Human-Centric Long-Video Understanding

Authors:ZhaoYang Han, Qihan Lin, Hao Liang, Bowen Chen, Zhou Liu, Wentao Zhang

We introduce \textbf{LongInsightBench}, the first benchmark designed to assess models’ ability to understand long videos, with a focus on human language, viewpoints, actions, and other contextual elements, while integrating \textbf{visual, audio, and text} modalities. Our benchmark excels in three key areas: \textbf{a) Long-Duration, Information-Dense Videos:} We carefully select approximately 1,000 videos from open-source datasets FineVideo based on duration limit and the information density of both visual and audio modalities, focusing on content like lectures, interviews, and vlogs, which contain rich language elements. \textbf{b) Diverse and Challenging Task Scenarios:} We have designed six challenging task scenarios, including both Intra-Event and Inter-Event Tasks. \textbf{c) Rigorous and Comprehensive Quality Assurance Pipelines:} We have developed a three-step, semi-automated data quality assurance pipeline to ensure the difficulty and validity of the synthesized questions and answer options. Based on LongInsightBench, we designed a series of experiments. Experimental results shows that Omni-modal models(OLMs) still face challenge in tasks requiring precise temporal localization (T-Loc) and long-range causal inference (CE-Caus). Extended experiments reveal the information loss and processing bias in multi-modal fusion of OLMs. Our dataset and code is available at https://anonymous.4open.science/r/LongInsightBench-910F/.

我们推出“LongInsightBench”这一基准测试平台,它是首个专门评估模型理解长视频能力的平台,尤其侧重于人类语言、观点、动作和其他上下文元素,同时整合视觉、音频和文字三种模式。我们的基准测试平台在三个关键领域表现出色:a) 长时长信息密集型视频:我们从基于时长限制和视觉与音频模态信息密度的开源数据集FineVideo中精心挑选了大约1000个视频,重点关注讲座、访谈和vlog等内容,这些视频包含丰富的语言元素。b) 多样化且具挑战性的任务场景:我们设计了六个具有挑战性的任务场景,包括事件内和事件间任务。c) 严格且全面的质量保证流程:我们开发了一个分三步的半自动化数据质量保证流程,以确保合成的问题和答案选项的难度和有效性。基于LongInsightBench基准测试平台,我们设计了一系列实验。实验结果表明,全模式模型(OLMs)在需要精确时间定位(T-Loc)和长期因果推理(CE-Caus)的任务中仍面临挑战。进一步的实验揭示了全模式模型在多模态融合过程中的信息丢失和处理偏差。我们的数据集和代码可在[https://anonymous.4open.science/r/LongInsightBench-910F/找到。](https://anonymous.4open.science/r%2FLongInsightBench-910F/%E6%98%AF%E5%AE%9E%E9%99%85%E5%AF%B9%E7%BA%BF%E7%9A%84%E8%BF%BD%E8%AF%BB%E5%AE%B6%E4%BD%BF%E7%9C%BC%E7%95%A5。]

论文及项目相关链接

PDF Submitted to ARR Rolling Review

Summary

我们推出了LongInsightBench,它是首个针对模型理解长视频能力的评估基准,尤其关注人类语言、观点、动作和其他上下文元素,同时融合了视觉、音频和文字模态。该基准在三个关键领域表现出色:长时长信息密集视频、多样化挑战任务场景以及严格全面的质量保证流程。基于LongInsightBench,我们进行了一系列实验,发现多模态模型在需要精确时间定位和长程因果推理的任务上仍面临挑战。此外,我们还发现了信息损失和多模态融合中的处理偏见问题。数据集和代码已公开。

Key Takeaways:

  1. LongInsightBench是首个为评估模型理解长视频能力而设计的基准,涵盖视觉、音频和文字模态。
  2. 该基准专注于人类语言、观点、动作和上下文元素。
  3. LongInsightBench包含长时长且信息密集的视频,从FineVideo等开源数据集中精选约1000个视频。
  4. 基准设计了六个挑战性的任务场景,包括Intra-Event和Inter-Event任务。
  5. 建立了严格全面的质量保证流程,确保问题和答案选项的难度和有效性。
  6. 实验结果显示,多模态模型在精确时间定位和长程因果推理任务上仍面临挑战。
  7. 发现了多模态模型在信息损失和处理偏见方面的问题。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录