嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-11 更新

SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

Authors:Edoardo Bianchi, Antonio Liotta

Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.

评估人类在复杂活动中的技能水平是一个具有挑战性的问题,其应用在体育、康复和训练等领域。在这项工作中,我们提出了SkillFormer,这是一种参数高效的架构,用于从第一人称和第三人称视频中统一多视角技能评估。基于TimeSformer骨干网,SkillFormer引入了CrossViewFusion模块,该模块使用多头交叉注意力、可学习门控和自适应自校准来融合视角特定特征。我们利用低秩适应(Low-Rank Adaptation)技术仅微调一小部分参数,从而大大降低了训练成本。事实上,在EgoExo4D数据集上进行评估时,SkillFormer在多视角设置中实现了最先进的准确性,同时表现出惊人的计算效率,与使用先前的基准测试相比,使用了4.5倍更少的参数和3.75倍更少的训练周期。它在多个结构化任务中表现出色,证实了多视角融合在精细技能评估中的价值。

论文及项目相关链接

PDF Accepted at the 2025 18th International Conference on Machine Vision

Summary

本文提出了SkillFormer,一种用于从第一人称和第三人称视频中评估技能水平的参数高效架构。通过引入CrossViewFusion模块,结合多头交叉注意力、可学习门控和自适应自校准等技术,实现多视角特征融合。利用低秩适应技术,仅微调一小部分参数,显著降低训练成本。在EgoExo4D数据集上的实验表明,SkillFormer在多视角设置下达到最新水平,同时在多个结构化任务中表现出色。

Key Takeaways

  1. SkillFormer是用于复杂活动技能水平评估的参数高效架构。
  2. 该架构通过融合多视角特征来实现统一的多视角技能评估。
  3. SkillFormer引入了CrossViewFusion模块,结合多头交叉注意力等技术实现特征融合。
  4. 利用低秩适应技术,仅微调一小部分参数,降低训练成本。
  5. 在EgoExo4D数据集上的实验表明,SkillFormer达到最新水平,且计算效率高。
  6. SkillFormer在多个结构化任务中表现优异,证明了多视角整合对于精细技能评估的价值。

Cool Papers

点此查看论文截图

Audio-centric Video Understanding Benchmark without Text Shortcut

Authors:Yudong Yang, Jimin Zhuang, Guangzhi Sun, Changli Tang, Yixuan Li, Peihan Li, Yifan Jiang, Wei Li, Zejun Ma, Chao Zhang

Audio often serves as an auxiliary modality in video understanding tasks of audio-visual large language models (LLMs), merely assisting in the comprehension of visual information. However, a thorough understanding of videos significantly depends on auditory information, as audio offers critical context, emotional cues, and semantic meaning that visual data alone often lacks. This paper proposes an audio-centric video understanding benchmark (AVUT) to evaluate the video comprehension capabilities of multimodal LLMs with a particular focus on auditory information. AVUT introduces a suite of carefully designed audio-centric tasks, holistically testing the understanding of both audio content and audio-visual interactions in videos. Moreover, this work points out the text shortcut problem that largely exists in other benchmarks where the correct answer can be found from question text alone without needing videos. AVUT addresses this problem by proposing a answer permutation-based filtering mechanism. A thorough evaluation across a diverse range of open-source and proprietary multimodal LLMs is performed, followed by the analyses of deficiencies in audio-visual LLMs. Demos and data are available at https://github.com/lark-png/AVUT.

音频通常作为音频视觉大型语言模型(LLM)的视频理解任务的辅助模式,仅帮助理解视觉信息。然而,对视频的深入理解在很大程度上依赖于听觉信息,因为音频提供了关键上下文、情感线索和语义意义,而这些通常是视觉数据所缺乏的。本文提出了一种以音频为中心的视频理解基准测试(AVUT),旨在评估多模式LLM的视频理解能力,特别是听觉信息。AVUT引入了一套精心设计的以音频为中心的任务,全面测试视频中的音频内容和视听交互的理解能力。此外,本文指出了在其他基准测试中大量存在的文本捷径问题,即正确答案可以从问题文本中单独找到,而无需观看视频。AVUT通过提出一种基于答案排列的过滤机制来解决这个问题。在一系列开源和专有的多模式LLM中进行了全面评估,随后分析了视听LLM的缺陷。演示和数据可在https://github.com/lark-png/AVUT找到。

论文及项目相关链接

PDF Accepted for publication in the Proceedings of EMNLP 2025 (Main Conference)

Summary

这篇论文提出了一种以音频为中心的视频理解基准测试(AVUT),旨在评估多模态大型语言模型对视频的理解能力,特别是侧重于音频信息。AVUT引入了一系列精心设计的以音频为中心的任务,全面测试视频中的音频内容和视听交互的理解。此外,该论文还指出了其他基准测试中普遍存在的文本快捷方式问题,并为此提出了基于答案排列的过滤机制来解决该问题。论文还对一系列开源和专有的多模态大型语言模型进行了全面评估,分析了视听大型语言模型的缺陷。

Key Takeaways

  1. 音频在视频理解任务中扮演着辅助角色,为视觉信息提供辅助理解。
  2. 音频为视频提供了重要的上下文、情感线索和语义含义,对视频全面理解至关重要。
  3. 提出了一种以音频为中心的视频理解基准测试(AVUT),用于评估多模态大型语言模型对视频的理解能力。
  4. AVUT设计了一系列以音频为中心的任务,全面测试模型对音频内容和视听交互的理解。
  5. AVUT提出了基于答案排列的过滤机制,以解决其他基准测试中普遍存在的文本快捷方式问题。
  6. 对一系列多模态大型语言模型进行了全面评估,并分析了其在视听领域的不足。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-09-11 Benchmarking Vision Transformers and CNNs for Thermal Photovoltaic Fault Detection with Explainable AI Validation
下一篇 
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-09-11 XOCT Enhancing OCT to OCTA Translation via Cross-Dimensional Supervised Multi-Scale Feature Learning
  目录