嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-05-15 更新

SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

Authors:Edoardo Bianchi, Antonio Liotta

Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.

评估人类在复杂活动中的技能水平是一个具有挑战性的问题,其应用包括体育、康复和训练。在这项工作中,我们提出了SkillFormer,这是一种参数高效的架构,用于从第一人称和第三人称视频中进行统一的多视角技能水平评估。基于TimeSformer架构,SkillFormer引入了一个CrossViewFusion模块,该模块使用多头交叉注意力、可学习门控和自适应自我校准来融合视角特定特征。我们利用低秩适应(Low-Rank Adaptation)技术仅微调一小部分参数,从而大大降低了训练成本。实际上,在EgoExo4D数据集上进行的评估表明,SkillFormer在多视角设置中达到了最先进的准确性,同时表现出了惊人的计算效率,与使用先前的基准测试相比,使用了较少的参数(减少4.5倍),并且需要的训练周期也较少(减少3.75倍)。它在多个结构化任务中表现出色,证实了多视角融合在精细技能评估中的价值。

论文及项目相关链接

PDF

Summary

本文提出了SkillFormer,一种用于从第一人称和第三人称视频中评估技能水平的参数高效架构。通过引入CrossViewFusion模块,结合多头交叉注意力、可学习门控和自适应自校准等技术,实现多视角特征融合。利用低秩适应技术,仅微调一小部分参数,显著降低训练成本。在EgoExo4D数据集上的实验表明,SkillFormer在多视角设置下达到最先进的准确性,同时在多个结构化任务中表现出色,证明多视角融合在精细技能评估中的价值。

Key Takeaways

  1. SkillFormer是一种用于多视角技能水平评估的参数高效架构。
  2. 引入CrossViewFusion模块实现多视角特征融合。
  3. 利用多头交叉注意力、可学习门控和自适应自校准技术。
  4. 通过低秩适应技术,仅微调一小部分参数,降低训练成本。
  5. 在EgoExo4D数据集上实现先进准确性,优于先前基线。
  6. SkillFormer在多个结构化任务中表现出色。

Cool Papers

点此查看论文截图

HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding

Authors:Heqing Zou, Tianze Luo, Guiyang Xie, Victor Xiao Jie Zhang, Fengmao Lv, Guangcong Wang, Junyang Chen, Zhuochen Wang, Hansheng Zhang, Huaijian Zhang

Multimodal large language models have become a popular topic in deep visual understanding due to many promising real-world applications. However, hour-long video understanding, spanning over one hour and containing tens of thousands of visual frames, remains under-explored because of 1) challenging long-term video analyses, 2) inefficient large-model approaches, and 3) lack of large-scale benchmark datasets. Among them, in this paper, we focus on building a large-scale hour-long long video benchmark, HLV-1K, designed to evaluate long video understanding models. HLV-1K comprises 1009 hour-long videos with 14,847 high-quality question answering (QA) and multi-choice question asnwering (MCQA) pairs with time-aware query and diverse annotations, covering frame-level, within-event-level, cross-event-level, and long-term reasoning tasks. We evaluate our benchmark using existing state-of-the-art methods and demonstrate its value for testing deep long video understanding capabilities at different levels and for various tasks. This includes promoting future long video understanding tasks at a granular level, such as deep understanding of long live videos, meeting recordings, and movies.

多模态大型语言模型由于许多有前途的实际应用而成为深度视觉理解的热门话题。然而,长达一小时的视频理解,涉及超过一小时的内容,包含数万个视频帧,仍然被较少探索,这主要是因为1)具有挑战性的长期视频分析,2)低效的大型模型方法,以及3)缺乏大规模基准数据集。本文中,我们专注于构建大规模长达一小时的视频基准数据集HLV-1K,旨在评估长视频理解模型。HLV-1K包含1009个长达一小时的视频,有14847个高质量的问题回答(QA)和多项选择问题回答(MCQA)对,包括时间感知查询和多样化注释,涵盖帧级、事件内级、跨事件级和长期推理任务。我们使用现有的最先进方法评估我们的基准数据集,并展示了其在不同层次和不同任务上测试深度长视频理解能力的价值。这包括促进未来对长视频理解的细分任务,如长直播视频、会议记录和电影等的深入理解。

论文及项目相关链接

PDF Accepted to ICME 2025

Summary
针对长时间视频理解任务,本文构建了一个大规模小时级长视频基准测试集HLV-1K,包含1009小时长的视频和大量高质量问答对,覆盖不同级别的任务,旨在评估长视频理解模型的性能。该基准测试集的设计有助于推动未来长视频理解任务的深入研究。

Key Takeaways

  1. 本文构建了针对长时间视频理解任务的大规模基准测试集HLV-1K。
  2. HLV-1K包含1009小时长的视频和大量高质量问答对(QA和MCQA)。
  3. HLV-1K的设计旨在评估长视频理解模型的性能,并涵盖不同级别的任务,包括帧级别、事件内级别、跨事件级别和长期推理任务。
  4. 该基准测试集有助于推动未来长视频理解任务的深入研究,例如对长直播视频、会议记录、电影等的深层理解。
  5. 本文对现有先进方法进行了评估,证明了其测试深度长视频理解能力的价值。
  6. 小时级视频理解在实际应用中具有广阔的前景,但由于长期视频分析、大模型方法和大规模基准数据集等方面的挑战,仍需要进一步探索。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录