嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-08-05 更新

SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

Authors:Edoardo Bianchi, Antonio Liotta

Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.

评估人类在复杂活动中的技能水平是一个具有挑战性的问题,该问题在体育、康复和训练等领域都有应用。在这项工作中,我们提出了SkillFormer,这是一种用于统一多视角技能评估的参数高效架构,可从第一人称和第三人称视频中进行评估。基于TimeSformer骨干网,SkillFormer引入了CrossViewFusion模块,该模块使用多头交叉注意力、可学习门控和自适应自校准来融合视角特定特征。我们利用低秩适应(Low-Rank Adaptation)来微调一小部分参数,从而极大地降低了训练成本。实际上,在EgoExo4D数据集上进行评估时,SkillFormer在多视角设置中达到了最先进的准确性,同时表现出了惊人的计算效率,与使用前的基线相比,使用了较少的参数(减少了4.5倍),并且需要的训练周期也较少(减少了3.75倍)。它在多个结构化任务中表现出色,证实了多视角融合在精细技能评估中的价值。

论文及项目相关链接

PDF

Summary

基于TimeSformer骨架构建的SkillFormer模型被提出用于统一多视角能力评估,它从第一人称和第三人称视频中评估人类技能水平。通过引入CrossViewFusion模块,融合不同视角的特征,利用多头交叉注意力、可学习门控和自适应自校准技术。借助低秩适应技术,仅微调一小部分参数,显著降低了训练成本。在EgoExo4D数据集上的评估结果表明,SkillFormer在多视角设置中实现了最先进的准确性,同时在计算效率方面表现出色,使用的参数比先前基线少4.5倍,需要的训练周期也减少了3.75倍。它在多个结构化任务中的出色表现证明了多视角融合在精细技能评估中的价值。

Key Takeaways

  1. SkillFormer模型用于统一多视角能力评估,适用于体育、康复和训练等领域。
  2. SkillFormer基于TimeSformer骨架构建,引入CrossViewFusion模块融合不同视角的特征。
  3. CrossViewFusion模块利用多头交叉注意力、可学习门控和自适应自校准技术。
  4. 通过低秩适应技术,SkillFormer能显著减少训练参数和周期。
  5. SkillFormer在EgoExo4D数据集上实现了先进的性能,并展示了在计算效率方面的优势。
  6. SkillFormer在多个结构化任务中表现出色,证明了多视角融合在精细技能评估中的重要性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录