嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-28 更新

Task Graph Maximum Likelihood Estimation for Procedural Activity Understanding in Egocentric Videos

Authors:Luigi Seminara, Giovanni Maria Farinella, Antonino Furnari

We introduce a gradient-based approach for learning task graphs from procedural activities, improving over hand-crafted methods. Our method directly optimizes edge weights via maximum likelihood, enabling integration into neural architectures. We validate our approach on CaptainCook4D, EgoPER, and EgoProceL, achieving +14.5%, +10.2%, and +13.6% F1-score improvements. Our feature-based approach for predicting task graphs from textual/video embeddings demonstrates emerging video understanding abilities. We also achieved top performance on the procedure understanding benchmark on Ego-Exo4D and significantly improved online mistake detection (+19.8% on Assembly101-O, +6.4% on EPIC-Tent-O). Code: https://github.com/fpv-iplab/Differentiable-Task-Graph-Learning.

我们介绍了一种基于梯度的从过程活动中学习任务图的方法,该方法改进了手工方法。我们的方法通过最大可能性直接优化边缘权重,能够整合到神经网络架构中。我们在CaptainCook4D、EgoPER和EgoProceL上验证了我们的方法,分别实现了+14.5%、+10.2%和+13.6%的F1分数提升。我们从文本/视频嵌入中预测任务图的特征方法显示了新兴的视频理解能力。我们在Ego-Exo4D的过程理解基准测试上也取得了顶尖表现,并且在在线错误检测方面取得了显著改进(Assembly101-O上提高了+19.8%,EPIC-Tent-O上提高了+6.4%)。代码地址为:https://github.com/fpv-iplab/Differentiable-Task-Graph-Learning。

论文及项目相关链接

PDF arXiv admin note: text overlap with arXiv:2406.01486

摘要

本文介绍了一种基于梯度的方法,用于从程序活动中学习任务图,相较于传统的手动设计方法,有所改进。该方法通过最大可能性直接优化边权重,并能融入神经网络架构。在CaptainCook4D、EgoPER和EgoProceL上的验证显示,我们的方法提高了F1分数的表现,分别提升了+14.5%、+10.2%和+13.6%。此外,我们采用基于特征的方法预测文本和视频嵌入中的任务图,展现了新兴的视频理解能力。在Ego-Exo4D的过程理解基准测试中,我们的方法也取得了顶尖表现,并且在在线错误检测方面取得了显著的提升,分别在Assembly101-O上提升了+19.8%,在EPIC-Tent-O上提升了+6.4%。相关代码已公开在https://github.com/fpv-iplab/Differentiable-Task-Graph-Learning。

关键见解

  1. 引入了一种基于梯度的方法学习任务图,相较于传统的手动设计方法有所提升。
  2. 通过最大可能性直接优化边权重,便于融入神经网络架构。
  3. 在多个数据集上的实验验证了方法的有效性,显著提高了F1分数。
  4. 采用基于特征的方法预测任务图,从文本和视频嵌入中展现了新兴的视频理解能力。
  5. 在过程理解基准测试中取得了顶尖表现。
  6. 在在线错误检测方面取得了显著的提升。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !