发布日期: 2025-09-17

更新日期: 2025-10-07

文章字数: 981

阅读时长: 3 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-09-17 更新

FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning

Authors:Haodong Chen, Haojian Huang, XinXiang Yin, Dian Shao

Video Question Answering (VideoQA) based on Large Language Models (LLMs) has shown potential in general video understanding but faces significant challenges when applied to the inherently complex domain of sports videos. In this work, we propose FineQuest, the first training-free framework that leverages dual-mode reasoning inspired by cognitive science: i) Reactive Reasoning for straightforward sports queries and ii) Deliberative Reasoning for more complex ones. To bridge the knowledge gap between general-purpose models and domain-specific sports understanding, FineQuest incorporates SSGraph, a multimodal sports knowledge scene graph spanning nine sports, which encodes both visual instances and domain-specific terminology to enhance reasoning accuracy. Furthermore, we introduce two new sports VideoQA benchmarks, Gym-QA and Diving-QA, derived from the FineGym and FineDiving datasets, enabling diverse and comprehensive evaluation. FineQuest achieves state-of-the-art performance on these benchmarks as well as the existing SPORTU dataset, while maintains strong general VideoQA capabilities.

基于大型语言模型（LLM）的视频问答（VideoQA）在一般视频理解方面显示出潜力，但当应用于固有的复杂体育视频领域时，面临重大挑战。在这项工作中，我们提出了FineQuest，这是第一个无需训练的框架，它受到认知科学的启发，采用双模式推理：i）针对直接的体育查询采用反应式推理；ii）针对更复杂的查询采用审慎推理。为了弥补通用模型与特定领域体育理解之间的知识差距，FineQuest引入了SSGraph，这是一个跨越九种体育运动的跨模态体育知识场景图，它编码视觉实例和特定领域的术语，以提高推理的准确性。此外，我们根据FineGym和FineDiving数据集推出了两个新的体育VideoQA基准测试，即Gym-QA和Diving-QA，能够进行多样化和全面的评估。FineQuest在这些基准测试以及现有的SPORTU数据集上实现了最新性能，同时保持了强大的通用VideoQA功能。

论文及项目相关链接

PDF ACM MM 2025

摘要

基于大型语言模型的视频问答（VideoQA）在一般视频理解领域展现出潜力，但在复杂多变的体育视频领域仍面临重大挑战。本研究提出FineQuest，首个无需训练的框架，借鉴认知科学启发，采用双模式推理：一是对简单体育查询的反应式推理，二是对复杂查询的审慎推理。为弥补通用模型与特定体育领域理解之间的知识鸿沟，FineQuest引入了SSGraph，一种跨越九种体育活动的多模式体育知识场景图。其能编码视觉实例和特定领域的术语，提升推理准确性。此外，我们推出两个新的体育视频问答基准测试，Gym-QA和Diving-QA，分别来源于FineGym和FineDiving数据集，可实现多样化和全面评估。FineQuest在这些基准测试以及现有的SPORTU数据集上表现出卓越性能，同时保持了强大的通用视频问答能力。

要点总结

VideoQA在一般视频理解领域有潜力，但在体育视频领域面临挑战。
FineQuest是首个无需训练的框架，采用双模式推理：反应式与审慎推理。
FineQuest引入SSGraph，一种多模式体育知识场景图，涵盖九种体育，提升推理准确性。
SSGraph能够编码视觉实例和特定领域的术语。
推出两个新的体育VideoQA基准测试：Gym-QA和Diving-QA。
FineQuest在多个基准测试上表现出卓越性能。
FineQuest兼具强大的通用视频问答能力。

Cool Papers

点此查看论文截图

Kedreamix

https://kedreamix.github.io/Talk2Paper/Paper/2025-09-17/%E8%A7%86%E9%A2%91%E7%90%86%E8%A7%A3/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !

视频理解

Vision Transformer

Vision Transformer 方向最新论文已更新，请持续关注 Update in 2025-09-17 3DViT-GAT A Unified Atlas-Based 3D Vision Transformer and Graph Learning Framework for Major Depressive Disorder Detection Using Structural MRI Data

2025-09-17 Vision Transformer

Vision Transformer

I2I Translation

I2I Translation 方向最新论文已更新，请持续关注 Update in 2025-09-17 BREA-Depth Bronchoscopy Realistic Airway-geometric Depth Estimation

2025-09-17 I2I Translation

I2I Translation