嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-07 更新

SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding

Authors:Mauro Orazio Drago, Luca Carlini, Pelinsu Celebi Balyemez, Dennis Pierantozzi, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque

Video Question Answering (VideoQA) in the surgical domain aims to enhance intraoperative understanding by enabling AI models to reason over temporally coherent events rather than isolated frames. Current approaches are limited to static image features, and available datasets often lack temporal annotations, ignoring the dynamics critical for accurate procedural interpretation. We propose SurgViVQA, a surgical VideoQA model that extends visual reasoning from static images to dynamic surgical scenes. It uses a Masked Video–Text Encoder to fuse video and question features, capturing temporal cues such as motion and tool–tissue interactions, which a fine-tuned large language model (LLM) then decodes into coherent answers. To evaluate its performance, we curated REAL-Colon-VQA, a colonoscopic video dataset that includes motion-related questions and diagnostic attributes, as well as out-of-template questions with rephrased or semantically altered formulations to assess model robustness. Experimental validation on REAL-Colon-VQA and the public EndoVis18-VQA dataset shows that SurgViVQA outperforms existing image-based VQA benchmark models, particularly in keyword accuracy, improving over PitVQA by +11% on REAL-Colon-VQA and +9% on EndoVis18-VQA. A perturbation study on the questions further confirms improved generalizability and robustness to variations in question phrasing. SurgViVQA and the REAL-Colon-VQA dataset provide a framework for temporally-aware understanding in surgical VideoQA, enabling AI models to interpret dynamic procedural contexts more effectively. Code and dataset available at https://github.com/madratak/SurgViVQA.

手术领域的视频问答(VideoQA)旨在通过使AI模型能够对时间连贯的事件进行推理,而不是孤立的帧,从而提高手术过程中的理解。当前的方法仅限于静态图像特征,而可用的数据集通常缺乏时间注释,忽略了对于准确程序解释至关重要的动态。我们提出了SurgViVQA,一个手术视频问答模型,它将视觉推理从静态图像扩展到动态手术场景。它使用遮罩视频文本编码器融合视频和问题特征,捕捉如运动和工具-组织交互等时间线索,然后经过微调的大型语言模型(LLM)将这些线索解码为连贯的答案。为了评估其性能,我们整理了REAL-Colon-VQA,这是一个结肠镜视频数据集,包括与运动相关的问题和诊断属性,以及重新表述或语义更改的模板外问题,以评估模型的稳健性。在REAL-Colon-VQA和公共EndoVis18-VQA数据集上的实验验证表明,SurgViVQA优于现有的基于图像的VQA基准模型,特别是在关键词准确率方面,在REAL-Colon-VQA上比PitVQA高出11%,在EndoVis18-VQA上高出9%。对问题进行扰动研究进一步证实了其在问题表述变化中的通用性和稳健性。SurgViVQA和REAL-Colon-VQA数据集为手术视频问答中的时间感知理解提供了框架,使AI模型能够更有效地解释动态程序上下文。代码和数据集可在https://github.com/madratak/SurgViVQA找到。

论文及项目相关链接

PDF

摘要
手术领域的视频问答(VideoQA)旨在通过使AI模型对时序连贯的事件进行推理,而不是孤立的帧,从而提升术中理解。当前的方法仅限于静态图像特征,而可用的数据集往往缺乏时间注释,忽略了对准确程序解释至关重要的动态要素。我们提出了SurgViVQA,一个手术视频QA模型,它将视觉推理从静态图像扩展到动态手术场景。它使用遮罩视频文本编码器融合视频和问题的特征,捕捉如运动和工具组织交互等的临时线索,然后由微调的大型语言模型(LLM)将这些特征解码成连贯的答案。为了评估其性能,我们编制了REAL-Colon-VQA数据集,该数据集包含结肠镜视频,包括与运动相关的问题和诊断属性,以及重新表述或语义改变的超出模板的问题,以评估模型的稳健性。在REAL-Colon-VQA和公共EndoVis18-VQA数据集上的实验验证表明,SurgViVQA优于现有的基于图像的VQA基准模型,特别是在关键词准确性方面,相较于PitVQA在REAL-Colon-VQA上提高了11%,在EndoVis18-VQA上提高了9%。对问题的扰动研究进一步证实了其在问题表述变化上的改进和稳健性。SurgViVQA和REAL-Colon-VQA数据集为手术视频问答中的时序感知理解提供了框架,使AI模型更有效地解释动态程序上下文。相关代码和数据集可在https://github.com/madratak/SurgViVQA获取。

要点掌握

  1. VideoQA在手术领域的应用旨在通过AI模型理解和推理术中动态事件以增强理解。
  2. 当前方法局限于静态图像特征,缺乏时间注释的数据集限制了模型的性能。
  3. 提出SurgViVQA模型,能够处理动态手术场景的视频问答任务。该模型通过融合视频和问题特征来捕捉临时线索。
  4. 为评估模型性能,开发新的数据集REAL-Colon-VQA用于测试模型对运动和诊断属性的理解以及应对问题的稳健性。
  5. 实验验证显示SurgViVQA在关键词准确性方面优于现有基准模型。在特定数据集上的性能提升显著。
  6. SurgViVQA模型展现出良好的通用性和对问题表述变化的稳健性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录