⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-08 更新
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
Authors:Ellis Brown, Arijit Ray, Ranjay Krishna, Ross Girshick, Rob Fergus, Saining Xie
Despite impressive high-level video comprehension, multimodal language models struggle with spatial reasoning across time and space. While current spatial training approaches rely on real-world video data, obtaining diverse footage with precise spatial annotations remains a bottleneck. To alleviate this bottleneck, we present SIMS-V – a systematic data-generation framework that leverages the privileged information of 3D simulators to create spatially-rich video training data for multimodal language models. Using this framework, we investigate which properties of simulated data drive effective real-world transfer through systematic ablations of question types, mixes, and scales. We identify a minimal set of three question categories (metric measurement, perspective-dependent reasoning, and temporal tracking) that prove most effective for developing transferable spatial intelligence, outperforming comprehensive coverage despite using fewer question types. These insights enable highly efficient training: our 7B-parameter video LLM fine-tuned on just 25K simulated examples outperforms the larger 72B baseline and achieves competitive performance with proprietary models on rigorous real-world spatial reasoning benchmarks. Our approach demonstrates robust generalization, maintaining performance on general video understanding while showing substantial improvements on embodied and real-world spatial tasks.
尽管高级视频理解令人印象深刻,但多模态语言模型在时间空间上的空间推理能力仍然存在问题。当前的空间训练方式依赖于真实世界的视频数据,但获取带有精确空间注释的多样化镜头仍然是一个瓶颈。为了缓解这一瓶颈,我们推出了SIMS-V——一个系统的数据生成框架,它利用3D模拟器的特权信息,为多模态语言模型创建空间丰富的视频训练数据。使用这个框架,我们研究了模拟数据的哪些属性能够驱动有效的现实世界迁移,通过对问题类型、混合方式和规模的系统性消融研究。我们确定了最小的三个问题类别(度量测量、视角依赖推理、时间跟踪),它们在开发可转移的空间智力方面被证明是最有效的。尽管使用的问题类型较少,但它们的效能却超过了全面覆盖的问题类别。这些见解使训练变得非常高效:我们的仅通过2.5万个模拟例子进行微调的视频LLM(大型语言模型),性能超过了更大的72B基线模型,并在严格的现实世界空间推理基准测试中实现了与专有模型的竞争力。我们的方法展示了稳健的泛化能力,在保持对一般视频理解性能的同时,在实体和现实世界空间任务上取得了显著改进。
论文及项目相关链接
PDF Project page: https://ellisbrown.github.io/sims-v
Summary
多媒体语言模型在高层次视频理解方面表现出色,但在时空推理方面存在困难。为解决获取具有精确空间注释的多样化视频数据的瓶颈,我们提出了SIMS-V系统数据生成框架,利用3D模拟器的特权信息生成空间丰富的视频训练数据,用于多媒体语言模型。通过系统地研究模拟数据的哪些属性能够有效实现现实世界迁移,我们确定了最具代表性的三种问题类型(度量测量、视角相关推理和时序跟踪),即使在问题类型较少的情况下也能展现出强大的迁移能力。这些见解实现了高效训练:我们的视频大型语言模型仅通过训练少量模拟数据示例(2.5万)就能达到优秀性能,超过更大规模(72亿参数)的基线模型表现,并在严格的现实世界空间推理基准测试中实现了与专有模型的竞争力。我们的方法展示了稳健的泛化能力,在一般视频理解任务上维持良好性能的同时,也在实际的与空间相关任务上取得了实质性提升。我们的研究成果能够为今后AI领域的多媒体模型设计和优化提供重要的理论支持和实践指导。这一成果在学术界和工业界均具有很高的应用价值。我们的数据生成框架及训练方法有望在语言模型的性能优化、模型训练的提速和节省资源成本等方面产生积极的影响。未来我们可以进一步研究如何将该框架应用到更多场景和模型中,拓展其在自然语言处理领域的实际应用范围。同时,我们也将探索如何进一步提高模拟数据的真实性和质量,以更好地模拟现实世界中的复杂场景和任务。这将有助于我们更好地理解和解决多媒体语言模型在时空推理方面的挑战,推动人工智能领域的发展。
Key Takeaways
以下为该论文中涉及的主要见解列表:
- 多媒体语言模型在高层次视频理解上表现出强大的能力,但在空间推理方面遇到了挑战。这主要是因为获取精确空间注释的视频数据是一项艰巨的任务。为了解决这个问题,提出了一个名为SIMS-V的系统数据生成框架。
- SIMS-V框架利用3D模拟器的特权信息生成空间丰富的视频训练数据。这些数据可用于增强多媒体语言模型的性能,尤其是在空间推理方面。
- 研究发现三种问题类型(度量测量、视角相关推理和时序跟踪)对于提高模型的迁移能力特别有效。这些类型的问题使得模型能够在较少的训练数据下实现出色的性能。
- 通过使用SIMS-V框架和这些关键的问题类型,我们的视频大型语言模型在现实世界空间推理基准测试中表现出强大的竞争力。此外,该模型在一般视频理解任务上也表现出良好的泛化能力。
- 该研究为多媒体语言模型的设计和优化提供了重要的理论支持和实践指导。它不仅在学术界具有价值,也在工业界具有广泛的应用前景。
- SIMS-V框架和数据生成方法有望为语言模型的性能优化、训练速度提升以及资源成本降低带来积极影响。未来可以进一步研究如何将该框架应用于更多的场景和模型中,以扩大其在自然语言处理领域的应用范围。
点此查看论文截图
SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding
Authors:Mauro Orazio Drago, Luca Carlini, Pelinsu Celebi Balyemez, Dennis Pierantozzi, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque
Video Question Answering (VideoQA) in the surgical domain aims to enhance intraoperative understanding by enabling AI models to reason over temporally coherent events rather than isolated frames. Current approaches are limited to static image features, and available datasets often lack temporal annotations, ignoring the dynamics critical for accurate procedural interpretation. We propose SurgViVQA, a surgical VideoQA model that extends visual reasoning from static images to dynamic surgical scenes. It uses a Masked Video–Text Encoder to fuse video and question features, capturing temporal cues such as motion and tool–tissue interactions, which a fine-tuned large language model (LLM) then decodes into coherent answers. To evaluate its performance, we curated REAL-Colon-VQA, a colonoscopic video dataset that includes motion-related questions and diagnostic attributes, as well as out-of-template questions with rephrased or semantically altered formulations to assess model robustness. Experimental validation on REAL-Colon-VQA and the public EndoVis18-VQA dataset shows that SurgViVQA outperforms existing image-based VQA benchmark models, particularly in keyword accuracy, improving over PitVQA by +11% on REAL-Colon-VQA and +9% on EndoVis18-VQA. A perturbation study on the questions further confirms improved generalizability and robustness to variations in question phrasing. SurgViVQA and the REAL-Colon-VQA dataset provide a framework for temporally-aware understanding in surgical VideoQA, enabling AI models to interpret dynamic procedural contexts more effectively. Code and dataset available at https://github.com/madratak/SurgViVQA.
手术领域的视频问答(VideoQA)旨在通过使AI模型能够推理出时间上连贯的事件,而不是孤立的帧,从而提高手术过程中的理解。当前的方法仅限于静态图像特征,而可用的数据集通常缺乏时间注释,忽略了对于准确程序解释至关重要的动态。我们提出了SurgViVQA,一种手术视频问答模型,它将视觉推理从静态图像扩展到动态手术场景。它使用遮罩视频文本编码器来融合视频和问题的特征,捕捉如运动和工具-组织交互等时间线索,然后经过微调的大型语言模型(LLM)将这些线索解码成连贯的答案。为了评估其性能,我们精心制作了REAL-Colon-VQA,一个结肠镜视频数据集,包含与运动相关的问题和诊断属性,以及重新表述或语义更改的模板外问题,以评估模型的稳健性。在REAL-Colon-VQA和公共EndoVis18-VQA数据集上的实验验证表明,SurgViVQA优于现有的基于图像的VQA基准模型,特别是在关键词准确率方面,在REAL-Colon-VQA上比PitVQA高出+11%,在EndoVis18-VQA上高出+9%。对问题进行扰动研究进一步证实了其在问题表述变化上的通用性和稳健性。SurgViVQA和REAL-Colon-VQA数据集为手术视频问答中的时间感知理解提供了框架,使AI模型能够更有效地解释动态程序上下文。代码和数据集可在https://github.com/madratak/SurgViVQA找到。
论文及项目相关链接
摘要
基于视频问答的视频理解在手术领域至关重要,能够促使AI模型在时间上连贯的事件上进行推理而非孤立的画面。现有方法局限于静态图像特征,现有数据集忽略动态内容标注,缺乏精准程序解读所需的关键动态要素。本研究提出一种外科视频问答模型——SurgViVQA,它扩展了静态图像的视觉推理至动态手术场景。该模型使用遮罩视频文本编码器融合视频和问题的特征,捕捉动作以及器械组织交互等动态线索,随后由精细调整的大型语言模型将这些线索翻译成连贯答案。为了评估性能,我们构建了真实结肠问答数据集(REAL-Colon-VQA),包括与运动相关的问题和诊断属性,以及基于重组语义的开放问题,以评估模型的稳健性。在REAL-Colon-VQA和公共EndoVis18问答数据集上的实验验证显示,SurgViVQA优于现有基于图像的问答基准模型,特别是在关键词准确性方面,相较于PitVQA在REAL-Colon-VQA上提高11%,在EndoVis18-VQA上提高9%。对问题的扰动研究进一步证实了其在问题表述变化下的泛化能力和稳健性。SurgViVQA和REAL-Colon-VQA数据集为手术视频问答提供了时间感知理解的框架,使得AI模型能够更有效地解读动态的程序语境。模型和代码均可在指定网站找到:https://github.com/madratak/SurgViVQA。
要点总结
一、提出了一种名为SurgViVQA的外科视频问答模型,该模型能够融合视频与问题特征进行推理,并捕捉动态手术场景中的关键信息。该模型能够融合视频与问题特征进行推理。扩展了先前受限于静态图像的视觉推理模型。这是基于遮挡视频文本编码器的开发完成的。它能够捕捉视频中的动态线索(如动作和工具与组织的交互)。这些线索被大型语言模型解码成连贯的答案。
点此查看论文截图