嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-12 更新

CoS: Chain-of-Shot Prompting for Long Video Understanding

Authors:Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong

Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

多模态大型语言模型(MLLMs)在处理长视频时面临挑战,因为需要过多的视觉标记。这些标记大大超过了MLLM的上下文长度,导致充斥着与任务无关的镜头。如何选择镜头是一个尚未解决的关键问题:稀疏采样可能遗漏关键细节,而详尽采样则会使模型淹没在无关内容中,导致视频误解。为了解决这一问题,我们提出了Chain-of-Shot提示(CoS)。核心理念是将镜头选择构建为测试时的视觉提示优化,通过优化镜头与任务的对齐方式,自适应选择适合视频理解语义任务的镜头。CoS有两个关键部分:(1)二进制视频摘要机制,执行伪时间定位,发现二进制编码以识别与任务相关的镜头;(2)视频协同推理模块,利用二进制编码将(学习对齐)任务相关的正面镜头与无关负面镜头配对。它将优化后的镜头选择嵌入原始视频中,便于关注相关上下文,从而优化长视频的理解。在三组基准数据和五个数据集上的实验证明了CoS的有效性和适应性。代码详见[https://lwpyh.github.io/CoS。]

论文及项目相关链接

PDF A training-free test-time optimisation approach for long video understanding

Summary

多模态大型语言模型在处理长视频时面临选择镜头的问题,稀疏采样可能遗漏关键细节,而全面采样则使模型面临大量无关内容的困扰,导致视频理解失误。为解决此问题,提出Chain-of-Shot提示法(CoS),将镜头选择视为测试时的视觉提示优化,通过优化镜头与任务的对齐方式,自适应选择适合视频理解语义任务的镜头。CoS包括两个关键部分:一是二进制视频摘要机制,进行伪时间定位,发现二进制编码以识别任务相关镜头;二是视频协同推理模块,利用二进制编码配对任务相关的正负镜头(学习对齐)。它将优化后的镜头嵌入到原始视频中,帮助专注于相关上下文,优化长视频的理解。

Key Takeaways

  1. 多模态大型语言模型在处理长视频时面临镜头选择问题。
  2. 稀疏采样和全面采样在镜头选择上都存在问题,前者可能遗漏关键细节,后者则导致模型被大量无关内容困扰。
  3. Chain-of-Shot提示法(CoS)旨在通过优化镜头与任务的对齐方式来解决这一问题。
  4. CoS包括两个关键部分:二进制视频摘要机制和视频协同推理模块。
  5. 二进制视频摘要机制能够进行伪时间定位,并发现二进制编码来识别任务相关镜头。
  6. 视频协同推理模块利用二进制编码来配对任务相关的正负镜头。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录