⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2024-12-24 更新
Language Repository for Long Video Understanding
Authors:Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo
Language has become a prominent modality in computer vision with the rise of LLMs. Despite supporting long context-lengths, their effectiveness in handling long-term information gradually declines with input length. This becomes critical, especially in applications such as long-form video understanding. In this paper, we introduce a Language Repository (LangRepo) for LLMs, that maintains concise and structured information as an interpretable (i.e., all-textual) representation. Our repository is updated iteratively based on multi-scale video chunks. We introduce write and read operations that focus on pruning redundancies in text, and extracting information at various temporal scales. The proposed framework is evaluated on zero-shot visual question-answering benchmarks including EgoSchema, NExT-QA, IntentQA and NExT-GQA, showing state-of-the-art performance at its scale. Our code is available at https://github.com/kkahatapitiya/LangRepo.
随着大型语言模型(LLMs)的兴起,语言已成为计算机视觉中的一个突出模式。尽管LLMs能够支持较长的上下文长度,但在处理长期信息方面的有效性随着输入长度的增加而逐渐下降。这在长格式视频理解等应用中变得尤为关键。在本文中,我们为LLMs引入了一种语言仓库(LangRepo),它以简洁的结构化信息作为可解释(即全文本)的表示形式。我们的仓库会基于多尺度视频片段进行迭代更新。我们引入了写入和读取操作,侧重于删除文本中的冗余信息,并以各种时间尺度提取信息。所提出的框架在零样本视觉问答基准测试上进行评估,包括EgoSchema、NExT-QA、IntentQA和NExT-GQA,显示其在规模上处于最新技术水平。我们的代码可在https://github.com/kkahatapitiya/LangRepo处获得。
论文及项目相关链接
Summary
随着大型语言模型(LLMs)的兴起,语言已成为计算机视觉领域中的一种重要模态。然而,在处理长时信息时,尽管LLMs可以支持较长的上下文长度,但其有效性会随着输入长度的增加而逐渐下降。这对于长视频理解等应用来说尤为关键。本文提出了一种针对LLMs的语言仓库(LangRepo),通过简洁的结构化信息维护可解释的(即全文本)表示形式。我们的仓库基于多尺度视频块进行迭代更新。我们引入了写入和读取操作,侧重于消除文本中的冗余信息,并以各种时间尺度提取信息。该框架在零样本视觉问答基准测试上进行了评估,包括EgoSchema、NExT-QA、IntentQA和NExT-GQA,显示其在规模上处于先进水平。
Key Takeaways
- 语言已成为计算机视觉领域的重要模态,特别是在使用大型语言模型(LLMs)的情况下。
- LLMs在处理长时信息时存在有效性下降的问题。
- 引入了一种名为LangRepo的语言仓库,用于以简洁的结构化形式存储信息,以支持LLMs。
- LangRepo基于多尺度视频块进行迭代更新。
- LangRepo支持写入和读取操作,以消除文本冗余并提取不同时间尺度的信息。
- 在多项零样本视觉问答基准测试中,LangRepo显示出卓越的性能。