嘘~ 正在从服务器偷取页面 . . .

视频理解


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-01-28 更新

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Authors:Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin

We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8% over GPT-4o and 5.8% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6% performance advantage over GPT-4o and +24.9% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.

我们介绍了Tarsier2,这是一个最先进的大型视觉语言模型(LVLM),旨在生成详细准确的视频描述,同时展现出卓越的一般视频理解能力。Tarsier2通过三个关键升级实现了重大进展:(1)将预训练数据从1100万扩展到4000万视频文本对,丰富了数量和多样性;(2)在监督微调过程中进行精细的时间对齐;(3)使用基于模型的采样自动构建偏好数据,并应用DPO训练进行优化。大量实验表明,Tarsier2-7B在详细的视频描述任务中始终领先于领先的专有模型,包括GPT-4o和Gemini 1.5 Pro。在DREAM-1K基准测试中,Tarsier2-7B的F1得分比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在人类侧侧评估中,Tarsier2-7B相对于GPT-4o的性能优势为+8.6%,相对于Gemini-1.5-Pro的性能优势为+24.9%。此外,Tarsier2-7B还在15个公共基准测试上创下了最新纪录,涵盖视频问答、视频定位、幻觉测试和嵌入式问答等多项任务,这证明它是一个通用性强健的视觉语言模型。

论文及项目相关链接

PDF

Summary

介绍了一款名为Tarsier2的大型视觉语言模型(LVLM),该模型用于生成详细的视频描述,并具有出色的通用视频理解能力。Tarsier2通过三个关键升级实现了显著进展:1)将预训练数据从1.1亿个扩大到四十亿的视频文本配对数据,丰富数据和多样性;2)在监督微调阶段进行精细的时间对齐;3)采用基于模型的采样自动构建偏好数据,并应用DPO训练进行优化。实验表明,Tarsier2-7B在详细视频描述任务上持续超越领先的专有模型,如GPT-4o和Gemini 1.5 Pro。在人类侧面评价中,Tarsier2-7B显示出对GPT-4o有+8.6%的优势和对Gemini 1.5-Pro有+24.9%的优势。此外,Tarsier2-7B还在多个公共基准测试中达到了新的最佳水平,涵盖视频问答、视频定位、幻想测试和具身问答等任务,显示出其作为一个强大的通用视觉语言模型的潜力。

Key Takeaways

  • Tarsier2是一种用于视频描述的先进大型视觉语言模型(LVLM)。
  • 它通过扩大预训练数据量、精细时间对齐和采用DPO训练优化等三个关键升级实现了性能提升。
  • Tarsier2-7B在详细视频描述任务上优于GPT-4o和Gemini 1.5 Pro等领先模型。
  • 在人类评价中,Tarsier2-7B表现出显著优势。
  • Tarsier2-7B在多个公共基准测试中达到新的最佳水平,涵盖视频问答、视频定位等任务。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-01-28 Attribute-based Visual Reprogramming for Image Classification with CLIP
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-01-28 An Empirical Study on LLM-based Classification of Requirements-related Provisions in Food-safety Regulations
2025-01-28
  目录