嘘~ 正在从服务器偷取页面 . . .

无监督/半监督/对比学习


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-03-11 更新

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Authors:Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su

Universal multimodal embedding models play a critical role in tasks such as interleaved image-text retrieval, multimodal RAG, and multimodal clustering. However, our empirical results indicate that existing LMM-based embedding models trained with the standard InfoNCE loss exhibit a high degree of overlap in similarity distribution between positive and negative pairs, making it challenging to distinguish hard negative pairs effectively. To deal with this issue, we propose a simple yet effective framework that dynamically improves the embedding model’s representation learning for negative pairs based on their discriminative difficulty. Within this framework, we train a series of models, named LLaVE, and evaluate them on the MMEB benchmark, which covers 4 meta-tasks and 36 datasets. Experimental results show that LLaVE establishes stronger baselines that achieve state-of-the-art (SOTA) performance while demonstrating strong scalability and efficiency. Specifically, LLaVE-2B surpasses the previous SOTA 7B models, while LLaVE-7B achieves a further performance improvement of 6.2 points. Although LLaVE is trained on image-text data, it can generalize to text-video retrieval tasks in a zero-shot manner and achieve strong performance, demonstrating its remarkable potential for transfer to other embedding tasks.

通用多模态嵌入模型在交互图像文本检索、多模态RAG和多模态聚类等任务中扮演着至关重要的角色。然而,我们的实验结果表明,采用标准InfoNCE损失训练的现有基于LMM的嵌入模型在正负样本对的相似性分布上存在较高程度的重叠,这使得有效区分硬负样本对具有挑战性。为了解决这个问题,我们提出了一种简单有效的框架,该框架根据负样本的判别难度动态改进嵌入模型的特征表示学习。在该框架下,我们训练了一系列名为LLaVE的模型,并在涵盖4个元任务和36个数据集的MMEB基准测试集上进行评估。实验结果表明,LLaVE建立了更强的基线,实现了最先进的性能,同时展现了强大的可扩展性和效率。具体来说,LLaVE-2B超越了之前的7B模型SOTA,而LLaVE-7B进一步提高了性能达6.2点。尽管LLaVE是在图像文本数据上训练的,但它可以零样本的方式泛化到文本视频检索任务,并表现出强大的性能,显示出其在其他嵌入任务中的显著潜力。

论文及项目相关链接

PDF Preprint

Summary

本文介绍了通用多模态嵌入模型在多任务中的关键作用,如图像文本检索、多模态RAG和多模态聚类等。通过实验发现,基于现有LMM的嵌入模型使用标准的InfoNCE损失训练存在正负样本相似度分布重叠高的问题,难以有效区分硬负样本对。为此,提出一种简单有效的框架,根据判别难度动态改进负样本对的嵌入模型表示学习。在该框架下训练的LLaVE系列模型在MMEB基准测试上表现优异,实现了业界最佳水平,并展现出强大的可扩展性和效率。LLaVE模型在图像文本数据上训练,但可零样本泛化到文本视频检索任务,表现出卓越的可迁移性潜力。

Key Takeaways

  1. 通用多模态嵌入模型在多项任务中表现关键,如图像文本检索、多模态RAG和多模态聚类。
  2. 现有基于LMM的嵌入模型使用InfoNCE损失训练存在正负样本相似度分布重叠问题。
  3. 提出一种框架能够动态改进嵌入模型对负样本对的表示学习,基于其判别难度。
  4. LLaVE系列模型在MMEB基准测试上表现优异,达到业界最佳水平,并展示强大的可扩展性和效率。
  5. LLaVE模型在图像文本数据上训练,可零样本泛化至文本视频检索任务。
  6. LLaVE模型的出色表现证明了其对于其他嵌入任务的巨大潜力。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Speech Speech
Speech 方向最新论文已更新,请持续关注 Update in 2025-03-11 UniArray Unified Spectral-Spatial Modeling for Array-Geometry-Agnostic Speech Separation
2025-03-11
下一篇 
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-03-11 Incentivizing Multi-Tenant Split Federated Learning for Foundation Models at the Network Edge
  目录