⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-03 更新
MMGeoLM: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
Authors:Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
Large Multimodal Models (LMMs) typically build on ViTs (e.g., CLIP), yet their training with simple random in-batch negatives limits the ability to capture fine-grained visual differences, particularly in geometric scenarios. To address this challenge, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train a vision encoder (CLIP) using our hard negative training method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further conduct ablation studies to analyze three key factors: hard negative types, the efficiency of image-based negatives, and training configurations. These analyses yield important insights into optimizing the training pipeline of vision encoder for fine-grained geometric reasoning tasks. https://github.com/THU-KEG/MMGeoLM.
大型多模态模型(LMMs)通常基于ViTs(例如CLIP)构建,但使用简单的随机批次内负样本进行训练,限制了捕捉细微视觉差异的能力,特别是在几何场景中。为了解决这一挑战,我们提出了一种新型的视觉编码器硬负对比学习框架,它结合了基于图像对比学习,通过使用通过扰动图生成代码产生的生成型硬负样本,以及基于文本对比学习,通过使用基于规则负样本,来源于修改后的几何描述和基于检索的负样本,该样本是根据标题相似性选择的。我们使用我们的硬负训练方法对视觉编码器(CLIP)进行了训练,即MMCLIP(多模态数学CLIP),随后对LMM进行了几何问题解决的训练。实验表明,我们训练的模型MMGeoLM在三个几何推理基准测试上大大优于其他开源模型。即使规模达到7B,它也能与强大的闭源模型如GPT-4o相抗衡。我们还进行了消除研究,分析了三个关键因素:硬负样本类型、图像负样本的效率和训练配置。这些分析为我们优化视觉编码器训练管道以进行细微几何推理任务提供了重要见解。相关代码已上传至GitHub项目“MMGeoLM”。
论文及项目相关链接
Summary
基于CLIP的大型多模态模型(LMMs)在几何场景中的精细视觉差异捕捉能力受限。为此,我们提出了一种新颖的硬负对比学习框架,用于视觉编码器。该框架结合了基于图像对比学习,通过扰动图生成代码生成基于生成的硬负样本,以及基于文本对比学习,使用基于规则负样本和基于检索的负样本。我们使用MMCLIP(多模态数学CLIP)的硬负训练方法对CLIP视觉编码器进行训练,随后对几何问题求解的大型模型进行训练。实验表明,我们的模型MMGeoLM在三个几何推理基准测试中优于其他开源模型,即使规模为7B也能与强大的闭源模型如GPT-4o相抗衡。此外,我们进行了因素分析研究以分析关键因素的优化,包括硬负类型、图像负样本的效率和训练配置等。这为优化视觉编码器在精细几何推理任务中的训练管道提供了重要见解。
Key Takeaways
- LMMs(大型多模态模型)通常基于ViTs构建(如CLIP),但在捕捉几何场景的精细视觉差异方面存在局限性。
- 提出了一种新颖的硬负对比学习框架用于视觉编码器,结合图像和文本对比学习。
- 训练了名为MMGeoLM的模型,显著优于其他开源模型,并在几何推理方面展现出强大性能,甚至能与强大闭源模型竞争。
- 通过消融研究分析了硬负类型、图像负样本效率和训练配置等关键因素,为优化视觉编码器在精细几何推理任务中的训练提供了重要见解。
- MMGeoLM模型具有广泛的应用前景,特别是在需要精细几何推理的领域。
- 该研究展示了结合图像和文本对比学习的有效性在提升模型性能方面的潜力。
点此查看论文截图




