⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-03 更新
Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining
Authors:Daniele Molino, Camillo Maria Caruso, Filippo Ruffini, Paolo Soda, Valerio Guarrasi
Objective: While recent advances in text-conditioned generative models have enabled the synthesis of realistic medical images, progress has been largely confined to 2D modalities such as chest X-rays. Extending text-to-image generation to volumetric CT remains a significant challenge, due to its high dimensionality, anatomical complexity, and the absence of robust frameworks that align vision-language data in 3D medical imaging. Methods: We introduce a novel architecture for Text-to-CT generation that combines a latent diffusion model with a 3D contrastive vision-language pretraining scheme. Our approach leverages a dual-encoder CLIP-style model trained on paired CT volumes and radiology reports to establish a shared embedding space, which serves as the conditioning input for generation. CT volumes are compressed into a low-dimensional latent space via a pretrained volumetric VAE, enabling efficient 3D denoising diffusion without requiring external super-resolution stages. Results: We evaluate our method on the CT-RATE dataset and conduct a comprehensive assessment of image fidelity, clinical relevance, and semantic alignment. Our model achieves competitive performance across all tasks, significantly outperforming prior baselines for text-to-CT generation. Moreover, we demonstrate that CT scans synthesized by our framework can effectively augment real data, improving downstream diagnostic performance. Conclusion: Our results show that modality-specific vision-language alignment is a key component for high-quality 3D medical image generation. By integrating contrastive pretraining and volumetric diffusion, our method offers a scalable and controllable solution for synthesizing clinically meaningful CT volumes from text, paving the way for new applications in data augmentation, medical education, and automated clinical simulation. Code at https://github.com/cosbidev/Text2CT.
目标:尽管近期文本调节生成模型的进步已经能够实现逼真的医学图像合成,但进展主要局限于2D模式,如胸部X射线。将文本到图像的生成扩展到体积CT仍然是一个重大挑战,这主要是由于其高维度、解剖结构复杂,以及缺乏能够在3D医学成像中对齐视觉语言数据的稳健框架。方法:我们介绍了一种用于文本到CT生成的新型架构,该架构结合了潜在扩散模型与3D对比视觉语言预训练方案。我们的方法利用在配对CT体积和放射学报告上训练的双重编码器CLIP风格模型,建立一个共享嵌入空间,作为生成的条件输入。CT体积通过预训练的体积VAE压缩到低维潜在空间,实现高效的3D降噪扩散,而无需外部超分辨率阶段。结果:我们在CT-RATE数据集上评估了我们的方法,并对图像保真度、临床相关性和语义对齐进行了全面评估。我们的模型在所有任务上表现有竞争力,特别是在文本到CT生成方面大大超越了先前的基准测试。此外,我们证明了我们框架合成的CT扫描可以有效地增强真实数据,提高下游诊断性能。结论:我们的结果表明,特定模态的视觉语言对齐是高质量3D医学图像生成的关键组成部分。通过集成对比预训练和体积扩散,我们的方法提供了一种可扩展和可控的解决方案,可以根据文本合成具有临床意义的CT体积,为数据增强、医学教育和自动化临床模拟等领域开辟新的应用道路。代码地址:https://github.com/cosbidev/Text2CT。
论文及项目相关链接
摘要
本研究引入了一种新颖的Text-to-CT生成架构,结合了潜在扩散模型与3D对比视觉语言预训练策略。通过训练带有配对CT体积和放射报告的双重编码器CLIP风格模型,建立共享嵌入空间,作为生成的条件输入。CT体积通过预训练的体积VAE压缩到低维潜在空间,实现高效的3D去噪扩散,无需外部超分辨率阶段。在CT-RATE数据集上评估,本方法在图象保真度、临床相关性和语义对齐方面表现出竞争力,显著优于文本到CT生成的先前基线。此外,我们的框架合成的CT扫描可以有效地增加真实数据,提高下游诊断性能。
关键见解
- 本研究实现了文本驱动的三维医学图像生成,突破了先前主要局限于二维模态的挑战。
- 结合潜在扩散模型和3D对比视觉语言预训练方法,构建了新颖的Text-to-CT生成架构。
- 通过建立共享嵌入空间,实现了对视觉语言数据的对齐,这是生成高质量3D医学图像的关键。
- 利用体积VAE将CT体积压缩到低维潜在空间,实现了高效的3D去噪扩散。
- 在CT-RATE数据集上的评估结果具有竞争力,显著优于其他方法。
- 生成的CT扫描可以有效地增加真实数据,提高诊断性能。
- 本研究为数据增强、医学教育和自动化临床模拟等领域开辟了新的应用前景。
点此查看论文截图


MMGeoLM: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
Authors:Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
Large Multimodal Models (LMMs) typically build on ViTs (e.g., CLIP), yet their training with simple random in-batch negatives limits the ability to capture fine-grained visual differences, particularly in geometric scenarios. To address this challenge, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train a vision encoder (CLIP) using our hard negative training method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further conduct ablation studies to analyze three key factors: hard negative types, the efficiency of image-based negatives, and training configurations. These analyses yield important insights into optimizing the training pipeline of vision encoder for fine-grained geometric reasoning tasks. https://github.com/THU-KEG/MMGeoLM.
大型多模态模型(LMMs)通常基于ViTs构建(例如CLIP),但它们使用简单的随机批次内负样本进行训练,这限制了捕捉细微视觉差异的能力,特别是在几何场景中。为了解决这一挑战,我们提出了一种新型的硬负对比学习框架,用于视觉编码器。该框架结合了基于图像对比学习,通过使用通过扰动图生成代码创建的生成型硬负样本,以及基于文本对比学习,使用基于修改后的几何描述生成的规则型负样本和基于检索的负样本(根据标题相似性选择)。我们使用我们的硬负训练方法对视觉编码器(CLIP)进行训练,称为MMCLIP(多模态数学CLIP),然后训练用于解决几何问题的LMM。实验表明,我们训练的MMGeoLM模型在三个几何推理基准测试中大大优于其他开源模型。即使规模达到7B,它也能与强大的闭源模型如GPT-4o相抗衡。我们还进行了消融研究,分析了三种关键因素:硬负样本类型、基于图像的负样本效率和训练配置。这些分析为我们优化视觉编码器在精细几何推理任务上的训练流程提供了重要见解。可在https://github.com/THU-KEG/MMGeoLM了解详情。
论文及项目相关链接
Summary
本文提出了一种新颖的硬负对比学习框架,用于解决大型多模态模型(LMMs)在处理精细几何推理任务时的局限性。该框架结合了基于图像和文本的对比学习,通过扰动图表生成代码创建生成型硬负样本,以及基于修改后的几何描述和基于检索的负样本进行文本对比学习。实验表明,使用此框架训练的模型MMGeoLM在三个几何推理基准测试中表现优异,甚至能与强大的闭源模型如GPT-4o相抗衡。
Key Takeaways
- 大型多模态模型(LMMs)在处理精细几何推理任务时存在局限性,简单随机负样本训练不足以满足需求。
- 提出了一种新的硬负对比学习框架,针对视觉编码器进行优化。
- 框架结合了图像和文本两种模态的对比学习,利用生成型硬负样本和规则、检索型负样本。
- 实验证明,使用此框架训练的MMGeoLM模型在几何推理任务上表现优异。
- MMGeoLM模型即使规模达到7B,也能与强大的闭源模型竞争。
- 进行了消融研究,分析了硬负样本类型、图像负样本效率以及训练配置等关键因素。
- 这些分析为优化视觉编码器在精细几何推理任务中的训练管道提供了重要见解。
点此查看论文截图




