⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-23 更新
GeoDiff: Geometry-Guided Diffusion for Metric Depth Estimation
Authors:Tuan Pham, Thanh-Tung Le, Xiaohui Xie, Stephan Mandt
We introduce a novel framework for metric depth estimation that enhances pretrained diffusion-based monocular depth estimation (DB-MDE) models with stereo vision guidance. While existing DB-MDE methods excel at predicting relative depth, estimating absolute metric depth remains challenging due to scale ambiguities in single-image scenarios. To address this, we reframe depth estimation as an inverse problem, leveraging pretrained latent diffusion models (LDMs) conditioned on RGB images, combined with stereo-based geometric constraints, to learn scale and shift for accurate depth recovery. Our training-free solution seamlessly integrates into existing DB-MDE frameworks and generalizes across indoor, outdoor, and complex environments. Extensive experiments demonstrate that our approach matches or surpasses state-of-the-art methods, particularly in challenging scenarios involving translucent and specular surfaces, all without requiring retraining.
我们引入了一种用于度量深度估计的新型框架,该框架使用立体视觉指导增强基于预训练扩散的单眼深度估计(DB-MDE)模型。虽然现有的DB-MDE方法在预测相对深度方面表现出色,但由于单图像场景中的尺度模糊,估计绝对度量深度仍然具有挑战性。为了解决这一问题,我们将深度估计重新构建为一个逆向问题,利用以RGB图像为条件的预训练潜在扩散模型(LDM),结合基于立体的几何约束,学习尺度和偏移,以准确恢复深度。我们的免训练解决方案无缝集成到现有的DB-MDE框架中,并在室内、室外和复杂环境中通用。大量实验表明,我们的方法达到了或超越了最先进的方法,特别是在涉及透明和镜面表面的挑战场景中,且无需重新训练。
论文及项目相关链接
PDF Accepted to ICCV Findings 2025. The first two authors contributed equally. The last two authors share co-corresponding authorship
Summary
基于扩散模型的新框架通过结合立体视觉指导增强了对单眼深度估计模型的训练,针对基于深度图像的恢复问题提出了解决方案。现有方法主要预测相对深度,而绝对深度估计仍面临挑战,原因在于单图像场景中的尺度模糊问题。该研究将深度估计重新定义为逆问题,利用基于RGB图像的预训练潜在扩散模型结合立体几何约束来学习尺度和偏移量,以实现准确深度恢复。该研究提出的无训练解决方案无缝集成现有框架,并在室内、室外和复杂环境中表现出色。实验表明,该研究的方法在具有挑战性的透明和镜面表面场景中与最新技术方法相比具有相当或更好的性能,并且无需重新训练。
Key Takeaways
- 研究引入了结合立体视觉指导的新型扩散模型框架,针对单眼深度估计进行增强训练。
- 提出将深度估计视为逆问题的解决方案。
- 利用预训练的潜在扩散模型并结合立体几何约束,用于学习尺度和偏移量,以实现准确的深度恢复。
- 方法在室内、室外和复杂环境中表现出色,特别是在处理具有挑战性的场景如透明和镜面表面时效果显著。
- 方法无需额外训练,与现有框架无缝集成。
- 实验结果显示该研究的方法与最新技术相当或更好。
点此查看论文截图
Regression is all you need for medical image translation
Authors:Sebastian Rassmann, David Kügler, Christian Ewert, Martin Reuter
While Generative Adversarial Nets (GANs) and Diffusion Models (DMs) have achieved impressive results in natural image synthesis, their core strengths - creativity and realism - can be detrimental in medical applications, where accuracy and fidelity are paramount. These models instead risk introducing hallucinations and replication of unwanted acquisition noise. Here, we propose YODA (You Only Denoise once - or Average), a 2.5D diffusion-based framework for medical image translation (MIT). Consistent with DM theory, we find that conventional diffusion sampling stochastically replicates noise. To mitigate this, we draw and average multiple samples, akin to physical signal averaging. As this effectively approximates the DM’s expected value, we term this Expectation-Approximation (ExpA) sampling. We additionally propose regression sampling YODA, which retains the initial DM prediction and omits iterative refinement to produce noise-free images in a single step. Across five diverse multi-modal datasets - including multi-contrast brain MRI and pelvic MRI-CT - we demonstrate that regression sampling is not only substantially more efficient but also matches or exceeds image quality of full diffusion sampling even with ExpA. Our results reveal that iterative refinement solely enhances perceptual realism without benefiting information translation, which we confirm in relevant downstream tasks. YODA outperforms eight state-of-the-art DMs and GANs and challenges the presumed superiority of DMs and GANs over computationally cheap regression models for high-quality MIT. Furthermore, we show that YODA-translated images are interchangeable with, or even superior to, physical acquisitions for several medical applications.
虽然生成对抗网络(GANs)和扩散模型(DMs)在自然图像合成方面取得了令人印象深刻的结果,但它们在医学应用中的核心优势——创造性和逼真性——可能是有害的,因为准确性和保真性在医学应用中至关重要。这些模型反而可能引入幻觉和复制不需要的采集噪声。在这里,我们提出YODA(You Only Denoise once - or Average,意为“你只去噪一次或平均”),这是一个基于扩散的医学图像翻译(MIT)的2.5D框架。符合DM理论,我们发现传统的扩散采样会随机复制噪声。为了缓解这个问题,我们绘制并平均多个样本,类似于物理信号平均。由于这有效地近似了DM的期望值,我们将这种采样称为期望值近似(ExpA)采样。此外,我们提出了回归采样YODA,它保留了初始的DM预测值,并省略了迭代细化,以单步生成无噪声图像。在五个多样化的多模式数据集上——包括多对比度脑部MRI和盆腔MRI-CT——我们证明回归采样不仅效率更高,而且即使使用ExpA,其图像质量也与全扩散采样相匹配或更高。我们的结果表明,迭代细化只是提高了感知的真实性,而对信息翻译没有帮助,这一点在我们相关的下游任务中也得到了证实。YODA的表现优于八种最先进的DMs和GANs,并对DMs和GANs在计算成本较低的回归模型上进行高质量MIT的假定优越性提出了挑战。此外,我们还表明YODA翻译的图像可以与物理采集互换,甚至在某些医学应用中表现更好。
论文及项目相关链接
摘要
本文介绍了在自然图像合成中表现优异的生成对抗网络(GANs)和扩散模型(DMs),在医学图像翻译(MIT)中可能存在的问题。其强大的创造力和现实感在医学应用中可能产生负面影响,如引入幻觉和复制不需要的采集噪声。为此,本文提出了一种基于2.5D扩散的医学图像翻译框架YODA(You Only Denoise once - or Average)。通过抽取并平均多个样本,实现了期望近似(ExpA)采样,提高了图像质量并减少了噪声。同时,本文提出了回归采样YODA,它保留初始DM预测,省略迭代优化,一步生成无噪声图像。在五个不同的多模态数据集上,包括多对比度脑部MRI和盆腔MRI-CT,实验证明回归采样的YODA不仅效率更高,而且图像质量与全扩散采样相媲美甚至更优。研究表明,迭代优化仅提高了感知真实性,对信息翻译并无益处。YODA在医学图像翻译方面的表现优于八种最新的DMs和GANs,挑战了DMs和GANs在计算成本较低的回归模型上的优越性。此外,YODA翻译的图像的实用性可与物理采集互换,甚至在某些医学应用中表现更佳。
要点
- YODA框架是基于2.5D扩散的医学图像翻译框架,旨在解决GANs和DMs在医学应用中可能产生的幻觉和噪声问题。
- 提出期望近似(ExpA)采样方法,通过抽取并平均多个样本以提高图像质量和减少噪声。
- 回归采样YODA方法能够在无需迭代优化的条件下生成无噪声图像,提高了效率。
- 在多个数据集上的实验证明YODA在医学图像翻译方面的表现优于最新的DMs和GANs。
- 研究发现迭代优化对信息翻译并无直接益处,主要提高感知真实性。
- YODA翻译的图像的实用性可与物理采集互换,甚至在某些医学应用中表现更佳。
点此查看论文截图
View Transformation Robustness for Multi-View 3D Object Reconstruction with Reconstruction Error-Guided View Selection
Authors:Qi Zhang, Zhouhang Luo, Tao Yu, Hui Huang
View transformation robustness (VTR) is critical for deep-learning-based multi-view 3D object reconstruction models, which indicates the methods’ stability under inputs with various view transformations. However, existing research seldom focused on view transformation robustness in multi-view 3D object reconstruction. One direct way to improve the models’ VTR is to produce data with more view transformations and add them to model training. Recent progress on large vision models, particularly Stable Diffusion models, has provided great potential for generating 3D models or synthesizing novel view images with only a single image input. Directly deploying these models at inference consumes heavy computation resources and their robustness to view transformations is not guaranteed either. To fully utilize the power of Stable Diffusion models without extra inference computation burdens, we propose to generate novel views with Stable Diffusion models for better view transformation robustness. Instead of synthesizing random views, we propose a reconstruction error-guided view selection method, which considers the reconstruction errors’ spatial distribution of the 3D predictions and chooses the views that could cover the reconstruction errors as much as possible. The methods are trained and tested on sets with large view transformations to validate the 3D reconstruction models’ robustness to view transformations. Extensive experiments demonstrate that the proposed method can outperform state-of-the-art 3D reconstruction methods and other view transformation robustness comparison methods. Code is available at: https://github.com/zqyq/VTR.
视图变换稳健性(VTR)对于基于深度学习的多视图3D对象重建模型至关重要,它反映了方法在处理具有各种视图变换的输入时的稳定性。然而,现有的研究很少关注多视图3D对象重建中的视图变换稳健性。提高模型的VTR的一种直接方法是生成更多具有视图变换的数据并将其添加到模型训练中。最近的大型视觉模型的进展,特别是Stable Diffusion模型,为仅使用单张图像输入生成3D模型或合成新型视图图像提供了巨大潜力。直接在推理阶段部署这些模型会消耗大量的计算资源,而且它们对视图变换的稳健性也无法保证。为了充分利用Stable Diffusion模型的潜力,而无需额外的推理计算负担,我们提出使用Stable Diffusion模型生成新型视图,以提高视图变换的稳健性。我们不是合成随机视图,而是提出了一种重建误差引导下的视图选择方法,该方法考虑了3D预测重建误差的空间分布,并选择了能够尽可能覆盖重建误差的视图。这些方法是在具有大视图变换的集合上进行训练和测试的,以验证3D重建模型对视图变换的稳健性。大量实验表明,所提出的方法能够超越最先进的3D重建方法和其他视图变换稳健性对比方法。代码可用:https://github.com/zqyq
论文及项目相关链接
PDF AAAI 25
Summary
深度学习的多视角3D对象重建模型需要关注视图变换鲁棒性(VTR)。为提高模型的VTR,一种方法是生成更多视角变换的数据并用于模型训练。Stable Diffusion模型在生成3D模型或合成新视角图像方面具有潜力,但其计算资源消耗大,且对视角变换的鲁棒性无法保证。为此,我们提出利用Stable Diffusion模型生成新视角图像以提高VTR,并提出一种基于重建误差的视角选择方法。该方法考虑3D预测重建误差的空间分布,选择能够覆盖最多重建误差的视角。实验证明,该方法在大型视角变换测试集上表现优异,优于其他3D重建方法和视角变换鲁棒性对比方法。
Key Takeaways
- 视图变换鲁棒性(VTR)对基于深度学习的多视角3D对象重建模型至关重要。
- 现有研究较少关注多视角3D对象重建的VTR。
- 一种提高模型VTR的直接方法是生成更多视角变换的数据并用于模型训练。
- Stable Diffusion模型在生成3D模型和合成新视角图像方面具有潜力,但计算资源消耗大,且对视角变换的鲁棒性不确定。
- 提出利用Stable Diffusion模型生成新视角图像以提高VTR的方法。
- 提出一种基于重建误差的视角选择方法,该方法考虑3D预测重建误差的空间分布。
- 该方法在大型视角变换测试集上的表现优于其他3D重建方法和视角变换鲁棒性对比方法。
点此查看论文截图
Eye-for-an-eye: Appearance Transfer with Semantic Correspondence in Diffusion Models
Authors:Sooyeon Go, Kyungmook Choi, Minjung Shin, Youngjung Uh
As pre-trained text-to-image diffusion models have become a useful tool for image synthesis, people want to specify the results in various ways. This paper tackles training-free appearance transfer, which produces an image with the structure of a target image from the appearance of a reference image. Existing methods usually do not reflect semantic correspondence, as they rely on query-key similarity within the self-attention layer to establish correspondences between images. To this end, we propose explicitly rearranging the features according to the dense semantic correspondences. Extensive experiments show the superiority of our method in various aspects: preserving the structure of the target and reflecting the correct color from the reference, even when the two images are not aligned.
随着预训练的文本到图像扩散模型成为图像合成的有用工具,人们希望能够以各种方式指定结果。本文解决无训练外观转移问题,它利用参考图像的外观生成具有目标图像结构的图像。现有方法通常不反映语义对应关系,因为它们依赖于自注意力层内的查询-键相似性来建立图像之间的对应关系。为此,我们提出根据密集的语义对应关系重新排列特征。大量实验表明,我们的方法在各个方面都具有优越性:能够保留目标的结构并从参考图像反映正确的颜色,即使两个图像未对齐。
论文及项目相关链接
PDF project page : https://sooyeon-go.github.io/eye_for_an_eye/
Summary
本文介绍了一种无需训练的外观转移方法,该方法可以利用目标图像的结构和参考图像的外观来生成图像。通过显式地根据密集语义对应关系重新排列特征,实现了不同图像间的有效映射,且能很好地保留目标图像的结构并从参考图像反映正确的颜色,即使两个图像未对齐也能实现这一效果。
Key Takeaways
- 介绍了预训练文本到图像扩散模型在图像合成方面的应用。
- 提出了一种无需训练的外观转移方法,利用目标图像的结构和参考图像的外观生成图像。
- 通过显式地根据密集语义对应关系重新排列特征来实现图像间的映射。
- 方法能够在不同程度上保留目标图像的结构并从参考图像反映正确的颜色。
- 该方法在处理两个未对齐的图像时也能取得良好效果。
- 现有方法通常不反映语义对应关系,而新方法通过自我注意层中的查询键相似性建立图像之间的对应关系。
点此查看论文截图