⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-23 更新
RayPose: Ray Bundling Diffusion for Template Views in Unseen 6D Object Pose Estimation
Authors:Junwen Huang, Shishir Reddy Vutukur, Peter KT Yu, Nassir Navab, Slobodan Ilic, Benjamin Busam
Typical template-based object pose pipelines estimate the pose by retrieving the closest matching template and aligning it with the observed image. However, failure to retrieve the correct template often leads to inaccurate pose predictions. To address this, we reformulate template-based object pose estimation as a ray alignment problem, where the viewing directions from multiple posed template images are learned to align with a non-posed query image. Inspired by recent progress in diffusion-based camera pose estimation, we embed this formulation into a diffusion transformer architecture that aligns a query image with a set of posed templates. We reparameterize object rotation using object-centered camera rays and model object translation by extending scale-invariant translation estimation to dense translation offsets. Our model leverages geometric priors from the templates to guide accurate query pose inference. A coarse-to-fine training strategy based on narrowed template sampling improves performance without modifying the network architecture. Extensive experiments across multiple benchmark datasets show competitive results of our method compared to state-of-the-art approaches in unseen object pose estimation.
典型的模板基对象姿态管道通过检索最接近匹配的模板并与观察到的图像对齐来估计姿态。然而,未能检索到正确的模板往往会导致姿态预测不准确。为解决这一问题,我们将基于模板的对象姿态估计重新表述为射线对齐问题,其中学习从多个姿态模板图像的观看方向与无姿态查询图像对齐。受基于扩散的相机姿态估计最新进展的启发,我们将这种表述嵌入到扩散变压器架构中,该架构将查询图像与一组姿态模板对齐。我们使用以对象为中心的相机射线重新参数化对象旋转,并通过扩展尺度不变平移估计来建模对象平移。我们的模型利用模板的几何先验来引导准确的查询姿态推理。基于细化模板采样的粗到细训练策略提高了性能,而无需修改网络架构。在多个基准数据集上的广泛实验表明,我们的方法与未见对象姿态估计的最先进方法相比具有竞争力的结果。
论文及项目相关链接
Summary
基于模板的对象姿态估计常通过检索最接近的模板并与观察图像对齐来进行姿态预测。然而,未能检索到正确模板往往导致姿态预测不准确。为解决此问题,我们重新制定基于模板的对象姿态估计为射线对齐问题,学习从多个定位模板的观看方向与无定位查询图像对齐。受基于扩散的相机姿态估计研究的启发,我们将此公式嵌入扩散变压器架构中,使查询图像与一组定位模板对齐。我们使用以对象为中心的相机射线重新参数化对象旋转,并通过扩展尺度不变平移估计来建模对象平移。我们的模型利用模板的几何先验知识来指导准确的查询姿态推断。基于缩小模板采样的由粗到细的训练策略在不修改网络架构的情况下提高了性能。在多个基准数据集上的广泛实验表明,我们的方法在未见对象姿态估计方面与最先进的方法相比具有竞争力。
Key Takeaways
- 模板匹配在对象姿态估计中的重要性及其面临的挑战。
- 提出的将模板基对象姿态估计重新定义为射线对齐问题的新方法。
- 利用扩散变压器架构实现查询图像与定位模板的对齐。
- 通过以对象为中心的相机射线重新参数化对象旋转。
- 利用模板的几何先验信息来优化姿态预测。
- 采用由粗到细的训练策略提高性能。
- 在多个基准数据集上的实验结果展示了该方法的有效性。
点此查看论文截图
Regression is all you need for medical image translation
Authors:Sebastian Rassmann, David Kügler, Christian Ewert, Martin Reuter
While Generative Adversarial Nets (GANs) and Diffusion Models (DMs) have achieved impressive results in natural image synthesis, their core strengths - creativity and realism - can be detrimental in medical applications, where accuracy and fidelity are paramount. These models instead risk introducing hallucinations and replication of unwanted acquisition noise. Here, we propose YODA (You Only Denoise once - or Average), a 2.5D diffusion-based framework for medical image translation (MIT). Consistent with DM theory, we find that conventional diffusion sampling stochastically replicates noise. To mitigate this, we draw and average multiple samples, akin to physical signal averaging. As this effectively approximates the DM’s expected value, we term this Expectation-Approximation (ExpA) sampling. We additionally propose regression sampling YODA, which retains the initial DM prediction and omits iterative refinement to produce noise-free images in a single step. Across five diverse multi-modal datasets - including multi-contrast brain MRI and pelvic MRI-CT - we demonstrate that regression sampling is not only substantially more efficient but also matches or exceeds image quality of full diffusion sampling even with ExpA. Our results reveal that iterative refinement solely enhances perceptual realism without benefiting information translation, which we confirm in relevant downstream tasks. YODA outperforms eight state-of-the-art DMs and GANs and challenges the presumed superiority of DMs and GANs over computationally cheap regression models for high-quality MIT. Furthermore, we show that YODA-translated images are interchangeable with, or even superior to, physical acquisitions for several medical applications.
虽然生成对抗网络(GANs)和扩散模型(DMs)在自然图像合成方面取得了令人印象深刻的结果,但它们在医疗应用中的核心优势——创造性和现实感——可能带来负面影响,因为准确性和保真度是医疗应用中的首要考量。这些模型反而可能引入幻觉和复制不希望的获取噪声。在这里,我们提出了YODA(You Only Denoise once - or Average),这是一个基于扩散的2.5D医疗图像翻译(MIT)框架。符合DM理论,我们发现传统的扩散采样会随机复制噪声。为了缓解这一问题,我们绘制并平均多个样本,类似于物理信号平均。由于这有效地逼近DM的期望值,我们将其称为期望近似(ExpA)采样。我们还提出了回归采样YODA,它保留了初始DM预测值,并省略了迭代优化,以单步生成无噪声图像。在五个多样化的多模态数据集上——包括多对比度脑部MRI和盆腔MRI-CT——我们证明了回归采样不仅大大提高了效率,而且即使使用ExpA,其图像质量也能匹配或超过完全扩散采样。我们的结果表明,迭代优化仅仅提高了感知的真实性,而不利于信息翻译,这在相关的下游任务中得到了证实。YODA优于八种最先进的DMs和GANs,并挑战了DMs和GANs在高质量MIT方面相较于廉价回归模型的公认优势。此外,我们还表明,YODA翻译的图像可与实物采集互换,甚至在某些医疗应用中表现更佳。
论文及项目相关链接
Summary
本文提出YODA(You Only Denoise once - or Average),一个用于医学图像翻译(MIT)的2.5D扩散框架。文章通过扩散模型理论指出传统扩散采样会随机复制噪声,为此提出期望近似(ExpA)采样,通过多次抽样并求平均值来减少噪声。同时,文章引入回归采样YODA,保留初始DM预测并省略迭代优化,以一步生成无噪声图像。在五个不同模态的数据集上,文章证明回归采样不仅效率更高,而且图像质量至少与全扩散采样相当。此外,研究揭示迭代优化只提高感知现实性,而不利于信息翻译。YODA的性能超越八种最先进的DMs和GANs,并对计算成本低廉的回归模型进行高质量MIT提出挑战。最终,YODA翻译的图像在多种医学应用中可替代或优于真实采集的图像。
Key Takeaways
- GANs和DMs在自然图像合成上表现卓越,但在医学应用中可能引入幻觉和复制不需要的采集噪声。
- 提出YODA(You Only Denoise once - or Average)框架,采用扩散模型理论进行医学图像翻译。
- ExpA采样方法通过多次抽样并求平均值来减少噪声。
- 引入回归采样YODA,无需迭代优化即可生成无噪声图像。
- 在多个数据集上验证YODA性能超越其他模型。
- 研究表明迭代优化主要提高感知现实性,对信息翻译帮助有限。
点此查看论文截图