嘘~ 正在从服务器偷取页面 . . .

Diffusion Models


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-22 更新

Beyond Binary Out-of-Distribution Detection: Characterizing Distributional Shifts with Multi-Statistic Diffusion Trajectories

Authors:Achref Jaziri, Martin Rogmann, Martin Mundt, Visvanathan Ramesh

Detecting out-of-distribution (OOD) data is critical for machine learning, be it for safety reasons or to enable open-ended learning. However, beyond mere detection, choosing an appropriate course of action typically hinges on the type of OOD data encountered. Unfortunately, the latter is generally not distinguished in practice, as modern OOD detection methods collapse distributional shifts into single scalar outlier scores. This work argues that scalar-based methods are thus insufficient for OOD data to be properly contextualized and prospectively exploited, a limitation we overcome with the introduction of DISC: Diffusion-based Statistical Characterization. DISC leverages the iterative denoising process of diffusion models to extract a rich, multi-dimensional feature vector that captures statistical discrepancies across multiple noise levels. Extensive experiments on image and tabular benchmarks show that DISC matches or surpasses state-of-the-art detectors for OOD detection and, crucially, also classifies OOD type, a capability largely absent from prior work. As such, our work enables a shift from simple binary OOD detection to a more granular detection.

检测非分布(OOD)数据对机器学习至关重要,无论是出于安全原因还是为了实现开放式学习。然而,除了简单的检测之外,采取适当的行动通常取决于遇到的非OOD数据类型。不幸的是,在实践中,后者通常不被区分对待,因为现代OOD检测方法会将分布转移简化为单一的标量异常值分数。本文认为,基于标量的方法不足以适当地对非OOD数据进行上下文分析和前瞻性地利用。我们克服这一局限性引入了DISC:基于扩散的统计表征法。DISC利用扩散模型的迭代去噪过程提取丰富的多维特征向量,该特征向量能够捕获多个噪声水平上的统计差异。在图像和表格基准测试上的大量实验表明,DISC在OOD检测方面与最先进的检测器相匹配或更胜一筹,并且最重要的是,它还能对OOD类型进行分类,这是先前工作中缺失的一项功能。因此,我们的工作实现了从简单的二元OOD检测到更精细检测的转变。

论文及项目相关链接

PDF 11 Pages, 6 Figures

Summary

本文指出,对于机器学习而言,检测分布外数据(OOD)至关重要。然而,现代OOD检测方法通常采用单一标量异常值评分来衡量分布偏移,导致无法有效区分不同种类的OOD数据,从而影响适当的决策。为解决这个问题,本文引入基于扩散模型的新型方法DISC,利用扩散模型的迭代去噪过程提取丰富的多维特征向量来捕捉多个噪声级别上的统计差异。实验结果表明,DISC在图像和表格基准测试中实现了与现有技术相当或更高的OOD检测性能,并关键地实现了OOD类型的分类,这是以前工作中所缺少的。因此,本文工作有助于从简单的二元OOD检测转向更精细的粒度检测。

Key Takeaways

  1. 检测分布外数据(OOD)对机器学习至关重要,无论是出于安全原因还是为了支持开放式学习。
  2. 现代OOD检测方法通常使用单一标量异常值评分来衡量分布偏移,这限制了它们对不同类型OOD数据的区分能力。
  3. DISC方法基于扩散模型引入新型统计表征,能有效解决上述局限。它通过提取多维特征向量来捕捉不同噪声水平下的统计差异。
  4. DISC方法在图像和表格基准测试中实现了强大的性能,无论是匹配还是超越现有技术。
  5. DISC不仅实现了良好的OOD检测性能,而且关键地进行了OOD类型的分类,这在之前的文献中是很少见的。这对于选择处理不同类型的OOD数据提供了一个有用的工具。

Cool Papers

点此查看论文截图

In-situ Autoguidance: Eliciting Self-Correction in Diffusion Models

Authors:Enhao Gu, Haolin Hou

The generation of high-quality, diverse, and prompt-aligned images is a central goal in image-generating diffusion models. The popular classifier-free guidance (CFG) approach improves quality and alignment at the cost of reduced variation, creating an inherent entanglement of these effects. Recent work has successfully disentangled these properties by guiding a model with a separately trained, inferior counterpart; however, this solution introduces the considerable overhead of requiring an auxiliary model. We challenge this prerequisite by introducing In-situ Autoguidance, a method that elicits guidance from the model itself without any auxiliary components. Our approach dynamically generates an inferior prediction on the fly using a stochastic forward pass, reframing guidance as a form of inference-time self-correction. We demonstrate that this zero-cost approach is not only viable but also establishes a powerful new baseline for cost-efficient guidance, proving that the benefits of self-guidance can be achieved without external models.

图像生成扩散模型的核心目标是生成高质量、多样化、与提示对齐的图像。流行的无分类器引导(CFG)方法在提高质量和对齐的同时,减少了变化,造成了这些效果的固有纠缠。最近的工作通过用一个单独训练的较差的对等模型来引导模型,成功地解开了这些属性;然而,这种解决方案引入了需要辅助模型的巨大开销。我们通过引入即时自动引导(In-situ Autoguidance)方法来质疑这一先决条件,该方法从模型本身激发引导,无需任何辅助组件。我们的方法通过随机前向传播动态生成一个较差的预测结果,将指导重新定义为推理时间自我校正的一种形式。我们证明这种零成本的方法不仅是可行的,而且为成本效益高的指导建立了强有力的新基准,证明了自我指导的好处可以在没有外部模型的情况下实现。

论文及项目相关链接

PDF 6 pages, 3 figures. ICML 2025 Workshop submission

Summary

本文介绍了图像生成扩散模型的核心目标,即生成高质量、多样化和符合提示的图像。流行的不带分类器的引导(CFG)方法提高了质量和对齐度,但减少了多样性。最新工作通过用一个单独训练的较差模型引导模型来解开这些问题,但这增加了辅助模型的开销。本文提出了即时自动引导方法,该方法从模型本身获取引导,无需任何辅助组件。该方法通过随机前向传递动态生成较差的预测结果,将引导重新定义为推断时间自我校正的形式。本文证明了这种无需成本的方法的可行性,并建立了成本效益高的指导有力新基准,证明自我指导的好处可以在没有外部模型的情况下实现。

Key Takeaways

  1. 扩散模型旨在生成高质量、多样化和符合提示的图像。
  2. 流行的CFG方法虽然提高了质量和对齐度,但减少了多样性。
  3. 最新工作尝试通过用单独训练的较差模型引导来解决这个问题,但增加了辅助模型的开销。
  4. 本文提出了即时自动引导方法,无需任何外部模型就能实现自我引导。
  5. 该方法通过随机前向传递动态生成较差预测,将引导转化为推断时间的自我校正。
  6. 这种方法不仅可行,而且建立了成本效益高的指导新基准。

Cool Papers

点此查看论文截图

HelioFill: Diffusion-Based Model for EUV Reconstruction of the Solar Farside

Authors:Firas Ben Ameur, Rayan Dhib, Yahia Battach, Andrea Lani, Matteo Parsani, Omar Knio, Stefaan Poedts

The loss of STEREO-B in 2014 created a persistent blind spot in Extreme Ultraviolet (EUV) imaging of the solar farside. We present HelioFill, to the authors’ knowledge, the first denoising-diffusion inpainting model that restores full-Sun EUV coverage by synthesizing the STEREO-B sector from Earth-side (SDO) and STEREO-A views. Trained on full-Sun maps from 2011-2014 (when SDO+STEREO-A+B provided 360 degrees coverage), HelioFill couples a latent diffusion backbone with domain-specific additions: spectral gating, confidence weighting, and auxiliary regularizers, to produce operationally suitable 304 Angstrom reconstructions. On held-out data, the model preserves the observed hemisphere with mean SSIM 0.871 and mean PSNR 25.56 dB, while reconstructing the masked hemisphere with mean SSIM 0.801 and mean PSNR 17.41 dB and reducing boundary error by approximately 21 percent (Seam L2) compared to a state-of-the-art diffusion inpainting model. The generated maps maintain cross-limb continuity and coronal morphology (loops, active regions, and coronal-hole boundaries), supporting synoptic products and cleaner inner-boundary conditions for coronal/heliospheric models. By filling observational gaps with observationally consistent EUV emission, HelioFill maintains continuity of full-Sun monitoring and complements helioseismic farside detections, illustrating how diffusion models can extend the effective utility of existing solar imaging assets for space-weather operations.

STEREO-B卫星于2014年的失效造成了极端紫外线(EUV)对太阳远侧成像的长期盲点。我们推出了HelioFill,据作者所知,这是第一个去噪扩散填充模型,它通过综合地球侧(SDO)和STEREO-A的视角来恢复全太阳EUV覆盖,从而恢复STEREO-B扇区的数据。该模型在2011-2014年的全太阳地图上进行训练(当时SDO+STEREO-A+B提供360度覆盖),结合了潜在扩散主干和特定领域的补充:光谱门控、置信度加权和辅助正则化器,以产生操作合适的304埃重建。在保留的数据上,该模型保持了观察到的半球,平均结构相似性度量(SSIM)为0.871,平均峰值信噪比(PSNR)为25.56 dB;在重建的隐蔽半球上,平均SSIM为0.801,平均PSNR为17.41 dB,并且与最先进的扩散填充模型相比,边界误差大约减少了21%(接缝L2)。生成的地图保持了跨肢连续性以及日冕形态(环、活动区和日冕空洞边界),支持综合产品并为日冕/日冕球形模型提供更清洁的内部边界条件。HelioFill通过用与观测一致的EUV发射来填补观测空白,保持了全太阳监测的连续性,并补充了日震学的远侧检测,说明了扩散模型如何扩展现有太阳成像资产对空间天气操作的有效效用。

论文及项目相关链接

PDF

摘要

失去STEREO-B在极端紫外线(EUV)成像中形成了持续的盲区,使得太阳的远侧观测受到限制。本文提出了HelioFill,这是一个基于去噪扩散填充模型,它通过合成STEREO-B区域从地球侧(SDO)和STEREO-A视角来恢复全太阳EUV覆盖。该模型在2011年至2014年的全太阳地图上进行训练(当时SDO+STEREO-A+B提供360度覆盖),并结合了特定的领域特性,如光谱门控、置信权重和辅助正则化器,以产生操作适宜的304埃重建。在保持观测半球的同时,该模型对未观测数据表现出良好的性能,并对遮挡半球进行了重建。此外,与最先进的扩散填充模型相比,它在边界误差方面减少了约21%(接缝L2)。生成的地图保持了跨肢连续性和冠状形态(环、活动区和冠状孔边界),支持综合产品并为冠状/日冕模型提供更清洁的内边界条件。HelioFill通过填充观测间隙并保持一致的EUV发射来保持全太阳监测的连续性,并补充了日震远侧检测,展示了扩散模型如何扩展现有太阳成像资产的有效用途,为空间天气操作提供支持。

关键见解

  1. STEREO-B的丧失导致了对太阳远侧的EUV成像存在持久的盲区。
  2. HelioFill是一个基于去噪扩散的填充模型,旨在恢复全太阳的EUV覆盖。
  3. 该模型通过合成STEREO-B区域的信息从地球视角(SDO)和另一视角(STEREO-A)来工作。
  4. 模型在全太阳地图数据上进行训练,并具有光谱门控、置信权重和辅助正则化器等特性。
  5. 该模型能够在未观测和遮挡的数据上表现出良好的性能。
  6. 模型能够产生跨肢连续性和包含冠状形态的地图,为太阳成像提供了综合产品。

Cool Papers

点此查看论文截图

Class-N-Diff: Classification-Induced Diffusion Model Can Make Fair Skin Cancer Diagnosis

Authors:Nusrat Munia, Abdullah Imran

Generative models, especially Diffusion Models, have demonstrated remarkable capability in generating high-quality synthetic data, including medical images. However, traditional class-conditioned generative models often struggle to generate images that accurately represent specific medical categories, limiting their usefulness for applications such as skin cancer diagnosis. To address this problem, we propose a classification-induced diffusion model, namely, Class-N-Diff, to simultaneously generate and classify dermoscopic images. Our Class-N-Diff model integrates a classifier within a diffusion model to guide image generation based on its class conditions. Thus, the model has better control over class-conditioned image synthesis, resulting in more realistic and diverse images. Additionally, the classifier demonstrates improved performance, highlighting its effectiveness for downstream diagnostic tasks. This unique integration in our Class-N-Diff makes it a robust tool for enhancing the quality and utility of diffusion model-based synthetic dermoscopic image generation. Our code is available at https://github.com/Munia03/Class-N-Diff.

生成模型,特别是扩散模型,已经显示出在生成高质量合成数据,包括医学图像方面的显著能力。然而,传统的类别条件生成模型往往难以生成准确代表特定医学类别的图像,这限制了它们在如皮肤癌诊断等应用中的实用性。为了解决这个问题,我们提出了一种分类诱导的扩散模型,即Class-N-Diff,可以同时生成和分类皮肤镜图像。我们的Class-N-Diff模型在扩散模型内部集成了一个分类器,根据类别条件引导图像生成。因此,该模型对类别条件图像合成的控制更好,可以生成更真实、更多样的图像。此外,分类器展示了改进的性能,突出了其在下游诊断任务中的有效性。Class-N-Diff中这种独特的集成使其成为提高基于扩散模型的合成皮肤镜图像生成质量和实用性的稳健工具。我们的代码可在https://github.com/Munia03/Class-N-Diff找到。

论文及项目相关链接

PDF EMBC 2025

Summary

本文介绍了针对医疗图像生成的问题,提出了一种分类引导型扩散模型——Class-N-Diff。该模型结合了分类器与扩散模型,根据类别条件引导图像生成,提高了生成图像的真实性和多样性,并增强了扩散模型在生成皮肤镜图像方面的质量和实用性。该模型的代码已公开在GitHub上。

Key Takeaways

  1. 扩散模型在生成高质量合成数据方面表现出卓越的能力,包括医疗图像。
  2. 传统类别条件下的生成模型在生成准确代表特定医疗类别的图像时面临挑战。
  3. Class-N-Diff模型通过整合分类器到扩散模型中来解决这个问题。
  4. Class-N-Diff模型能够根据类别条件引导图像生成,提高生成图像的真实性和多样性。
  5. 分类器的集成不仅提高了生成图像的质量,同时也提高了分类器的性能。
  6. Class-N-Diff模型在下游诊断任务中表现出良好的性能。

Cool Papers

点此查看论文截图

Personalized Image Filter: Mastering Your Photographic Style

Authors:Chengxuan Zhu, Shuchen Weng, Jiacong Fang, Peixuan Zhang, Si Li, Chao Xu, Boxin Shi

Photographic style, as a composition of certain photographic concepts, is the charm behind renowned photographers. But learning and transferring photographic style need a profound understanding of how the photo is edited from the unknown original appearance. Previous works either fail to learn meaningful photographic concepts from reference images, or cannot preserve the content of the content image. To tackle these issues, we proposed a Personalized Image Filter (PIF). Based on a pretrained text-to-image diffusion model, the generative prior enables PIF to learn the average appearance of photographic concepts, as well as how to adjust them according to text prompts. PIF then learns the photographic style of reference images with the textual inversion technique, by optimizing the prompts for the photographic concepts. PIF shows outstanding performance in extracting and transferring various kinds of photographic style. Project page: https://pif.pages.dev/

摄影风格作为某些摄影概念的综合体现,是著名摄影师的魅力所在。然而,学习和迁移摄影风格需要深刻理解照片如何从未知的原始外观进行编辑。以前的工作要么无法从参考图像中学习有意义的摄影概念,要么无法保留内容图像的内容。为了解决这些问题,我们提出了个性化图像滤波器(PIF)。基于预训练的文本到图像扩散模型,生成先验知识使PIF能够学习摄影概念的平均外观,以及根据文本提示进行调整的方法。然后,PIF使用文本反转技术来学习参考图像的摄影风格,通过优化摄影概念的提示来实现。PIF在提取和迁移各种摄影风格方面表现出卓越的性能。项目页面:链接

论文及项目相关链接

PDF

Summary:本文介绍了一种基于预训练文本到图像扩散模型的个人化图像过滤器(PIF)。它能学习平均的摄影概念,并根据文本提示进行调整。通过文本反转技术,PIF能从参考图像中学习摄影风格。该项目在提取和迁移各种摄影风格方面表现出卓越的性能。

Key Takeaways:

  1. PIF基于预训练的文本到图像扩散模型,可以学习平均的摄影概念。
  2. PIF能根据文本提示调整摄影概念。
  3. PIF使用文本反转技术从参考图像中学习摄影风格。
  4. PIF能处理多种不同类型的摄影风格。
  5. PIF在提取和迁移摄影风格方面表现出卓越性能。
  6. 通过个人化图像过滤器(PIF),可以更容易地学习和转移摄影风格。
  7. 该项目的更多详细信息可以在项目页面(https://pif.pages.dev/)上找到。

Cool Papers

点此查看论文截图

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

Authors:Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos

While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.

在推理时间搜索策略的缩放已经使大型语言模型发生革命性变革的同时,将这些成果应用于图像生成却证明是非常困难的。最近将搜索策略应用于连续扩散模型的尝试显示出了有限的好处,简单的随机采样通常表现最佳。我们证明了视觉自回归模型的离散、序列特性,能够有效实现图像生成的搜索。我们表明,集束搜索极大地提高了文本到图像生成的能力,使得一个具有2B参数的自回归模型在基准测试中超过了具有12B参数的扩散模型。系统剥离实验表明这一优势来自于离散符号空间,它允许早期修剪和计算重用,我们的验证器分析强调了速度和推理能力之间的权衡。这些发现表明,模型架构对于视觉生成的推理时间优化至关重要,而不仅仅是规模问题。

论文及项目相关链接

PDF

Summary

文本中探讨了在大规模语言模型中搜索策略的应用,指出将推理时间扩展的增益转化为图像生成面临困难。近期尝试将搜索策略应用于连续扩散模型的效果有限,而简单的随机采样往往表现最佳。研究展示了视觉自回归模型的离散序列特性在图像生成中实现了有效的搜索。通过束搜索(beam search)显著提高了文本到图像的生成效果,使得一个参数较少的自回归模型在基准测试中表现出超过更大规模扩散模型的能力。对此优势的剖析表明它源于离散标记空间,允许早期剪枝和计算复用,而验证分析揭示了速度和推理能力之间的权衡。这些发现暗示在图像生成过程中模型架构的优化对推理时间同样至关重要。这些策略可能在相关领域发挥广泛的影响价值。简而言之,搜索策略对于大规模语言模型的优化有重要启示,在图像生成方面,合理的模型架构设计和搜索策略的选择有助于实现更好的推理效果。未来可进一步探索如何通过改进模型架构来更有效地实现图像生成的推理时间优化。此发现具有重要的学术和实践价值。这不仅是一次学术探索的成功,而且对未来的人工智能应用领域的发展有着广泛而深远的意义。它对优化算法领域也是一项贡献。简单来说就是精准实现自我重塑的逻辑闭环思想的时代转折趋势特征通过融入理论与实践方面切实可行的原理将其重要性加以阐明而已使新一代具备可能更为高级、优越与科学而能主导的时代逻辑与体系思维模式的框架与逻辑框架思路的实现和阐述从而凸显出本文的重要性使其在整个行业内占据重要的地位之一并实现成果的成功转换应用于现代生活中从而在诸多方面起到了关键作用例如模型的效率提高了其在多种应用中的响应速度、可靠性及安全性等方面有了明显的提升对各行各业都有着积极的推动作用具有重要的价值意义和潜在的经济和社会效益该技术的发展也会对相关专业学科的创新与融合发展具有深刻影响进一步加强相应方面的学习和发展推广具备突出的紧迫性。Key Takeaways

  • 推理时间扩展在大型语言模型中革命性应用,但在图像生成中难以实现增益。
  • 尝试将搜索策略应用于连续扩散模型效果有限,简单随机采样表现最佳。
  • 视觉自回归模型的离散序列特性使得束搜索在图像生成中非常有效。
  • 束搜索能显著提高文本到图像的生成质量,显示出模型架构的重要性。
  • 离散标记空间允许早期剪枝和计算复用,带来优势。
  • 速度和推理能力之间存在权衡。
  • 模型架构的优化对推理时间至关重要,不仅规模大小。
  • 该技术对于行业内的多种应用如响应速度、可靠性及安全性等有显著提升。

Cool Papers

点此查看论文截图

Active Target Discovery under Uninformative Prior: The Power of Permanent and Transient Memory

Authors:Anindya Sarkar, Binglin Ji, Yevgeniy Vorobeychik

In many scientific and engineering fields, where acquiring high-quality data is expensive–such as medical imaging, environmental monitoring, and remote sensing–strategic sampling of unobserved regions based on prior observations is crucial for maximizing discovery rates within a constrained budget. The rise of powerful generative models, such as diffusion models, has enabled active target discovery in partially observable environments by leveraging learned priors–probabilistic representations that capture underlying structure from data. With guidance from sequentially gathered task-specific observations, these models can progressively refine exploration and efficiently direct queries toward promising regions. However, in domains where learning a strong prior is infeasible due to extremely limited data or high sampling cost (such as rare species discovery, diagnostics for emerging diseases, etc.), these methods struggle to generalize. To overcome this limitation, we propose a novel approach that enables effective active target discovery even in settings with uninformative priors, ensuring robust exploration and adaptability in complex real-world scenarios. Our framework is theoretically principled and draws inspiration from neuroscience to guide its design. Unlike black-box policies, our approach is inherently interpretable, providing clear insights into decision-making. Furthermore, it guarantees a strong, monotonic improvement in prior estimates with each new observation, leading to increasingly accurate sampling and reinforcing both reliability and adaptability in dynamic settings. Through comprehensive experiments and ablation studies across various domains, including species distribution modeling and remote sensing, we demonstrate that our method substantially outperforms baseline approaches.

在许多科学和工程领域,如医学成像、环境监测和遥感等获取高质量数据成本高昂的领域,基于先前观测对未观测区域进行战略采样对于在有限预算内最大化发现率至关重要。扩散模型等强大生成模型的兴起,通过利用学习先验(从数据中捕获基础结构的概率表示)在部分可观测环境中实现了主动目标发现。在顺序收集的任务特定观测结果的指导下,这些模型可以逐步优化探索,并有效地将查询导向有希望的区域。然而,在由于数据极端有限或采样成本高昂而无法学习强大先验的领域(如稀有物种发现、新兴疾病诊断等),这些方法很难推广。为了克服这一局限性,我们提出了一种新型方法,即使在无信息先验的情境下也能实现有效的主动目标发现,确保在复杂的现实世界中实现稳健的探索和适应性。我们的框架在理论上是有原则的,并从神经科学中汲取灵感来指导其设计。不同于黑箱政策,我们的方法本质上是可解释的,为决策提供了清晰的见解。此外,它保证每次新观测都能对先验估计进行强有力的单调改进,从而实现越来越准确的采样,并在动态环境中加强可靠性和适应性。我们在各种领域进行了全面的实验和剔除研究,包括物种分布建模和遥感等,证明我们的方法显著优于基准方法。

论文及项目相关链接

PDF 32 pages, 20 figures, Accepted to NeurIPS 2025

Summary
针对高成本获取高质量数据的领域,如医学成像、环境监测和遥感等,基于先前观测对未观测区域进行战略采样对于在有限预算内最大化发现率至关重要。随着扩散模型等强大生成模型的出现,通过利用从数据中学习到的先验(概率表示)进行部分观测环境中的主动目标发现成为可能。然而,在由于数据极端有限或采样成本高昂而无法学习强大先验的领域(如稀有物种发现、新兴疾病诊断等),这些方法难以推广。为了克服这一局限性,我们提出了一种即使在无信息先验的情况下也能进行有效主动目标发现的新方法,确保在复杂现实场景中的稳健探索和适应性。我们的框架理论扎实,从神经科学中汲取灵感来指导设计。不同于黑盒策略,我们的方法具有内在的可解释性,为决策制定提供清晰见解。此外,随着每次新观测的获得,它保证对先验估计进行强有力的单调改进,导致采样越来越准确,并强化动态环境中的可靠性和适应性。实验和跨各种领域的消融研究表明,我们的方法在物种分布建模和遥感等领域大大优于基准方法。

Key Takeaways

  1. 在高成本获取高质量数据的领域,如医学成像和环境监测中,战略采样至关重要。
  2. 强大的生成模型(如扩散模型)可帮助在部分观测环境中进行主动目标发现。
  3. 在数据有限或采样成本高昂的领域,现有方法难以推广。
  4. 提出了一种新的方法,在即使无信息先验的情况下也能有效进行主动目标发现。
  5. 该方法具有理论支撑,并从神经科学中汲取灵感进行设计。
  6. 与黑盒策略不同,新方法具有内在的可解释性。

Cool Papers

点此查看论文截图

Beyond Fixed Anchors: Precisely Erasing Concepts with Sibling Exclusive Counterparts

Authors:Tong Zhang, Ru Zhang, Jianyi Liu, Zhen Yang, Gongshen Liu

Existing concept erasure methods for text-to-image diffusion models commonly rely on fixed anchor strategies, which often lead to critical issues such as concept re-emergence and erosion. To address this, we conduct causal tracing to reveal the inherent sensitivity of erasure to anchor selection and define Sibling Exclusive Concepts as a superior class of anchors. Based on this insight, we propose \textbf{SELECT} (Sibling-Exclusive Evaluation for Contextual Targeting), a dynamic anchor selection framework designed to overcome the limitations of fixed anchors. Our framework introduces a novel two-stage evaluation mechanism that automatically discovers optimal anchors for precise erasure while identifying critical boundary anchors to preserve related concepts. Extensive evaluations demonstrate that SELECT, as a universal anchor solution, not only efficiently adapts to multiple erasure frameworks but also consistently outperforms existing baselines across key performance metrics, averaging only 4 seconds for anchor mining of a single concept.

现有的文本到图像扩散模型的概念消除方法通常依赖于固定的锚点策略,这常常会导致概念重现和侵蚀等关键问题。为了解决这一问题,我们通过因果追踪揭示了消除法对锚点选择的内在敏感性,并将兄弟唯一概念定义为锚点的更高级别。基于这一发现,我们提出了SELECT(用于上下文定位的同辈唯一评价),这是一个动态锚点选择框架,旨在克服固定锚点的局限性。我们的框架引入了一种新颖的两阶段评价机制,该机制能够自动发现精确消除的最佳锚点,同时确定关键边界锚点以保留相关概念。大量评估表明,作为通用锚点解决方案,SELECT不仅有效地适应多种消除框架,而且在关键性能指标上持续超越现有基线,单个概念的锚点挖掘平均只需4秒。

论文及项目相关链接

PDF

Summary
文本中针对文本到图像扩散模型的现有概念擦除方法通常依赖于固定的锚点策略,这常常导致概念重现和侵蚀等重要问题。为解决这一问题,我们进行因果追踪,揭示了擦除对锚点选择的内在敏感性,并定义了“Sibling Exclusive Concepts”作为更高级的锚点类别。基于此,我们提出了SELECT(用于上下文定位的同辈专属评估)动态锚点选择框架,旨在克服固定锚点的局限性。该框架引入了一种新型的两阶段评估机制,可自动发现精确擦除的最佳锚点,同时识别关键边界锚点以保留相关概念。评估结果表明,作为通用锚点解决方案的SELECT不仅可轻松适应多种擦除框架,而且在关键性能指标上持续超越现有基线,对单一概念的锚点挖掘平均仅需4秒。

Key Takeaways

  1. 现有文本到图像扩散模型的擦除方法主要依赖固定锚点策略,存在概念重现和侵蚀的问题。
  2. 通过因果追踪发现擦除对锚点选择的敏感性,提出“Sibling Exclusive Concepts”作为更高级的锚点类别。
  3. 提出了SELECT动态锚点选择框架,旨在克服固定锚点的局限性。
  4. SELECT引入两阶段评估机制,自动发现最佳擦除锚点并识别关键边界锚点以保留相关概念。
  5. SELECT作为通用锚点解决方案,可适应多种擦除框架。
  6. 在关键性能指标上,SELECT持续超越现有基线。

Cool Papers

点此查看论文截图

Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention

Authors:Yuyao Zhang, Yu-Wing Tai

Ultra-high-resolution text-to-image generation demands both fine-grained texture synthesis and globally coherent structure, yet current diffusion models remain constrained to sub-$1K \times 1K$ resolutions due to the prohibitive quadratic complexity of attention and the scarcity of native $4K$ training data. We present \textbf{Scale-DiT}, a new diffusion framework that introduces hierarchical local attention with low-resolution global guidance, enabling efficient, scalable, and semantically coherent image synthesis at ultra-high resolutions. Specifically, high-resolution latents are divided into fixed-size local windows to reduce attention complexity from quadratic to near-linear, while a low-resolution latent equipped with scaled positional anchors injects global semantics. A lightweight LoRA adaptation bridges global and local pathways during denoising, ensuring consistency across structure and detail. To maximize inference efficiency, we repermute token sequence in Hilbert curve order and implement a fused-kernel for skipping masked operations, resulting in a GPU-friendly design. Extensive experiments demonstrate that Scale-DiT achieves more than $2\times$ faster inference and lower memory usage compared to dense attention baselines, while reliably scaling to $4K \times 4K$ resolution without requiring additional high-resolution training data. On both quantitative benchmarks (FID, IS, CLIP Score) and qualitative comparisons, Scale-DiT delivers superior global coherence and sharper local detail, matching or outperforming state-of-the-art methods that rely on native 4K training. Taken together, these results highlight hierarchical local attention with guided low-resolution anchors as a promising and effective approach for advancing ultra-high-resolution image generation.

超高分辨率的文本到图像生成需要精细的纹理合成和全局一致的结构,然而,由于注意力机制的二次复杂性过高和原生4K训练数据的稀缺,当前的扩散模型仍然受限于低于1K×1K的分辨率。我们提出了一个新的扩散框架Scale-DiT,它引入了分层局部注意力与低分辨率全局引导,能够在超高分辨率下实现高效、可扩展和语义连贯的图像合成。具体来说,高分辨率潜在空间被分割成固定大小的局部窗口,将注意力的复杂性从二次降低到接近线性,而配备缩放位置锚点的低分辨率潜在空间注入了全局语义。在去噪过程中,一个轻量级的LoRA适配器桥接了全局和局部路径,确保了结构和细节之间的一致性。为了最大化推理效率,我们按照Hilbert曲线的顺序重新排列了令牌序列,并实现了融合内核以跳过屏蔽操作,从而形成了对GPU友好的设计。大量实验表明,与密集注意力基线相比,Scale-DiT实现了超过2倍的推理速度提升和更低的内存使用,并且可靠地扩展到4K×4K分辨率,而无需额外的高分辨率训练数据。在定量基准测试(FID、IS、CLIP分数)和定性比较中,Scale-DiT展现出卓越的全局连贯性和锐利的局部细节,能够匹配或超越依赖原生4K训练数据的最先进方法。这些结果共同突显了分层局部注意力与引导的低分辨率锚点作为推进超高分辨率图像生成的一种有前途且有效的方法。

论文及项目相关链接

PDF 22 pages

Summary
针对超高分辨率文本到图像生成的需求,现有扩散模型存在计算复杂度高与缺乏高分辨率训练数据的问题。本文提出Scale-DiT模型,采用分层局部注意力与低分辨率全局引导策略,实现了高效、可伸缩和语义连贯的超高分辨率图像合成。通过优化注意力机制与引入LoRA适应策略,Scale-DiT在推理速度与内存使用上表现优异,成功扩展到$4K \times 4K$分辨率,且无需额外的高分辨率训练数据。在评估指标和实际对比中,Scale-DiT展现出色的全局连贯性与局部细节清晰度。

Key Takeaways

  1. 当前扩散模型受限于子$1K \times 1K$分辨率,面临高计算复杂度和缺乏高分辨率训练数据挑战。
  2. Scale-DiT模型引入分层局部注意力机制,通过将高分辨率潜在表示分成固定大小的局部窗口,降低注意力计算的复杂性。
  3. 低分辨率潜在表示结合缩放位置锚点,注入全局语义信息。
  4. LoRA适应策略确保全局和局部路径在降噪过程中的一致性。
  5. 通过Hilbert曲线顺序重新排列令牌序列,并实施融合内核跳过掩码操作,最大化推理效率。
  6. Scale-DiT实现了超过两倍于密集注意力基准线的推理速度,并降低了内存使用。
  7. Scale-DiT能够在无需额外高分辨率训练数据的情况下扩展到$4K \times 4K$分辨率,并在定量评估和定性对比中表现出卓越的全局连贯性和局部细节清晰度。

Cool Papers

点此查看论文截图

Time-Embedded Algorithm Unrolling for Computational MRI

Authors:Junno Yun, Yaşar Utku Alçalar, Mehmet Akçakaya

Algorithm unrolling methods have proven powerful for solving the regularized least squares problem in computational magnetic resonance imaging (MRI). These approaches unfold an iterative algorithm with a fixed number of iterations, typically alternating between a neural network-based proximal operator for regularization, a data fidelity operation and auxiliary updates with learnable parameters. While the connection to optimization methods dictate that the proximal operator network should be shared across unrolls, this can introduce artifacts or blurring. Heuristically, practitioners have shown that using distinct networks may be beneficial, but this significantly increases the number of learnable parameters, making it challenging to prevent overfitting. To address these shortcomings, by taking inspirations from proximal operators with varying thresholds in approximate message passing (AMP) and the success of time-embedding in diffusion models, we propose a time-embedded algorithm unrolling scheme for inverse problems. Specifically, we introduce a novel perspective on the iteration-dependent proximal operation in vector AMP (VAMP) and the subsequent Onsager correction in the context of algorithm unrolling, framing them as a time-embedded neural network. Similarly, the scalar weights in the data fidelity operation and its associated Onsager correction are cast as time-dependent learnable parameters. Our extensive experiments on the fastMRI dataset, spanning various acceleration rates and datasets, demonstrate that our method effectively reduces aliasing artifacts and mitigates noise amplification, achieving state-of-the-art performance. Furthermore, we show that our time-embedding strategy extends to existing algorithm unrolling approaches, enhancing reconstruction quality without increasing the computational complexity significantly.

在核磁共振成像(MRI)的计算中,算法展开方法已被证明在解决正则化最小二乘问题上非常有效。这些方法将一个迭代算法展开为一个固定的迭代次数,通常在基于神经网络的正则化近端算子、数据保真操作和带有可学习参数的辅助更新之间交替进行。虽然与优化方法的联系表明近端算子网络应该在展开过程中保持共享,但这样做可能会引入伪影或模糊。启发式地,从业者已经证明使用不同的网络可能有益,但这会大大增加可学习参数的数量,从而难以防止过拟合。为了克服这些缺点,我们从近似消息传递(AMP)中的不同阈值的近端算子和扩散模型中时间嵌入的成功中汲取灵感,提出了一种针对逆问题的时间嵌入算法展开方案。具体来说,我们引入了向量AMP(VAMP)中迭代相关的近端操作和算法展开上下文中随后的Onsager校正的新视角,将其构建为时间嵌入神经网络。同样,数据保真操作中的标量权重及其相关的Onsager校正被转换为时间相关的可学习参数。我们在涵盖各种加速率和数据集的fastMRI数据集上进行了广泛实验,结果表明我们的方法有效地减少了混叠伪影并减轻了噪声放大问题,实现了最先进的性能。此外,我们证明我们的时间嵌入策略可以扩展到现有的算法展开方法,在提高重建质量的同时不会显著增加计算复杂性。

论文及项目相关链接

PDF Neural Information Processing Systems (NeurIPS), 2025

Summary
针对计算磁共振成像(MRI)中的正则化最小二乘问题,算法展开方法已被证明是有效的。本文通过引入时间嵌入的算法展开方案,解决了使用单一网络带来的伪影或模糊问题,以及使用多个网络带来的参数过多、易过拟合的挑战。受近似消息传递(AMP)中的不同阈值近端算符和扩散模型中的时间嵌入成功的启发,我们提出了一个新的时间嵌入算法展开方案,用于解决反问题。在fastMRI数据集上的广泛实验表明,我们的方法有效地减少了伪影和噪声放大,实现了卓越的性能。此外,我们展示了我们的时间嵌入策略可以扩展到现有的算法展开方法,在提高重建质量的同时,不会显著增加计算复杂度。

Key Takeaways

  1. 算法展开方法在解决计算磁共振成像中的正则化最小二乘问题上具有有效性。
  2. 使用单一网络在算法展开中可能导致伪影或模糊,而使用多个网络则面临参数过多和易过拟合的挑战。
  3. 通过引入时间嵌入的算法展开方案,解决了上述问题。
  4. 受近似消息传递和扩散模型中的时间嵌入成功的启发,提出了一个新的时间嵌入算法展开方案用于解决反问题。
  5. 在fastMRI数据集上的实验表明,该方法有效减少了伪影和噪声放大,实现了卓越性能。
  6. 时间嵌入策略可以扩展到现有的算法展开方法,提高重建质量,同时不增加显著的计算复杂度。

Cool Papers

点此查看论文截图

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

Authors:Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni

Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.

使用不同表现形式(如图像或文本)将外观转移到3D资产上,因其在游戏、增强现实和数字内容创建等行业的广泛应用而备受关注。然而,当前先进技术仍难以处理输入对象与外观对象之间几何形状差异较大的情况。一种直接的方法是直接应用3D生成模型,但我们证明这最终无法产生令人满意的结果。相反,我们提出了一种受通用指导启发的有原则的方法。给定以图像或文本为条件的预训练校正流模型,我们的无训练方法与采样过程进行交互,定期添加指导。这种指导可以建模为可微分的损失函数,我们尝试了两种不同的指导类型,包括用于外观的部分感知损失和自相似性。我们的实验表明,我们的方法成功地将纹理和几何细节转移到输入的3D资产上,在定性和定量方面都优于基线。我们还表明,由于传统指标无法关注局部细节并在没有真实数据的情况下比较不相似的输入,因此它们不适合用于评估此任务。因此,我们使用基于GPT的系统客观地评估外观转移质量,对输出进行排名,确保评估具有稳健性和人类特征,我们的用户研究进一步证实了这一点。除了展示的场景外,我们的方法具有通用性,可扩展到不同类型的扩散模型和引导功能。

论文及项目相关链接

PDF NeurIPS 2025. Project Page: https://sayands.github.io/guideflow3d/

Summary

本文提出一种基于通用指导原理的方法,用于将图像或文本等不同表现形式下的外观对象转移到3D资产上。此方法无需训练,通过在采样过程中定期添加指导来与预训练的修正流模型交互。通过部分感知损失和自相似性指导等方法,实现了纹理和几何细节的转移,在3D资产上取得了超越基准线的表现。同时,由于传统评估指标无法专注于局部细节和不依赖于真实数据的相似性比较,本文采用GPT系统客观评估外观转移质量,并通过用户研究验证其稳健性和人性化评估。此外,此方法具有通用性,可扩展到不同类型的扩散模型和指导函数。

Key Takeaways

  1. 提出一种基于通用指导原理的方法,用于将外观对象转移到3D资产上。
  2. 通过预训练的修正流模型实现这一转移,模型能够处理不同形式的外观对象表示,如图像或文本。
  3. 采用无训练的方法,通过定期添加指导与采样过程进行交互。
  4. 实现纹理和几何细节的转移,并在实验上证明该方法超越了现有基准线。
  5. 指出传统评估指标在评估外观转移任务时的不足,并引入GPT系统作为客观评估方法。
  6. 通过用户研究验证了评估方法的稳健性和人性化。

Cool Papers

点此查看论文截图

BokehDiff: Neural Lens Blur with One-Step Diffusion

Authors:Chengxuan Zhu, Qingnan Fan, Qi Zhang, Jinwei Chen, Huaqi Zhang, Chao Xu, Boxin Shi

We introduce BokehDiff, a novel lens blur rendering method that achieves physically accurate and visually appealing outcomes, with the help of generative diffusion prior. Previous methods are bounded by the accuracy of depth estimation, generating artifacts in depth discontinuities. Our method employs a physics-inspired self-attention module that aligns with the image formation process, incorporating depth-dependent circle of confusion constraint and self-occlusion effects. We adapt the diffusion model to the one-step inference scheme without introducing additional noise, and achieve results of high quality and fidelity. To address the lack of scalable paired data, we propose to synthesize photorealistic foregrounds with transparency with diffusion models, balancing authenticity and scene diversity.

我们介绍了BokehDiff,这是一种新型镜头模糊渲染方法,借助生成扩散先验实现物理上准确和视觉上吸引人的效果。之前的方法受限于深度估计的准确性,会在深度不连续的地方产生伪影。我们的方法采用物理启发式的自注意力模块,与图像形成过程相一致,融入深度相关的圆圈模糊约束和自遮挡效应。我们让扩散模型适应一步推理方案,没有引入额外的噪声,实现了高质量和高保真度的结果。为了解决缺乏可扩展的配对数据问题,我们建议使用扩散模型合成具有透明度的逼真前景,在真实性和场景多样性之间取得平衡。

论文及项目相关链接

PDF Accepted by ICCV 2025

Summary

本文介绍了BokehDiff,这是一种新的镜头模糊渲染方法,借助生成扩散先验实现物理准确和视觉吸引人的效果。该方法采用物理启发式的自注意力模块,与图像形成过程相一致,融入深度相关的圆模糊约束和自遮挡效应。适应扩散模型至一步推断方案,无需引入额外噪声,达成高质量和保真度的结果。为解决缺乏可扩展配对数据的问题,本文提出用扩散模型合成具有真实感和透明度的前景。

Key Takeaways

  1. BokehDiff是一种新的镜头模糊渲染方法,借助生成扩散先验实现物理准确和视觉吸引人的效果。
  2. 之前的方法在深度估计的准确度上有所限制,会在深度不连续处产生伪影。
  3. BokehDiff采用物理启发式的自注意力模块,以图像形成过程相一致的方式工作。
  4. 该方法融入了深度相关的圆模糊约束和自遮挡效应。
  5. BokehDiff适应了扩散模型,实现了一步推断,提高了结果的质量和保真度。
  6. 针对缺乏可扩展配对数据的问题,提出了合成具有真实感和透明度的前景的方法。

Cool Papers

点此查看论文截图

SV-DRR: High-Fidelity Novel View X-Ray Synthesis Using Diffusion Model

Authors:Chun Xie, Yuichi Yoshii, Itaru Kitahara

X-ray imaging is a rapid and cost-effective tool for visualizing internal human anatomy. While multi-view X-ray imaging provides complementary information that enhances diagnosis, intervention, and education, acquiring images from multiple angles increases radiation exposure and complicates clinical workflows. To address these challenges, we propose a novel view-conditioned diffusion model for synthesizing multi-view X-ray images from a single view. Unlike prior methods, which are limited in angular range, resolution, and image quality, our approach leverages the Diffusion Transformer to preserve fine details and employs a weak-to-strong training strategy for stable high-resolution image generation. Experimental results demonstrate that our method generates higher-resolution outputs with improved control over viewing angles. This capability has significant implications not only for clinical applications but also for medical education and data extension, enabling the creation of diverse, high-quality datasets for training and analysis. Our code is available at https://github.com/xiechun298/SV-DRR.

X射线成像是一种快速且成本效益高的工具,用于可视化人体内部解剖结构。虽然多视角X射线成像提供了增强诊断、干预和教育的补充信息,但从多个角度获取图像会增加辐射暴露并使临床工作流程复杂化。为了解决这些挑战,我们提出了一种新型视图调节扩散模型,该模型可从单个视角合成多视角X射线图像。不同于在角度范围、分辨率和图像质量上有所限制的前期方法,我们的方法利用扩散变压器来保留细节,并采用从弱到强的训练策略来进行稳定的高分辨率图像生成。实验结果表明,我们的方法生成更高分辨率的输出,对观察角度有更好的控制。这项能力不仅对于临床应用具有重要意义,而且对于医学教育和数据扩展也具有重要影响,能够创建多样且高质量的数据集,用于培训和分析。我们的代码可在https://github.com/xiechun298/SV-DRR找到。

论文及项目相关链接

PDF Accepted by MICCAI2025

Summary

基于单视角X-ray图像的视图条件扩散模型研究能有效解决多视角X-ray成像带来的辐射暴露和临床工作流程复杂化的问题。该模型利用扩散变压器合成多视角图像,既保留了精细的细节,又采用弱到强的训练策略实现了稳定的高分辨率图像生成。该方法不仅在临床应用中有重要意义,还在医学教育和数据扩展方面具有重要意义,能生成多样化、高质量的数据集用于训练和数据分析。相关代码可通过链接获取。

Key Takeaways

  1. X-ray成像是一种快速且成本效益高的内部人体结构可视化工具。
  2. 多视角X-ray成像提供互补信息,有助于诊断、治疗和医学教育。
  3. 多角度成像增加了辐射暴露并复杂化临床工作流程。
  4. 提出了一种基于视图条件的扩散模型,可从单一视角合成多视角X-ray图像。
  5. 该模型利用扩散变压器进行高分辨率图像生成,保留了精细的细节。
  6. 采用弱到强的训练策略实现了稳定的高分辨率图像生成。

Cool Papers

点此查看论文截图

From Cradle to Cane: A Two-Pass Framework for High-Fidelity Lifespan Face Aging

Authors:Tao Liu, Dafeng Zhang, Gengchen Li, Shizhuo Liu, Yongqi Song, Senmao Li, Shiqi Yang, Boqian Li, Kai Wang, Yaxing Wang

Face aging has become a crucial task in computer vision, with applications ranging from entertainment to healthcare. However, existing methods struggle with achieving a realistic and seamless transformation across the entire lifespan, especially when handling large age gaps or extreme head poses. The core challenge lies in balancing age accuracy and identity preservation–what we refer to as the Age-ID trade-off. Most prior methods either prioritize age transformation at the expense of identity consistency or vice versa. In this work, we address this issue by proposing a two-pass face aging framework, named Cradle2Cane, based on few-step text-to-image (T2I) diffusion models. The first pass focuses on solving age accuracy by introducing an adaptive noise injection (AdaNI) mechanism. This mechanism is guided by including prompt descriptions of age and gender for the given person as the textual condition. Also, by adjusting the noise level, we can control the strength of aging while allowing more flexibility in transforming the face. However, identity preservation is weakly ensured here to facilitate stronger age transformations. In the second pass, we enhance identity preservation while maintaining age-specific features by conditioning the model on two identity-aware embeddings (IDEmb): SVR-ArcFace and Rotate-CLIP. This pass allows for denoising the transformed image from the first pass, ensuring stronger identity preservation without compromising the aging accuracy. Both passes are jointly trained in an end-to-end way. Extensive experiments on the CelebA-HQ test dataset, evaluated through Face++ and Qwen-VL protocols, show that our Cradle2Cane outperforms existing face aging methods in age accuracy and identity consistency. Code is available at https://github.com/byliutao/Cradle2Cane.

面部衰老已成为计算机视觉中的一项重要任务,其应用从娱乐到医疗保健都有。然而,现有方法在实现整个生命周期的真实无缝转换方面存在困难,尤其是在处理较大的年龄差距或极端头部姿势时。核心挑战在于平衡年龄准确性和身份保留,我们称之为Age-ID权衡。大多数之前的方法要么优先考虑年龄转换而牺牲身份一致性,要么反之。在这项工作中,我们通过提出一个两阶段的面部衰老框架来解决这个问题,该框架基于少步文本到图像(T2I)扩散模型,名为Cradle2Cane。第一阶段侧重于解决年龄准确性问题,通过引入自适应噪声注入(AdaNI)机制。该机制受给定人物的年龄和性别提示描述的引导,作为文本条件。此外,通过调整噪声水平,我们可以控制衰老的强度,同时使面部转换更加灵活。不过,这里的身份保留是弱保证,以促进更强的年龄转换。在第二阶段,我们通过使模型依赖于两个身份感知嵌入(IDEmb):SVR-ArcFace和Rotate-CLIP,增强身份保留的同时保持年龄特定特征。这一阶段允许对第一阶段的转换图像进行去噪处理,确保在保持年龄准确性的同时增强身份一致性。两个阶段以端到端的方式进行联合训练。在CelebA-HQ测试数据集上进行的广泛实验,通过Face++和Qwen-VL协议进行评估,表明我们的Cradle2Cane在年龄准确性和身份一致性方面优于现有的面部衰老方法。代码可通过https://github.com/byliutao/Cradle2Cane获取。

论文及项目相关链接

PDF 32 pages, 12 figures, NeurIPS 2025 Poster

摘要

本研究关注人脸衰老问题,特别是大年龄差距或极端头部姿态下的转换挑战。为解决现有方法的不足,提出一种基于文本到图像扩散模型的双阶段人脸衰老框架(Cradle2Cane)。第一阶段的自适应噪声注入机制着重解决年龄准确性问题,而第二阶段则注重身份保留并维护年龄特征。最终实验结果显示,在CelebA-HQ测试数据集上,Cradle2Cane在年龄准确性和身份一致性方面优于现有方法。

关键见解

  1. 人脸衰老在计算机视觉中成为重要任务,涵盖娱乐和医疗保健等多个应用领域。
  2. 当前方法面临在整个生命周期内实现真实无缝转换的挑战,尤其是处理大年龄差距或极端头部姿态时。
  3. 核心挑战在于平衡年龄准确性和身份保留(Age-ID权衡)。
  4. 大多数先前的方法要么优先考虑年龄转换而忽视身份一致性,反之亦然。
  5. 提出的Cradle2Cane双阶段人脸衰老框架基于文本到图像的扩散模型,旨在解决这一问题。
  6. 第一阶段通过自适应噪声注入机制解决年龄准确性问题。
  7. 第二阶段通过身份感知嵌入增强身份保留并维护年龄特征。经过端对端联合训练的广泛实验验证,Cradle2Cane在年龄准确性和身份一致性方面表现出优越性。

Cool Papers

点此查看论文截图

OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates

Authors:Jinpei Guo, Yifei Ji, Zheng Chen, Kai Liu, Min Liu, Wang Rao, Wenbo Li, Yong Guo, Yulun Zhang

Pretrained latent diffusion models have shown strong potential for lossy image compression, owing to their powerful generative priors. Most existing diffusion-based methods reconstruct images by iteratively denoising from random noise, guided by compressed latent representations. While these approaches have achieved high reconstruction quality, their multi-step sampling process incurs substantial computational overhead. Moreover, they typically require training separate models for different compression bit-rates, leading to significant training and storage costs. To address these challenges, we propose a one-step diffusion codec across multiple bit-rates. termed OSCAR. Specifically, our method views compressed latents as noisy variants of the original latents, where the level of distortion depends on the bit-rate. This perspective allows them to be modeled as intermediate states along a diffusion trajectory. By establishing a mapping from the compression bit-rate to a pseudo diffusion timestep, we condition a single generative model to support reconstructions at multiple bit-rates. Meanwhile, we argue that the compressed latents retain rich structural information, thereby making one-step denoising feasible. Thus, OSCAR replaces iterative sampling with a single denoising pass, significantly improving inference efficiency. Extensive experiments demonstrate that OSCAR achieves superior performance in both quantitative and visual quality metrics. The code and models are available at https://github.com/jp-guo/OSCAR.

预训练的潜在扩散模型在有损图像压缩方面表现出了强大的潜力,这得益于其强大的生成先验。大多数现有的基于扩散的方法通过迭代去噪从随机噪声中重建图像,由压缩的潜在表示所引导。虽然这些方法达到了较高的重建质量,但它们的多步采样过程产生了大量的计算开销。此外,它们通常需要针对不同的压缩比特率训练不同的模型,导致培训和存储成本显著增加。为了解决这些挑战,我们提出了跨多个比特率的扩散编解码器的一步式编码解码系统(OSCAR)。具体来说,我们的方法将压缩的潜在值视为原始潜在值的噪声版本,其失真程度取决于比特率。这个角度允许将它们建模为沿扩散轨迹的中间状态。通过建立从压缩比特率到伪扩散时间步长的映射,我们使单个生成模型支持多个比特率的重建。同时,我们认为压缩的潜在值保留了丰富的结构信息,从而使一步去噪成为可能。因此,OSCAR用一次去噪过程取代了迭代采样,大大提高了推理效率。大量实验表明,OSCAR在定量和视觉质量指标上均达到了卓越的性能。相关代码和模型可在https://github.com/jp-guo/OSCAR中获取。

论文及项目相关链接

PDF

Summary

预训练潜伏扩散模型在有损图像压缩方面展现出强大潜力,其基于强大的生成先验。现有的扩散方法大多通过迭代去噪从随机噪声中重建图像,由压缩潜伏表示为引导。虽然这些方法重建质量高,但其多步采样过程带来了较大的计算开销,并且通常需针对不同压缩比特率训练单独模型,导致训练和存储成本显著上升。为解决这些挑战,我们提出跨多比特率的单步扩散编解码器OSCAR。我们的方法将压缩潜伏视为原始潜伏的噪声变体,其失真程度取决于比特率,将其建模为扩散轨迹的中间状态。通过建立从压缩比特率到伪扩散时间步的映射,我们使单一生成模型支持多比特率的重建。我们认为压缩潜伏保留了丰富的结构信息,使得一步去噪成为可能。因此,OSCAR用单个去噪通道取代了迭代采样,大大提高了推理效率。实验证明OSCAR在定量和视觉质量指标上均实现卓越性能。

Key Takeaways

  1. 预训练潜伏扩散模型在有损图像压缩方面表现出强大的潜力。
  2. 现有扩散方法虽然重建质量高,但存在计算开销大、需针对多种比特率训练单独模型的问题。
  3. OSCAR提出跨多比特率的单步扩散编解码器方法,简化了计算过程,提高了效率。
  4. OSCAR将压缩潜伏视为带有噪声的原始潜伏状态,并通过生成模型进行去噪处理。
  5. OSCAR通过映射压缩比特率到伪扩散时间步,实现单一模型支持多种比特率的图像重建。
  6. 压缩潜伏保留了丰富的结构信息,使得一步去噪成为可能。
  7. 实验证明OSCAR在定量和视觉质量指标上实现了卓越性能。

Cool Papers

点此查看论文截图

Is Artificial Intelligence Generated Image Detection a Solved Problem?

Authors:Ziqiang Li, Jiazhen Yan, Ziwen He, Kai Zeng, Weiwei Jiang, Lizhi Xiong, Zhangjie Fu

The rapid advancement of generative models, such as GANs and Diffusion models, has enabled the creation of highly realistic synthetic images, raising serious concerns about misinformation, deepfakes, and copyright infringement. Although numerous Artificial Intelligence Generated Image (AIGI) detectors have been proposed, often reporting high accuracy, their effectiveness in real-world scenarios remains questionable. To bridge this gap, we introduce AIGIBench, a comprehensive benchmark designed to rigorously evaluate the robustness and generalization capabilities of state-of-the-art AIGI detectors. AIGIBench simulates real-world challenges through four core tasks: multi-source generalization, robustness to image degradation, sensitivity to data augmentation, and impact of test-time pre-processing. It includes 23 diverse fake image subsets that span both advanced and widely adopted image generation techniques, along with real-world samples collected from social media and AI art platforms. Extensive experiments on 11 advanced detectors demonstrate that, despite their high reported accuracy in controlled settings, these detectors suffer significant performance drops on real-world data, limited benefits from common augmentations, and nuanced effects of pre-processing, highlighting the need for more robust detection strategies. By providing a unified and realistic evaluation framework, AIGIBench offers valuable insights to guide future research toward dependable and generalizable AIGI detection.Data and code are publicly available at: https://github.com/HorizonTEL/AIGIBench.

生成模型(如GAN和Diffusion模型)的快速发展使得创建高度逼真的合成图像成为可能,这引发了人们对虚假信息、深度伪造和版权侵犯的严重关注。尽管已经提出了许多人工智能生成图像(AIGI)检测器,并且经常报告其高准确率,但它们在现实世界场景中的有效性仍然令人质疑。为了弥差距,我们引入了AIGIBench,这是一个旨在严格评估最先进AIGI检测器稳健性和泛化能力的综合基准测试。AIGIBench通过四个核心任务模拟现实世界挑战:多源泛化、对图像退化的稳健性、对数据增强的敏感性和测试时预处理的影响。它包括23个多样化的虚假图像子集,这些子集涵盖了先进和广泛采用的图像生成技术,以及从社交媒体和人工智能艺术平台收集的真实世界样本。对11个先进检测器的广泛实验表明,尽管它们在受控环境中的报告准确率很高,但这些检测器在真实世界数据上的性能却出现显著下降,从常见的数据增强中获益有限,以及预处理的微妙影响,这突显了需要更稳健的检测策略。通过提供统一和现实的评估框架,AIGIBench为可靠的AIGI检测研究提供了宝贵的见解,并朝着通用化检测迈出了重要一步。数据和代码可在以下网址公开获取:https://github.com/HorizonTEL/AIGIBench

论文及项目相关链接

PDF Accepted by NeurIPS 2025 Datasets and Benchmarks Track

Summary

生成模型如GAN和Diffusion模型的快速发展能够生成高度逼真的合成图像,引发了关于错误信息、深度伪造和版权侵犯的严重关注。尽管已有许多人工智能生成图像(AIGI)检测器被提出,并声称具有高精度,但它们在实际场景中的有效性仍有待验证。为了弥补这一差距,我们引入了AIGIBench,这是一个全面的基准测试,旨在严格评估最新AIGI检测器的稳健性和泛化能力。AIGIBench通过四个核心任务模拟现实挑战:多源泛化、对图像退化的稳健性、对数据增强的敏感性以及测试时预处理的影响。它包括23个多样化的虚假图像子集,涵盖了先进和广泛采用的图像生成技术,以及从社交媒体和AI艺术平台收集的真实世界样本。对11种先进检测器的广泛实验表明,这些检测器在真实世界数据上的性能显著下降,从常见增强中获益有限,以及预处理的影响微妙,这强调了需要更稳健的检测策略。通过提供统一和现实的评估框架,AIGIBench为可靠的AIGI检测研究提供了宝贵的见解。数据和代码可在https://github.com/HorizonTEL/AIGIBench公开获取。

Key Takeaways

  1. 生成模型如GAN和Diffusion模型能生成高度逼真的合成图像,引发关于错误信息、深度伪造和版权侵犯的关注。
  2. 现有的人工智能生成图像(AIGI)检测器在真实场景中的有效性有待提高。
  3. AIGIBench是一个全面的基准测试,旨在评估AIGI检测器的稳健性和泛化能力。
  4. AIGIBench模拟现实挑战,包括多源泛化、图像退化、数据增强和测试时预处理的影响。
  5. AIGIBench包含多样化的虚假图像子集和真实世界样本。
  6. 广泛实验表明,现有检测器在真实世界数据上的性能显著下降,需要更稳健的检测策略。

Cool Papers

点此查看论文截图

GaSLight: Gaussian Splats for Spatially-Varying Lighting in HDR

Authors:Christophe Bolduc, Yannick Hold-Geoffroy, Zhixin Shu, Jean-François Lalonde

We present GaSLight, a method that generates spatially-varying lighting from regular images. Our method proposes using HDR Gaussian Splats as light source representation, marking the first time regular images can serve as light sources in a 3D renderer. Our two-stage process first enhances the dynamic range of images plausibly and accurately by leveraging the priors embedded in diffusion models. Next, we employ Gaussian Splats to model 3D lighting, achieving spatially variant lighting. Our approach yields state-of-the-art results on HDR estimations and their applications in illuminating virtual objects and scenes. To facilitate the benchmarking of images as light sources, we introduce a novel dataset of calibrated and unsaturated HDR to evaluate images as light sources. We assess our method using a combination of this novel dataset and an existing dataset from the literature. Project page: https://lvsn.github.io/gaslight/

我们提出了GaSLight方法,该方法可以从常规图像生成空间变化的光照。我们的方法建议使用HDR高斯平板作为光源表示,这是首次在3D渲染中使用常规图像作为光源。我们的两阶段过程首先利用扩散模型中的先验知识,以合理且准确的方式增强图像的动态范围。接下来,我们使用高斯平板对3D照明进行建模,实现空间变化的光照。我们的方法在HDR估计及其用于照明虚拟对象和场景方面的应用方面产生了最先进的成果。为了促进将图像作为光源的基准测试,我们引入了一个全新的数据集来评估不饱和HDR图像作为光源。我们结合使用这一新数据集和文献中的现有数据集来评估我们的方法。项目页面:https://lvsn.github.io/gaslight/(注:该网址为虚构链接,实际翻译中应替换为真实的项目网址。)

论文及项目相关链接

PDF

Summary
我们提出了GaSLight方法,该方法可以从常规图像生成空间变化的光照。我们使用HDR高斯Splats作为光源表示,首次实现了常规图像可以作为3D渲染器的光源。我们的两阶段过程首先利用扩散模型中的先验知识,以合理且准确的方式增强图像的动态范围。然后,我们使用高斯Splats对3D照明进行建模,实现空间变化照明。我们的方法在HDR估计及其应用于虚拟对象和场景的照明方面达到了最新水平。为了对图像作为光源进行基准测试,我们引入了一个新型的校准和不饱和HDR数据集来评估图像作为光源。我们使用此新数据集和文献中的现有数据集来评估我们的方法。

Key Takeaways

  1. GaSLight方法能够从常规图像生成空间变化的光照。
  2. HDR高斯Splats被用作光源表示,使常规图像能在3D渲染中作为光源。
  3. 方法分为两个阶段:首先增强图像动态范围,然后利用高斯Splats进行3D照明建模。
  4. 方法在HDR估计方面达到了最新水平。
  5. 引入了新型校准和不饱和HDR数据集,用于评估图像作为光源。
  6. 方法的应用包括虚拟对象和场景的照明。

Cool Papers

点此查看论文截图

Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation

Authors:Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao

In this paper, we propose Jasmine, the first Stable Diffusion (SD)-based self-supervised framework for monocular depth estimation, which effectively harnesses SD’s visual priors to enhance the sharpness and generalization of unsupervised prediction. Previous SD-based methods are all supervised since adapting diffusion models for dense prediction requires high-precision supervision. In contrast, self-supervised reprojection suffers from inherent challenges (e.g., occlusions, texture-less regions, illumination variance), and the predictions exhibit blurs and artifacts that severely compromise SD’s latent priors. To resolve this, we construct a novel surrogate task of hybrid image reconstruction. Without any additional supervision, it preserves the detail priors of SD models by reconstructing the images themselves while preventing depth estimation from degradation. Furthermore, to address the inherent misalignment between SD’s scale and shift invariant estimation and self-supervised scale-invariant depth estimation, we build the Scale-Shift GRU. It not only bridges this distribution gap but also isolates the fine-grained texture of SD output against the interference of reprojection loss. Extensive experiments demonstrate that Jasmine achieves SoTA performance on the KITTI benchmark and exhibits superior zero-shot generalization across multiple datasets.

在这篇论文中,我们提出了Jasmine,这是基于Stable Diffusion(SD)的首个自监督单目深度估计框架,它有效地利用了SD的视觉先验知识,提高了无监督预测的清晰度和泛化能力。之前的基于SD的方法都是有监督的,因为将扩散模型用于密集预测需要高精度监督。相比之下,自监督重投影面临着固有的挑战(例如遮挡、无纹理区域、光照变化),并且预测结果出现模糊和伪影,严重损害SD的潜在先验知识。为了解决这一问题,我们构建了一个新的混合图像重建的替代任务。它在没有任何额外监督的情况下,通过重建图像本身来保留SD模型的细节先验知识,同时防止深度估计退化。此外,为了解决SD的规模和移位不变估计与自监督规模不变深度估计之间的固有不匹配问题,我们构建了Scale-Shift GRU。它不仅弥补了分布差距,还隔离了SD输出中的精细纹理,不受重投影损失的干扰。大量实验表明,Jasmine在KITTI基准测试中达到了最先进性能,并在多个数据集上展现了出色的零样本泛化能力。

论文及项目相关链接

PDF Accepted to NeurIPS 2025. 23 pages, with the appendix

Summary

本文提出Jasmine,首个基于Stable Diffusion(SD)的自我监督框架,用于单目深度估计。该框架有效利用SD的视觉先验知识,提高无监督预测的清晰度和泛化能力。与以往SD方法不同,Jasmine采用自我监督方式,解决密集预测中对高精度监督的需求。为解决自我监督重投影的固有挑战,如遮挡、无纹理区域、光照变化等,提出混合图像重建的新替代任务。此外,为解决SD尺度与移位不变估计与自我监督尺度不变深度估计之间的不匹配问题,构建Scale-Shift GRU。实验表明,Jasmine在KITTI基准测试上达到SOTA性能,并在多个数据集上展现出卓越的零样本泛化能力。

Key Takeaways

  1. Jasmine是首个基于Stable Diffusion的自我监督框架,用于单目深度估计。
  2. Jasmine利用SD的视觉先验知识,提高预测的清晰度和泛化能力。
  3. 与其他SD方法不同,Jasmine采用自我监督方式,无需高精度监督。
  4. 固有挑战如遮挡、无纹理区域和光照变化通过混合图像重建任务得到解决。
  5. 为解决SD尺度与移位不变估计与自我监督深度估计之间的不匹配,引入Scale-Shift GRU。
  6. Jasmine在KITTI基准测试上表现优异。

Cool Papers

点此查看论文截图

Geodesic Diffusion Models for Efficient Medical Image Enhancement

Authors:Teng Zhang, Hongxu Jiang, Kuang Gong, Wei Shao

Diffusion models generate data by learning to reverse a forward process, where samples are progressively perturbed with Gaussian noise according to a predefined noise schedule. From a geometric perspective, each noise schedule corresponds to a unique trajectory in probability space from the data distribution to a Gaussian prior. However, prior diffusion models rely on empirically chosen schedules that may not be optimal. This inefficiency necessitates many intermediate time steps, resulting in high computational costs during both training and sampling. To address this, we derive a family of geodesic noise schedules corresponding to the shortest paths in probability space under the Fisher-Rao metric. Based on these schedules, we propose Geodesic Diffusion Models (GDMs), which significantly improve training and sampling efficiency by minimizing the energy required to transform between probability distributions. This efficiency further enables sampling to start from an intermediate distribution in conditional image generation, achieving state-of-the-art results with as few as 6 steps. We evaluated GDM on two medical image enhancement tasks: CT image denoising and MRI image super-resolution. Experimental results show that GDM achieved state-of-the-art performance while reducing training time by 20- to 30-fold compared to Denoising Diffusion Probabilistic Models (DDPMs) and 4- to 6-fold compared to Fast-DDPM, and accelerating sampling by 160- to 170-fold and 1.6-fold, respectively. These gains support the use of GDM for efficient model development and real-time clinical applications. Our code is publicly available at: https://github.com/mirthAI/GDM-VE.

扩散模型通过学习反转一个正向过程来生成数据,在该过程中,样本根据预先定义的噪声时间表逐步受到高斯噪声的干扰。从几何学的角度来看,每个噪声时间表对应于概率空间中从数据分布到高斯先验的独特轨迹。然而,以前的扩散模型依赖于经验选择的时间表,这些时间表可能并不最优。这种低效性需要大量的中间时间步骤,导致训练和采样期间的计算成本都很高。为了解决这一问题,我们推导出对应于Fisher-Rao度量下概率空间中最短路径的测地线噪声时间表。基于这些时间表,我们提出了Geodesic Diffusion Models(GDMs)。通过最小化概率分布之间的转换所需的能量,GDMs显著提高了训练和采样的效率。这种效率还使得能够从条件图像生成的中间分布开始采样,仅用6步就实现了最新结果。我们在两项医学图像增强任务上评估了GDM:CT图像去噪和MRI图像超分辨率。实验结果表明,GDM达到了最先进的性能,与去噪扩散概率模型(DDPMs)相比,训练时间减少了20至30倍,与Fast-DDPM相比减少了4至6倍;采样速度分别加快了160至170倍和1.6倍。这些优势支持在高效模型开发和实时临床应用中使用GDM。我们的代码可在:https://github.com/mirthAI/GDM-VE上公开获取。

论文及项目相关链接

PDF

摘要

扩散模型通过学习反转一个将样本根据预定义噪声时间表逐步添加高斯噪声的过程来生成数据。本文从几何角度研究扩散模型,每个噪声时间表对应于概率空间从数据分布到高斯先验的独特轨迹。然而,先前的扩散模型依赖于经验选择的时间表,可能并非最优。这种低效需要许多中间步骤,导致训练和采样时的计算成本都很高。为解决此问题,本文推导出对应于Fisher-Rao度量下概率空间中最短路径的测地线噪声时间表。基于此,本文提出了Geodesic Diffusion Models(GDMs),通过最小化概率分布之间的转换所需的能量,显著提高了训练和采样的效率。这种效率还使得可以从条件图像生成的中间分布开始采样,仅以6步达到业界最佳结果。本文在两项医学图像增强任务上评估了GDM:CT图像去噪和MRI图像超分辨率。实验结果表明,GDM在取得最佳性能的同时,与DDPM相比将训练时间缩短了20至30倍,与Fast-DDPM相比缩短了4至6倍;采样速度分别加快了160至170倍和1.6倍。这些成果支持GDM在高效模型开发和实时临床应用中的使用。我们的代码公开在:https://github.com/mirthAI/GDM-VE。

关键见解

  1. 扩散模型通过反转包含噪声的过程生成数据,噪声是按照预定的时间表添加的。
  2. 扩散模型在概率空间中的路径选择是关键的,它影响了模型的效率和性能。
  3. 传统的扩散模型依赖于经验选择的时间表,可能不是最优的,导致训练和采样的高计算成本。
  4. 论文提出了一种新的噪声时间表——基于测地线的时间表,对应于概率空间中的最短路径。
  5. 基于此,论文提出了Geodesic Diffusion Models(GDMs),它通过最小化概率分布间的转换能量来提高效率和性能。
  6. GDM能够实现高效的条件图像生成,仅需要很少的步骤就能达到业界最佳结果。

Cool Papers

点此查看论文截图

FairGen: Enhancing Fairness in Text-to-Image Diffusion Models via Self-Discovering Latent Directions

Authors:Yilei Jiang, Weihong Li, Yiyuan Zhang, Minghong Cai, Xiangyu Yue

While Diffusion Models (DM) exhibit remarkable performance across various image generative tasks, they nonetheless reflect the inherent bias presented in the training set. As DMs are now widely used in real-world applications, these biases could perpetuate a distorted worldview and hinder opportunities for minority groups. Existing methods on debiasing DMs usually requires model retraining with a human-crafted reference dataset or additional classifiers, which suffer from two major limitations: (1) collecting reference datasets causes expensive annotation cost; (2) the debiasing performance is heavily constrained by the quality of the reference dataset or the additional classifier. To address the above limitations, we propose FairGen, a plug-and-play method that learns attribute latent directions in a self-discovering manner, thus eliminating the reliance on such reference dataset. Specifically, FairGen consists of two parts: a set of attribute adapters and a distribution indicator. Each adapter in the set aims to learn an attribute latent direction, and is optimized via noise composition through a self-discovering process. Then, the distribution indicator is multiplied by the set of adapters to guide the generation process towards the prescribed distribution. Our method enables debiasing multiple attributes in DMs simultaneously, while remaining lightweight and easily integrable with other DMs, eliminating the need for retraining. Extensive experiments on debiasing gender, racial, and their intersectional biases show that our method outperforms previous SOTA by a large margin.

尽管扩散模型(DM)在各种图像生成任务中表现出卓越的性能,但它们仍然反映出训练集所呈现的固有偏见。由于扩散模型现在广泛应用于现实世界的应用中,这些偏见可能会持续扭曲世界观并阻碍少数群体的机会。现有的关于去偏扩散模型的方法通常需要重新使用人工参考数据集或额外的分类器进行模型训练,这存在两个主要局限性:(1)收集参考数据集会导致昂贵的标注成本;(2)去偏性能严重依赖于参考数据集或附加分类器的质量。为了解决上述局限性,我们提出了FairGen,这是一种即插即用方法,能够以自我发现的方式学习属性潜在方向,从而消除了对参考数据集的依赖。具体来说,FairGen由两部分组成:一组属性适配器和一个分布指标。集合中的每个适配器旨在学习一个属性潜在方向,并通过自我发现过程进行优化噪声组合。然后,通过将分布指标与适配器集合相乘,可以引导生成过程朝向规定的分布。我们的方法能够同时去除扩散模型中的多个属性偏见,同时保持轻量化,并易于与其他扩散模型集成,无需重新训练。在消除性别、种族及其交叉偏见的广泛实验表明,我们的方法大大超越了之前的最优水平。

论文及项目相关链接

PDF

Summary

本文探讨了Diffusion Models(DM)在图像生成任务中的性能优势,同时也指出了其存在的固有偏见问题。现有去偏方法通常需要重新训练模型或使用人工构建的参考数据集,成本高昂且受数据集质量限制。为此,本文提出了一种名为FairGen的即插即用方法,通过自我发现的方式学习属性潜在方向,无需依赖参考数据集。FairGen包括属性适配器集和分布指标两部分,旨在同时去除非单一属性的偏见,具有轻量级、易于与其他DM集成等优点。实验证明,该方法在去除性别、种族及交叉偏见方面大幅超越了先前最佳方法。

Key Takeaways

  1. Diffusion Models在图像生成任务中表现出色,但存在固有偏见问题。
  2. 现有去偏方法需重新训练模型或使用参考数据集,成本高昂并受限于数据集质量。
  3. FairGen方法通过自我发现的方式学习属性潜在方向,无需依赖参考数据集。
  4. FairGen由属性适配器集和分布指标两部分组成,可同步去除非单一属性的偏见。
  5. FairGen方法具有轻量级、易于集成等特点。
  6. 实验证明,FairGen在去除性别、种族及交叉偏见方面表现优异,超越先前最佳方法。
  7. FairGen的提出为解决DM的偏见问题提供了新的思路。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
牙齿修复 牙齿修复
牙齿修复 方向最新论文已更新,请持续关注 Update in 2025-10-22 Periodontal Bone Loss Analysis via Keypoint Detection With Heuristic Post-Processing
2025-10-22
下一篇 
NeRF NeRF
NeRF 方向最新论文已更新,请持续关注 Update in 2025-10-22 Latent Spaces Beyond Synthesis From GANs to Diffusion Models
2025-10-22
  目录