⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-04 更新
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
Authors:Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
Text-to-image (T2I) models excel on single-entity prompts but struggle with multi-subject descriptions, often showing attribute leakage, identity entanglement, and subject omissions. We introduce the first theoretical framework with a principled, optimizable objective for steering sampling dynamics toward multi-subject fidelity. Viewing flow matching (FM) through stochastic optimal control (SOC), we formulate subject disentanglement as control over a trained FM sampler. This yields two architecture-agnostic algorithms: (i) a training-free test-time controller that perturbs the base velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight fine-tuning rule that regresses a control network to a backward adjoint signal while preserving base-model capabilities. The same formulation unifies prior attention heuristics, extends to diffusion models via a flow-diffusion correspondence, and provides the first fine-tuning route explicitly designed for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and Stable Diffusion XL, both algorithms consistently improve multi-subject alignment while maintaining base-model style. Test-time control runs efficiently on commodity GPUs, and fine-tuned controllers trained on limited prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal Control for Unentangled Subjects), which achieves state-of-the-art multi-subject fidelity across models.
文本到图像(T2I)模型在单实体提示方面表现出色,但在多主题描述方面却表现挣扎,常常出现属性泄露、身份纠缠和主题遗漏的问题。我们引入了第一个理论框架,该框架具有原则性且可优化的目标,旨在引导采样动态实现多主题保真。通过随机最优控制(SOC)来观察流匹配(FM),我们将主题解耦公式化为对训练好的FM采样器的控制。这产生了两种与架构无关的算法:(i)一种无训练测试时间控制器,它可以在单次更新中扰动基本速度;(ii)伴随匹配是一种轻量级的微调规则,它回归一个控制网络以产生向后伴随信号,同时保留基础模型的能力。同样的公式统一了先前的注意力启发式方法,通过流扩散对应关系扩展到扩散模型,并为多主题保真提供了第一个明确设计的微调路径。在Stable Diffusion 3.5、FLUX和Stable Diffusion XL上的经验表明,两种算法都能一致地提高多主题对齐性,同时保持基础模型风格。测试时间控制可在商品GPU上高效运行,而在有限提示上训练的微调控制器可以推广到未见过的提示。我们进一步强调了FOCUS(用于无纠缠主题的最优流控制),它在各种模型中实现了最先进的主题保真度。
论文及项目相关链接
PDF Code: https://github.com/ericbill21/FOCUS/
摘要
文本至图像(T2I)模型在单实体提示上表现优异,但在多主题描述方面存在属性泄露、身份混淆及主题遗漏等问题。本文首次提出了一个理论框架,通过优化目标来引导采样动态以实现多主题保真。通过随机最优控制(SOC)来观察流匹配(FM),我们将主题分离表现为对训练过的FM采样器的控制,从而得到两种与架构无关的算法:一是无需训练的检测时间控制器,它可以通过单次更新来扰动基本速度;二是回归控制网络的反向伴随信号的同时保留基础模型能力的Adjoint Matching轻量级微调规则。同一表述统一了先前的注意力启发式方法,通过流动扩散对应关系扩展到了扩散模型,并为多主题保真提供了第一条精心设计过的微调路线。在Stable Diffusion 3.5、FLUX和Stable Diffusion XL上的实验表明,两种算法均能在保持基础模型风格的同时,不断提高多主题对齐性。检测时间控制可在商品GPU上高效运行,经过有限提示训练的控制器可推广至未见过的提示。本文进一步强调了FOCUS(用于无纠缠主题的流动最优控制),它在各种模型中实现了最佳的多主题保真度。
关键见解
- T2I模型在单实体提示上表现良好,但在多主题描述方面存在挑战,如属性泄露、身份混淆和主题遗漏。
- 引入了一个理论框架,通过优化目标来引导采样动态,以实现多主题保真。
- 提出了两种与架构无关的算法:测试时间控制器和Adjoint Matching,以提高多主题对齐性并保留基础模型风格。
- 首次为扩散模型提供了专门设计的微调路线。
- 实证结果显示,所提方法在多种模型上实现了卓越的多主题保真度。
- 测试时间控制可在商品GPU上高效运行,且经过有限提示训练的控制器具有良好的泛化能力。
点此查看论文截图



Continual Personalization for Diffusion Models
Authors:Yu-Chien Liao, Jr-Jen Chen, Chi-Pin Huang, Ci-Siang Lin, Meng-Lin Wu, Yu-Chiang Frank Wang
Updating diffusion models in an incremental setting would be practical in real-world applications yet computationally challenging. We present a novel learning strategy of Concept Neuron Selection (CNS), a simple yet effective approach to perform personalization in a continual learning scheme. CNS uniquely identifies neurons in diffusion models that are closely related to the target concepts. In order to mitigate catastrophic forgetting problems while preserving zero-shot text-to-image generation ability, CNS finetunes concept neurons in an incremental manner and jointly preserves knowledge learned of previous concepts. Evaluation of real-world datasets demonstrates that CNS achieves state-of-the-art performance with minimal parameter adjustments, outperforming previous methods in both single and multi-concept personalization works. CNS also achieves fusion-free operation, reducing memory storage and processing time for continual personalization.
在现实世界的应用中,逐步更新扩散模型是实用的,但在计算上存在挑战。我们提出了一种新的学习策略——概念神经元选择(CNS),这是一种简单而有效的持续学习方案进行个性化方法。CNS能够独特地识别与扩散模型中的目标概念密切相关的神经元。为了缓解灾难性遗忘问题并保留零样本文本到图像生成能力,CNS以增量方式微调概念神经元并联合保留先前概念的知识。对真实数据集的评价表明,CNS以最小的参数调整实现了最先进的性能,在单概念和多概念个性化工作中都优于以前的方法。CNS还实现了无融合操作,减少了持续个性化所需的内存存储和处理时间。
论文及项目相关链接
Summary
本文提出一种新颖的学习策略——概念神经元选择(CNS),用于增量更新扩散模型。CNS能准确识别与目标概念紧密相关的神经元,并在增量学习方案中实现对模型的个性化调整。为了缓解灾难性遗忘问题并保持零样本文本到图像生成能力,CNS以增量方式微调概念神经元并联合保留先前概念的知识。在真实数据集上的评估表明,CNS通过最小的参数调整实现了卓越性能,在单概念和多概念个性化工作中均优于先前方法。此外,CNS实现了无融合操作,降低了连续个性化任务的内存存储和处理时间。
Key Takeaways
- 扩散模型在现实世界应用中的增量更新具有实践意义且计算具有挑战性。
- 概念神经元选择(CNS)是一种简单而有效的方法,可在持续学习方案中进行个性化调整。
- CNS能识别与目标概念相关的神经元。
- CNS通过微调概念神经元缓解灾难性遗忘问题,并保留先前知识。
- 在真实数据集上的评估显示CNS性能卓越,优于其他方法。
- CNS实现无融合操作,降低内存存储和处理时间。
点此查看论文截图




Test-Time Anchoring for Discrete Diffusion Posterior Sampling
Authors:Litu Rout, Andreas Lugmayr, Yasamin Jafarian, Srivatsan Varadharajan, Constantine Caramanis, Sanjay Shakkottai, Ira Kemelmacher-Shlizerman
We study the problem of posterior sampling using pretrained discrete diffusion foundation models, aiming to recover images from noisy measurements without retraining task-specific models. While diffusion models have achieved remarkable success in generative modeling, most advances rely on continuous Gaussian diffusion. In contrast, discrete diffusion offers a unified framework for jointly modeling categorical data such as text and images. Beyond unification, discrete diffusion provides faster inference, finer control, and principled training-free Bayesian inference, making it particularly well-suited for posterior sampling. However, existing approaches to discrete diffusion posterior sampling face severe challenges: derivative-free guidance yields sparse signals, continuous relaxations limit applicability, and split Gibbs samplers suffer from the curse of dimensionality. To overcome these limitations, we introduce Anchored Posterior Sampling (APS) for masked diffusion foundation models, built on two key innovations – quantized expectation for gradient-like guidance in discrete embedding space, and anchored remasking for adaptive decoding. Our approach achieves state-of-the-art performance among discrete diffusion samplers across linear and nonlinear inverse problems on the standard benchmarks. We further demonstrate the benefits of our approach in training-free stylization and text-guided editing.
我们研究了使用后向采样的问题,利用了预训练的离散扩散基础模型,旨在从噪声测量中恢复图像,而无需重新训练特定任务模型。虽然扩散模型在生成建模方面取得了显著的成功,但大多数进展都依赖于连续的高斯扩散。相比之下,离散扩散提供了一个统一的框架,可以联合对文本和图像等分类数据进行建模。除了统一建模,离散扩散还提供了更快的推理速度、更精细的控制和基于原理的无训练贝叶斯推理,使其成为后向采样的理想选择。然而,现有的离散扩散后向采样方法面临严重的挑战:无导数指导产生稀疏信号、连续松弛限制了适用性,而分裂吉布斯采样器受到维数诅咒的影响。为了克服这些局限性,我们为掩膜扩散基础模型引入了锚点后向采样(APS),这是基于两项关键创新——用于离散嵌入空间中梯度引导的量化的期望和用于自适应解码的锚点重新掩蔽。我们的方法在所有标准基准测试中的线性和非线性反问题上均实现了离散扩散采样器的最佳性能。我们还进一步展示了我们的方法在无需训练的风格化和文本引导编辑中的优势。
论文及项目相关链接
PDF Preprint
摘要
研究使用预训练的离散扩散基础模型进行后采样的问题,旨在从噪声测量中恢复图像,而无需重新训练特定任务模型。虽然扩散模型在生成建模方面取得了显著的成功,但大多数进展都依赖于连续高斯扩散。相比之下,离散扩散提供了一个统一的框架,可以联合对文本和图像等分类数据进行建模。离散扩散除了统一建模外,还提供了更快的推理速度、更精细的控制和基于原则的无训练贝叶斯推理,使其特别适用于后采样。然而,现有的离散扩散后采样方法面临严重挑战:无导数指导产生稀疏信号、连续放松限制应用,分裂吉布斯采样器受到维度诅咒的影响。为了克服这些限制,我们引入了锚定后采样(APS)用于掩模扩散基础模型,基于两项关键创新——量化期望用于离散嵌入空间中的梯度引导,以及锚定遮罩用于自适应解码。我们的方法在标准基准测试上的离散扩散采样器中的线性和非线性反问题方面实现了最佳性能。我们还进一步展示了我们的方法在无需训练和文本引导编辑方面的优势。
关键见解
- 研究使用预训练离散扩散基础模型进行后采样,旨在从噪声中恢复图像,无需针对特定任务重新训练模型。
- 离散扩散提供了一个统一的框架,可以联合对分类数据进行建模,如文本和图像。
- 现有离散扩散后采样方法面临挑战,如无导数指导产生的稀疏信号、连续放松的限制和分裂吉布斯采样器的维度诅咒。
- 引入的锚定后采样(APS)方法基于两项关键创新:量化期望用于梯度引导,以及锚定遮罩用于自适应解码。
- APS方法在线性和非线性反问题上实现了最佳性能,在标准基准测试中优于其他离散扩散采样器。
- APS方法在无需训练的样式化和文本引导编辑方面显示出优势。
- 研究表明,离散扩散模型在生成建模领域具有广阔的应用前景,特别是在后采样和基于文本的图像编辑等方面。
点此查看论文截图



Learning to Generate Object Interactions with Physics-Guided Video Diffusion
Authors:David Romero, Ariana Bermudez, Hao Li, Fabio Pizzati, Ivan Laptev
Recent models for video generation have achieved remarkable progress and are now deployed in film, social media production, and advertising. Beyond their creative potential, such models also hold promise as world simulators for robotics and embodied decision making. Despite strong advances, however, current approaches still struggle to generate physically plausible object interactions and lack physics-grounded control mechanisms. To address this limitation, we introduce KineMask, an approach for physics-guided video generation that enables realistic rigid body control, interactions, and effects. Given a single image and a specified object velocity, our method generates videos with inferred motions and future object interactions. We propose a two-stage training strategy that gradually removes future motion supervision via object masks. Using this strategy we train video diffusion models (VDMs) on synthetic scenes of simple interactions and demonstrate significant improvements of object interactions in real scenes. Furthermore, KineMask integrates low-level motion control with high-level textual conditioning via predictive scene descriptions, leading to effective support for synthesis of complex dynamical phenomena. Extensive experiments show that KineMask achieves strong improvements over recent models of comparable size. Ablation studies further highlight the complementary roles of low- and high-level conditioning in VDMs. Our code, model, and data will be made publicly available.
视频生成模型最近取得了显著的进步,并已应用于电影、社交媒体生产和广告中。除了创造性潜力之外,这些模型在机器人和实体决策制定的世界模拟器方面也表现出希望。然而,尽管取得了重大进展,但当前的方法仍然难以生成物理上合理的物体交互,并且缺乏基于物理的控制机制。为了解决这个问题,我们引入了KineMask,这是一种物理指导的视频生成方法,能够实现现实的刚体控制、交互和效果。给定单个图像和指定的对象速度,我们的方法可以生成具有推断运动和未来对象交互的视频。我们提出了一种两阶段训练策略,通过对象掩膜逐步消除未来运动监督。使用这种策略,我们在简单交互的合成场景上训练视频扩散模型(VDMs),并在实际场景中展示了物体交互的重大改进。此外,KineMask通过预测场景描述将低级运动控制与高级文本条件相结合,有效支持了复杂动态现象的综合。大量实验表明,KineMask在同类规模的最新模型上取得了显著改进。消融研究进一步突出了低级和高级条件在VDMs中的互补作用。我们的代码、模型和数据将公开可用。
论文及项目相关链接
Summary
近期视频生成模型在电影、社交媒体制作和广告等领域取得了显著进展,并在机器人和实体决策模拟方面展现出潜力。然而,当前方法难以生成物理上合理的物体互动,并缺乏物理基础的控制机制。为此,我们提出KineMask方法,这是一种物理指导的视频生成方法,能够实现现实的刚体控制、互动和效果。给定单张图像和指定物体速度,我们的方法可以生成具有推断运动和未来物体互动的视频。我们提出了一种两阶段训练策略,通过物体掩膜逐步消除未来运动监督。使用这种策略,我们在合成简单互动场景的视频扩散模型(VDMs)训练上取得了显著改进,并在实际场景中展示了物体互动的改善。此外,KineMask通过将低级运动控制与高级文本条件相结合,实现了复杂动态现象的合成支持。实验表明,KineMask在同类规模模型中取得了显著改进。
Key Takeaways
- 视频生成模型在多个领域取得显著进展,并展现出在机器人和实体决策模拟方面的潜力。
- 当前模型难以生成物理上合理的物体互动,缺乏物理基础的控制机制。
- KineMask是一种物理指导的视频生成方法,能实现现实的刚体控制、互动和效果。
- KineMask可以通过给定的单张图像和物体速度生成具有推断运动和未来物体互动的视频。
- 两阶段训练策略逐步消除未来运动监督,改进了视频扩散模型(VDMs)的训练。
- KineMask集成了低级运动控制和高级文本条件,支持复杂动态现象的合成。
点此查看论文截图





Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
Authors:Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising from the compounding of errors within the continuous latent space. In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from long-video teachers or retraining on long video datasets. Our approach centers on exploiting the rich knowledge of teacher models to provide guidance for the student model through sampled segments drawn from self-generated long videos. Our method maintains temporal consistency while scaling video length by up to 20x beyond teacher’s capability, avoiding common issues such as over-exposure and error-accumulation without recomputing overlapping frames like previous methods. When scaling up the computation, our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model’s position embedding and more than 50x longer than that of our baseline model. Experiments on standard benchmarks and our proposed improved benchmark demonstrate that our approach substantially outperforms baseline methods in both fidelity and consistency. Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/
扩散模型已经彻底改变了图像和视频生成领域,实现了前所未有的视觉质量。然而,它们依赖于变压器架构,产生了高昂的计算成本,特别是在将生成扩展到长视频时。近期的工作已经探索了长视频生成的自回归公式,通常是通过从短视野双向教师模型中进行蒸馏。然而,由于教师模型无法合成长视频,学生模型在超出其训练视野的推广往往会导致质量显著下降,这是由于连续潜在空间内错误累积导致的。在本文中,我们提出了一种简单而有效的方法来缓解长视野视频生成中的质量下降问题,而无需从长视频教师那里获得监督或重新训练长视频数据集。我们的方法主要利用教师模型的丰富知识,通过从学生模型自我生成的长视频中抽取的片段来提供指导。我们的方法在保持时间一致性的同时,通过将视频长度扩展到教师能力的20倍,避免了过度曝光和错误累积等常见问题,而且无需像之前的方法那样重新计算重叠帧。在计算规模扩大时,我们的方法能够生成长达4分钟15秒的视频,相当于我们基础模型位置嵌入所支持的最大跨度的99.9%,并且比我们基线模型长50倍以上。在标准基准测试和我们提出的改进基准测试上的实验表明,我们的方法在保真度和一致性方面显著优于基线方法。您可以在 https://self-forcing-plus-plus.github.io/ 找到我们的长视野视频演示。
论文及项目相关链接
PDF preprint
Summary
本文介绍了扩散模型在图像和视频生成方面的革命性进展,其视觉质量达到了前所未有的水平。然而,由于依赖变压器架构,扩散模型计算成本高昂,尤其是在长视频生成方面的扩展性受限。最近的研究尝试通过从短期双向教师模型中提炼出自回归公式进行长视频生成。然而,由于教师模型无法合成长视频,学生模型在超出训练范围的情况下会产生明显的质量下降问题。本文提出了一种简单有效的方法,在不依赖长视频教师模型的监督或重新训练长视频数据集的情况下,减轻长周期视频生成中的质量下降问题。该方法通过利用教师模型的丰富知识,通过从自我生成的长视频中抽取片段来指导模型,在保持时间一致性的同时,将视频长度扩大了高达教师能力的20倍。实验证明,该方法在保真度和一致性方面显著优于基线方法。
Key Takeaways
- 扩散模型在图像和视频生成中取得了显著进展,但存在高计算成本问题,特别是在长视频生成方面。
- 现有方法尝试通过教师模型指导学生模型进行长视频生成,但存在质量下降问题。
- 本文提出了一种简单有效的方法,通过利用教师模型的丰富知识,从自我生成的长视频中抽取片段来指导模型,提高了长周期视频生成的质量。
- 该方法能够在不重新训练或依赖长视频教师模型的情况下,将视频长度扩大高达教师能力的20倍。
- 实验证明,该方法在标准基准测试和我们改进后的基准测试中均显著优于基线方法。
- 该方法能够生成长达4分钟15秒的视频,相当于基础模型位置嵌入所支持的最大跨度的99.9%,并且比基线模型长出50倍以上。
点此查看论文截图



VGDM: Vision-Guided Diffusion Model for Brain Tumor Detection and Segmentation
Authors:Arman Behnam
Accurate detection and segmentation of brain tumors from magnetic resonance imaging (MRI) are essential for diagnosis, treatment planning, and clinical monitoring. While convolutional architectures such as U-Net have long been the backbone of medical image segmentation, their limited capacity to capture long-range dependencies constrains performance on complex tumor structures. Recent advances in diffusion models have demonstrated strong potential for generating high-fidelity medical images and refining segmentation boundaries. In this work, we propose VGDM: Vision-Guided Diffusion Model for Brain Tumor Detection and Segmentation framework, a transformer-driven diffusion framework for brain tumor detection and segmentation. By embedding a vision transformer at the core of the diffusion process, the model leverages global contextual reasoning together with iterative denoising to enhance both volumetric accuracy and boundary precision. The transformer backbone enables more effective modeling of spatial relationships across entire MRI volumes, while diffusion refinement mitigates voxel-level errors and recovers fine-grained tumor details. This hybrid design provides a pathway toward improved robustness and scalability in neuro-oncology, moving beyond conventional U-Net baselines. Experimental validation on MRI brain tumor datasets demonstrates consistent gains in Dice similarity and Hausdorff distance, underscoring the potential of transformer-guided diffusion models to advance the state of the art in tumor segmentation.
从磁共振成像(MRI)准确检测和分割脑肿瘤对于诊断、治疗计划和临床监测至关重要。虽然U-Net等卷积架构长期以来一直是医学图像分割的支柱,但其捕捉长距离依赖关系的有限能力在复杂肿瘤结构上的表现受到限制。扩散模型的最新进展显示出生成高保真医学图像和细化分割边界方面的巨大潜力。在这项工作中,我们提出了VGDM:用于脑肿瘤检测和分割的基于视觉引导的扩散模型框架,这是一个用于脑肿瘤检测和分割的基于变换驱动的扩散框架。通过在扩散过程的核心中嵌入视觉变换器,该模型利用全局上下文推理和迭代去噪来提高体积精度和边界精度。变换骨干网可以更有效地对整个MRI体积的空间关系进行建模,而扩散细化则减轻了体素级别的错误并恢复了精细的肿瘤细节。这种混合设计提供了在神经肿瘤学中提高稳健性和可扩展性的途径,超越了传统的U-Net基准线。在MRI脑肿瘤数据集上的实验验证证明了Dice相似度和Hausdorff距离的持续提高,突显了基于变换的扩散模型在肿瘤分割方面推动最新技术的潜力。
论文及项目相关链接
Summary
本文提出一种基于扩散模型的脑肿瘤检测与分割框架VGDM,该框架融合了卷积网络和扩散模型的优点。通过使用核心中的视觉变压器并结合全局上下文推理和迭代去噪,模型在三维体积准确性和边界精度上都有所提升。在MRI脑肿瘤数据集上的实验验证证明了该混合设计相较于传统U-Net基准线的优越性和潜力。
Key Takeaways
- 脑肿瘤的准确检测和分割对诊断、治疗计划和临床监测至关重要。
- 现有方法如U-Net在复杂肿瘤结构上的性能受到限制,因为它们的长期依赖捕捉能力有限。
- 扩散模型具有生成高质量医学图像和细化分割边界的潜力。
- 提出的VGDM框架结合了卷积网络和扩散模型的优点,使用视觉变压器为核心。
- 该模型利用全局上下文推理和迭代去噪,提高了体积准确性和边界精度。
- 视觉变压器能有效建模整个MRI体积的空间关系。
点此查看论文截图


MSRepaint: Multiple Sclerosis Repaint with Conditional Denoising Diffusion Implicit Model for Bidirectional Lesion Filling and Synthesis
Authors:Jinwei Zhang, Lianrui Zuo, Yihao Liu, Hang Zhang, Samuel W. Remedios, Bennett A. Landman, Peter A. Calabresi, Shiv Saidha, Scott D. Newsome, Dzung L. Pham, Jerry L. Prince, Ellen M. Mowry, Aaron Carass
In multiple sclerosis, lesions interfere with automated magnetic resonance imaging analyses such as brain parcellation and deformable registration, while lesion segmentation models are hindered by the limited availability of annotated training data. To address both issues, we propose MSRepaint, a unified diffusion-based generative model for bidirectional lesion filling and synthesis that restores anatomical continuity for downstream analyses and augments segmentation through realistic data generation. MSRepaint conditions on spatial lesion masks for voxel-level control, incorporates contrast dropout to handle missing inputs, integrates a repainting mechanism to preserve surrounding anatomy during lesion filling and synthesis, and employs a multi-view DDIM inversion and fusion pipeline for 3D consistency with fast inference. Extensive evaluations demonstrate the effectiveness of MSRepaint across multiple tasks. For lesion filling, we evaluate both the accuracy within the filled regions and the impact on downstream tasks including brain parcellation and deformable registration. MSRepaint outperforms the traditional lesion filling methods FSL and NiftySeg, and achieves accuracy on par with FastSurfer-LIT, a recent diffusion model-based inpainting method, while offering over 20 times faster inference. For lesion synthesis, state-of-the-art MS lesion segmentation models trained on MSRepaint-synthesized data outperform those trained on CarveMix-synthesized data or real ISBI challenge training data across multiple benchmarks, including the MICCAI 2016 and UMCL datasets. Additionally, we demonstrate that MSRepaint’s unified bidirectional filling and synthesis capability, with full spatial control over lesion appearance, enables high-fidelity simulation of lesion evolution in longitudinal MS progression.
在多发性硬化症(MS)中,病灶会干扰自动磁共振成像分析,如脑部分割和可变形配准,而病灶分割模型则受到注释训练数据有限性的阻碍。为了解决这两个问题,我们提出了MSRepaint,这是一个基于扩散的统一生成模型,用于双向病灶填充和合成,它恢复了下游分析的解剖连续性,并通过现实数据的生成增强了分割。MSRepaint根据空间病灶掩膜进行体素级控制,采用对比丢失处理缺失输入,融入重绘机制在病灶填充和合成过程中保留周围解剖结构,并采用多视图DDIM反演和融合管道实现3D一致性以加快推理速度。广泛评估表明MSRepaint在多个任务中的有效性。对于病灶填充,我们评估了填充区域内的准确性以及对下游任务(包括脑部分割和可变形配准)的影响。MSRepaint优于传统的FSL和NiftySeg病灶填充方法,与基于扩散模型的FastSurfer-LIT方法精度相当,但推理速度超过其20倍。对于病灶合成,使用MSRepaint合成数据训练的最新多发性硬化病灶分割模型在多个基准测试上表现优于使用CarveMix合成数据或真实ISBI挑战赛训练数据训练的模型,包括MICCAI 2016和UMCL数据集。此外,我们证明了MSRepaint的统一双向填充和合成能力,以及对病灶外观的完全空间控制,能够高质量地模拟多发性硬化症纵向进展中的病灶演变。
论文及项目相关链接
Summary
本文提出一种基于扩散模型的双向病变填充与合成方法MSRepaint,用于解决多发性硬化症(MS)中的病灶干扰问题。该方法可恢复解剖连续性,促进下游分析和分割,并通过逼真的数据生成增强分割效果。实验证明,MSRepaint在多任务评估中表现优异,不仅提高了病灶填充的准确性,并提高了下游任务如脑分区和可变形注册的准确性。此外,基于MSRepaint合成的数据训练的MS病灶分割模型表现优于其他方法,并展示了高保真模拟病灶演变的潜力。
Key Takeaways
- MSRepaint是一种基于扩散模型的双向病变填充与合成方法,用于解决多发性硬化症中的病灶干扰问题。
- MSRepaint可恢复解剖连续性,促进下游分析任务。
- MSRepaint通过数据生成增强分割效果,提高病灶填充的准确性。
- 与传统方法相比,MSRepaint在病灶填充任务上表现出更高的准确性。
- 基于MSRepaint合成的数据训练的MS病灶分割模型表现优于其他训练方法。
- MSRepaint具备高保真模拟病灶演变的潜力。
点此查看论文截图



ZK-WAGON: Imperceptible Watermark for Image Generation Models using ZK-SNARKs
Authors:Aadarsh Anantha Ramakrishnan, Shubham Agarwal, Selvanayagam S, Kunwar Singh
As image generation models grow increasingly powerful and accessible, concerns around authenticity, ownership, and misuse of synthetic media have become critical. The ability to generate lifelike images indistinguishable from real ones introduces risks such as misinformation, deepfakes, and intellectual property violations. Traditional watermarking methods either degrade image quality, are easily removed, or require access to confidential model internals - making them unsuitable for secure and scalable deployment. We are the first to introduce ZK-WAGON, a novel system for watermarking image generation models using the Zero-Knowledge Succinct Non Interactive Argument of Knowledge (ZK-SNARKs). Our approach enables verifiable proof of origin without exposing model weights, generation prompts, or any sensitive internal information. We propose Selective Layer ZK-Circuit Creation (SL-ZKCC), a method to selectively convert key layers of an image generation model into a circuit, reducing proof generation time significantly. Generated ZK-SNARK proofs are imperceptibly embedded into a generated image via Least Significant Bit (LSB) steganography. We demonstrate this system on both GAN and Diffusion models, providing a secure, model-agnostic pipeline for trustworthy AI image generation.
随着图像生成模型的日益强大和普及,关于合成媒体的真实性、所有权和误用的担忧已经变得至关重要。能够生成与真实图像无法区分的逼真图像,引入了诸如虚假信息、深度伪造和知识产权侵犯等风险。传统的水印方法要么会降低图像质量,要么容易被移除,要么需要访问模型的内部机密信息,因此它们不适合进行安全和可扩展的部署。我们首次引入了ZK-WAGON系统,这是一种使用零知识简洁非交互证明知识(ZK-SNARKs)为图像生成模型添加水印的新系统。我们的方法能够在不暴露模型权重、生成提示或任何敏感内部信息的情况下,实现可验证的起源证明。我们提出了选择性层ZK电路创建(SL-ZKCC)方法,该方法能够有选择地将图像生成模型的关键层转换为电路,从而显著减少证明生成时间。生成的ZK-SNARK证明通过最低有效位(LSB)隐写术嵌入到生成的图像中,几乎无法被察觉。我们在生成对抗网络(GAN)和扩散模型上都展示了这一系统,为可信的AI图像生成提供了一个安全、模型无关的流程。
论文及项目相关链接
PDF Accepted at AI-ML Systems 2025, Bangalore, India, https://www.aimlsystems.org/2025/
Summary
图像生成模型的力量日渐强大与普及,引发了关于合成媒体真实性、所有权及误用的关注。生成逼真图像的能力引入了诸如错误信息、深度伪造和知识产权侵犯等风险。传统水印方法要么降低图像质量,要么易于移除,要么需要访问保密模型内部,因此不适合安全和可扩展的部署。我们首次引入ZK-WAGON,一种使用零知识简洁非交互论证知识(ZK-SNARKs)为图像生成模型加水印的新型系统。我们的方法能够在不暴露模型权重、生成提示或任何敏感内部信息的情况下,进行可验证的起源证明。我们提出选择性层ZK电路创建(SL-ZKCC),一种将图像生成模型的关键层选择性转换为电路的方法,显著减少证明生成时间。生成的ZK-SNARK证明通过最低有效位(LSB)隐写术嵌入到生成的图像中。我们在GAN和Diffusion模型上展示了这一系统,为可信AI图像生成提供了一个安全、模型无关的流程。
Key Takeaways
- 图像生成模型的强大与普及带来了关于合成媒体真实性、所有权和误用的关键关注点。
- 生成逼真图像的能力可能导致错误信息、深度伪造和知识产权侵犯等风险。
- 传统水印方法存在缺陷,不适合用于图像生成模型的部署。
- ZK-WAGON系统利用ZK-SNARKs为图像生成模型加水印,实现可验证的起源证明。
- ZK-WAGON方法无需暴露模型权重、生成提示或敏感内部信息。
- SL-ZKCC方法能选择性转换图像生成模型的关键层为电路,减少证明生成时间。
点此查看论文截图



Leveraging Prior Knowledge of Diffusion Model for Person Search
Authors:Giyeol Kim, Sooyoung Yang, Jihyong Oh, Myungjoo Kang, Chanho Eom
Person search aims to jointly perform person detection and re-identification by localizing and identifying a query person within a gallery of uncropped scene images. Existing methods predominantly utilize ImageNet pre-trained backbones, which may be suboptimal for capturing the complex spatial context and fine-grained identity cues necessary for person search. Moreover, they rely on a shared backbone feature for both person detection and re-identification, leading to suboptimal features due to conflicting optimization objectives. In this paper, we propose DiffPS (Diffusion Prior Knowledge for Person Search), a novel framework that leverages a pre-trained diffusion model while eliminating the optimization conflict between two sub-tasks. We analyze key properties of diffusion priors and propose three specialized modules: (i) Diffusion-Guided Region Proposal Network (DGRPN) for enhanced person localization, (ii) Multi-Scale Frequency Refinement Network (MSFRN) to mitigate shape bias, and (iii) Semantic-Adaptive Feature Aggregation Network (SFAN) to leverage text-aligned diffusion features. DiffPS sets a new state-of-the-art on CUHK-SYSU and PRW.
人物搜索旨在在未裁剪的场景图像库中定位并识别查询人物,从而联合执行人物检测和再识别。现有方法主要使用在ImageNet上预训练过的主干网络,这可能不利于捕捉人物搜索所需复杂的空间上下文和精细的身份线索。此外,它们依赖共享主干特征进行人物检测和再识别,由于优化目标之间的冲突,导致特征次优。在本文中,我们提出了DiffPS(用于人物搜索的扩散先验知识),这是一个利用预训练的扩散模型的新框架,同时消除了两个子任务之间的优化冲突。我们分析了扩散先验的关键属性,并提出了三个专用模块:(i)扩散引导区域提议网络(DGRPN),用于增强人物定位;(ii)多尺度频率细化网络(MSFRN),以减轻形状偏见;(iii)语义自适应特征聚合网络(SFAN),以利用文本对齐的扩散特征。DiffPS在CUHK-SYSU和PRW上达到了最新技术水平。
论文及项目相关链接
Summary
扩散模型先验知识在人物搜索中的应用。该论文提出了一种新的框架DiffPS,利用预训练的扩散模型,解决了人物检测和再识别之间的优化冲突问题。通过三个专门模块,提高了人物定位的准确性,缓解了形状偏见,并充分利用了文本对齐的扩散特征。DiffPS在CUHK-SYSU和PRW数据集上取得了最新 state-of-the-art 的成绩。
Key Takeaways
- 人物搜索需要同时进行人物检测和再识别,在一个未裁剪的场景图像库中定位并识别查询人物。
- 现有方法主要使用ImageNet预训练骨干网,可能不利于捕捉复杂的空间上下文和精细的身份线索。
- 现有方法使用共享骨干网特征进行人物检测和再识别,导致特征因优化目标冲突而次优。
- DiffPS框架利用预训练的扩散模型,解决了两个子任务之间的优化冲突。
- DiffPS通过三个专门模块提高了人物定位的准确性,缓解了形状偏见,并充分利用了文本对齐的扩散特征。
- DiffPS在CUHK-SYSU和PRW数据集上取得了最新的 state-of-the-art 成绩。
点此查看论文截图




UniVerse: Unleashing the Scene Prior of Video Diffusion Models for Robust Radiance Field Reconstruction
Authors:Jin Cao, Hongrui Wu, Ziyong Feng, Hujun Bao, Xiaowei Zhou, Sida Peng
This paper tackles the challenge of robust reconstruction, i.e., the task of reconstructing a 3D scene from a set of inconsistent multi-view images. Some recent works have attempted to simultaneously remove image inconsistencies and perform reconstruction by integrating image degradation modeling into neural 3D scene representations.However, these methods rely heavily on dense observations for robustly optimizing model parameters.To address this issue, we propose to decouple robust reconstruction into two subtasks: restoration and reconstruction, which naturally simplifies the optimization process.To this end, we introduce UniVerse, a unified framework for robust reconstruction based on a video diffusion model. Specifically, UniVerse first converts inconsistent images into initial videos, then uses a specially designed video diffusion model to restore them into consistent images, and finally reconstructs the 3D scenes from these restored images.Compared with case-by-case per-view degradation modeling, the diffusion model learns a general scene prior from large-scale data, making it applicable to diverse image inconsistencies.Extensive experiments on both synthetic and real-world datasets demonstrate the strong generalization capability and superior performance of our method in robust reconstruction. Moreover, UniVerse can control the style of the reconstructed 3D scene. Project page: https://jin-cao-tma.github.io/UniVerse.github.io/
本文面临稳健重建的挑战,即如何从一组不一致的多视角图像重建一个三维场景。近期的一些工作尝试通过整合图像退化建模到神经三维场景表示中,同时消除图像的不一致性和进行重建。然而,这些方法很大程度上依赖于密集观测来稳健地优化模型参数。为了解决这一问题,我们提议将稳健重建解耦为两个子任务:恢复和重建,这自然地简化了优化过程。为此,我们引入了基于视频扩散模型的稳健重建的统一框架UniVerse。具体来说,UniVerse首先把不一致的图像转换成初始视频,然后使用专门设计的视频扩散模型将它们恢复成一致图像,最后从这些恢复后的图像重建三维场景。与逐个视图进行退化建模相比,扩散模型从大规模数据中学习了一般场景先验,使其适用于多种图像不一致性。在合成和真实世界数据集上的大量实验证明了我们方法在稳健重建中的强大通用性和卓越性能。此外,UniVerse可以控制重建的三维场景的风格。项目页面:https://jin-cao-tma.github.io/UniVerse.github.io/。
论文及项目相关链接
PDF page: https://jin-cao-tma.github.io/UniVerse.github.io/ code: https://github.com/zju3dv/UniVerse
Summary
本文提出一种基于视频扩散模型的统一框架UniVerse,用于从多视角的不一致图像中重建3D场景。该框架通过将恢复和重建任务解耦,简化了优化过程。它通过转换不一致图像为初始视频,使用专门设计的视频扩散模型进行图像恢复,并从恢复的图像中重建3D场景。相较于针对个案的每视角退化建模,扩散模型从大规模数据中学习场景的一般先验,适用于多种图像不一致性。实验表明,该方法在鲁棒重建中具有强大的泛化能力和优越性能,并可控制重建的3D场景的风格。
Key Takeaways
- 该论文解决了从多视角不一致图像中鲁棒重建3D场景的挑战。
- 提出了一种基于视频扩散模型的统一框架UniVerse。
- UniVerse通过解耦恢复和重建任务,简化了优化过程。
- 使用视频扩散模型从不一致图像中恢复图像。
- 扩散模型能从大规模数据中学习场景的一般先验,适用于多种图像不一致性。
- 实验证明UniVerse在鲁棒重建中具有强大的泛化能力和优越性能。
点此查看论文截图




FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring
Authors:Xiaoyang Liu, Zhengyan Zhou, Zihang Xu, Jiezhang Cao, Zheng Chen, Yulun Zhang
Recent advancements in image motion deblurring, driven by CNNs and transformers, have made significant progress. Large-scale pre-trained diffusion models, which are rich in true-world modeling, have shown great promise for high-quality image restoration tasks such as deblurring, demonstrating stronger generative capabilities than CNN and transformer-based methods. However, challenges such as unbearable inference time and compromised fidelity still limit the full potential of the diffusion models. To address this, we introduce FideDiff, a novel single-step diffusion model designed for high-fidelity deblurring. We reformulate motion deblurring as a diffusion-like process where each timestep represents a progressively blurred image, and we train a consistency model that aligns all timesteps to the same clean image. By reconstructing training data with matched blur trajectories, the model learns temporal consistency, enabling accurate one-step deblurring. We further enhance model performance by integrating Kernel ControlNet for blur kernel estimation and introducing adaptive timestep prediction. Our model achieves superior performance on full-reference metrics, surpassing previous diffusion-based methods and matching the performance of other state-of-the-art models. FideDiff offers a new direction for applying pre-trained diffusion models to high-fidelity image restoration tasks, establishing a robust baseline for further advancing diffusion models in real-world industrial applications. Our dataset and code will be available at https://github.com/xyLiu339/FideDiff.
最近,由卷积神经网络(CNN)和变压器驱动的图像运动去模糊技术取得了显著进展。大规模预训练扩散模型在真实世界建模方面表现出丰富的特性,对于高质量图像恢复任务(如去模糊)具有巨大的潜力,显示出比CNN和基于变压器的方法更强的生成能力。然而,挑战仍然存在,例如难以忍受的推理时间以及保真度的妥协仍然限制了扩散模型的全部潜力。为了解决这一问题,我们引入了FideDiff,这是一种为高性能去模糊而设计的新型单步扩散模型。我们将运动去模糊重新表述为类似扩散的过程,其中每个时间步代表一个逐渐模糊的图像,并训练了一个一致性模型,将所有时间步对齐到同一清洁图像。通过用匹配的模糊轨迹重建训练数据,模型学习时间一致性,从而实现了一步去模糊。我们进一步通过整合Kernel ControlNet进行模糊核估计和引入自适应时间步预测,增强了模型性能。我们的模型在全参考指标上实现了卓越的性能,超越了之前的基于扩散的方法,并与其他最先进的模型性能相匹配。FideDiff为将预训练的扩散模型应用于高质量图像恢复任务提供了新的方向,为在现实世界工业应用中进一步推进扩散模型建立了稳健的基线。我们的数据集和代码将在https://github.com/xyLiu339/FideDiff上提供。
论文及项目相关链接
Summary
近期,基于CNN和transformer的图像运动去模糊技术取得了显著进展。大型预训练扩散模型在高保真图像恢复任务中展现出巨大潜力,如去模糊。然而,存在推理时间过长和保真度不足等挑战。为解决这些问题,我们推出FideDiff,一种用于高保真去模糊的单步扩散模型。该模型将运动去模糊重新构建为扩散过程,每个时间步代表一张逐渐模糊的图片,并训练一致性模型将所有时间步对齐到同一清晰图像。通过重建具有匹配模糊轨迹的训练数据,模型学习时间一致性,实现一次去模糊。通过集成Kernel ControlNet进行模糊核估计和引入自适应时间步预测,模型性能进一步提升。FideDiff在参考指标上实现卓越性能,超越先前的扩散方法,并与其他顶尖模型性能相匹配。它为将预训练扩散模型应用于高保真图像恢复任务提供了新方向,为扩散模型在现实世界工业应用中的进一步发展建立了稳健基准。
Key Takeaways
- 大型预训练扩散模型在高保真图像恢复任务中表现出巨大潜力。
- 扩散模型在处理图像去模糊任务时存在推理时间长和保真度不足的挑战。
- FideDiff是一种新型单步扩散模型,用于高保真去模糊,将运动去模糊重新构建为扩散过程。
- FideDiff通过训练一致性模型,使所有时间步对齐到同一清晰图像,实现一次去模糊。
- FideDiff集成了Kernel ControlNet进行模糊核估计,并引入自适应时间步预测,进一步提升了模型性能。
- FideDiff在参考指标上实现了卓越性能,超越了先前的扩散方法,并与其他顶尖模型相当。
- FideDiff为将预训练扩散模型应用于高保真图像恢复任务提供了新方向,并为扩散模型在现实世界工业应用中的进一步发展建立了基准。
点此查看论文截图





NPN: Non-Linear Projections of the Null-Space for Imaging Inverse Problems
Authors:Roman Jacome, Romario Gualdrón-Hurtado, Leon Suarez, Henry Arguello
Imaging inverse problems aims to recover high-dimensional signals from undersampled, noisy measurements, a fundamentally ill-posed task with infinite solutions in the null-space of the sensing operator. To resolve this ambiguity, prior information is typically incorporated through handcrafted regularizers or learned models that constrain the solution space. However, these priors typically ignore the task-specific structure of that null-space. In this work, we propose \textit{Non-Linear Projections of the Null-Space} (NPN), a novel class of regularization that, instead of enforcing structural constraints in the image domain, promotes solutions that lie in a low-dimensional projection of the sensing matrix’s null-space with a neural network. Our approach has two key advantages: (1) Interpretability: by focusing on the structure of the null-space, we design sensing-matrix-specific priors that capture information orthogonal to the signal components that are fundamentally blind to the sensing process. (2) Flexibility: NPN is adaptable to various inverse problems, compatible with existing reconstruction frameworks, and complementary to conventional image-domain priors. We provide theoretical guarantees on convergence and reconstruction accuracy when used within plug-and-play methods. Empirical results across diverse sensing matrices demonstrate that NPN priors consistently enhance reconstruction fidelity in various imaging inverse problems, such as compressive sensing, deblurring, super-resolution, computed tomography, and magnetic resonance imaging, with plug-and-play methods, unrolling networks, deep image prior, and diffusion models.
成像反问题旨在从欠采样、嘈杂的测量中恢复高维信号,这是一个根本上的不适定任务,其解空间在感知算子的零空间中存在无限解。为了解决这种模糊性,通常通过手工正则化器或学习模型来融入先验信息,以约束解空间。然而,这些先验通常忽略了任务特定结构的零空间。在这项工作中,我们提出了“零空间非线性投影”(NPN),这是一类新型正则化方法,它不在图像域中强制结构约束,而是通过在神经网络中使用感知矩阵零空间的一个低维投影来优化解。我们的方法有两个主要优点:(1)可解释性:通过关注零空间的结构,我们设计了针对感知矩阵的特定先验,这些先验信息捕捉到了与信号成分正交的信息,这些信号成分对感知过程本质上是盲性的。(2)灵活性:NPN能够适应各种反问题,与现有的重建框架兼容,并且是传统图像域先验的补充。当用于插件和播放方法时,我们提供了关于收敛和重建准确性的理论保证。在多种感知矩阵上的实证结果表明,NPN先验在多种成像反问题中一致地提高了重建保真度,如压缩感知、去模糊、超分辨率、计算机断层扫描和磁共振成像等,适用于插件和播放方法、展开网络、深度图像先验和扩散模型。
论文及项目相关链接
PDF 25 pages, 12 tables, 10 figures. Accepted to NeurIPS 2025
Summary
本文提出一种名为“非线性的零空间投影”(NPN)的新型正则化方法,用于解决成像反问题。该方法专注于零空间的结构,通过神经网络在低维投影中寻找解决方案,从而提高了解的可解释性和灵活性。在多种成像反问题中,NPN先验可增强重建的保真度。
Key Takeaways
- 成像反问题旨在从欠采样、嘈杂的测量中恢复高维信号,这是一个根本上的不适定任务。
- 传统的先验信息通常通过手工正则化器或学习模型来约束解空间,但往往忽略了任务特定的结构。
- NPN方法专注于零空间的结构,设计感应矩阵特定的先验,捕获与信号成分正交的信息。
- NPN方法通过神经网络在低维投影中寻找解决方案,提高了解决方案的可解释性和灵活性。
- NPN先验在各种成像反问题中都能提高重建的保真度,如压缩感知、去模糊、超分辨率、计算机断层扫描和磁共振成像等。
- NPN方法可与现有的重建框架互补,适用于多种逆问题。
点此查看论文截图


Towards Better Optimization For Listwise Preference in Diffusion Models
Authors:Jiamu Bai, Xin Yu, Meilong Xu, Weitao Lu, Xin Pan, Kiwan Maeng, Daniel Kifer, Jian Wang, Yu Wang
Reinforcement learning from human feedback (RLHF) has proven effectiveness for aligning text-to-image (T2I) diffusion models with human preferences. Although Direct Preference Optimization (DPO) is widely adopted for its computational efficiency and avoidance of explicit reward modeling, its applications to diffusion models have primarily relied on pairwise preferences. The precise optimization of listwise preferences remains largely unaddressed. In practice, human feedback on image preferences often contains implicit ranked information, which conveys more precise human preferences than pairwise comparisons. In this work, we propose Diffusion-LPO, a simple and effective framework for Listwise Preference Optimization in diffusion models with listwise data. Given a caption, we aggregate user feedback into a ranked list of images and derive a listwise extension of the DPO objective under the Plackett-Luce model. Diffusion-LPO enforces consistency across the entire ranking by encouraging each sample to be preferred over all of its lower-ranked alternatives. We empirically demonstrate the effectiveness of Diffusion-LPO across various tasks, including text-to-image generation, image editing, and personalized preference alignment. Diffusion-LPO consistently outperforms pairwise DPO baselines on visual quality and preference alignment.
强化学习从人类反馈(RLHF)已经证明在使文本到图像(T2I)扩散模型与人类偏好对齐方面的有效性。尽管Direct Preference Optimization(DPO)因其计算效率高且避免了显式奖励建模而得到广泛应用,但其在扩散模型中的应用主要依赖于成对偏好。对列表级偏好的精确优化仍然未得到很好的解决。在实践中,人类对图像偏好的反馈通常包含隐性的排名信息,这传达了比成对比较更精确的人类偏好。在这项工作中,我们提出了Diffusion-LPO,这是一个在带有列表数据的扩散模型中用于列表级偏好优化的简单有效的框架。给定一个标题,我们将用户反馈聚合为图像排名列表,并在Plackett-Luce模型下推导出DPO目标的列表级扩展。Diffusion-LPO通过鼓励每个样本在所有排名较低的替代品中保持优先,从而在整个排名中强制执行一致性。我们在各种任务上实证了Diffusion-LPO的有效性,包括文本到图像生成、图像编辑和个人偏好对齐。Diffusion-LPO在视觉质量和偏好对齐方面始终优于成对的DPO基准测试。
论文及项目相关链接
Summary
基于人类反馈的强化学习已证明在调整文本到图像(T2I)扩散模型以符合人类偏好方面非常有效。尽管直接偏好优化(DPO)因其计算效率和高避免显式奖励建模的适用性而受到广泛采用,但其对扩散模型的应用主要依赖于成对偏好。列表偏好的精确优化仍未得到广泛研究。在实践中,关于图像偏好的人类反馈通常包含隐含的排名信息,这比成对比较更能准确反映人类偏好。本工作提出了一个简单有效的Diffusion-LPO框架,用于处理扩散模型中的列表偏好优化问题。给定描述,我们整合用户反馈生成图像排名列表,并在Plackett-Luce模型下推导DPO目标的列表扩展。Diffusion-LPO通过鼓励每个样本在所有排名较低的替代品中占据优势来确保整个排名的连贯性。我们实证地证明了Diffusion-LPO在各种任务上的有效性,包括文本到图像生成、图像编辑和个性化偏好对齐。Diffusion-LPO在视觉质量和偏好对齐方面均优于成对DPO基准测试。
Key Takeaways
- 强化学习从人类反馈(RLHF)在提高文本到图像(T2I)扩散模型与人类偏好对齐方面展现出有效性。
- 直接偏好优化(DPO)已广泛应用于扩散模型,但主要依赖于成对偏好,忽视了列表偏好的精确优化。
- 人类反馈通常包含隐含的排名信息,能更精确地反映人类偏好。
- 本研究提出了Diffusion-LPO框架,该框架利用列表数据在扩散模型中进行列表偏好优化。
- Diffusion-LPO通过鼓励每个样本在所有较低排名的替代品中占据优势,确保排名的连贯性。
- Diffusion-LPO在多种任务上表现优异,包括文本到图像生成、图像编辑和个性化偏好对齐。
点此查看论文截图


AortaDiff: A Unified Multitask Diffusion Framework For Contrast-Free AAA Imaging
Authors:Yuxuan Ou, Ning Bi, Jiazhen Pan, Jiancheng Yang, Boliang Yu, Usama Zidan, Regent Lee, Vicente Grau
While contrast-enhanced CT (CECT) is standard for assessing abdominal aortic aneurysms (AAA), the required iodinated contrast agents pose significant risks, including nephrotoxicity, patient allergies, and environmental harm. To reduce contrast agent use, recent deep learning methods have focused on generating synthetic CECT from non-contrast CT (NCCT) scans. However, most adopt a multi-stage pipeline that first generates images and then performs segmentation, which leads to error accumulation and fails to leverage shared semantic and anatomical structures. To address this, we propose a unified deep learning framework that generates synthetic CECT images from NCCT scans while simultaneously segmenting the aortic lumen and thrombus. Our approach integrates conditional diffusion models (CDM) with multi-task learning, enabling end-to-end joint optimization of image synthesis and anatomical segmentation. Unlike previous multitask diffusion models, our approach requires no initial predictions (e.g., a coarse segmentation mask), shares both encoder and decoder parameters across tasks, and employs a semi-supervised training strategy to learn from scans with missing segmentation labels, a common constraint in real-world clinical data. We evaluated our method on a cohort of 264 patients, where it consistently outperformed state-of-the-art single-task and multi-stage models. For image synthesis, our model achieved a PSNR of 25.61 dB, compared to 23.80 dB from a single-task CDM. For anatomical segmentation, it improved the lumen Dice score to 0.89 from 0.87 and the challenging thrombus Dice score to 0.53 from 0.48 (nnU-Net). These segmentation enhancements led to more accurate clinical measurements, reducing the lumen diameter MAE to 4.19 mm from 5.78 mm and the thrombus area error to 33.85% from 41.45% when compared to nnU-Net. Code is available at https://github.com/yuxuanou623/AortaDiff.git.
在评估腹主动脉瘤(AAA)时,虽然增强型计算机断层扫描(CECT)是标准方法,但所需的碘造影剂存在重大风险,包括肾毒性、患者过敏反应和环境危害。为了减少造影剂的使用,最近的深度学习方法专注于从非对比计算机断层扫描(NCCT)生成合成CECT。然而,大多数方法采用多阶段管道,首先生成图像,然后进行分割,这会导致误差累积,并且未能利用共享语义和解剖结构。针对这一问题,我们提出了一种统一的深度学习框架,该框架可从NCCT扫描生成合成CECT图像,同时分割主动脉腔和血栓。我们的方法将条件扩散模型(CDM)与多任务学习相结合,实现对图像合成和解剖结构分割的端到端联合优化。与之前的多任务扩散模型不同,我们的方法无需初始预测(例如粗略分割掩膜),共享编码器和解码器参数跨任务,并采用半监督训练策略从缺失分割标签的扫描中学习,这是现实世界临床数据中常见的约束。我们在264名患者队列中评估了我们的方法,其性能始终优于最新单任务和多阶段模型。在图像合成方面,我们的模型达到了25.61分贝的峰值信噪比(PSNR),高于单任务CDM的23.80分贝。在解剖结构分割方面,它将腔道Dice系数从0.87提高到0.89,并将具有挑战性的血栓Dice系数从0.48提高到0.53(nnU-Net)。这些分割改进带来了更准确的临床测量值,将腔道直径平均绝对误差(MAE)从nnU-Net的5.78毫米减少到4.19毫米,并将血栓面积误差从41.45%减少到33.85%。代码可在https://github.com/yuxuanou623/AortaDiff.git找到。
论文及项目相关链接
摘要
本研究针对腹部主动脉瘤的评估,提出一种基于深度学习的统一框架,能够从非对比CT扫描中生成合成对比增强CT图像,并同时分割主动脉腔和血栓。该方法结合了条件扩散模型和多任务学习,实现了图像合成和解剖分割的端到端联合优化。相较于先前的多任务扩散模型,本研究的方法无需初始预测,共享编码器和解码器参数,并采用半监督训练策略应对缺乏分割标签的扫描数据。在264名患者队列中的评估显示,该方法在图像合成和解剖分割方面均表现出卓越性能,超过单项任务和多阶段模型。
关键见解
- 碘化对比剂在评估腹部主动脉瘤中虽为标准,但存在肾毒性、患者过敏和环境危害等风险。
- 研究采用深度学习方法从非对比CT扫描生成合成对比增强CT图像。
- 提出一种统一深度学习框架,同时分割主动脉腔和血栓,减少误差累积。
- 结合条件扩散模型和多任务学习,实现图像合成和解剖分割的联合优化。
- 与先前的多任务扩散模型相比,该方法无需初始预测,参数共享,并采用半监督训练策略。
- 方法在264名患者队列中表现优异,超过单项任务和多阶段模型。
- 精确的解剖分割有助于更准确的临床测量。
点此查看论文截图




VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation
Authors:Arthur Zhang, Xiangyun Meng, Luca Calliari, Dong-Ki Kim, Shayegan Omidshafiei, Joydeep Biswas, Ali Agha, Amirreza Shaban
Robots must adapt to diverse human instructions and operate safely in unstructured, open-world environments. Recent Vision-Language models (VLMs) offer strong priors for grounding language and perception, but remain difficult to steer for navigation due to differences in action spaces and pretraining objectives that hamper transferability to robotics tasks. Towards addressing this, we introduce VENTURA, a vision-language navigation system that finetunes internet-pretrained image diffusion models for path planning. Instead of directly predicting low-level actions, VENTURA generates a path mask (i.e. a visual plan) in image space that captures fine-grained, context-aware navigation behaviors. A lightweight behavior-cloning policy grounds these visual plans into executable trajectories, yielding an interface that follows natural language instructions to generate diverse robot behaviors. To scale training, we supervise on path masks derived from self-supervised tracking models paired with VLM-augmented captions, avoiding manual pixel-level annotation or highly engineered data collection setups. In extensive real-world evaluations, VENTURA outperforms state-of-the-art foundation model baselines on object reaching, obstacle avoidance, and terrain preference tasks, improving success rates by 33% and reducing collisions by 54% across both seen and unseen scenarios. Notably, we find that VENTURA generalizes to unseen combinations of distinct tasks, revealing emergent compositional capabilities. Videos, code, and additional materials: https://venturapath.github.io
机器人必须适应多样化的人类指令,并在非结构化、开放世界环境中安全操作。最近的视觉语言模型(VLM)为语言接地和感知提供了强有力的先验知识,但由于动作空间上的差异和预训练目标与机器人任务的可转移性受阻,使得其在导航方面仍然难以控制。为了解决这个问题,我们引入了VENTURA,一个视觉语言导航系统,它通过微调互联网预训练的图像扩散模型来进行路径规划。VENTURA不同于直接预测低层次动作,而是生成图像空间中的路径掩码(即视觉计划),捕捉精细的、上下文感知的导航行为。一个轻量级的模仿行为策略将这些视觉计划转化为可执行的轨迹,从而产生一个遵循自然语言指令的接口,以生成多样化的机器人行为。为了扩大训练规模,我们在自我监督跟踪模型生成的路径掩码上进行监督,这些模型与VLM增强的字幕配对,避免了手动像素级的标注或高度工程化的数据采集设置。在广泛的实际世界评估中,VENTURA在物体抓取、避障和地形偏好任务上的表现优于最先进的基准模型,在已知和未知场景中的成功率提高了33%,碰撞减少了54%。值得注意的是,我们发现VENTURA能够泛化到未见过的不同任务的组合,显示出新兴的组合能力。视频、代码和其他材料请参见:[https://venturapath.github.io/]
论文及项目相关链接
PDF 9 pages, 6 figures, 3 tables
Summary
本文介绍了VENTURA系统,该系统结合了视觉和语言模型,用于机器人导航。它通过微调互联网预训练的图像扩散模型来规划路径,生成路径掩码(即视觉计划),该掩码能捕捉精细、上下文感知的导航行为。该系统使用轻量级的行为克隆策略将视觉计划转化为可执行轨迹,并通过自然语言指令生成多样化的机器人行为。通过自我监督跟踪模型和语言模型的结合,实现了无需手动像素级标注和高度定制的数据采集设置的大规模训练。在真实世界环境中,VENTURA在物体抓取、避障和地形选择任务上超越了最先进的基线模型,在已知和未知场景中的成功率提高了33%,碰撞减少了54%。此外,它还能够推广到未见过的组合任务,展现出组合的潜力。
Key Takeaways
- VENTURA系统结合了视觉和语言模型,用于机器人导航。
- 通过微调互联网预训练的图像扩散模型进行路径规划。
- 生成路径掩码(视觉计划),捕捉精细、上下文感知的导航行为。
- 借助轻量级行为克隆策略将视觉计划转化为可执行轨迹。
- 通过自然语言指令生成多样化的机器人行为。
- 使用自我监督跟踪模型和语言模型的结合进行训练,无需手动像素级标注和高度定制的数据采集设置。
点此查看论文截图





LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration
Authors:Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra
Computational imaging methods increasingly rely on powerful generative diffusion models to tackle challenging image restoration tasks. In particular, state-of-the-art zero-shot image inverse solvers leverage distilled text-to-image latent diffusion models (LDMs) to achieve unprecedented accuracy and perceptual quality with high computational efficiency. However, extending these advances to high-definition video restoration remains a significant challenge, due to the need to recover fine spatial detail while capturing subtle temporal dependencies. Consequently, methods that naively apply image-based LDM priors on a frame-by-frame basis often result in temporally inconsistent reconstructions. We address this challenge by leveraging recent advances in Video Consistency Models (VCMs), which distill video latent diffusion models into fast generators that explicitly capture temporal causality. Building on this foundation, we propose LVTINO, the first zero-shot or plug-and-play inverse solver for high definition video restoration with priors encoded by VCMs. Our conditioning mechanism bypasses the need for automatic differentiation and achieves state-of-the-art video reconstruction quality with only a few neural function evaluations, while ensuring strong measurement consistency and smooth temporal transitions across frames. Extensive experiments on a diverse set of video inverse problems show significant perceptual improvements over current state-of-the-art methods that apply image LDMs frame by frame, establishing a new benchmark in both reconstruction fidelity and computational efficiency.
计算成像方法越来越依赖于强大的生成扩散模型,以解决具有挑战性的图像恢复任务。特别是,最先进的零样本图像逆求解器利用提炼的文本到图像潜在扩散模型(LDM)以极高的计算效率实现了前所未有的准确性和感知质量。然而,将这些进展扩展到高清视频恢复仍然是一个重大挑战,因为需要在恢复精细空间细节的同时捕捉微妙的时间依赖性。因此,那些直接按帧应用基于图像的LDM先验的方法通常会导致时间上不一致的重建。我们通过利用视频一致性模型(VCM)的最新进展来解决这一挑战,它将视频潜在扩散模型提炼成能够快速生成且能明确捕捉时间因果关系的模型。在此基础上,我们提出了LVTINO,这是第一个用于高清视频恢复的零样本或即插即用逆求解器,其先验由VCM编码。我们的调节机制跳过了自动分化的需求,仅通过几次神经网络功能评估就实现了最先进的视频重建质量,同时确保了强大的测量一致性和跨帧之间的平滑时间过渡。在多种视频逆问题上的广泛实验表明,与当前将图像LDM逐帧应用的先进方法相比,感知效果显著提升,在重建保真度和计算效率方面都树立了新的基准。
论文及项目相关链接
PDF 23 pages, 12 figures
Summary
该文介绍了计算成像方法如何利用先进的生成扩散模型来处理图像恢复任务。最新一代的零样本图像逆求解器通过蒸馏文本到图像潜在扩散模型(LDMs)实现了前所未有的准确性和感知质量,同时保持了高计算效率。然而,将这些进展扩展到高清视频恢复仍然是一个重大挑战,因为需要在恢复精细空间细节的同时捕捉微妙的时间依赖性。为此,本文利用视频一致性模型(VCMs)的最新进展,将视频潜在扩散模型蒸馏成快速生成器,显式捕捉时间因果关系。在此基础上,提出了LVTINO,这是一种零样本或即插即用的高清视频恢复逆求解器,以VCMs编码的先验知识为基础。其调节机制无需自动微分,即可实现视频重建质量的最新水平,仅通过几次神经网络功能评估就能达到效果,同时确保强大的测量一致性和跨帧的平滑时间过渡。
Key Takeaways
- 计算成像方法依赖生成扩散模型处理图像恢复任务。
- 先进的零样本图像逆求解器利用蒸馏文本到图像潜在扩散模型(LDMs)实现高准确性和感知质量。
- 将这些技术扩展到高清视频恢复存在挑战,需要恢复精细空间细节并捕捉时间依赖性。
- 视频一致性模型(VCMs)用于蒸馏视频潜在扩散模型,以显式捕捉时间因果关系。
- LVTINO是首个利用VCMs先验知识的零样本或即插即用的高清视频恢复逆求解器。
- LVTINO调节机制无需自动微分,能实现视频重建的先进质量,并确保测量一致性和平滑时间过渡。
点此查看论文截图


Temporal Score Rescaling for Temperature Sampling in Diffusion and Flow Models
Authors:Yanbo Xu, Yu Wu, Sungjae Park, Zhizhuo Zhou, Shubham Tulsiani
We present a mechanism to steer the sampling diversity of denoising diffusion and flow matching models, allowing users to sample from a sharper or broader distribution than the training distribution. We build on the observation that these models leverage (learned) score functions of noisy data distributions for sampling and show that rescaling these allows one to effectively control a `local’ sampling temperature. Notably, this approach does not require any finetuning or alterations to training strategy, and can be applied to any off-the-shelf model and is compatible with both deterministic and stochastic samplers. We first validate our framework on toy 2D data, and then demonstrate its application for diffusion models trained across five disparate tasks – image generation, pose estimation, depth prediction, robot manipulation, and protein design. We find that across these tasks, our approach allows sampling from sharper (or flatter) distributions, yielding performance gains e.g., depth prediction models benefit from sampling more likely depth estimates, whereas image generation models perform better when sampling a slightly flatter distribution. Project page: https://temporalscorerescaling.github.io
我们提出了一种控制降噪扩散和流量匹配模型的采样多样性的机制,允许用户从比训练分布更尖锐或更广泛的分布中进行采样。我们的观察基础是,这些模型利用噪声数据的(学习)分数函数进行采样,我们表明重新缩放这些分数函数可以有效地控制“局部”采样温度。值得注意的是,这种方法不需要对训练策略进行微调或更改,可以应用于任何现成的模型,并且与确定性采样器和随机采样器兼容。我们首先在玩具2D数据上验证我们的框架,然后演示其在五个不同任务上训练的扩散模型的应用,包括图像生成、姿态估计、深度预测、机器人操作和蛋白质设计。我们发现,在这些任务中,我们的方法允许从更尖锐(或更平坦)的分布中进行采样,从而带来性能提升,例如深度预测模型受益于更可能的深度估计的采样,而图像生成模型在稍微平坦的分布中采样时表现更好。项目页面:https://temporalscorerescaling.github.io
论文及项目相关链接
Summary
本文介绍了控制去噪扩散和流匹配模型的采样多样性的机制,使用户可以从比训练分布更尖锐或更广泛的分布中进行采样。文章基于这些模型利用噪声数据的评分函数进行采样的观察,展示通过调整评分函数的尺度可以有效地控制局部采样温度。该方法无需对训练策略进行微调或更改,可应用于任何现成的模型,并且与确定性采样器和随机采样器兼容。该框架在玩具2D数据上进行了验证,并展示了在五个不同任务(图像生成、姿态估计、深度预测、机器人操作和蛋白质设计)的扩散模型中的应用。实验表明,该方法可以在不同任务中实现从更尖锐或更平坦的分布进行采样,从而提高性能,例如在深度预测模型中,从更可能的深度估计中进行采样受益较大,而在图像生成模型中,从稍微平坦的分布中进行采样效果更好。
Key Takeaways
- 介绍了一种控制去噪扩散和流匹配模型的采样多样性的新机制。
- 通过调整噪声数据的评分函数的尺度,可以控制局部采样温度。
- 该方法无需微调或更改训练策略,具有广泛的应用性,可应用于任何现成的模型。
- 该方法与确定性采样器和随机采样器兼容。
- 框架在玩具2D数据上进行了验证,并成功应用于图像生成、姿态估计、深度预测、机器人操作和蛋白质设计等五个任务的扩散模型。
- 实验显示,该方法能使模型从更尖锐或更平坦的分布中采样,从而提高性能。
点此查看论文截图


Semantic and Visual Crop-Guided Diffusion Models for Heterogeneous Tissue Synthesis in Histopathology
Authors:Saghir Alfasly, Wataru Uegami, MD Enamul Hoq, Ghazal Alabtah, H. R. Tizhoosh
Synthetic data generation in histopathology faces unique challenges: preserving tissue heterogeneity, capturing subtle morphological features, and scaling to unannotated datasets. We present a latent diffusion model that generates realistic heterogeneous histopathology images through a novel dual-conditioning approach combining semantic segmentation maps with tissue-specific visual crops. Unlike existing methods that rely on text prompts or abstract visual embeddings, our approach preserves critical morphological details by directly incorporating raw tissue crops from corresponding semantic regions. For annotated datasets (i.e., Camelyon16, Panda), we extract patches ensuring 20-80% tissue heterogeneity. For unannotated data (i.e., TCGA), we introduce a self-supervised extension that clusters whole-slide images into 100 tissue types using foundation model embeddings, automatically generating pseudo-semantic maps for training. Our method synthesizes high-fidelity images with precise region-wise annotations, achieving superior performance on downstream segmentation tasks. When evaluated on annotated datasets, models trained on our synthetic data show competitive performance to those trained on real data, demonstrating the utility of controlled heterogeneous tissue generation. In quantitative evaluation, prompt-guided synthesis reduces Frechet Distance by up to 6X on Camelyon16 (from 430.1 to 72.0) and yields 2-3x lower FD across Panda and TCGA. Downstream DeepLabv3+ models trained solely on synthetic data attain test IoU of 0.71 and 0.95 on Camelyon16 and Panda, within 1-2% of real-data baselines (0.72 and 0.96). By scaling to 11,765 TCGA whole-slide images without manual annotations, our framework offers a practical solution for an urgent need for generating diverse, annotated histopathology data, addressing a critical bottleneck in computational pathology.
病理组织学的合成数据生成面临一些独特的挑战:保留组织异质性、捕捉微妙的形态学特征以及扩展到未标注的数据集。我们提出了一种潜在扩散模型,通过一种新颖的双重条件方法结合语义分割图和组织特异性视觉裁剪来生成真实的异质性病理组织学图像。不同于依赖文本提示或抽象视觉嵌入的现有方法,我们的方法通过直接融入来自相应语义区域的原始组织裁剪来保留关键的形态学细节。对于已标注的数据集(例如Camelyon16、Panda),我们提取斑块,确保组织异质性占20-80%。对于未标注的数据(例如TCGA),我们引入了一种自监督扩展,使用基础模型嵌入将整个幻灯片图像聚类成100种组织类型,自动生成伪语义图进行训练。我们的方法合成高保真图像,具有精确的区域注释,并在下游分割任务上实现卓越性能。在已标注数据集上进行评估,经过我们的合成数据训练的模型表现出与真实数据训练的模型相当的性能,证明了可控的异质性组织生成的实用性。在定量评估中,提示引导的合成将Camelyon16上的Frechet距离减少了高达6倍(从430.1降至72.0),并且在Panda和TCGA上的FD降低了2-3倍。仅经过合成数据训练的下游DeepLabv3+模型在Camelyon16和Panda上的测试交集mIoU达到0.71和0.95,与真实数据基准线相差1-2%(分别为0.72和0.96)。通过扩展到11765张没有手动标注的TCGA全幻灯片图像,我们的框架为解决生成多样、标注的病理组织学数据的紧迫需求提供了切实可行的解决方案,解决了计算病理学中的一个关键瓶颈。
论文及项目相关链接
PDF NeurIPS 2025
摘要
本文介绍了针对病理图像合成数据生成所面临的挑战,如保持组织异质性、捕捉微妙的形态特征和扩展到未标注数据集的问题。提出了一种基于潜在扩散模型的病理图像合成方法,通过结合语义分割图和特定组织视觉裁剪的双重条件策略生成逼真的异质性病理图像。与依赖文本提示或抽象视觉嵌入的现有方法不同,该方法通过直接结合来自相应语义区域的原始组织裁剪片段,保留了关键的形态细节。对于已标注的数据集(如Camelyon16和Panda),通过提取确保20-80%组织异质性的补丁。对于未标注的数据(如TCGA),引入了一种自监督扩展,使用基础模型嵌入将全幻灯片图像聚类为100种组织类型,自动生成伪语义图进行训练。该方法合成的图像具有高保真度和精确的区域标注,在下游分割任务上表现优越。在已标注数据集上的评估表明,经合成数据训练的模型与真实数据训练的模型表现相当,证明了可控异质性组织生成的实用性。定量评估结果显示,提示引导的合成数据在Camelyon16上的Frechet距离降低了6倍(从430.1降至72.0),并且在Panda和TCGA上的FD降低了2-3倍。仅使用合成数据训练的DeepLabv3+模型在Camelyon16和Panda上的测试IoU达到0.71和0.95,与真实数据基准测试(分别为0.72和0.96)相差仅1-2%。通过扩展到未标注的TCGA全幻灯片图像(共11,765张),该框架为解决生成多样化和标注的病理数据的迫切需求提供了实用解决方案,解决了计算病理学中的关键瓶颈。
要点解析
以下是文本的七个主要洞察点:
- 合成数据在病理学中的挑战包括保持组织异质性、精细的形态特征捕捉和扩展到大规模未标注数据集的能力。
- 介绍了一种基于潜在扩散模型的合成方法,该方法能够通过双重条件策略生成逼真的异质性病理图像。
- 与现有方法不同,该方法结合语义分割图和特定组织视觉裁剪来保留形态细节。
- 对于已标注数据集,通过提取确保一定组织异质性的图像块进行训练。
- 对于未标注数据集,引入了自监督扩展方法,使用基础模型嵌入自动为训练生成伪语义图。
- 合成的高保真图像具有精确的区域标注,并在下游分割任务上表现优越。
点此查看论文截图




Concept Unlearning by Modeling Key Steps of Diffusion Process
Authors:Chaoshuo Zhang, Chenhao Lin, Zhengyu Zhao, Le Yang, Qian Wang, Chao Shen
Text-to-image diffusion models (T2I DMs), represented by Stable Diffusion, which generate highly realistic images based on textual input, have been widely used, but their flexibility also makes them prone to misuse for producing harmful or unsafe content. Concept unlearning has been used to prevent text-to-image diffusion models from being misused to generate undesirable visual content. However, existing methods struggle to trade off unlearning effectiveness with the preservation of generation quality. To address this limitation, we propose Key Step Concept Unlearning (KSCU), which selectively fine-tunes the model at key steps to the target concept. KSCU is inspired by the fact that different diffusion denoising steps contribute unequally to the final generation. Compared to previous approaches, which treat all denoising steps uniformly, KSCU avoids over-optimization of unnecessary steps for higher effectiveness and reduces the number of parameter updates for higher efficiency. For example, on the I2P dataset, KSCU outperforms ESD by 8.3% in nudity unlearning accuracy while improving FID by 8.4%, and achieves a high overall score of 0.92, substantially surpassing all other SOTA methods.
文本转图像扩散模型(T2I DM),以Stable Diffusion为代表,能够根据文本输入生成高度逼真的图像,已经得到了广泛应用。然而,它们的灵活性也使得它们容易被误用于产生有害或不安全的内容。概念遗忘技术已被用于防止文本转图像扩散模型被误用生成不希望的视觉内容。然而,现有方法在平衡遗忘效果与保持生成质量方面存在困难。为了解决这一局限,我们提出了关键步骤概念遗忘(KSCU),它选择性地微调模型的关键步骤以针对目标概念。KSCU的灵感来源于不同扩散去噪步骤对最终生成的贡献不等这一事实。与以往对所有去噪步骤进行统一处理的方法不同,KSCU避免了不必要步骤的过度优化,以提高效果和效率。例如,在I2P数据集上,KSCU在裸露度遗忘准确性方面比ESD高出8.3%,同时改进了FID指标8.4%,并获得了0.92的高综合得分,显著超越了所有其他最先进的方法。
论文及项目相关链接
Summary
文本到图像扩散模型(T2I DM),如Stable Diffusion,能根据文本输入生成高度逼真的图像,但其灵活性也使其易于产生有害或不安全的内容。为预防模型滥用,研究者提出了概念去学习的策略。然而,现有方法难以在去除学习效果与保持生成质量之间取得平衡。为解决此问题,我们提出了关键步骤概念去学习(KSCU),该方法有选择性地在对目标概念的关键步骤上对模型进行微调。KSCU的灵感来源于不同扩散去噪步骤对最终生成的贡献不平等。与以往对所有去噪步骤一视同仁的方法相比,KSCU避免了不必要步骤的过度优化,提高了效率和效果。在I2P数据集上,KSCU在裸体去除准确性方面较ESD高出8.3%,同时提高了FID评分8.4%,总体得分高达0.92,远超其他最先进的方法。
Key Takeaways
- T2I DMs如Stable Diffusion虽能生成高度逼真的图像,但其灵活性导致易于产生有害或不安全的内容。
- 概念去学习方法被用来防止T2I DMs的滥用。
- 现有方法在平衡去学习效果和保持生成质量方面存在困难。
- 提出了一种新的方法KSCU,该方法有选择性地在对目标概念的关键步骤上对模型进行微调。
- KSCU基于不同扩散去噪步骤对最终生成的贡献不平等这一事实。
- KSCU避免了不必要去噪步骤的过度优化,提高了去学习的效率和效果。
点此查看论文截图





One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
Authors:Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift - SinSR - making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.
扩散模型在超分辨率(SR)应用中生成了高质量视觉效果,但需要昂贵的计算成本。尽管已经开发了几种方法来加速基于扩散的SR模型,但某些方法(例如SinSR)无法生成逼真的感知细节,而其他方法(例如OSEDiff)可能会虚构不存在的结构。为了克服这些问题,我们提出了RSD,这是一种用于ResShift的新型蒸馏方法,ResShift是顶级的基于扩散的SR模型之一。我们的方法基于训练学生网络来生成图像,这些图像能够使在新假ResShift模型上训练的模型与教师的模型相吻合。RSD实现了单步恢复,并在教师模型的基础上大幅超越。我们展示了我们的蒸馏方法可以超越ResShift的其他蒸馏方法SinSR,使其与最先进的基于扩散的SR蒸馏方法相媲美。与基于预训练文本到图像模型的SR方法相比,RSD产生的感知质量具有竞争力,为退化输入图像提供了更好的对齐图像,并且需要更少的参数和GPU内存。我们在各种真实和合成数据集上提供了实验结果,包括RealSR、RealSet65、DRealSR、ImageNet和DIV2K。
论文及项目相关链接
Summary
扩散模型在超分辨率(SR)应用中能生成高质量图像,但计算成本较高。尽管有多种方法加速扩散模型在SR领域的应用,但一些模型(如SinSR)无法生成逼真的感知细节,而其他模型(如OSEDiff)可能会虚构不存在的结构。为解决这些问题,我们提出了RSD,这是一种针对ResShift的新蒸馏方法。该方法基于训练学生网络生成图像,使新的假ResShift模型在它们上训练的图像与原始模型一致。RSD实现了单步恢复,并在很大程度上超越了原始模型。实验结果表明,我们的蒸馏方法能超越ResShift的另一种蒸馏方法SinSR,使其与最先进的扩散模型SR蒸馏方法相当。相较于基于预训练文本到图像的SR方法,RSD在感知质量上具有竞争力,生成的图像与退化输入图像对齐度更高,同时需要的参数和GPU内存更少。我们在RealSR、RealSet65、DRealSR、ImageNet和DIV2K等多个真实和合成数据集上进行了实验验证。
Key Takeaways
- 扩散模型在超分辨率应用中能生成高质量图像,但计算成本较高。
- 当前存在的加速扩散模型在SR领域的方法存在生成不逼真感知细节和虚构不存在结构的问题。
- RSD是一种针对ResShift的新蒸馏方法,通过训练学生网络生成图像,使假ResShift模型的训练结果与原始模型一致。
- RSD实现了单步恢复,并大幅超越了原始模型性能。
- RSD在蒸馏方法上超越了SinSR,使其性能与最先进的扩散模型SR蒸馏方法相当。
- 相较于其他SR方法,RSD在感知质量上具有竞争力,且生成的图像与退化输入图像对齐度更高。
点此查看论文截图


