嘘~ 正在从服务器偷取页面 . . .

I2I Translation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-26 更新

UniDB: A Unified Diffusion Bridge Framework via Stochastic Optimal Control

Authors:Kaizhen Zhu, Mokai Pan, Yuexin Ma, Yanwei Fu, Jingyi Yu, Jingya Wang, Ye Shi

Recent advances in diffusion bridge models leverage Doob’s $h$-transform to establish fixed endpoints between distributions, demonstrating promising results in image translation and restoration tasks. However, these approaches frequently produce blurred or excessively smoothed image details and lack a comprehensive theoretical foundation to explain these shortcomings. To address these limitations, we propose UniDB, a unified framework for diffusion bridges based on Stochastic Optimal Control (SOC). UniDB formulates the problem through an SOC-based optimization and derives a closed-form solution for the optimal controller, thereby unifying and generalizing existing diffusion bridge models. We demonstrate that existing diffusion bridges employing Doob’s $h$-transform constitute a special case of our framework, emerging when the terminal penalty coefficient in the SOC cost function tends to infinity. By incorporating a tunable terminal penalty coefficient, UniDB achieves an optimal balance between control costs and terminal penalties, substantially improving detail preservation and output quality. Notably, UniDB seamlessly integrates with existing diffusion bridge models, requiring only minimal code modifications. Extensive experiments across diverse image restoration tasks validate the superiority and adaptability of the proposed framework. Our code is available at https://github.com/UniDB-SOC/UniDB/.

最近扩散桥模型的新进展利用Doob的h变换来建立分布之间的固定端点,在图像翻译和恢复任务中展现出有前景的结果。然而,这些方法经常产生模糊或过度平滑的图像细节,并且缺乏全面的理论基础来解释这些缺点。为了解决这些局限性,我们提出了基于随机最优控制(SOC)的扩散桥统一框架UniDB。UniDB通过基于SOC的优化来制定问题,并推导出最优控制器的封闭形式解决方案,从而统一并推广了现有的扩散桥模型。我们证明,采用Doob的h变换的现有扩散桥构成了我们框架的一种特殊情况,出现在SOC成本函数的终端惩罚系数趋于无穷大时。通过引入可调终端惩罚系数,UniDB实现了控制成本和终端惩罚之间的最佳平衡,大大提高了细节保留和输出质量。值得注意的是,UniDB可以无缝地融入现有的扩散桥模型,只需最少的代码修改。在不同图像恢复任务上的大量实验验证了所提出框架的优越性和适应性。我们的代码可在https://github.com/UniDB-SOC/UniDB/找到。

论文及项目相关链接

PDF

Summary

基于随机最优控制(SOC)的UniDB统一框架,通过优化解决了扩散桥模型在图像翻译和恢复任务中的模糊问题,并改进了现有模型的缺点。该框架通过引入可调终端惩罚系数,实现了控制成本和终端惩罚之间的最佳平衡,提高了细节保留和输出质量。UniDB与现有扩散桥模型无缝集成,只需进行少量代码修改。

Key Takeaways

  1. 扩散桥模型利用Doob的h-变换来设定分布之间的固定端点,在图像翻译和恢复任务中展现出有前景的结果。
  2. 现有扩散桥模型经常产生模糊或过度平滑的图像细节,且缺乏全面的理论来解释这些缺点。
  3. UniDB是一个基于随机最优控制的统一框架,用于解决扩散桥的问题。
  4. UniDB推导了最优控制器的封闭形式解决方案,统一并推广了现有的扩散桥模型。
  5. 当SOC成本函数中的终端惩罚系数趋于无穷大时,使用Doob的h-变换的现有扩散桥成为该框架的一个特例。
  6. UniDB通过引入可调终端惩罚系数,实现了控制成本和终端惩罚之间的平衡,改进了细节保留和输出质量。

Cool Papers

点此查看论文截图

Diffusion Bridge Implicit Models

Authors:Kaiwen Zheng, Guande He, Jianfei Chen, Fan Bao, Jun Zhu

Denoising diffusion bridge models (DDBMs) are a powerful variant of diffusion models for interpolating between two arbitrary paired distributions given as endpoints. Despite their promising performance in tasks like image translation, DDBMs require a computationally intensive sampling process that involves the simulation of a (stochastic) differential equation through hundreds of network evaluations. In this work, we take the first step in fast sampling of DDBMs without extra training, motivated by the well-established recipes in diffusion models. We generalize DDBMs via a class of non-Markovian diffusion bridges defined on the discretized timesteps concerning sampling, which share the same marginal distributions and training objectives, give rise to generative processes ranging from stochastic to deterministic, and result in diffusion bridge implicit models (DBIMs). DBIMs are not only up to 25$\times$ faster than the vanilla sampler of DDBMs but also induce a novel, simple, and insightful form of ordinary differential equation (ODE) which inspires high-order numerical solvers. Moreover, DBIMs maintain the generation diversity in a distinguished way, by using a booting noise in the initial sampling step, which enables faithful encoding, reconstruction, and semantic interpolation in image translation tasks. Code is available at https://github.com/thu-ml/DiffusionBridge.

降噪扩散桥梁模型(DDBMs)是在给定两个任意配对分布作为端点时,用于在这两个分布之间进行插值的扩散模型的一种强大变体。尽管它们在图像翻译等任务中表现出有希望的性能,但DDBMs需要一个计算密集型的采样过程,这需要通过数百次网络评估来模拟(随机)微分方程。在这项工作中,我们采取了在不进行额外训练的情况下对DDBMs进行快速采样的第一步,这受到了扩散模型的成熟配方的启发。我们通过定义一类非马尔可夫扩散桥梁对DDBMs进行泛化,这些桥梁建立在离散的采样时间步长上,具有相同的边缘分布和训练目标,产生从随机到确定性的生成过程,并形成扩散桥梁隐模型(DBIMs)。DBIMs不仅比DDBMs的原生采样器快25倍,而且还产生了一种新的、简单的、有洞察力的常微分方程(ODE),这激发了高阶数值求解器的灵感。此外,DBIMs以一种独特的方式保持了生成的多样性,通过在初始采样步骤中使用引导噪声,这使其在图像翻译任务中实现了忠实的编码、重建和语义插值。代码可在https://github.com/thu-ml/DiffusionBridge找到。

论文及项目相关链接

PDF Accepted at ICLR 2025

Summary

DDBMs(去噪扩散桥梁模型)是一种强大的扩散模型变体,用于在两个任意配对分布之间插值。尽管在图像翻译等任务中表现出良好性能,但其采样过程计算量大。本研究首次尝试在不进行额外训练的情况下快速采样DDBMs,通过非马尔可夫扩散桥梁类定义离散时间步长,提出扩散桥梁隐模型(DBIMs)。DBIMs不仅速度提升高达25倍,还启发高阶数值求解器,同时在初始采样步骤中使用引导噪声来保持生成多样性,支持图像翻译任务的忠实编码、重建和语义插值。代码可用在链接地址中公开。

Key Takeaways

  1. DDBMs 是一种用于插值两个任意配对分布的强大的扩散模型变体。
  2. DDBMs 需要大量计算资源进行采样。
  3. 研究提出了一种新的方法,即扩散桥梁隐模型(DBIMs),以提高 DDBMs 的采样速度。
  4. DBIMs 通过使用非马尔可夫扩散桥梁类定义离散时间步长来实现快速采样。
  5. DBIMs 不仅比原始的 DDBMs 采样速度快,而且启发了高阶数值求解器。
  6. DBIMs 通过在初始采样步骤中使用引导噪声来保持生成多样性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-02-26 Understanding Long Videos with Multimodal Language Models
2025-02-26
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-02-26 Large Language Models are Powerful EHR Encoders
2025-02-26
  目录