嘘~ 正在从服务器偷取页面 . . .

Diffusion Models


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-07 更新

Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

Authors:Minghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

Text-to-image diffusion models deliver high-quality images, yet aligning them with human preferences remains challenging. We revisit diffusion-based Direct Preference Optimization (DPO) for these models and identify a critical pathology: enlarging the preference margin does not necessarily improve generation quality. In particular, the standard Diffusion-DPO objective can increase the reconstruction error of both winner and loser branches. Consequently, degradation of the less-preferred outputs can become sufficiently severe that the preferred branch is also adversely affected even as the margin grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule that preserves the winner by adaptively scaling the loser gradient according to its alignment with the winner gradient. A first-order analysis yields a closed-form scaling coefficient that guarantees the error of the preferred output is non-increasing at each optimization step. Our method is simple, model-agnostic, broadly compatible with existing DPO-style alignment frameworks and adds only marginal computational overhead. Across standard text-to-image benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning baselines on automated preference, aesthetic, and prompt alignment metrics. Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.

文本到图像的扩散模型可以生成高质量图像,但如何使这些模型与人类偏好对齐仍然是一个挑战。我们重新研究了基于扩散的直接偏好优化(DPO)方法,并发现一个重要问题:扩大偏好差距并不一定能提高生成质量。特别是,标准的扩散DPO目标可能会增加赢家和输家分支的重建误差。因此,不那么受欢迎的输出的退化可能变得足够严重,以至于即使差距在扩大,首选分支也会受到不利影响。

为了解决这一问题,我们引入了扩散安全直接偏好优化(Diffusion-SDPO),这是一种安全更新的规则,通过根据输家梯度与赢家梯度的对齐情况自适应地调整输家梯度来保持赢家。一阶分析产生了一个封闭形式的缩放系数,该系数保证在每个优化步骤中首选输出的误差不会增加。我们的方法简单、模型无关,与现有的DPO风格对齐框架广泛兼容,并且只增加了很少的计算开销。在标准的文本到图像基准测试中,Diffusion-SDPO在自动化偏好、美学和提示对齐指标上相对于偏好学习基线实现了持续的收益。代码公开可用在https://github.com/AIDC-AI/Diffusion-SDPO。

论文及项目相关链接

PDF The code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO

Summary

文本到图像扩散模型生成高质量图像,但在与人类偏好对齐方面存在挑战。本研究重新审视基于扩散的Direct Preference Optimization(DPO),发现扩大偏好差距并不一定提高生成质量。为解决此问题,我们引入Diffusion-SDPO,一种保护获胜者的安全更新规则,根据其与失败者梯度的对齐情况自适应调整失败者梯度。该方法简单、模型无关,与现有DPO风格对齐框架兼容,且计算开销较小。在标准文本到图像基准测试中,Diffusion-SDPO在自动化偏好、美学和提示对齐指标上较偏好学习基线有显著改进。

Key Takeaways

  1. 文本到图像扩散模型生成高质量图像,但在与人类偏好对齐方面存在挑战。
  2. 扩大偏好差距并不一定提高生成质量,标准Diffusion-DPO目标可能增加胜者和败者的重建误差。
  3. 败者输出的退化可能严重影响胜者分支,即使偏好差距增大。
  4. 引入Diffusion-SDPO,一种安全更新规则,旨在保护胜者,通过自适应调整败者梯度来实现。
  5. 第一阶分析得出封闭形式的缩放系数,保证优化步骤中首选输出的误差非增。
  6. 该方法简单、模型无关,与现有DPO风格对齐框架兼容,计算开销较小。
  7. 在标准文本到图像基准测试中,Diffusion-SDPO在多个指标上较基线有显著改善。

Cool Papers

点此查看论文截图

CASteer: Steering Diffusion Models for Controllable Generation

Authors:Tatiana Gaintseva, Andreea-Maria Oncescu, Chengcheng Ma, Ziquan Liu, Martin Benning, Gregory Slabaugh, Jiankang Deng, Ismail Elezi

Diffusion models have transformed image generation, yet controlling their outputs to reliably erase undesired concepts remains challenging. Existing approaches usually require task-specific training and struggle to generalize across both concrete (e.g., objects) and abstract (e.g., styles) concepts. We propose CASteer (Cross-Attention Steering), a training-free framework for concept erasure in diffusion models using steering vectors to influence hidden representations dynamically. CASteer precomputes concept-specific steering vectors by averaging neural activations from images generated for each target concept. During inference, it dynamically applies these vectors to suppress undesired concepts only when they appear, ensuring that unrelated regions remain unaffected. This selective activation enables precise, context-aware erasure without degrading overall image quality. This approach achieves effective removal of harmful or unwanted content across a wide range of visual concepts, all without model retraining. CASteer outperforms state-of-the-art concept erasure techniques while preserving unrelated content and minimizing unintended effects. Pseudocode is provided in the supplementary.

扩散模型已经实现了图像生成领域的变革,但如何控制其输出以可靠地消除不需要的概念仍然是一个挑战。现有方法通常需要针对任务进行特定训练,并且在具体(例如,物体)和抽象(例如,风格)概念之间难以实现泛化。我们提出了CASteer(跨注意力引导),这是一种用于扩散模型中概念消除的无训练框架,通过使用引导向量动态影响隐藏表示。CASteer通过平均针对每个目标概念生成的图像的神经激活来预先计算概念特定的引导向量。在推理过程中,它会在不需要的概念出现时动态应用这些向量来抑制它们,确保无关区域不受影响。这种选择性激活可实现精确、上下文感知的消除,而不会降低整体图像质量。该方法在不重新训练模型的情况下,实现了广泛视觉概念中有害或不需要内容的有效去除。CASteer优于当前先进的概念消除技术,同时保留无关内容并最小化意外影响。伪代码详见补充材料。

论文及项目相关链接

PDF

Summary

扩散模型在图像生成领域已经实现了重大突破,但在控制其输出以可靠地消除不需要的概念方面仍存在挑战。现有方法通常需要针对任务进行专门训练,并且在处理具体物体和抽象概念之间的跨概念泛化方面表现困难。我们提出CASteer(跨注意力引导),这是一种无需训练的框架,用于扩散模型中的概念消除,通过使用引导向量动态影响隐藏表示。CASteer通过平均针对每个目标概念生成的图像的神经激活来预先计算概念特定的引导向量。在推理过程中,它动态应用这些向量来消除仅出现的不需要概念,确保无关区域不受影响。这种选择性激活可实现精确、上下文感知的消除,而不会降低整体图像质量。该方法在不重新训练模型的情况下实现了广泛视觉概念中有害或不需要内容的有效去除。CASteer的表现优于当前先进的概念消除技术,同时能够保留无关内容并最小化意外影响。

Key Takeaways

  1. 扩散模型在图像生成中表现卓越,但控制输出以消除不需要的概念具有挑战性。
  2. 现有方法需要针对任务进行专门训练,难以泛化处理具体和抽象概念。
  3. CASteer是一个无需训练的框架,用于扩散模型中的概念消除。
  4. CASteer通过引导向量动态影响隐藏表示,实现精确、上下文感知的消除。
  5. CASteer通过预先计算概念特定的引导向量,可以在推理过程中消除不需要的概念。
  6. CASteer在不重新训练模型的情况下实现了广泛视觉概念中的有效去除。

Cool Papers

点此查看论文截图

A Survey on Text-Driven 360-Degree Panorama Generation

Authors:Hai Wang, Xiaoyu Xiang, Weihao Xia, Jing-Hao Xue

The advent of text-driven 360-degree panorama generation, enabling the synthesis of 360-degree panoramic images directly from textual descriptions, marks a transformative advancement in immersive visual content creation. This innovation significantly simplifies the traditionally complex process of producing such content. Recent progress in text-to-image diffusion models has accelerated the rapid development in this emerging field. This survey presents a comprehensive review of text-driven 360-degree panorama generation, offering an in-depth analysis of state-of-the-art algorithms. We extend our analysis to two closely related domains: text-driven 360-degree 3D scene generation and text-driven 360-degree panoramic video generation. Furthermore, we critically examine current limitations and propose promising directions for future research. A curated project page with relevant resources and research papers is available at https://littlewhitesea.github.io/Text-Driven-Pano-Gen/.

文本驱动的全景生成技术的出现,使得能够直接从文本描述中合成全景图像成为可能,这在沉浸式视觉内容创建领域是划时代的进步。这一创新大大简化了以往复杂的内容生产流程。近期文本到图像的扩散模型的进展加速了这一新兴领域的快速发展。本文全面回顾了文本驱动的全景全景生成技术,深入分析了最新的算法。我们将分析扩展到两个密切相关的领域:文本驱动的360度全景视频生成和文本驱动的全景视频生成。此外,我们还对当前的局限性进行了批判性评估,并提出了未来研究的具有前景的方向。相关资源和研究论文可以在 https://littlewhitesea.github.io/Text-Driven-Pano-Gen/ 查看详细的项目页面。

论文及项目相关链接

PDF Accepted by IEEE TCSVT, Code: https://github.com/littlewhitesea/Text-Driven-Pano-Gen

Summary

文本驱动的360度全景生成技术为直接从文本描述合成360度全景图像提供了可能,这标志着沉浸式视觉内容创作领域的一次变革性进展。文本到图像扩散模型的最新进展大大简化了全景内容制作流程。本文全面回顾了文本驱动的360度全景生成技术,深入分析当前最先进的算法,并扩展到两个相关领域:文本驱动的360度全景视频生成和文本驱动的360度全景场景生成。文章还对现有局限进行了批判性讨论,并对未来研究方向提出了建议。更多资源和论文可访问:链接地址

Key Takeaways

  1. 文本驱动的360度全景生成技术能够实现从文本直接合成全景图像,简化了传统制作流程。
  2. 近期文本到图像扩散模型的进展加速了该领域的迅速发展。
  3. 文本驱动的360度全景生成技术包括两个相关应用领域:文本驱动的3D场景生成和全景视频生成。
  4. 当前技术存在局限性,如分辨率、真实感等问题。
  5. 文章对未来研究方向提出了建议,包括改进算法性能、拓展应用领域等。
  6. 可通过特定链接获取更多相关资源和论文。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
牙齿修复 牙齿修复
牙齿修复 方向最新论文已更新,请持续关注 Update in 2025-11-07 DentalSplat Dental Occlusion Novel View Synthesis from Sparse Intra-Oral Photographs
2025-11-07
下一篇 
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-11-07 DentalSplat Dental Occlusion Novel View Synthesis from Sparse Intra-Oral Photographs
2025-11-07
  目录