⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-06 更新
Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
Authors:Tao Zhang, Cheng Da, Kun Ding, Huan Yang, Kun Jin, Yan Li, Tingting Gao, Di Zhang, Shiming Xiang, Chunhong Pan
Preference optimization for diffusion models aims to align them with human preferences for images. Previous methods typically use Vision-Language Models (VLMs) as pixel-level reward models to approximate human preferences. However, when used for step-level preference optimization, these models face challenges in handling noisy images of different timesteps and require complex transformations into pixel space. In this work, we show that pre-trained diffusion models are naturally suited for step-level reward modeling in the noisy latent space, as they are explicitly designed to process latent images at various noise levels. Accordingly, we propose the Latent Reward Model (LRM), which repurposes components of the diffusion model to predict preferences of latent images at arbitrary timesteps. Building on LRM, we introduce Latent Preference Optimization (LPO), a step-level preference optimization method conducted directly in the noisy latent space. Experimental results indicate that LPO significantly improves the model’s alignment with general, aesthetic, and text-image alignment preferences, while achieving a 2.5-28x training speedup over existing preference optimization methods. Our code and models are available at https://github.com/Kwai-Kolors/LPO.
扩散模型的偏好优化旨在使图像与人类偏好相符。以前的方法通常使用视觉语言模型(VLM)作为像素级奖励模型来近似人类偏好。然而,当用于步骤级偏好优化时,这些模型面临着处理不同时间步长的噪声图像的挑战,需要将它们复杂地转换为像素空间。在这项工作中,我们展示了预训练的扩散模型天然适合在噪声潜在空间中进行步骤级奖励建模,因为它们被明确设计为处理各种噪声水平的潜在图像。因此,我们提出了潜在奖励模型(LRM),该模型重新利用扩散模型的组件来预测任意时间步长的潜在图像的偏好。基于LRM,我们介绍了潜在偏好优化(LPO),这是一种直接在噪声潜在空间中进行步骤级偏好优化的方法。实验结果表明,LPO显著提高了模型与一般、美学和文本-图像对齐偏好的对齐程度,同时相对于现有的偏好优化方法实现了2.5-28倍的训练速度提升。我们的代码和模型可在https://github.com/Kwai-Kolors/LPO找到。
论文及项目相关链接
PDF NeurIPS 2025
Summary
本文介绍了针对扩散模型的偏好优化,旨在使图像与人类偏好对齐。传统方法使用视觉语言模型(VLMs)作为像素级奖励模型来模拟人类偏好,但在处理不同时间步的噪声图像时面临挑战。本文提出利用预训练的扩散模型进行天然适合噪声潜在空间的步级奖励建模,并引入潜在奖励模型(LRM)和潜在偏好优化(LPO)。实验结果显示,LPO在一般偏好、审美偏好和文本图像对齐偏好方面显著提高模型对齐度,同时实现现有偏好优化方法的2.5-28倍训练加速。
Key Takeaways
- 扩散模型的偏好优化旨在使图像与人类偏好对齐。
- 传统方法使用视觉语言模型(VLMs)作为像素级奖励模型存在处理噪声图像的挑战。
- 预训练的扩散模型适合进行噪声潜在空间的步级奖励建模。
- 引入潜在奖励模型(LRM)预测潜在图像在各时间步的偏好。
- 提出潜在偏好优化(LPO)方法,直接在噪声潜在空间进行步级偏好优化。
- 实验结果显示LPO在多种偏好方面提高模型对齐度,并实现显著训练加速。
点此查看论文截图






Diffusion Adversarial Post-Training for One-Step Video Generation
Authors:Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.
扩散模型广泛应用于图像和视频生成,但其迭代生成过程缓慢且消耗资源。尽管现有的蒸馏方法已经显示出在图像领域进行一步生成的潜力,但它们仍然面临严重的质量下降问题。在这项工作中,我们提出了在扩散预训练之后使用对抗性后训练(APT)进行一步视频生成的方法。为了改善训练稳定性和质量,我们对模型架构和训练程序进行了几项改进,同时引入了近似R1正则化目标。经验上,我们的实验表明,我们的对抗性后训练模型Seaweed-APT能够使用单个前向评估步骤实时生成2秒、1280x720、24帧的视频。此外,我们的模型能够一步生成1024px的图像,达到与最新技术相当的质量。
论文及项目相关链接
PDF ICML 2025
Summary
本文介绍了扩散模型在图像和视频生成中的广泛应用,但其迭代生成过程缓慢且计算量大。现有蒸馏方法虽可实现图像领域的一步生成,但仍存在质量下降的问题。本研究提出一种对抗后训练(APT)方法,结合扩散预训练,实现一步视频生成。通过改进模型架构和训练流程,并引入近似R1正则化目标,提高了训练稳定性和生成质量。实验表明,对抗后训练模型Seaweed-APT可实时生成2秒、1280x720、24帧的视频,仅需一次前向评估步骤。此外,该模型还能一步生成1024像素的图像,质量达到业界领先水平。
Key Takeaways
- 扩散模型广泛应用于图像和视频生成。
- 迭代生成过程存在速度慢和计算量大的问题。
- 现有蒸馏方法在图像一步生成中面临质量下降的挑战。
- 提出对抗后训练(APT)方法,结合扩散预训练,实现视频的一步生成。
- 引入模型架构和训练流程的改进。
- 引入近似R1正则化目标,提高训练稳定性和生成质量。
- Seaweed-APT模型可实时生成高质量的视频和图像。
点此查看论文截图





There and Back Again: On the relation between Noise and Image Inversions in Diffusion Models
Authors:Łukasz Staniszewski, Łukasz Kuciński, Kamil Deja
Diffusion Models achieve state-of-the-art performance in generating new samples but lack a low-dimensional latent space that encodes the data into editable features. Inversion-based methods address this by reversing the denoising trajectory, transferring images to their approximated starting noise. In this work, we thoroughly analyze this procedure and focus on the relation between the initial noise, the generated samples, and their corresponding latent encodings obtained through the DDIM inversion. First, we show that latents exhibit structural patterns in the form of less diverse noise predicted for smooth image areas (e.g., plain sky). Through a series of analyses, we trace this issue to the first inversion steps, which fail to provide accurate and diverse noise. Consequently, the DDIM inversion space is notably less manipulative than the original noise. We show that prior inversion methods do not fully resolve this issue, but our simple fix, where we replace the first DDIM Inversion steps with a forward diffusion process, successfully decorrelates latent encodings and enables higher quality editions and interpolations. The code is available at https://github.com/luk-st/taba.
扩散模型在生成新样本方面达到了最先进的性能,但缺乏低维潜在空间,无法将数据进行编码以形成可编辑的特征。基于反转的方法解决了这一问题,通过将图像反向转移至其近似初始噪声状态来实现。在这项工作中,我们全面分析了这一过程,并重点研究了初始噪声、生成的样本以及通过DDIM反转获得的相应潜在编码之间的关系。首先,我们发现潜在空间在平滑图像区域(例如,平坦的天空)预测噪声的多样性较低,表现出结构性的模式。通过一系列分析,我们发现问题在于最初的反转步骤无法提供准确且多样的噪声。因此,DDIM反转空间的操控性明显不如原始噪声。我们展示了之前的反转方法并没有完全解决这个问题,但我们的简单修复方法——用正向扩散过程替换最初的DDIM反转步骤,成功地解耦了潜在编码,并实现了更高质量编辑和插值。代码可在https://github.com/luk-st/taba找到。
论文及项目相关链接
PDF Preprint
摘要
扩散模型在生成新样本方面达到最先进的性能水平,但它缺乏一个低维潜在空间来编码可编辑的特征。基于反转的方法解决了这一问题,通过将图像反转回其近似初始噪声来实现数据的转换。在这项工作中,我们全面分析了这一过程,并重点关注初始噪声、生成的样本以及通过DDIM反转获得的相应潜在编码之间的关系。首先,我们发现在潜在空间中存在着结构性的模式,即在平滑图像区域(如晴朗的天空)预测的噪声多样性较低。通过一系列分析,我们发现这个问题源于最初的反转步骤,这些步骤无法提供准确和多样的噪声。因此,DDIM反转空间的操控性明显低于原始噪声。我们表明,先前的反转方法并没有完全解决这个问题,但我们的简单修复方法——用正向扩散过程替换最初的DDIM反转步骤——成功地解耦了潜在编码并启用了更高质量的编辑和插值。相关代码可访问于https://github.com/luk-st/taba。
关键见解
- 扩散模型在生成新样本方面表现出卓越性能,但缺乏低维潜在空间来编辑特征。
- 基于反转的方法通过将图像反转回初始噪声来解决这一问题。
- 潜在空间存在结构性模式,平滑图像区域的噪声多样性较低。
- 问题的根源在于最初的反转步骤无法提供准确和多样的噪声。
- DDIM反转空间的操控性低于原始噪声。
- 先前的反转方法并未完全解决此问题。
点此查看论文截图





