⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-19 更新
Noise-Level Diffusion Guidance: Well Begun is Half Done
Authors:Harvey Mannering, Zhiwu Huang, Adam Prugel-Bennett
Diffusion models have achieved state-of-the-art image generation. However, the random Gaussian noise used to start the diffusion process influences the final output, causing variations in image quality and prompt adherence. Existing noise-level optimization approaches generally rely on extra dataset construction, additional networks, or backpropagation-based optimization, limiting their practicality. In this paper, we propose Noise Level Guidance (NLG), a simple, efficient, and general noise-level optimization approach that refines initial noise by increasing the likelihood of its alignment with general guidance - requiring no additional training data, auxiliary networks, or backpropagation. The proposed NLG approach provides a unified framework generalizable to both conditional and unconditional diffusion models, accommodating various forms of diffusion-level guidance. Extensive experiments on five standard benchmarks demonstrate that our approach enhances output generation quality and input condition adherence. By seamlessly integrating with existing guidance methods while maintaining computational efficiency, our method establishes NLG as a practical and scalable enhancement to diffusion models. Code can be found at https://github.com/harveymannering/NoiseLevelGuidance.
扩散模型在图像生成方面已经达到了前沿水平。然而,用于启动扩散过程的随机高斯噪声会影响最终输出,导致图像质量和提示遵循方面的变化。现有的噪声水平优化方法一般依赖于额外数据集的建设、附加网络,或基于反向传播的优化,这限制了它们的实用性。在本文中,我们提出了噪声水平指导(NLG)方法,这是一种简单、高效且通用的噪声水平优化方法,它通过提高初始噪声与通用指导对齐的可能性来优化初始噪声,无需额外的训练数据、辅助网络或反向传播。所提出的NLG方法为有条件和无条件的扩散模型提供了一个统一的可推广框架,可适应各种扩散水平的指导。在五个标准基准测试上的大量实验表明,我们的方法提高了输出生成的质量和输入条件的遵循性。我们的方法能够无缝集成到现有的指导方法中,同时保持计算效率,这使得NLG成为扩散模型的实用和可扩展增强。代码可在https://github.com/harveymannering/NoiseLevelGuidance找到。
论文及项目相关链接
Summary
本文提出了一种名为噪声水平引导(NLG)的简单、高效且通用的噪声水平优化方法,用于改进扩散过程的初始噪声。该方法无需额外的训练数据、辅助网络或反向传播,通过增加初始噪声与通用引导对齐的可能性来优化噪声水平。NLG方法适用于条件和无条件的扩散模型,可容纳各种扩散水平引导形式。在五个标准基准测试上的广泛实验表明,该方法提高了输出生成质量和输入条件遵守性,且计算效率高。
Key Takeaways
- 扩散模型在图像生成方面达到最新水平,但初始噪声影响最终输出,导致图像质量和提示遵守性有所差异。
- 现有噪声水平优化方法通常依赖于额外数据集构建、辅助网络或反向传播优化,限制了其实用性。
- 提出了噪声水平引导(NLG)方法,这是一种简单、高效且通用的噪声水平优化策略。
- NLG方法无需额外的训练数据、辅助网络或反向传播,通过增加初始噪声与通用引导对齐的可能性来工作。
- NLG方法适用于条件和无条件的扩散模型,并提供了广泛的扩散级别指导形式。
- 在五个标准基准测试上,NLG方法提高了输出生成质量和输入条件的遵守性。
点此查看论文截图








Towards Robust Defense against Customization via Protective Perturbation Resistant to Diffusion-based Purification
Authors:Wenkui Yang, Jie Cao, Junxian Duan, Ran He
Diffusion models like Stable Diffusion have become prominent in visual synthesis tasks due to their powerful customization capabilities, which also introduce significant security risks, including deepfakes and copyright infringement. In response, a class of methods known as protective perturbation emerged, which mitigates image misuse by injecting imperceptible adversarial noise. However, purification can remove protective perturbations, thereby exposing images again to the risk of malicious forgery. In this work, we formalize the anti-purification task, highlighting challenges that hinder existing approaches, and propose a simple diagnostic protective perturbation named AntiPure. AntiPure exposes vulnerabilities of purification within the “purification-customization” workflow, owing to two guidance mechanisms: 1) Patch-wise Frequency Guidance, which reduces the model’s influence over high-frequency components in the purified image, and 2) Erroneous Timestep Guidance, which disrupts the model’s denoising strategy across different timesteps. With additional guidance, AntiPure embeds imperceptible perturbations that persist under representative purification settings, achieving effective post-customization distortion. Experiments show that, as a stress test for purification, AntiPure achieves minimal perceptual discrepancy and maximal distortion, outperforming other protective perturbation methods within the purification-customization workflow.
由于强大的定制化能力,像Stable Diffusion这样的扩散模型在视觉合成任务中脱颖而出,但同时也引入了巨大的安全风险,包括深度伪造和版权侵犯等。为了应对这一问题,一类名为保护扰动的方法应运而生,通过注入几乎无法察觉的对立噪声来减轻图像滥用问题。然而,净化方法可以消除保护性扰动,从而使图像再次面临恶意篡改的风险。在本研究中,我们对抗净化任务进行了形式化表述,强调了阻碍现有方法的各种挑战,并提出了一种简单的诊断性保护扰动方法AntiPure。AntiPure在“净化-定制”工作流中暴露了净化方法的漏洞,这得益于两种引导机制:1)斑块频率引导,降低了模型对净化图像中高频成分的影响;2)错误时间步引导,破坏了模型在不同时间步的降噪策略。通过额外的引导,AntiPure能够在典型的净化设置下嵌入几乎无法察觉的扰动,实现了有效的定制后失真。实验表明,作为对净化方法的压力测试,AntiPure实现了最小的感知差异和最大的失真,在净化定制工作流中优于其他保护扰动方法。
论文及项目相关链接
PDF Accepted to ICCV 2025
Summary
Stable Diffusion等扩散模型在视觉合成任务中因强大的定制能力而备受瞩目,但也带来深伪、版权侵犯等安全风险。为应对这些问题,出现了保护扰动等方法来减轻图像滥用风险。然而,净化技术可以消除保护扰动,使图像再次面临恶意篡改风险。本文正式提出抗净化任务,强调当前方法面临的挑战,并提出一种名为AntiPure的简单诊断保护扰动。AntiPure通过两种引导机制揭露净化技术的漏洞:“净化定制”工作流程中的补丁频率引导和错误时序引导。它嵌入看不见的保护扰动,在代表性净化设置下持续存在,实现了有效的后定制失真。实验表明,作为净化压力测试,AntiPure实现了最小的感知差异和最大的失真,在净化定制工作流中优于其他保护扰动方法。
Key Takeaways
- 扩散模型如Stable Diffusion在视觉合成任务中表现出强大的定制化能力,但这也引发了深伪和版权侵犯等安全风险。
- 保护扰动方法被提出来减轻图像滥用风险,但现有的净化技术可以消除这些保护扰动。
- AntiPure是一种新的诊断保护扰动,它通过两种引导机制揭露净化技术的漏洞。
- AntiPure通过在净化后维持必要的失真来强化图像的保护能力。
- 作为一项针对净化的压力测试,AntiPure展现出优异性能,能够在最小感知差异下实现最大失真。
- AntiPure在净化定制工作流中的表现优于其他保护扰动方法。
点此查看论文截图




EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics
Authors:Qianxin Xia, Jiawei Du, Guoming Lu, Zhiyong Shu, Jielei Wang
Dataset distillation aims to synthesize a compact dataset from the original large-scale one, enabling highly efficient learning while preserving competitive model performance. However, traditional techniques primarily capture low-level visual features, neglecting the high-level semantic and structural information inherent in images. In this paper, we propose EDITS, a novel framework that exploits the implicit textual semantics within the image data to achieve enhanced distillation. First, external texts generated by a Vision Language Model (VLM) are fused with image features through a Global Semantic Query module, forming the prior clustered buffer. Local Semantic Awareness then selects representative samples from the buffer to construct image and text prototypes, with the latter produced by guiding a Large Language Model (LLM) with meticulously crafted prompt. Ultimately, Dual Prototype Guidance strategy generates the final synthetic dataset through a diffusion model. Extensive experiments confirm the effectiveness of our method.Source code is available in: https://github.com/einsteinxia/EDITS.
数据集蒸馏的目标是从原始的大规模数据集中合成一个紧凑的数据集,以实现高效学习,同时保持竞争性的模型性能。然而,传统技术主要捕捉图像的低级视觉特征,忽略了图像中固有的高级语义和结构信息。在本文中,我们提出了EDITS,这是一个利用图像数据中的隐含文本语义来实现增强蒸馏的新型框架。首先,通过全局语义查询模块,将视觉语言模型(VLM)生成的外部文本与图像特征相融合,形成先验聚类缓冲区。然后,局部语义意识从缓冲区中选择代表性样本,构建图像和文本原型,后者是通过精心设计的提示来引导大型语言模型(LLM)而产生的。最终,通过扩散模型采用双重原型指导策略生成最终的合成数据集。大量实验证实了我们的方法的有效性。源代码可在https://github.com/einsteinxia/EDITS找到。
论文及项目相关链接
Summary
本文提出了一种名为EDITS的新型数据集蒸馏框架,该框架通过利用图像数据中的隐含文本语义来实现增强的蒸馏效果。通过全球语义查询模块将外部文本与图像特征融合形成先验聚类缓冲区,然后使用局部语义意识从中选择代表性样本构建图像和文本原型,最后通过扩散模型生成合成数据集。该方法不仅提高了学习效率,还保持了模型性能。源代码可在GitHub上找到。
Key Takeaways
- EDITS框架通过融合外部文本和图像特征实现数据集蒸馏。
- 全球语义查询模块是EDITS的核心部分,负责将外部文本与图像特征结合形成先验聚类缓冲区。
- 局部语义意识从缓冲区中选择代表性样本,构建图像和文本原型。
- Large Language Model (LLM)在生成文本原型时起到关键作用。
- EDITS使用扩散模型生成合成数据集,这有助于提高学习效率并维持模型性能。
- EDITS在实验中表现出良好的效果。
点此查看论文截图




Generative Image Coding with Diffusion Prior
Authors:Jianhui Chang
As generative technologies advance, visual content has evolved into a complex mix of natural and AI-generated images, driving the need for more efficient coding techniques that prioritize perceptual quality. Traditional codecs and learned methods struggle to maintain subjective quality at high compression ratios, while existing generative approaches face challenges in visual fidelity and generalization. To this end, we propose a novel generative coding framework leveraging diffusion priors to enhance compression performance at low bitrates. Our approach employs a pre-optimized encoder to generate generalized compressed-domain representations, integrated with the pretrained model’s internal features via a lightweight adapter and an attentive fusion module. This framework effectively leverages existing pretrained diffusion models and enables efficient adaptation to different pretrained models for new requirements with minimal retraining costs. We also introduce a distribution renormalization method to further enhance reconstruction fidelity. Extensive experiments show that our method (1) outperforms existing methods in visual fidelity across low bitrates, (2) improves compression performance by up to 79% over H.266/VVC, and (3) offers an efficient solution for AI-generated content while being adaptable to broader content types.
随着生成技术的进步,视觉内容已经演变为自然图像和AI生成图像的复杂混合体,这推动了需要更有效的编码技术,这些技术需要优先重视感知质量。传统编码器和学习方法在较高的压缩率下很难保持主观质量,而现有的生成方法则在视觉保真度和通用性方面面临挑战。为此,我们提出了一种利用扩散先验知识的新型生成编码框架,以提高在低码率下的压缩性能。我们的方法采用预优化的编码器生成通用的压缩域表示,通过轻量级适配器和注意力融合模块与预训练模型的内部特征相结合。该框架有效地利用了现有的预训练扩散模型,并能够实现针对不同预训练模型的高效适配,以满足新的需求且最小化再训练成本。我们还引入了一种分布归一化方法,以进一步提高重建保真度。大量实验表明,我们的方法(1)在低码率下在视觉保真度方面优于现有方法,(2)与H.266/VVC相比,压缩性能提高了高达79%,(3)为AI生成内容提供了有效的解决方案,同时可适应更广泛的内容类型。
论文及项目相关链接
Summary
随着生成技术的不断进步,视觉内容已演变为自然图像和AI生成图像的综合体,这促使我们需要更高效的编码技术,特别是在重视感知质量方面。本文提出了一种利用扩散先验的新型生成编码框架,以提高低比特率下的压缩性能。该框架采用预优化编码器生成通用压缩域表示,通过轻量级适配器和注意力融合模块与预训练模型的内特征相融合。此外,引入分布重归一化方法进一步提高重建保真度。实验表明,该方法在视觉保真度方面优于现有方法,在较低比特率下表现尤为出色,并可有效适应AI生成内容和其他更广泛的内容类型。
Key Takeaways
- 生成技术的进步促使视觉内容演变为自然和AI生成图像的综合体。
- 需要更高效的编码技术来适应复杂的视觉内容,特别是重视感知质量。
- 提出了一种新型的生成编码框架,利用扩散先验提高低比特率下的压缩性能。
- 该框架采用预优化编码器生成通用压缩域表示,并与预训练模型融合。
- 引入分布重归一化方法来提高重建图像的保真度。
- 该方法在视觉保真度方面优于现有方法,特别是在低比特率下表现更出色。
点此查看论文截图






Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction for Sparse-View CT
Authors:Haodong Li, Shuo Han, Haiyang Mao, Yu Shi, Changsheng Fang, Jianjia Zhang, Weiwen Wu, Hengyong Yu
Sparse-View CT (SVCT) reconstruction enhances temporal resolution and reduces radiation dose, yet its clinical use is hindered by artifacts due to view reduction and domain shifts from scanner, protocol, or anatomical variations, leading to performance degradation in out-of-distribution (OOD) scenarios. In this work, we propose a Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction (CDPIR) framework to tackle the OOD problem in SVCT. CDPIR integrates cross-distribution diffusion priors, derived from a Scalable Interpolant Transformer (SiT), with model-based iterative reconstruction methods. Specifically, we train a SiT backbone, an extension of the Diffusion Transformer (DiT) architecture, to establish a unified stochastic interpolant framework, leveraging Classifier-Free Guidance (CFG) across multiple datasets. By randomly dropping the conditioning with a null embedding during training, the model learns both domain-specific and domain-invariant priors, enhancing generalizability. During sampling, the globally sensitive transformer-based diffusion model exploits the cross-distribution prior within the unified stochastic interpolant framework, enabling flexible and stable control over multi-distribution-to-noise interpolation paths and decoupled sampling strategies, thereby improving adaptation to OOD reconstruction. By alternating between data fidelity and sampling updates, our model achieves state-of-the-art performance with superior detail preservation in SVCT reconstructions. Extensive experiments demonstrate that CDPIR significantly outperforms existing approaches, particularly under OOD conditions, highlighting its robustness and potential clinical value in challenging imaging scenarios.
稀疏视图CT(SVCT)重建提高了时间分辨率并降低了辐射剂量,但其临床应用受到由视图减少、扫描仪、协议或解剖结构变化引起的域漂移所导致的伪影的阻碍,这导致在超出分布(OOD)的场景中出现性能下降。在这项工作中,我们提出了一种跨分布扩散先验驱动迭代重建(CDPIR)框架,以解决SVCT中的OOD问题。CDPIR将源于可扩展插值转换器(SiT)的跨分布扩散先验与基于模型的迭代重建方法相结合。具体来说,我们训练了一个SiT骨干网,这是扩散转换器(DiT)架构的扩展,以建立统一的随机插值框架,利用多个数据集之间的无分类器指导(CFG)。通过训练过程中随机丢弃条件并使用空嵌入,模型学会了特定域和跨域的先验知识,增强了其泛化能力。在采样过程中,全局敏感性的基于转换器的扩散模型在统一的随机插值框架内利用跨分布先验,实现对多分布到噪声插值路径和独立采样策略的灵活稳定控制,从而提高了对OOD重建的适应性。通过交替进行数据保真度和采样更新,我们的模型在SVCT重建中实现了最先进的性能,并以卓越的细节保留而脱颖而出。大量实验表明,CDPIR显著优于现有方法,特别是在OOD条件下,凸显了其在具有挑战性的成像场景中的稳健性和潜在的的临床价值。
论文及项目相关链接
PDF 11 pages, 8 figures, under reviewing of IEEE TMI
摘要
稀疏视图CT(SVCT)重建提高了时间分辨率并降低了辐射剂量,但其临床应用受到视图减少和来自扫描仪、协议或解剖结构变化导致的域漂移所产生的伪影的阻碍,这在超出分布范围(OOD)的场景中会导致性能下降。在此工作中,我们提出了一个跨分布扩散先验驱动迭代重建(CDPIR)框架来解决SVCT中的OOD问题。CDPIR结合了来自可扩展插值转换器(SiT)的跨分布扩散先验与基于模型的迭代重建方法。具体来说,我们训练了一个SiT骨干网,这是扩散转换器(DiT)架构的扩展,以建立一个统一的随机插值框架,利用跨多个数据集的Classifier-Free Guidance(CFG)。通过在训练期间随机丢弃条件嵌入作为null嵌入,模型可以学习特定领域和不特定领域的先验知识,从而提高泛化能力。在采样过程中,全局敏感性的基于转换器的扩散模型在统一的随机插值框架内利用跨分布先验,实现灵活稳定的控制多分布到噪声的插值路径和独立的采样策略,从而提高了对OOD重建的适应性。通过交替进行数据保真度和采样更新,我们的模型在SVCT重建中实现了最先进的性能表现,并出色地保留了细节。大量实验表明,CDPIR显著优于现有方法,特别是在OOD条件下,突显了其稳健性和在具有挑战性的成像场景中的潜在临床价值。
要点
- CDPIR框架解决了稀疏视图CT(SVCT)重建中的OOD问题。
- 结合了跨分布扩散先验与迭代重建方法。
- 使用可扩展插值转换器(SiT)训练模型以学习领域特定和领域不变的先验知识。
- 模型通过结合数据保真度和采样更新实现了先进性能。
- CDPIR在SVCT重建中表现出卓越的细节保留能力。
- 实验结果显示CDPIR在OOD条件下显著优于现有方法。
点此查看论文截图



DEFT-VTON: Efficient Virtual Try-On with Consistent Generalised H-Transform
Authors:Xingzi Xu, Qi Li, Shuwen Qiu, Julien Han, Karim Bouyarmane
Diffusion models enable high-quality virtual try-on (VTO) with their established image synthesis abilities. Despite the extensive end-to-end training of large pre-trained models involved in current VTO methods, real-world applications often prioritize limited training and inference, serving, and deployment budgets for VTO. To solve this obstacle, we apply Doob’s h-transform efficient fine-tuning (DEFT) for adapting large pre-trained unconditional models for downstream image-conditioned VTO abilities. DEFT freezes the pre-trained model’s parameters and trains a small h-transform network to learn a conditional h-transform. The h-transform network allows training only 1.42 percent of the frozen parameters, compared to a baseline of 5.52 percent in traditional parameter-efficient fine-tuning (PEFT). To further improve DEFT’s performance and decrease existing models’ inference time, we additionally propose an adaptive consistency loss. Consistency training distills slow but high-performing diffusion models into a fast one while retaining performance by enforcing consistencies along the inference path. Inspired by constrained optimization, instead of distillation, we combine the consistency loss and the denoising score matching loss in a data-adaptive manner for fine-tuning existing VTO models at a low cost. Empirical results show the proposed DEFT-VTON method achieves state-of-the-art performance on VTO tasks, with as few as 15 denoising steps, while maintaining competitive results.
扩散模型凭借其成熟的图像合成能力,能够实现高质量的虚拟试穿(VTO)。尽管目前的VTO方法涉及对大型预训练模型进行端到端的广泛训练,但现实世界的应用往往优先考虑有限的训练、推理、服务和部署预算,用于VTO。为了解决这个问题,我们应用Doob的h-transform高效微调(DEFT)技术,以适应大型预训练无条件模型进行下游图像调节的VTO能力。DEFT冻结预训练模型的参数,并训练一个小型的h-transform网络来学习条件h-transform。与传统参数有效微调(PEFT)的基线相比,h-transform网络只允许冻结参数的1.42%进行训练,而基线则需要训练5.52%的参数。为了进一步提高DEFT的性能并减少现有模型的推理时间,我们还提出了一种自适应一致性损失。一致性训练将缓慢但高性能的扩散模型蒸馏为快速模型,同时通过执行推理路径上的一致性来保留性能。受约束优化的启发,我们不是采用蒸馏的方法,而是将一致性损失和去噪评分匹配损失以数据自适应的方式结合起来,以低成本微调现有的VTO模型。经验结果表明,所提出的DEFT-VTON方法在VTO任务上达到了最新技术水平的性能,仅使用15个去噪步骤,同时保持了竞争力。
论文及项目相关链接
PDF Published in 2025 CVPR Workshop
Summary
本文介绍了使用扩散模型实现高质量虚拟试穿(VTO)的方法。为解决实际应用中训练、推理、部署预算有限的问题,采用Doob的h-transform高效微调(DEFT)技术,使大型预训练无条件模型适应下游图像条件VTO能力。DEFT通过冻结预训练模型参数并训练小型h-transform网络学习条件h-transform来解决此问题,仅训练1.42%的冻结参数,相较于传统参数效率微调(PEFT)的5.52%有显著优势。为进一步改善DEFT性能并减少现有模型的推理时间,提出了自适应一致性损失。一致性训练将缓慢但高性能的扩散模型转化为快速模型,同时保留性能,通过在推理路径上强制执行一致性来实现。通过结合一致性损失和去噪分数匹配损失,以数据自适应方式微调现有VTO模型,成本低,且只需少数几步去噪即可达到最佳性能。
Key Takeaways
- 扩散模型能够实现高质量的虚拟试穿(VTO)。
- 当前VTO方法虽然涉及大型预训练模型的端到端训练,但实际应用中更强调有限的训练、推理、部署预算。
- Doob的h-transform高效微调(DEFT)技术被应用于适应下游图像条件VTO能力,通过冻结预训练模型的大部分参数并仅训练小部分h-transform网络来解决这一问题。
- DEFT相较于传统参数效率微调(PEFT)有更优的参数训练效率。
- 为提高DEFT性能并减少模型推理时间,提出了自适应一致性损失。
- 一致性训练能将慢但高性能的扩散模型转化为快速模型,同时保持性能。
点此查看论文截图





DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing
Authors:Xiaolong Wang, Zhi-Qi Cheng, Jue Wang, Xiaojiang Peng
Fashion image editing is a crucial tool for designers to convey their creative ideas by visualizing design concepts interactively. Current fashion image editing techniques, though advanced with multimodal prompts and powerful diffusion models, often struggle to accurately identify editing regions and preserve the desired garment texture detail. To address these challenges, we introduce a new multimodal fashion image editing architecture based on latent diffusion models, called Detail-Preserved Diffusion Models (DPDEdit). DPDEdit guides the fashion image generation of diffusion models by integrating text prompts, region masks, human pose images, and garment texture images. To precisely locate the editing region, we first introduce Grounded-SAM to predict the editing region based on the user’s textual description, and then combine it with other conditions to perform local editing. To transfer the detail of the given garment texture into the target fashion image, we propose a texture injection and refinement mechanism. Specifically, this mechanism employs a decoupled cross-attention layer to integrate textual descriptions and texture images, and incorporates an auxiliary U-Net to preserve the high-frequency details of generated garment texture. Additionally, we extend the VITON-HD dataset using a multimodal large language model to generate paired samples with texture images and textual descriptions. Extensive experiments show that our DPDEdit outperforms state-of-the-art methods in terms of image fidelity and coherence with the given multimodal inputs.
时尚图像编辑是设计师通过交互式可视化设计概念来表达创意想法的重要工具。尽管当前的时尚图像编辑技术已经具备多模式提示和强大的扩散模型,但它们仍然难以准确识别编辑区域并保留所需的服装纹理细节。为了应对这些挑战,我们基于潜在扩散模型引入了一种新的多模式时尚图像编辑架构,称为细节保留扩散模型(DPDEdit)。DPDEdit通过整合文本提示、区域掩码、人体姿势图像和服装纹理图像来引导扩散模型的时尚图像生成。为了精确定位编辑区域,我们首先引入基于用户文本描述的Grounded-SAM进行预测编辑区域,然后结合其他条件进行局部编辑。为了将给定的服装纹理细节转移到目标时尚图像中,我们提出了纹理注入和细化机制。具体来说,该机制采用解耦的交叉注意层来整合文本描述和纹理图像,并引入辅助U-Net来保留生成服装纹理的高频细节。此外,我们使用多模式大型语言模型扩展了VITON-HD数据集,生成具有纹理图像和文本描述的双样本。大量实验表明,我们的DPDEdit在图像保真度和与给定多模式输入的连贯性方面优于现有先进技术。
论文及项目相关链接
PDF 13 pages,12 figures
Summary
基于潜在扩散模型的多模态时尚图像编辑架构DPDEdit,通过结合文本提示、区域掩膜、人体姿态图像和服装纹理图像,指导扩散模型的时尚图像生成。提出Grounded-SAM精确定位编辑区域,并结合其他条件进行局部编辑。通过纹理注入和细化机制,将给定的服装纹理细节转移到目标时尚图像中。
Key Takeaways
- 时尚图像编辑是设计师传达创意的重要工具,当前技术面临准确识别编辑区域和保留服装纹理细节的挑战。
- 引入基于潜在扩散模型的多模态时尚图像编辑架构DPDEdit,结合多种输入进行时尚图像生成。
- DPDEdit通过Grounded-SAM预测编辑区域,实现精确定位。
- 纹理注入和细化机制采用解耦交叉注意层来集成文本描述和纹理图像,并辅以U-Net保留生成服装纹理的高频细节。
- DPDEdit扩展了VITON-HD数据集,利用多模态大型语言模型生成配对样本(纹理图像和文本描述)。
- 实验表明,DPDEdit在图像保真度和与给定多模态输入的一致性方面优于现有方法。
点此查看论文截图






