⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-06 更新
Diffusion Models are Robust Pretrainers
Authors:Mika Yagoda, Shady Abu-Hussein, Raja Giryes
Diffusion models have gained significant attention for high-fidelity image generation. Our work investigates the potential of exploiting diffusion models for adversarial robustness in image classification and object detection. Adversarial attacks challenge standard models in these tasks by perturbing inputs to force incorrect predictions. To address this issue, many approaches use training schemes for forcing the robustness of the models, which increase training costs. In this work, we study models built on top of off-the-shelf diffusion models and demonstrate their practical significance: they provide a low-cost path to robust representations, allowing lightweight heads to be trained on frozen features without full adversarial training. Our empirical evaluations on ImageNet, CIFAR-10, and PASCAL VOC show that diffusion-based classifiers and detectors achieve meaningful adversarial robustness with minimal compute. While clean and adversarial accuracies remain below state-of-the-art adversarially trained CNNs or ViTs, diffusion pretraining offers a favorable tradeoff between efficiency and robustness. This work opens a promising avenue for integrating diffusion models into resource-constrained robust deployments.
扩散模型在高保真图像生成领域引起了广泛关注。我们的工作研究了将扩散模型用于图像分类和对象检测中的对抗性稳健性的潜力。对抗性攻击通过扰动输入来挑战这些任务的标准模型,从而迫使模型做出错误的预测。为了解决这一问题,许多方法使用训练方案来增强模型的稳健性,这增加了训练成本。在这项工作中,我们研究了基于现成扩散模型的模型,并展示了它们的实际意义:它们为稳健表示提供了低成本途径,允许在冻结的特征上训练轻量级头部,而无需进行全面的对抗性训练。我们在ImageNet、CIFAR-10和PASCAL VOC上的经验评估表明,基于扩散的分类器和检测器实现了有意义的对抗性稳健性,计算量极小。虽然清洁和对抗性精度仍低于最先进的对抗性训练的CNN或ViTs,但扩散预训练在效率和稳健性之间提供了有利的权衡。这项工作为将扩散模型集成到资源受限的稳健部署中打开了有前途的道路。
论文及项目相关链接
PDF To be published in IEEE Signal Processing Letters
Summary
本文探讨了扩散模型在图像分类和对象检测中的对抗稳健性潜力。研究指出,基于货架上的扩散模型构建模型具有实际意义,它们提供了一种实现稳健表示的低成本途径,允许在冻结的特征上训练轻量级头部,无需全面的对抗性训练。实证评估表明,基于扩散的分类器和检测器实现了有意义的对抗性稳健性,计算量小。虽然清洁和对抗性准确率仍低于经过对抗性训练的CNN或ViTs的当前最佳水平,但扩散预训练在效率和稳健性之间提供了有利的权衡。
Key Takeaways
- 扩散模型在图像生成中受到高度关注。
- 对抗攻击挑战了图像分类和对象检测的标准模型。
- 通过在货架上的扩散模型构建模型可以提高模型的对抗稳健性。
- 冻结特征上的轻量级头部训练可以实现稳健表示而无需全对抗训练。
- 基于扩散的分类器和检测器在保证对抗性稳健性的同时,计算量较小。
- 虽然准确率尚低于最先进的对抗训练模型,但扩散预训练提供了效率和稳健性的有利权衡。
点此查看论文截图
Watermarking Discrete Diffusion Language Models
Authors:Avi Bagchi, Akhil Bhimaraju, Moulik Choraria, Daniel Alabi, Lav R. Varshney
Watermarking has emerged as a promising technique to track AI-generated content and differentiate it from authentic human creations. While prior work extensively studies watermarking for autoregressive large language models (LLMs) and image diffusion models, none address discrete diffusion language models, which are becoming popular due to their high inference throughput. In this paper, we introduce the first watermarking method for discrete diffusion models by applying the distribution-preserving Gumbel-max trick at every diffusion step and seeding the randomness with the sequence index to enable reliable detection. We experimentally demonstrate that our scheme is reliably detectable on state-of-the-art diffusion language models and analytically prove that it is distortion-free with an exponentially decaying probability of false detection in the token sequence length.
水印技术已成为追踪人工智能生成内容并将其与真实人类创作区分开来的有前途的技术。虽然先前的工作对自回归大型语言模型(LLM)和图像扩散模型的水印进行了广泛研究,但没有针对离散扩散语言模型的研究,离散扩散语言模型由于其高推理吞吐量而越来越受欢迎。在本文中,我们通过在每个扩散步骤中应用保持分布的古姆贝尔-最大技巧,并以序列索引为随机性提供种子,从而实现了离散扩散模型的首个水印方法,以可靠地检测水印。我们实验证明我们的方案在先进扩散语言模型上能可靠检测水印,并通过分析证明它是无失真的,在令牌序列长度中误检的概率呈指数衰减。
论文及项目相关链接
Summary
本文介绍了一种针对离散扩散模型的水印技术。通过应用分布保持的Gumbel-max技巧,在每个扩散步骤中植入水印,并利用序列索引为随机性提供种子,实现了在离散扩散模型中的可靠水印嵌入。实验证明,该方案在先进的扩散语言模型上可检测,且经过分析证明其无失真,在令牌序列长度上呈指数衰减的误检概率。
Key Takeaways
- 水印技术用于追踪AI生成内容并区分其和真实人类创作。
- 当前研究主要集中在自回归大型语言模型和图像扩散模型的水印技术上。
- 离散扩散模型因高推理吞吐量而受欢迎,但缺乏水印技术研究。
- 本文首次为离散扩散模型引入水印方法。
- 利用分布保持的Gumbel-max技巧在每个扩散步骤中嵌入水印。
- 通过序列索引为随机性提供种子,实现可靠检测。
点此查看论文截图
Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image
Authors:Yuxiao Yang, Xiao-Xiao Long, Zhiyang Dou, Cheng Lin, Yuan Liu, Qingsong Yan, Yuexin Ma, Haoqian Wang, Zhiqiang Wu, Wei Yin
In this work, we introduce \textbf{Wonder3D++}, a novel method for efficiently generating high-fidelity textured meshes from single-view images. Recent methods based on Score Distillation Sampling (SDS) have shown the potential to recover 3D geometry from 2D diffusion priors, but they typically suffer from time-consuming per-shape optimization and inconsistent geometry. In contrast, certain works directly produce 3D information via fast network inferences, but their results are often of low quality and lack geometric details. To holistically improve the quality, consistency, and efficiency of single-view reconstruction tasks, we propose a cross-domain diffusion model that generates multi-view normal maps and the corresponding color images. To ensure the consistency of generation, we employ a multi-view cross-domain attention mechanism that facilitates information exchange across views and modalities. Lastly, we introduce a cascaded 3D mesh extraction algorithm that drives high-quality surfaces from the multi-view 2D representations in only about $3$ minute in a coarse-to-fine manner. Our extensive evaluations demonstrate that our method achieves high-quality reconstruction results, robust generalization, and good efficiency compared to prior works. Code available at https://github.com/xxlong0/Wonder3D/tree/Wonder3D_Plus.
在这项工作中,我们介绍了**Wonder3D++**,这是一种从单视图图像高效生成高保真纹理网格的新方法。最近基于得分蒸馏采样(SDS)的方法已显示出从二维扩散先验恢复三维几何的潜力,但它们通常面临耗时且针对每个形状的优化以及几何不一致的问题。相比之下,某些工作通过快速网络推理直接产生三维信息,但其结果往往质量较低且缺乏几何细节。为了全面提高单视图重建任务的质量、一致性和效率,我们提出了一种跨域扩散模型,该模型生成多视图法线贴图和相应的彩色图像。为确保生成的连贯性,我们采用了一种多视图跨域注意力机制,该机制促进了跨视图和跨模态的信息交换。最后,我们引入了一种级联三维网格提取算法,该算法以粗略到精细的方式从多视图二维表示中驱动高质量表面,仅约3分钟即可完成。我们的广泛评估表明,我们的方法与以前的工作相比,实现了高质量的重建结果、稳健的泛化能力和良好的效率。代码可在https://github.com/xxlong 访问。我们将我们的模型命名为Wonder3D+,在xxlong的Wonder3D树中。
论文及项目相关链接
PDF 21 pages, 19 figures, accepted by TPAMI
Summary
本文介绍了Wonder3D++方法,该方法能够从单视图图像高效生成高质量纹理网格。该方法结合Score Distillation Sampling(SDS)的优势,解决了现有技术中时间消耗大、形状优化不一致的问题。通过跨域扩散模型生成多视角法线图及对应的彩色图像,确保生成的连贯性。此外,采用级联的3D网格提取算法,以粗到细的方式从多视角的二维表示中快速生成高质量表面。相比现有技术,该方法在重建质量、通用性和效率方面表现出优势。
Key Takeaways
- Wonder3D++是一种从单视图图像生成高质量纹理网格的新方法。
- 结合Score Distillation Sampling(SDS)的优势,解决了时间消耗大、形状优化不一致的问题。
- 通过跨域扩散模型生成多视角法线图及彩色图像,确保生成的连贯性。
- 引入跨域注意力机制促进不同视角和模态间的信息交流。
- 采用级联的3D网格提取算法,以粗到细的方式快速生成高质量表面。
- 该方法在重建质量、通用性和效率方面优于现有技术。
点此查看论文截图
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
Authors:Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
Relighting is a crucial task with both practical demand and artistic value, and recent diffusion models have shown strong potential by enabling rich and controllable lighting effects. However, as they are typically optimized in semantic latent space, where proximity does not guarantee physical correctness in visual space, they often produce unrealistic results, such as overexposed highlights, misaligned shadows, and incorrect occlusions. We address this with UniLumos, a unified relighting framework for both images and videos that brings RGB-space geometry feedback into a flow matching backbone. By supervising the model with depth and normal maps extracted from its outputs, we explicitly align lighting effects with the scene structure, enhancing physical plausibility. Nevertheless, this feedback requires high-quality outputs for supervision in visual space, making standard multi-step denoising computationally expensive. To mitigate this, we employ path consistency learning, allowing supervision to remain effective even under few-step training regimes. To enable fine-grained relighting control and supervision, we design a structured six-dimensional annotation protocol capturing core illumination attributes. Building upon this, we propose LumosBench, a disentangled attribute-level benchmark that evaluates lighting controllability via large vision-language models, enabling automatic and interpretable assessment of relighting precision across individual dimensions. Extensive experiments demonstrate that UniLumos achieves state-of-the-art relighting quality with significantly improved physical consistency, while delivering a 20x speedup for both image and video relighting. Code is available at https://github.com/alibaba-damo-academy/Lumos-Custom.
重照明是一项既有实际需术又有艺术价值的至关重要的任务,最近的扩散模型通过实现丰富且可控的照明效果展示了强大的潜力。然而,由于它们通常在语义潜在空间中进行优化,该空间的邻近性不能保证视觉空间的物理正确性,因此它们通常会产生不真实的结果,如曝光过度的高光、对不齐的影子和错误的遮挡。我们通过UniLumos来解决这个问题,UniLumos是一个用于图像和视频的统一重照明框架,它将RGB空间几何反馈带入流匹配主干网。通过用从输出中提取的深度图和法线图来监督模型,我们可以明确地将照明效果与场景结构对齐,提高物理可信度。然而,这种反馈需要高质量输出来监督视觉空间,使得标准的多步去噪计算成本高昂。为了缓解这一问题,我们采用了路径一致性学习,允许监督在少数几步训练体制下仍然有效。为了实现精细的重照明控制和监督,我们设计了一个结构化的六维注释协议,捕捉核心照明属性。在此基础上,我们提出了LumosBench,一个解耦的属性层面基准测试,通过大型视觉语言模型评估照明可控性,实现对重照明精度在各个维度的自动和可解释评估。大量实验表明,UniLumos实现了最先进的重照明质量,物理一致性显著提高,同时在图像和视频重照明上实现了20倍的速度提升。代码可在https://github.com/alibaba-damo-academy/Lumos-Custom上找到。
论文及项目相关链接
PDF NeurIPS 2025
Summary
近期扩散模型在重照明领域展现出强大潜力,能实现丰富且可控的照明效果。但由于它们在语义潜在空间进行优化,忽略了物理正确性,常产生不真实结果,如曝光过度、阴影错位和遮挡错误。为此,提出UniLumos框架,结合图像和视频重照明,通过RGB空间几何反馈匹配主干网,提高物理合理性。采用深度图和法线图进行监督,明确将照明效果与场景结构对齐。但反馈需高质量输出进行视觉空间监督,使多步去噪计算昂贵。为此,采用路径一致性学习,在少步训练下保持有效监督。设计结构化六维注释协议,建立LumosBench基准测试,评估重照明可控性。实验证明UniLumos实现最优重照明质量,显著提高物理一致性,且图像和视频重照明速度提升20倍。
Key Takeaways
- 扩散模型在重照明领域具有强大潜力,能实现丰富可控的照明效果。
- 语义潜在空间的优化导致物理正确性问题,产生不真实结果。
- UniLumos框架结合图像和视频重照明,通过RGB空间几何反馈提高物理合理性。
- 深度图和法线图的监督明确对齐照明效果与场景结构。
- 路径一致性学习有效在少步训练下保持监督。
- 结构化六维注释协议和LumosBench基准测试用于评估重照明的可控性。
点此查看论文截图
NSYNC: Negative Synthetic Image Generation for Contrastive Training to Improve Stylized Text-To-Image Translation
Authors:Serkan Ozturk, Samet Hicsonmez, Pinar Duygulu
Current text conditioned image generation methods output realistic looking images, but they fail to capture specific styles. Simply finetuning them on the target style datasets still struggles to grasp the style features. In this work, we present a novel contrastive learning framework to improve the stylization capability of large text-to-image diffusion models. Motivated by the astonishing advance in image generation models that makes synthetic data an intrinsic part of model training in various computer vision tasks, we exploit synthetic image generation in our approach. Usually, the generated synthetic data is dependent on the task, and most of the time it is used to enlarge the available real training dataset. With NSYNC, alternatively, we focus on generating negative synthetic sets to be used in a novel contrastive training scheme along with real positive images. In our proposed training setup, we forward negative data along with positive data and obtain negative and positive gradients, respectively. We then refine the positive gradient by subtracting its projection onto the negative gradient to get the orthogonal component, based on which the parameters are updated. This orthogonal component eliminates the trivial attributes that are present in both positive and negative data and directs the model towards capturing a more unique style. Experiments on various styles of painters and illustrators show that our approach improves the performance over the baseline methods both quantitatively and qualitatively. Our code is available at https://github.com/giddyyupp/NSYNC.
当前基于文本条件的图像生成方法能够生成逼真的图像,但它们无法捕捉特定的风格。仅仅对目标风格数据集进行微调仍然难以把握风格特征。在这项工作中,我们提出了一种新的对比学习框架,旨在提高大型文本到图像扩散模型的风格化能力。受图像生成模型惊人进展的启发,合成数据已成为各种计算机视觉任务中模型训练不可或缺的一部分,我们的方法利用了合成图像生成。通常,生成的合成数据取决于任务,并且大部分时间用于扩大可用的真实训练数据集。然而,通过NSYNC,我们专注于生成用于新型对比训练方案的负合成集,以及与真实正图像一起使用。在我们提出的训练设置中,我们正向传输负数据以及正数据,并分别获得负和正梯度。然后,我们通过从正梯度中减去其在负梯度上的投影来优化正梯度,从而获得正交分量,基于该正交分量更新参数。这个正交分量消除了正负数据中共同的常规属性,并指导模型捕捉更独特的风格。对各种风格的画家和插图师的实验表明,我们的方法无论在定量还是定性方面都超过了基线方法。我们的代码可在https://github.com/giddyyupp/NSYNC找到。
论文及项目相关链接
PDF Under review
Summary
本文提出了一种基于对比学习的新框架,旨在提高大型文本到图像扩散模型的风格化能力。该框架通过生成负合成集,将其用于新颖的对比训练方案,并结合真实的正图像。通过正向负数据以及正数据,获得负和正梯度。然后,通过减去负梯度上的投影来优化正梯度,从而获得正交分量,基于该正交分量更新参数。这种方法消除了正负数据中存在的普通属性,使模型更专注于捕捉独特的风格。实验表明,该方法在画家和插画家的各种风格上均优于基准方法,定量和定性表现都有所提高。
Key Takeaways
- 当前文本条件图像生成方法无法捕捉特定风格,即使对目标样式数据集进行微调也难以把握样式特征。
- 提出了一种基于对比学习的新框架,旨在提高大型文本到图像扩散模型的风格化能力。
- 通过生成负合成集,并将其纳入对比训练方案,结合真实正图像进行训练。
- 通过正向负数据和正数据获得正负梯度,并优化正梯度以获得正交分量。
- 正交分量有助于消除正负数中的普通属性,使模型专注于捕捉独特风格。
- 在各种风格的画家和插画家的实验上,该方法优于基准方法,表现更优秀。
点此查看论文截图
Expanding the Content-Style Frontier: a Balanced Subspace Blending Approach for Content-Style LoRA Fusion
Authors:Linhao Huang
Recent advancements in text-to-image diffusion models have significantly improved the personalization and stylization of generated images. However, previous studies have only assessed content similarity under a single style intensity. In our experiments, we observe that increasing style intensity leads to a significant loss of content features, resulting in a suboptimal content-style frontier. To address this, we propose a novel approach to expand the content-style frontier by leveraging Content-Style Subspace Blending and a Content-Style Balance loss. Our method improves content similarity across varying style intensities, significantly broadening the content-style frontier. Extensive experiments demonstrate that our approach outperforms existing techniques in both qualitative and quantitative evaluations, achieving superior content-style trade-off with significantly lower Inverted Generational Distance (IGD) and Generational Distance (GD) scores compared to current methods.
最近文本到图像扩散模型的进展在个性化生成和风格化生成图像方面取得了显著的提升。然而,之前的研究只在单一的风格强度下评估内容相似性。在我们的实验中,我们发现增加风格强度会导致内容特征的显著损失,从而形成一个次优的内容-风格边界。为了解决这一问题,我们提出了一种新的方法来扩展内容-风格边界,通过利用内容-风格子空间混合和内容-风格平衡损失。我们的方法提高了不同风格强度下的内容相似性,显著扩大了内容-风格边界。大量实验表明,我们的方法在定性和定量评估方面都优于现有技术,实现了更好的内容-风格权衡,与当前方法相比,倒置生成距离(IGD)和生成距离(GD)得分显著降低。
论文及项目相关链接
Summary
文本扩散模型最新进展在个性化与风格化生成图像上取得显著成果。然而,先前研究仅在单一风格强度下评估内容相似性。本研究发现增加风格强度会导致内容特征大量损失,形成次优的内容风格边界。为解决此问题,我们提出一种新方法,通过利用内容风格子空间融合和内容风格平衡损失来拓展内容风格边界。该方法在不同风格强度下提高内容相似性,显著拓宽内容风格边界。大量实验证明,我们的方法无论在定性还是定量评估上都优于现有技术,与当前方法相比,实现了更优质的内容风格权衡,降低了反向生成距离(IGD)和生成距离(GD)得分。
Key Takeaways
- 最新文本扩散模型在个性化与风格化图像生成上取得进展。
- 单一风格强度下的内容相似性评估存在局限性。
- 增加风格强度会导致内容特征损失,形成次优的内容风格边界。
- 提出一种新方法,通过内容风格子空间融合和内容风格平衡损失来拓展内容风格边界。
- 新方法在不同风格强度下提高内容相似性。
- 大量实验证明该方法在定性和定量评估上都优于现有技术。
点此查看论文截图
Perturb a Model, Not an Image: Towards Robust Privacy Protection via Anti-Personalized Diffusion Models
Authors:Tae-Young Lee, Juwon Seo, Jong Hwan Ko, Gyeong-Moon Park
Recent advances in diffusion models have enabled high-quality synthesis of specific subjects, such as identities or objects. This capability, while unlocking new possibilities in content creation, also introduces significant privacy risks, as personalization techniques can be misused by malicious users to generate unauthorized content. Although several studies have attempted to counter this by generating adversarially perturbed samples designed to disrupt personalization, they rely on unrealistic assumptions and become ineffective in the presence of even a few clean images or under simple image transformations. To address these challenges, we shift the protection target from the images to the diffusion model itself to hinder the personalization of specific subjects, through our novel framework called Anti-Personalized Diffusion Models (APDM). We first provide a theoretical analysis demonstrating that a naive approach of existing loss functions to diffusion models is inherently incapable of ensuring convergence for robust anti-personalization. Motivated by this finding, we introduce Direct Protective Optimization (DPO), a novel loss function that effectively disrupts subject personalization in the target model without compromising generative quality. Moreover, we propose a new dual-path optimization strategy, coined Learning to Protect (L2P). By alternating between personalization and protection paths, L2P simulates future personalization trajectories and adaptively reinforces protection at each step. Experimental results demonstrate that our framework outperforms existing methods, achieving state-of-the-art performance in preventing unauthorized personalization. The code is available at https://github.com/KU-VGI/APDM.
近期扩散模型(Diffusion Models)的进步已经能够实现特定主题,如身份或对象的高质量合成。这一能力虽然在内容创作上开启了新的可能性,但也引入了重大的隐私风险,因为个性化技术可能会被恶意用户滥用,生成未经授权的内容。尽管已有一些研究试图通过对抗扰动样本的生成来对抗个性化技术,这些扰动样本旨在干扰个性化过程,但它们依赖于不切实际的假设,甚至在只有几张干净图像或简单的图像变换的情况下也会变得无效。为了应对这些挑战,我们将保护目标从图像转向扩散模型本身,通过我们称为反个性化扩散模型(APDM)的新型框架来阻碍特定主题的个人化。我们首先进行理论分析,证明现有损失函数对扩散模型的简单应用本质上无法保证实现稳健的反个性化所需的收敛性。受这一发现的启发,我们引入了直接保护优化(DPO)这一新型损失函数,它能够在不损害生成质量的情况下有效地破坏目标模型中的主题个性化。此外,我们还提出了一种新的双路径优化策略,称为学习保护(L2P)。通过交替使用个性化和保护路径,L2P模拟未来的个性化轨迹,并在每一步自适应地强化保护。实验结果表明,我们的框架在防止未经授权的个人化方面优于现有方法,达到了业界领先水平。相关代码已发布在https://github.com/KU-VGI/APDM上。
论文及项目相关链接
PDF 26 pages, 9 figures, 16 tables, NeurIPS 2025
Summary
近期扩散模型的新进展能够实现特定主题的高质量合成,如身份或物体。然而,这种能力在解锁内容创作新可能性的同时,也带来了重大隐私风险。恶意用户可能滥用个性化技术来生成未经授权的内容。为了应对这一挑战,我们提出了一种名为Anti-Personalized Diffusion Models(APDM)的新型框架,旨在从扩散模型本身出发,阻止特定主题的个人化。我们引入了Direct Protective Optimization(DPO)和Learning to Protect(L2P)策略,有效阻断目标模型中的主题个人化,同时不损害生成质量。实验结果显示,我们的框架优于现有方法,达到防止未经授权个人化的最佳性能。
Key Takeaways
- 扩散模型最新进展可实现特定主题的高质量合成,如身份和物体。
- 虽然个人化技术开启了新的创作可能性,但也带来隐私风险,可能被恶意用户利用生成未经授权的内容。
- 当前研究尝试通过对抗扰动样本来应对此问题,但在面对清洁图像或简单图像转换时效果不佳。
- 我们提出了一种名为Anti-Personalized Diffusion Models(APDM)的新型框架,从扩散模型本身保护用户隐私。
- 引入Direct Protective Optimization(DPO)作为新的损失函数,能有效阻止主题个人化而不损害生成质量。
- 提出了一种新的双路径优化策略Learning to Protect(L2P),通过交替进行个人化和保护路径,模拟未来个人化轨迹并自适应加强保护。
点此查看论文截图
Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution
Authors:Peng Du, Hui Li, Han Xu, Paul Barom Jeon, Dongwook Lee, Daehyun Ji, Ran Yang, Feng Zhu
Discrete Wavelet Transform (DWT) has been widely explored to enhance the performance of image superresolution (SR). Despite some DWT-based methods improving SR by capturing fine-grained frequency signals, most existing approaches neglect the interrelations among multiscale frequency sub-bands, resulting in inconsistencies and unnatural artifacts in the reconstructed images. To address this challenge, we propose a Diffusion Transformer model based on image Wavelet spectra for SR (DTWSR). DTWSR incorporates the superiority of diffusion models and transformers to capture the interrelations among multiscale frequency sub-bands, leading to a more consistence and realistic SR image. Specifically, we use a Multi-level Discrete Wavelet Transform to decompose images into wavelet spectra. A pyramid tokenization method is proposed which embeds the spectra into a sequence of tokens for transformer model, facilitating to capture features from both spatial and frequency domain. A dual-decoder is designed elaborately to handle the distinct variances in low-frequency and high-frequency sub-bands, without omitting their alignment in image generation. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness of our method, with high performance on both perception quality and fidelity.
离散小波变换(DWT)已被广泛应用于提高图像超分辨率(SR)的性能。尽管有些基于DWT的方法通过捕捉精细频率信号来提高SR,但大多数现有方法忽视了多尺度频率子带之间的相互作用,导致重建的图像出现不一致和不自然的伪影。为了解决这一挑战,我们提出了一种基于图像小波谱的用于SR的扩散变压器模型(DTWSR)。DTWSR结合了扩散模型和变压器的优点,能够捕捉多尺度频率子带之间的关系,从而产生更一致和更逼真的SR图像。具体来说,我们使用多级离散小波变换将图像分解成小波谱。提出了一种金字塔标记法,将谱嵌入到标记序列中供变压器模型使用,便于从空间和频率域捕捉特征。精心设计了一个双解码器,以处理低频和高频子带的独特差异,同时不会在图像生成过程中忽略它们的对齐。在多个基准数据集上的大量实验表明了我们方法的有效性,在感知质量和保真度方面均表现出卓越性能。
论文及项目相关链接
PDF ICCV 2025 Oral Paper
Summary
离散小波变换(DWT)在图像超分辨率(SR)中得到了广泛应用以提高性能。尽管一些基于DWT的方法通过捕获精细频率信号改进了SR,但大多数现有方法忽略了多尺度频率子带之间的相互作用,导致重建图像出现不一致和不自然的人工痕迹。为解决此挑战,我们提出了基于图像小波光谱的扩散变换模型(DTWSR)。DTWSR结合了扩散模型和变压器的优势,能够捕捉多尺度频率子带之间的关系,从而生成更一致和逼真的SR图像。具体来说,我们使用多级离散小波变换将图像分解成小波光谱,并提出了一种金字塔标记方法,将光谱嵌入到标记序列中,便于从空间和频率域捕获特征。精心设计了一个双解码器,以处理低频和高频子带的独特差异,同时不忽略它们在图像生成中的对齐。在多个基准数据集上的广泛实验表明,我们的方法在提高感知质量和保真度方面都十分有效。
Key Takeaways
- 离散小波变换(DWT)已被用于提高图像超分辨率(SR)的性能。
- 现有方法忽略了多尺度频率子带间的相互作用,导致重建图像存在不一致和不自然的现象。
- 提出了一种基于图像小波光谱的扩散变换模型(DTWSR),能够捕捉多尺度频率子带之间的关系。
- 使用多级离散小波变换将图像分解成小波光谱。
- 采用金字塔标记法将光谱嵌入标记序列,便于从空间和频率域提取特征。
- 设计了一个双解码器,以处理低频和高频子带的独特差异,并保持良好的对齐。
点此查看论文截图
Deep Generative Models for Enhanced Vitreous OCT Imaging
Authors:Simone Sarrocco, Philippe C. Cattin, Peter M. Maloca, Paul Friedrich, Philippe Valmaggia
Purpose: To evaluate deep learning (DL) models for enhancing vitreous optical coherence tomography (OCT) image quality and reducing acquisition time. Methods: Conditional Denoising Diffusion Probabilistic Models (cDDPMs), Brownian Bridge Diffusion Models (BBDMs), U-Net, Pix2Pix, and Vector-Quantised Generative Adversarial Network (VQ-GAN) were used to generate high-quality spectral-domain (SD) vitreous OCT images. Inputs were SD ART10 images, and outputs were compared to pseudoART100 images obtained by averaging ten ART10 images per eye location. Model performance was assessed using image quality metrics and Visual Turing Tests, where ophthalmologists ranked generated images and evaluated anatomical fidelity. The best model’s performance was further tested within the manually segmented vitreous on newly acquired data. Results: U-Net achieved the highest Peak Signal-to-Noise Ratio (PSNR: 30.230) and Structural Similarity Index Measure (SSIM: 0.820), followed by cDDPM. For Learned Perceptual Image Patch Similarity (LPIPS), Pix2Pix (0.697) and cDDPM (0.753) performed best. In the first Visual Turing Test, cDDPM ranked highest (3.07); in the second (best model only), cDDPM achieved a 32.9% fool rate and 85.7% anatomical preservation. On newly acquired data, cDDPM generated vitreous regions more similar in PSNR to the ART100 reference than true ART1 or ART10 B-scans and achieved higher PSNR on whole images when conditioned on ART1 than ART10. Conclusions: Results reveal discrepancies between quantitative metrics and clinical evaluation, highlighting the need for combined assessment. cDDPM showed strong potential for generating clinically meaningful vitreous OCT images while reducing acquisition time fourfold. Translational Relevance: cDDPMs show promise for clinical integration, supporting faster, higher-quality vitreous imaging. Dataset and code will be made publicly available.
目的:旨在评估深度学习(DL)模型在提高玻璃体光学相干断层扫描(OCT)图像质量和减少采集时间方面的表现。方法:使用条件去噪扩散概率模型(cDDPMs)、布朗桥扩散模型(BBDMs)、U-Net、Pix2Pix和向量量化生成对抗网络(VQ-GAN)生成高质量光谱域(SD)玻璃体OCT图像。输入为SD ART10图像,输出与通过平均每个眼位10张ART10图像获得的伪ART100图像进行比较。使用图像质量指标和视觉图灵测试评估模型性能,其中眼科医生对生成的图像进行排名并评估其解剖学的忠实度。最佳模型的性能在全新获取的数据中的手动分割玻璃体上进行进一步测试。结果:U-Net在峰值信号噪声比(PSNR:30.230)和结构相似性指数度量(SSIM:0.820)方面表现最佳,其次是cDDPM。在感知图像块相似性(LPIPS)方面,Pix2Pix(0.697)和cDDPM(0.753)表现最好。在第一次视觉图灵测试中,cDDPM排名最高(3.07);在第二次(仅最佳模型)中,cDDPM的欺骗率达到32.9%,解剖学保留率为85.7%。在全新获取的数据上,cDDPM生成的玻璃体区域在PSNR上与ART100参考相比更为相似,高于真实的ART1或ART10 B扫描图像,并且在以ART1为条件时,整个图像的PSNR更高。结论:结果揭示了定量指标与临床评估之间的差异,强调了需要结合评估的必要性。cDDPM在生成具有临床意义的玻璃体OCT图像同时减少采集时间四倍方面显示出强大潜力。翻译相关性:cDDPMs表现出临床整合的潜力,支持更快、更高质量的玻璃体成像。数据集和代码将公开发布。
论文及项目相关链接
摘要
本文旨在评估深度学习模型在提高玻璃体光学相干断层扫描(OCT)图像质量和减少采集时间方面的应用。研究采用条件去噪扩散概率模型(cDDPMs)、布朗桥扩散模型(BBDMs)、U-Net、Pix2Pix和向量量化生成对抗网络(VQ-GAN)生成高质量光谱域(SD)玻璃体OCT图像。模型性能通过图像质量指标和视觉图灵测试进行评估,其中眼科医生对生成图像进行排名并评估其解剖保真度。结果显示,U-Net在峰值信号噪声比(PSNR)和结构相似性指数(SSIM)方面表现最佳,而cDDPM在视觉图灵测试中排名第一。cDDPM在新获取的数据上生成的玻璃体区域与ART100参考相比,PSNR更高,且在以ART1为条件时,全图像PSNR也较高。研究结果表明,定量指标与临床评价之间存在差异,强调需要联合评估。cDDPM在生成具有临床意义的玻璃体OCT图像方面显示出强大潜力,同时可将采集时间缩短四倍。翻译相关性:cDDPMs显示出临床整合的潜力,支持更快、更高质量的玻璃体成像。数据集和代码将公开提供。
关键见解
- 研究旨在利用深度学习模型提高玻璃体OCT图像质量并减少采集时间。
- 多种深度学习模型(包括cDDPMs、U-Net、Pix2Pix等)被用于生成高质量OCT图像。
- U-Net在图像质量指标PSNR和SSIM上表现最佳,而cDDPM在视觉图灵测试中排名第一。
- cDDPM在新数据上生成的玻璃体区域与高级参考图像相似,表明其强大的图像生成能力。
- 研究强调了定量指标与临床评价之间的差异,提示需要综合评估模型性能。
- cDDPM显示出在临床实践中应用的潜力,可支持更快、更高质量的玻璃体成像。
点此查看论文截图
Evolve to Inspire: Novelty Search for Diverse Image Generation
Authors:Alex Inch, Passawis Chaiyapattanaporn, Yuchen Zhu, Yuan Lu, Ting-Wen Ko, Davide Paglieri
Text-to-image diffusion models, while proficient at generating high-fidelity images, often suffer from limited output diversity, hindering their application in exploratory and ideation tasks. Existing prompt optimization techniques typically target aesthetic fitness or are ill-suited to the creative visual domain. To address this shortcoming, we introduce WANDER, a novelty search-based approach to generating diverse sets of images from a single input prompt. WANDER operates directly on natural language prompts, employing a Large Language Model (LLM) for semantic evolution of diverse sets of images, and using CLIP embeddings to quantify novelty. We additionally apply emitters to guide the search into distinct regions of the prompt space, and demonstrate that they boost the diversity of the generated images. Empirical evaluations using FLUX-DEV for generation and GPT-4o-mini for mutation demonstrate that WANDER significantly outperforms existing evolutionary prompt optimization baselines in diversity metrics. Ablation studies confirm the efficacy of emitters.
文本到图像的扩散模型虽然在生成高保真图像方面表现出色,但通常存在输出多样性有限的问题,这阻碍了它们在探索和创意任务中的应用。现有的提示优化技术通常针对审美适应性,或者不适合创意视觉领域。为了解决这一不足,我们引入了WANDER,这是一种基于新颖性搜索的方法,可以从单个输入提示生成多种图像集。WANDER直接在自然语言提示上操作,采用大型语言模型(LLM)进行图像集的语义演变,并使用CLIP嵌入来量化新颖性。此外,我们还应用了发射器来引导搜索进入提示空间的不同区域,并证明它们可以提高生成图像的多样性。使用FLUX-DEV进行生成和GPT-4o-mini进行变异的实证评估表明,在多样性指标方面,WANDER显著优于现有的进化提示优化基线。消融研究证实了发射器的有效性。
论文及项目相关链接
PDF 14 pages, 10 figures, Accepted to Neurips 2025 GenProCC Workshop
Summary
文本中的扩散模型虽然能够生成高质量图像,但输出的多样性受限,限制了其在探索和创意任务中的应用。现有提示优化技术主要针对美学适应性,并不适合创意视觉领域。为解决这一问题,本文提出了基于新颖性搜索的WANDER方法,从单个输入提示生成多样化的图像集。WANDER直接操作自然语言提示,利用大型语言模型进行图像集的语义演变,并使用CLIP嵌入来量化新颖性。此外,本文还应用发射器来引导搜索进入提示空间的特定区域,并证明其能提高生成图像的多样性。通过FLUX-DEV的生成和GPT-4o-mini的变异进行实证研究,表明WANDER在多样性指标上显著优于现有的进化提示优化基线。消融研究证实了发射器的有效性。
Key Takeaways
- 扩散模型在生成图像时存在输出多样性受限的问题,影响了其在探索和创意任务中的应用。
- 现有提示优化技术主要关注美学适应性,不适用于创意视觉领域。
- WANDER方法通过基于新颖性搜索的方式,从单个输入提示生成多样化的图像集。
- WANDER利用大型语言模型进行图像集的语义演变,并使用CLIP嵌入量化新颖性。
- 发射器的应用能够引导搜索进入提示空间的特定区域,提高生成图像的多样性。
- 实证研究证明,WANDER在多样性指标上优于现有的进化提示优化基线。
点此查看论文截图
FreeArt3D: Training-Free Articulated Object Generation using 3D Diffusion
Authors:Chuhao Chen, Isabella Liu, Xinyue Wei, Hao Su, Minghua Liu
Articulated 3D objects are central to many applications in robotics, AR/VR, and animation. Recent approaches to modeling such objects either rely on optimization-based reconstruction pipelines that require dense-view supervision or on feed-forward generative models that produce coarse geometric approximations and often overlook surface texture. In contrast, open-world 3D generation of static objects has achieved remarkable success, especially with the advent of native 3D diffusion models such as Trellis. However, extending these methods to articulated objects by training native 3D diffusion models poses significant challenges. In this work, we present FreeArt3D, a training-free framework for articulated 3D object generation. Instead of training a new model on limited articulated data, FreeArt3D repurposes a pre-trained static 3D diffusion model (e.g., Trellis) as a powerful shape prior. It extends Score Distillation Sampling (SDS) into the 3D-to-4D domain by treating articulation as an additional generative dimension. Given a few images captured in different articulation states, FreeArt3D jointly optimizes the object’s geometry, texture, and articulation parameters without requiring task-specific training or access to large-scale articulated datasets. Our method generates high-fidelity geometry and textures, accurately predicts underlying kinematic structures, and generalizes well across diverse object categories. Despite following a per-instance optimization paradigm, FreeArt3D completes in minutes and significantly outperforms prior state-of-the-art approaches in both quality and versatility. Please check our website for more details: https://czzzzh.github.io/FreeArt3D
关节式3D物体在机器人技术、增强现实/虚拟现实和动画等多个应用中占据核心地位。最近的建模方法要么依赖于需要密集视图监督的优化重建流程,要么依赖于前馈生成模型,这些模型会产生粗糙的几何近似并经常忽略表面纹理。相比之下,静态物体的开放世界3D生成已经取得了显著的成功,尤其是随着本地3D扩散模型(如Trellis)的出现。然而,将这些方法扩展到关节式物体通过训练本地3D扩散模型提出了重大挑战。在这项工作中,我们提出了FreeArt3D,这是一个无需训练的关节式3D物体生成框架。FreeArt3D不需要在有限的关节式数据上训练新模型,而是将预训练的静态3D扩散模型(例如Trellis)作为强大的形状先验。它通过扩展评分蒸馏采样(SDS)到3D到4D领域,通过将关节运动视为额外的生成维度来实现。给定在不同关节状态下捕获的几张图像,FreeArt3D联合优化物体的几何、纹理和关节参数,无需特定任务的训练或访问大规模关节数据集。我们的方法生成了高保真度的几何形状和纹理,准确预测了潜在的运动学结构,并在不同的物体类别中具有良好的通用性。尽管遵循了按实例优化的模式,但FreeArt3D可以在几分钟内完成,并且在质量和通用性方面显著优于先前最先进的方法。更多详细信息请访问我们的网站:[https://czzzzh.github.io/FreeArt3D/]
论文及项目相关链接
PDF Project Page: https://czzzzh.github.io/FreeArt3D Code: https://github.com/CzzzzH/FreeArt3D
Summary:
该文本介绍了FreeArt3D框架在训练无关的情况下生成可动三维物体的能力。它利用预训练的三维扩散模型作为形状先验,通过扩展得分蒸馏采样(SDS)到三维到四维领域,将可动性视为额外的生成维度。给定几张在不同可动状态下的图像,FreeArt3D可以联合优化物体的几何、纹理和可动参数,无需特定任务训练或大规模的可动数据集支持。该方法生成的高保真几何和纹理能准确预测底层运动学结构,并在多种物体类别中具有良好的通用性。尽管采用按实例优化的模式,但FreeArt3D可以在几分钟内完成,并在质量和灵活性方面显著优于先前的方法。详情请访问我们的网站。
Key Takeaways:
- FreeArt3D是一个训练无关的三维物体生成框架,适用于机器人、AR/VR和动画等多个应用。
- 它利用预训练的三维扩散模型作为形状先验,将可动性视为额外的生成维度。
- FreeArt3D通过扩展得分蒸馏采样(SDS)到三维到四维领域,实现对物体几何、纹理和可动参数的联合优化。
- 该方法能在无需特定任务训练或大规模可动数据集的情况下,基于几张不同状态下的图像生成高保真几何和纹理。
- FreeArt3D能准确预测底层运动学结构,并在多种物体类别中具有良好的通用性。
- 采用按实例优化的模式,FreeArt3D能在几分钟内完成操作。
- FreeArt3D在质量和灵活性方面显著优于先前的方法。
点此查看论文截图
MediQ-GAN: Quantum-Inspired GAN for High Resolution Medical Image Generation
Authors:Qingyue Jiao, Yongcan Tang, Jun Zhuang, Jason Cong, Yiyu Shi
Machine learning-assisted diagnosis shows promise, yet medical imaging datasets are often scarce, imbalanced, and constrained by privacy, making data augmentation essential. Classical generative models typically demand extensive computational and sample resources. Quantum computing offers a promising alternative, but existing quantum-based image generation methods remain limited in scale and often face barren plateaus. We present MediQ-GAN, a quantum-inspired GAN with prototype-guided skip connections and a dual-stream generator that fuses classical and quantum-inspired branches. Its variational quantum circuits inherently preserve full-rank mappings, avoid rank collapse, and are theory-guided to balance expressivity with trainability. Beyond generation quality, we provide the first latent-geometry and rank-based analysis of quantum-inspired GANs, offering theoretical insight into their performance. Across three medical imaging datasets, MediQ-GAN outperforms state-of-the-art GANs and diffusion models. While validated on IBM hardware for robustness, our contribution is hardware-agnostic, offering a scalable and data-efficient framework for medical image generation and augmentation.
机器学习辅助诊断具有广阔前景,但医学成像数据集往往稀缺、分布不均且受到隐私限制,这使得数据增强变得至关重要。传统的生成模型通常需要大量的计算和样本资源。量子计算提供了一个有前景的替代方案,但现有的基于量子图像的生成方法仍然规模有限,并经常面临荒芜的平台期。我们提出了MediQ-GAN,这是一个受量子启发的GAN,具有原型引导的跳过连接和双流生成器,融合了经典和量子启发分支。其变分量子电路固有的保留了全秩映射,避免了秩崩溃,并在理论的指导下平衡了表达与可训练性。除了生成质量外,我们还首次对量子启发的GAN进行了潜几何和秩分析,为其性能提供了理论洞察。在三个医学成像数据集上,MediQ-GAN优于最先进的GAN和扩散模型。虽然在IBM硬件上进行了稳健性验证,但我们的贡献与硬件无关,为医学图像生成和增强提供了一个可扩展和数据高效框架。
论文及项目相关链接
Summary
机器学习辅助诊断具有广阔前景,但由于医疗影像数据集稀缺、不均衡且受隐私限制,数据增强至关重要。传统生成模型需要大量计算和样本资源。量子计算提供了有前景的替代方案,但现有基于量子图像生成方法规模和实用性有限。我们提出MediQ-GAN,一个融合经典与量子分支的原型引导跳跃连接和双重流生成器所构成的量子启发GAN。其变分量子电路能够保留全秩映射、避免秩崩溃,并能在理论指导下实现表达力与训练能力之间的平衡。除生成质量外,我们还首次对量子启发GAN进行潜在几何和秩分析,对其性能提供理论见解。在三个医学影像数据集上,MediQ-GAN优于最新GAN和扩散模型。在IBM硬件上验证其稳健性,我们的贡献具有硬件无关性,为医学影像生成和增强提供了一个可扩展和高效的数据框架。
Key Takeaways
- 机器学习辅助诊断具有广阔前景,数据增强对于解决医疗影像数据集稀缺、不均衡和隐私问题至关重要。
- 传统生成模型需要大量计算和样本资源,而量子计算提供了一个有前途的替代方案用于解决上述问题。
- MediQ-GAN是一个融合了经典和量子分支的新型GAN模型,它结合了原型引导跳跃连接和双重流生成器。
- 变分量子电路是MediQ-GAN的核心组成部分,它能保留全秩映射并避免秩崩溃,同时平衡表达力和训练能力。
- 除了生成质量外,还对量子启发GAN进行了潜在几何和秩的理论分析,以深入了解其性能。
- 在三个医学影像数据集上进行的实验表明,MediQ-GAN的性能优于当前的最新GAN和扩散模型。
点此查看论文截图
Remasking Discrete Diffusion Models with Inference-Time Scaling
Authors:Guanghan Wang, Yair Schiff, Subham Sekhar Sahoo, Volodymyr Kuleshov
Part of the success of diffusion models stems from their ability to perform iterative refinement, i.e., repeatedly correcting outputs during generation. However, modern masked discrete diffusion lacks this capability: when a token is generated, it cannot be updated again, even when it introduces an error. Here, we address this limitation by introducing the remasking diffusion model (ReMDM) sampler, a method that can be applied to pretrained masked diffusion models in a principled way and that is derived from a discrete diffusion model with a custom remasking backward process. Most interestingly, ReMDM endows discrete diffusion with a form of inference-time compute scaling. By increasing the number of sampling steps, ReMDM generates natural language outputs that approach the quality of autoregressive models, whereas when the computation budget is limited, ReMDM better maintains quality. ReMDM also improves sample quality of masked diffusion models for discretized images, and in scientific domains such as molecule design, ReMDM facilitates diffusion guidance and pushes the Pareto frontier of controllability relative to classical masking and uniform noise diffusion. We provide the code along with a blog post on the project page: https://remdm.github.io
扩散模型的部分成功源于其进行迭代优化的能力,即生成过程中反复修正输出。然而,现代掩码离散扩散缺乏这种能力:一旦生成标记,即使出现错误,也无法再次更新。在这里,我们通过引入重新掩码扩散模型(ReMDM)采样器来解决这一局限性,这是一种可以应用于预训练掩码扩散模型的方法,它来源于具有自定义反向掩码过程的离散扩散模型。最有趣的是,ReMDM为离散扩散赋予了推理时间计算缩放的形式。通过增加采样步骤的数量,ReMDM生成的自然语言输出接近自回归模型的质量,而在计算预算有限的情况下,ReMDM能更好地保持质量。ReMDM还提高了离散图像掩码扩散模型的样本质量,在科学领域如分子设计方面,ReMDM促进了扩散指导并推动了与经典掩码和均匀噪声扩散相比的可控性帕累托前沿。我们已在项目页面上提供代码和博客文章:https://remdm.github.io。
论文及项目相关链接
PDF NeurIPS 2025. Project page: https://remdm.github.io
Summary
扩散模型的一部分成功在于其能够进行迭代优化的能力,即生成过程中不断修正输出。然而,现代掩码离散扩散缺乏这种能力:一旦生成标记,即使出现错误也无法再次更新。针对这一问题,我们提出了重新掩码扩散模型(ReMDM)采样器方法,该方法可应用于预训练的掩码扩散模型,源自离散扩散模型,具有自定义的重新掩码反向过程。ReMDM赋予了离散扩散一种形式的推断时间计算缩放。通过增加采样步骤的数量,ReMDM生成的自然语言输出接近自回归模型的质量,而当计算预算有限时,ReMDM能更好地保持质量。此外,ReMDM还提高了掩码扩散模型在离散图像以及科学领域(如分子设计)的样本质量,并推动了相对于传统掩码和均匀噪声扩散的可控性的帕累托前沿。
Key Takeaways
- 扩散模型能够通过迭代优化生成更准确的输出。
- 现代掩码离散扩散无法更新已生成的标记,存在局限性。
- ReMDM采样器解决了这一局限性,提高了离散扩散模型的性能。
- ReMDM通过增加采样步骤的数量,可以生成接近自回归模型质量的自然语言输出。
- ReMDM在不同计算预算下都能保持高质量输出。
- ReMDM提高了掩码扩散模型在离散图像领域的样本质量。
- 在科学领域如分子设计,ReMDM推动了扩散模型的可控性发展。
点此查看论文截图
Cross-modal Diffusion Modelling for Super-resolved Spatial Transcriptomics
Authors:Xiaofei Wang, Xingxu Huang, Stephen J. Price, Chao Li
The recent advancement of spatial transcriptomics (ST) allows to characterize spatial gene expression within tissue for discovery research. However, current ST platforms suffer from low resolution, hindering in-depth understanding of spatial gene expression. Super-resolution approaches promise to enhance ST maps by integrating histology images with gene expressions of profiled tissue spots. However, current super-resolution methods are limited by restoration uncertainty and mode collapse. Although diffusion models have shown promise in capturing complex interactions between multi-modal conditions, it remains a challenge to integrate histology images and gene expression for super-resolved ST maps. This paper proposes a cross-modal conditional diffusion model for super-resolving ST maps with the guidance of histology images. Specifically, we design a multi-modal disentangling network with cross-modal adaptive modulation to utilize complementary information from histology images and spatial gene expression. Moreover, we propose a dynamic cross-attention modelling strategy to extract hierarchical cell-to-tissue information from histology images. Lastly, we propose a co-expression-based gene-correlation graph network to model the co-expression relationship of multiple genes. Experiments show that our method outperforms other state-of-the-art methods in ST super-resolution on three public datasets.
近期空间转录学(ST)的进展允许在发现研究中对组织内的空间基因表达进行特征描述。然而,当前ST平台的分辨率较低,阻碍了对空间基因表达的深入理解。超分辨率方法通过将组织斑点的组织图像与基因表达进行整合,有望增强ST图的分辨率。然而,当前的超分辨率方法受到恢复不确定性和模式崩溃的限制。尽管扩散模型在捕捉多模态条件之间的复杂交互方面显示出潜力,但将组织图像和基因表达整合到超分辨率ST图中仍然是一个挑战。本文提出了一种跨模态条件扩散模型,利用组织图像的指导来进行ST图的超分辨率处理。具体来说,我们设计了一个多模态分离网络,具有跨模态自适应调制功能,以利用组织图像和空间基因表达的互补信息。此外,我们提出了一种动态交叉注意力建模策略,从组织图像中提取分层细胞到组织的信息。最后,我们提出了基于共表达的基因关联图网络,以模拟多个基因的共表达关系。实验表明,我们的方法在三个公共数据集上的ST超分辨率性能优于其他最先进的方法。
论文及项目相关链接
Summary
空间转录组学(ST)的最新进展为发现研究中组织内空间基因表达的特征提供了可能。然而,当前ST平台分辨率较低,限制了空间基因表达的深入理解。超分辨率方法有望通过整合组织光镜图像与基因表达数据来提升ST图谱的分辨率。但现有的超分辨率方法受限于修复不确定性和模式崩溃问题。尽管扩散模型在捕捉多模式条件间的复杂交互方面显示出潜力,但将光镜图像与基因表达数据整合以生成超分辨率ST图谱仍具挑战。本文提出了一种跨模态条件扩散模型,以光镜图像为指导,实现ST图谱的超分辨率。具体地,设计了一种多模态解耦网络,具有跨模态自适应调制功能,以利用光镜图像和基因表达的互补信息。此外,还提出了动态跨注意力建模策略,从光镜图像中提取分层细胞到组织的信息。最后,基于共表达提出了基因关联图网络,以模拟多个基因的共表达关系。实验表明,该方法在三个公共数据集上的ST超分辨率表现优于其他先进方法。
Key Takeaways
- 空间转录组学(ST)能够揭示组织内基因表达的空间特征,但当前技术分辨率较低。
- 超分辨率方法可以通过结合光镜图像和基因表达数据提升ST图谱的分辨率。
- 当前超分辨率方法面临修复不确定性和模式崩溃的挑战。
- 扩散模型在捕捉多模式条件间的交互方面展现出潜力,但整合光镜图像和基因表达数据以实现超分辨率ST图谱仍具挑战。
- 该论文提出了一种跨模态条件扩散模型,结合光镜图像指导ST图谱的超分辨率。
- 该模型通过多模态解耦网络、动态跨注意力建模和基因关联图网络等技术实现优秀性能。
点此查看论文截图