嘘~ 正在从服务器偷取页面 . . .

Diffusion Models


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-10 更新

StyleKeeper: Prevent Content Leakage using Negative Visual Query Guidance

Authors:Jaeseok Jeong, Junho Kim, Gayoung Lee, Yunjey Choi, Youngjung Uh

In the domain of text-to-image generation, diffusion models have emerged as powerful tools. Recently, studies on visual prompting, where images are used as prompts, have enabled more precise control over style and content. However, existing methods often suffer from content leakage, where undesired elements of the visual style prompt are transferred along with the intended style. To address this issue, we 1) extend classifier-free guidance (CFG) to utilize swapping self-attention and propose 2) negative visual query guidance (NVQG) to reduce the transfer of unwanted contents. NVQG employs negative score by intentionally simulating content leakage scenarios that swap queries instead of key and values of self-attention layers from visual style prompts. This simple yet effective method significantly reduces content leakage. Furthermore, we provide careful solutions for using a real image as visual style prompts. Through extensive evaluation across various styles and text prompts, our method demonstrates superiority over existing approaches, reflecting the style of the references, and ensuring that resulting images match the text prompts. Our code is available \href{https://github.com/naver-ai/StyleKeeper}{here}.

在文本到图像生成领域,扩散模型已崭露头角成为强大的工具。最近,关于视觉提示的研究,即使用图像作为提示,已经实现对风格和内容的更精确控制。然而,现有方法常常存在内容泄露的问题,即视觉风格提示中的不需要的元素与预期风格一起转移。为了解决这一问题,我们1)扩展无分类器引导(CFG),利用交换自注意力,并提出2)负视觉查询引导(NVQG)以减少不想要内容的转移。NVQG通过有意模拟内容泄露情景而采用负分,在这种情景中,交换查询而不是自注意力层的键和值来自视觉风格提示。这种简单而有效的方法显著减少了内容泄露。此外,我们还为使用真实图像作为视觉风格提示提供了精心解决方案。通过各种风格和文本提示的广泛评估,我们的方法证明优于现有方法,能反映参考的风格,并确保生成的图像符合文本提示。我们的代码<这里。可在https://github.com/naver-ai/StyleKeeper找到。

论文及项目相关链接

PDF Accepted to ICCV 2025; CVPRW AI4CC 2024 (Best Paper + Oral)

Summary

文本生成领域中的扩散模型已成为强大的工具。最近,关于视觉提示的研究使得图像作为提示更为精准地控制风格和内容。然而,现有方法常常存在内容泄露问题,即视觉风格提示中的不期望元素会一并转移。为解决此问题,研究团队扩展了无分类器引导(CFG),采用交换自注意力,并提出负视觉查询引导(NVQG)来减少不想要内容的转移。NVQG通过故意模拟内容泄露情景,采用负分数,交换自注意力层的查询而不是键和值,从而有效减少内容泄露。此外,该研究还为使用真实图像作为视觉风格提示提供了精细解决方案。通过跨各种风格和文本提示的广泛评估,该方法展现出对现有方法的优势,能够反映参考的风格并确保生成的图像与文本提示相匹配。

Key Takeaways

  1. 扩散模型在文本转图像生成领域表现出强大的能力。
  2. 视觉提示研究提高了对图像风格和内容的精准控制。
  3. 现有方法存在内容泄露问题,即不期望的元素会被转移。
  4. 研究团队通过扩展无分类器引导并引入负视觉查询引导来解决内容泄露问题。
  5. 负视觉查询引导通过模拟内容泄露情景并采用负分数来减少不必要内容的转移。
  6. 该方法提供使用真实图像作为视觉风格提示的精细解决方案。
  7. 经过广泛评估,该方法在跨各种风格和文本提示的情况下表现出优越性。

Cool Papers

点此查看论文截图

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

Authors:Junhan Zhu, Hesong Wang, Mingluo Su, Zefang Wang, Huan Wang

Large-scale text-to-image diffusion models, while powerful, suffer from prohibitive computational cost. Existing one-shot network pruning methods can hardly be directly applied to them due to the iterative denoising nature of diffusion models. To bridge the gap, this paper presents OBS-Diff, a novel one-shot pruning framework that enables accurate and training-free compression of large-scale text-to-image diffusion models. Specifically, (i) OBS-Diff revitalizes the classic Optimal Brain Surgeon (OBS), adapting it to the complex architectures of modern diffusion models and supporting diverse pruning granularity, including unstructured, N:M semi-structured, and structured (MHA heads and FFN neurons) sparsity; (ii) To align the pruning criteria with the iterative dynamics of the diffusion process, by examining the problem from an error-accumulation perspective, we propose a novel timestep-aware Hessian construction that incorporates a logarithmic-decrease weighting scheme, assigning greater importance to earlier timesteps to mitigate potential error accumulation; (iii) Furthermore, a computationally efficient group-wise sequential pruning strategy is proposed to amortize the expensive calibration process. Extensive experiments show that OBS-Diff achieves state-of-the-art one-shot pruning for diffusion models, delivering inference acceleration with minimal degradation in visual quality.

大规模文本到图像的扩散模型虽然功能强大,但计算成本高昂。现有的单次网络剪枝方法由于扩散模型的迭代去噪性质,几乎无法直接应用于其中。为了弥补这一空白,本文提出了OBS-Diff,这是一种新型的一次性剪枝框架,能够实现大规模文本到图像扩散模型的精确、无需训练压缩。具体来说,(i)OBS-Diff重新焕发了经典的最优脑外科医生(OBS)的活力,使其适应现代扩散模型的复杂架构,并支持多种剪枝粒度,包括非结构化、N:M半结构化和结构化(MHA头和FFN神经元)稀疏性;(ii)为了将剪枝标准与扩散过程的迭代动态相一致,我们从误差累积的角度审视问题,提出了一种新的时间步感知海森构造,结合了对数减少加权方案,为早期的时间步赋予更大的重要性,以减轻潜在的误差累积;(iii)此外,还提出了一种计算效率高的分组顺序剪枝策略,以摊销昂贵的校准过程。大量实验表明,OBS-Diff在扩散模型的一站式剪枝方面达到了最新水平,实现了推理加速,视觉质量几乎没有下降。

论文及项目相关链接

PDF

Summary

本文提出了一种名为OBS-Diff的新型一次性修剪框架,该框架能够对大规模文本到图像扩散模型进行准确且无需训练即可进行压缩。它支持多种修剪粒度,并基于误差累积视角提出了一个全新的时间步感知的海森矩阵构建方案。此外,为了降低校准过程的成本,还提出了一种计算效率高的分组顺序修剪策略。实验表明,OBS-Diff在扩散模型的一站式修剪方面达到了最新水平,实现了推理加速,并且在视觉质量上几乎没有损失。

Key Takeaways

  1. OBS-Diff框架解决了大型文本到图像扩散模型计算成本高的问题,通过无需训练的压缩方式实现了一站式修剪。
  2. OBS-Diff适应了现代扩散模型的复杂架构,并支持多种修剪粒度,包括非结构化、N:M半结构化和结构化(MHA头和FFN神经元)稀疏性。
  3. 基于误差累积视角,提出了新的时间步感知的海森矩阵构建方案,为修剪标准与扩散过程的迭代动态提供了对齐。
  4. 通过为早期时间步赋予更大重要性来减轻潜在误差积累的问题。
  5. 提出了一种计算高效的分组顺序修剪策略,以平衡昂贵的校准过程。
  6. 实验结果证明了OBS-Diff在扩散模型的一站式修剪方面的优越性,实现了推理加速。

Cool Papers

点此查看论文截图

A Diffusion Model for Regular Time Series Generation from Irregular Data with Completion and Masking

Authors:Gal Fadlon, Idan Arbiv, Nimrod Berman, Omri Azencot

Generating realistic time series data is critical for applications in healthcare, finance, and science. However, irregular sampling and missing values present significant challenges. While prior methods address these irregularities, they often yield suboptimal results and incur high computational costs. Recent advances in regular time series generation, such as the diffusion-based ImagenTime model, demonstrate strong, fast, and scalable generative capabilities by transforming time series into image representations, making them a promising solution. However, extending ImagenTime to irregular sequences using simple masking introduces “unnatural” neighborhoods, where missing values replaced by zeros disrupt the learning process. To overcome this, we propose a novel two-step framework: first, a Time Series Transformer completes irregular sequences, creating natural neighborhoods; second, a vision-based diffusion model with masking minimizes dependence on the completed values. This approach leverages the strengths of both completion and masking, enabling robust and efficient generation of realistic time series. Our method achieves state-of-the-art performance, achieving a relative improvement in discriminative score by $70%$ and in computational cost by $85%$. Code is at https://github.com/azencot-group/ImagenI2R.

生成真实的时间序列数据对于医疗保健、金融和科学等领域的应用至关重要。然而,不规则采样和缺失值带来了重大挑战。尽管先前的方法解决了这些不规则性,但它们通常产生次优结果并产生高昂的计算成本。最近,基于扩散的ImagenTime模型等常规时间序列生成方面的进展,通过将时间序列转换为图像表示,展示了强大、快速和可扩展的生成能力,成为了一种有前景的解决方案。然而,将ImagenTime扩展到不规则序列时,使用简单掩码会引入“不自然”的邻居,其中缺失值被零替换会破坏学习过程。为了克服这一点,我们提出了一种新的两步框架:首先,时间序列变压器完成不规则序列,创建自然邻居;其次,带有掩码的基于视觉的扩散模型最小化对完成值的依赖。这种方法结合了补全和掩码的优点,能够实现稳健和高效的真实时间序列生成。我们的方法达到了最先进的性能,判别得分相对提高了70%,计算成本降低了8 结。代码地址是:https://github.com/azencot-group/ImagenI2R。

论文及项目相关链接

PDF Accepted to NeurIPS 2025; The first two authors contributed equally and are co-leading authors

Summary

文本生成技术在时间序列数据的实际应用中,面临着不规则采样和缺失值等挑战。传统的处理方法往往效果不尽如人意且计算成本高昂。近期提出的ImagenTime模型通过将时间序列转化为图像表示,展现了强大的生成能力。然而,对于不规则序列的扩展应用,简单掩码会导致“不自然”的邻域出现,影响学习进程。为解决这一问题,提出一种新型两步框架:首先使用时间序列转换器完成不规则序列,创建自然邻域;其次采用带有掩码的视觉基础扩散模型,减少对完成值的依赖。该方法结合了完成和掩码的优势,实现了稳健且高效的时间序列生成。此方法达到业界领先水平,判别得分相对提升70%,计算成本降低85%。相关代码已公开。

Key Takeaways

  1. 生成真实的时间序列数据在医疗保健、金融和科学等领域具有重要性。
  2. 不规则采样和缺失值是时间序列数据生成中的关键挑战。
  3. 现有方法虽能解决这些不规则性,但效果欠佳且计算成本较高。
  4. ImagenTime模型通过将时间序列转化为图像表示展现了强大的生成能力。
  5. 对于不规则序列的扩展,简单掩码会导致学习过程中的“不自然”邻域问题。
  6. 提出的新型两步框架结合了完成和掩码的优势,实现了稳健且高效的时间序列生成。

Cool Papers

点此查看论文截图

Conditional Denoising Diffusion Model-Based Robust MR Image Reconstruction from Highly Undersampled Data

Authors:Mohammed Alsubaie, Wenxi Liu, Linxia Gu, Ovidiu C. Andronesi, Sirani M. Perera, Xianqi Li

Magnetic Resonance Imaging (MRI) is a critical tool in modern medical diagnostics, yet its prolonged acquisition time remains a critical limitation, especially in time-sensitive clinical scenarios. While undersampling strategies can accelerate image acquisition, they often result in image artifacts and degraded quality. Recent diffusion models have shown promise for reconstructing high-fidelity images from undersampled data by learning powerful image priors; however, most existing approaches either (i) rely on unsupervised score functions without paired supervision or (ii) apply data consistency only as a post-processing step. In this work, we introduce a conditional denoising diffusion framework with iterative data-consistency correction, which differs from prior methods by embedding the measurement model directly into every reverse diffusion step and training the model on paired undersampled-ground truth data. This hybrid design bridges generative flexibility with explicit enforcement of MRI physics. Experiments on the fastMRI dataset demonstrate that our framework consistently outperforms recent state-of-the-art deep learning and diffusion-based methods in SSIM, PSNR, and LPIPS, with LPIPS capturing perceptual improvements more faithfully. These results demonstrate that integrating conditional supervision with iterative consistency updates yields substantial improvements in both pixel-level fidelity and perceptual realism, establishing a principled and practical advance toward robust, accelerated MRI reconstruction.

磁共振成像(MRI)是现代医学诊断中的重要工具,但其漫长的采集时间仍然是一个关键的限制,特别是在时间敏感的临床场景中。尽管欠采样策略可以加速图像采集,但它们通常会导致图像出现伪影和质量下降。最近的扩散模型显示出通过学习强大的图像先验知识从欠采样数据中重建高保真图像的潜力;然而,大多数现有方法要么(i)依赖无配对监督的无监督分数函数,要么(ii)仅将数据一致性作为后处理步骤应用。在这项工作中,我们引入了一个具有迭代数据一致性校正的条件去噪扩散框架,它与先前的方法的不同之处在于,它将测量模型直接嵌入到每个反向扩散步骤中,并在配对欠采样-真实数据上训练模型。这种混合设计结合了生成灵活性和MRI物理的显式实施。在fastMRI数据集上的实验表明,我们的框架在结构相似性度量(SSIM)、峰值信噪比(PSNR)和局部感知图像感知相似性(LPIPS)上始终优于最新的深度学习和扩散方法,LPIPS更真实地捕捉到了感知改进。这些结果表明,将条件监督与迭代一致性更新相结合,在像素级保真度和感知真实性方面都取得了显著改进,为实现稳健、加速的MRI重建提供了有原则和实际进步的突破。

论文及项目相关链接

PDF

Summary

本文介绍了利用扩散模型加速磁共振成像(MRI)的技术。传统的MRI采集时间较长,而扩散模型能够在保证图像质量的同时,通过学习方法加速图像采集。本文提出了一种结合条件去噪扩散框架和迭代数据一致性校正的新方法,将测量模型直接嵌入到每个反向扩散步骤中,并在配对欠采样-真实数据上进行训练。实验证明,该方法在SSIM、PSNR和LPIPS等指标上均优于最新的深度学习和扩散方法,尤其在感知改善方面表现更出色。

Key Takeaways

  1. 扩散模型在MRI图像重建中有巨大潜力,能够在保证图像质量的同时加速采集。
  2. 现有方法主要依赖无监督得分函数或仅将数据一致性作为后处理步骤,而新方法则将测量模型嵌入每个反向扩散步骤中。
  3. 新方法结合了条件监督与迭代一致性更新,显著提高了像素级保真度和感知现实性。
  4. 该方法在SSIM、PSNR和LPIPS等指标上的表现均优于其他方法,尤其在感知质量方面。
  5. 集成扩散模型与MRI技术为加速MRI重建提供了理论上的进步。
  6. 新方法将生成灵活性与MRI物理的显式实施相结合,实现了更好的图像重建效果。

Cool Papers

点此查看论文截图

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Authors:Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu

We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.

我们介绍Lumina-DiMOO,这是一个开放源码的基础模型,用于无缝多模式生成和理解。Lumina-DiMOO通过采用完全离散的扩散模型来处理各种模态的输入和输出,从而与之前的统一模型相区别。这种创新的方法使得Lumina-DiMOO相比之前的自回归(AR)或混合AR-Diffusion范式实现更高的采样效率,并能熟练地支持广泛的多模式任务,包括文本到图像生成、图像到图像生成(例如图像编辑、主题驱动生成和图像修复等),以及图像理解。Lumina-DiMOO在多个基准测试上实现了最先进的性能表现,超越了现有的开源统一多模式模型。为了促进多模式和离散扩散模型的进一步研究,我们向社区发布我们的代码和检查点。项目页面:https://synbol.github.io/Lumina-DiMOO。

论文及项目相关链接

PDF 33 pages, 13 figures, 10 tables

Summary

Lumina-DiMOO是一款开源的跨模态生成与理解基础模型,采用全离散扩散建模技术,实现了高效采样并支持多种跨模态任务,包括文本生成图像、图像编辑、主题驱动生成和图像修复等,并在多个基准测试中达到领先水平。

Key Takeaways

  1. Lumina-DiMOO是一个开源的跨模态模型。
  2. 它采用全离散扩散建模技术处理多模态输入输出。
  3. Lumina-DiMOO实现了高效采样,相比之前的AR或混合AR-Diffusion模型有优势。
  4. 该模型支持多种跨模态任务,如文本生成图像、图像编辑、主题驱动生成和图像修复等。
  5. Lumina-DiMOO在多个基准测试中达到了领先水平,超越了现有的开源多模态模型。
  6. 代码和检查点已发布到社区,以推动多模态和离散扩散模型的研究进展。

Cool Papers

点此查看论文截图

RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation

Authors:Silpa Vadakkeeveetil Sreelatha, Sauradip Nag, Muhammad Awais, Serge Belongie, Anjan Dutta

The rapid advancement of diffusion models has enabled high-fidelity and semantically rich text-to-image generation; however, ensuring fairness and safety remains an open challenge. Existing methods typically improve fairness and safety at the expense of semantic fidelity and image quality. In this work, we propose RespoDiff, a novel framework for responsible text-to-image generation that incorporates a dual-module transformation on the intermediate bottleneck representations of diffusion models. Our approach introduces two distinct learnable modules: one focused on capturing and enforcing responsible concepts, such as fairness and safety, and the other dedicated to maintaining semantic alignment with neutral prompts. To facilitate the dual learning process, we introduce a novel score-matching objective that enables effective coordination between the modules. Our method outperforms state-of-the-art methods in responsible generation by ensuring semantic alignment while optimizing both objectives without compromising image fidelity. Our approach improves responsible and semantically coherent generation by 20% across diverse, unseen prompts. Moreover, it integrates seamlessly into large-scale models like SDXL, enhancing fairness and safety. Code will be released upon acceptance.

扩散模型的快速发展已经实现了高保真和语义丰富的文本到图像生成;然而,确保公平和安全仍然是一个开放性的挑战。现有方法通常以提高公平性和安全性为代价来牺牲语义保真和图像质量。在这项工作中,我们提出了RespoDiff,这是一种用于负责任的文本到图像生成的新型框架,它对扩散模型的中间瓶颈表示进行了双重模块转换。我们的方法引入了两个独特的学习模块:一个专注于捕获和执行负责任的概念,如公平性和安全性;另一个则致力于保持与中性提示的语义对齐。为了促进双重学习过程,我们引入了一种新型得分匹配目标,使模块之间实现有效协调。我们的方法在确保语义对齐的同时,通过优化两个目标而毫不妥协图像保真度,实现了负责任生成的前沿突破。我们的方法在不同且未见过的提示下,提高了负责任和语义连贯的生成能力达20%。此外,它能无缝集成到大型模型如SDXL中,提高公平性和安全性。代码将在接受后发布。

论文及项目相关链接

PDF Accepted at NeurIPS 2025

Summary

本文介绍了扩散模型的快速发展使得高保真和语义丰富的文本到图像生成成为可能,但保证公平和安全仍然是一个挑战。现有方法往往在提高公平和安全性的同时牺牲了语义保真和图像质量。本文提出一种新型框架RespoDiff,通过扩散模型的中间瓶颈表示进行双重模块转换,实现负责任的文本到图像生成。该方法引入两个独立的学习模块,一个专注于捕捉和执行负责任的概念,如公平和安全,另一个致力于保持与中性提示的语义对齐。采用新型得分匹配目标,促进模块间的有效协调。该方法在保证语义对齐的同时优化两个目标,不损害图像保真度,提高了负责任和语义连贯的生成能力。

Key Takeaways

  1. 扩散模型的快速发展促进了文本到图像的高保真和语义丰富生成。
  2. 保证公平和安全在文本到图像生成中仍然是一个挑战。
  3. 现有方法在提高公平和安全性的同时,往往会牺牲语义保真和图像质量。
  4. 提出了一种新型框架RespoDiff,通过双重模块转换实现负责任的文本到图像生成。
  5. RespoDiff框架包括两个独立的学习模块,分别关注捕捉和执行负责任的概念以及保持与中性提示的语义对齐。
  6. 采用新型得分匹配目标,有效协调两个模块的学习过程。
  7. 该方法在保障语义对齐的同时优化两个目标,提高了图像生成的公平性和安全性,同时不损害图像保真度。

Cool Papers

点此查看论文截图

MoRE-Brain: Routed Mixture of Experts for Interpretable and Generalizable Cross-Subject fMRI Visual Decoding

Authors:Yuxiang Wei, Yanteng Zhang, Xi Xiao, Tianyang Wang, Xiao Wang, Vince D. Calhoun

Decoding visual experiences from fMRI offers a powerful avenue to understand human perception and develop advanced brain-computer interfaces. However, current progress often prioritizes maximizing reconstruction fidelity while overlooking interpretability, an essential aspect for deriving neuroscientific insight. To address this gap, we propose MoRE-Brain, a neuro-inspired framework designed for high-fidelity, adaptable, and interpretable visual reconstruction. MoRE-Brain uniquely employs a hierarchical Mixture-of-Experts architecture where distinct experts process fMRI signals from functionally related voxel groups, mimicking specialized brain networks. The experts are first trained to encode fMRI into the frozen CLIP space. A finetuned diffusion model then synthesizes images, guided by expert outputs through a novel dual-stage routing mechanism that dynamically weighs expert contributions across the diffusion process. MoRE-Brain offers three main advancements: First, it introduces a novel Mixture-of-Experts architecture grounded in brain network principles for neuro-decoding. Second, it achieves efficient cross-subject generalization by sharing core expert networks while adapting only subject-specific routers. Third, it provides enhanced mechanistic insight, as the explicit routing reveals precisely how different modeled brain regions shape the semantic and spatial attributes of the reconstructed image. Extensive experiments validate MoRE-Brain’s high reconstruction fidelity, with bottleneck analyses further demonstrating its effective utilization of fMRI signals, distinguishing genuine neural decoding from over-reliance on generative priors. Consequently, MoRE-Brain marks a substantial advance towards more generalizable and interpretable fMRI-based visual decoding. Code will be publicly available soon: https://github.com/yuxiangwei0808/MoRE-Brain.

从功能磁共振成像(fMRI)中解码视觉体验为我们理解人类感知并开发先进的脑机接口提供了强大的途径。然而,目前的进展往往优先最大化重建保真度,却忽视了可解释性这一对于获取神经科学洞察力的关键方面。为了解决这一差距,我们提出了MoRE-Brain,这是一个神经启发的框架,旨在实现高保真、可适应和可解释的视觉重建。MoRE-Brain独特地采用了一种层次化的混合专家架构,其中不同的专家处理来自功能相关体素组的fMRI信号,模仿专门的脑网络。专家首先被训练将fMRI编码到固定的CLIP空间中。然后,一个微调过的扩散模型在专家输出的指导下,通过一种新的双阶段路由机制合成图像,该机制在扩散过程中动态权衡专家的贡献。MoRE-Brain提供了三个主要的进步:首先,它引入了一种基于脑网络原理的新型混合专家架构,用于神经解码。其次,它通过共享核心专家网络并仅适应特定主题的路由器,实现了跨主题的有效泛化。第三,它提供了增强的机械洞察力,因为明确的路由可以精确地揭示不同的模拟脑区域如何塑造重建图像的语义和空间属性。大量实验验证了MoRE-Brain的高重建保真度,瓶颈分析进一步证明了它有效利用fMRI信号的能力,区分了真正的神经解码和过度依赖生成先验。因此,MoRE-Brain标志着朝着更具通用性和可解释的基于fMRI的视觉解码迈出了重大的一步。代码将很快在https://github.com/yuxiangwei0808/MoRE-Brain上公开。

论文及项目相关链接

PDF Accepted to NeurIPS 2025

Summary
解码fMRI中的视觉体验是了解人类感知力和开发先进脑机接口的重要渠道。针对现有解码策略的不足,提出MoRE-Brain框架,实现高保真、可适应和可解释的视觉重建。该框架采用基于神经网络的混合专家架构处理fMRI信号,并引入CLIP空间和扩散模型进行图像合成。MoRE-Brain主要贡献在于引入基于脑网络原理的混合专家架构、实现跨主体高效泛化以及提供增强的机械洞察力。该框架将为解码fMRI提供新的思路和方法。代码即将公开。

Key Takeaways

  1. MoRE-Brain框架利用混合专家架构进行神经解码,旨在解决现有策略中重视重建保真度而忽视解释性的问题。
  2. 该框架采用基于神经网络的策略处理fMRI信号,模拟专门化的脑网络。
  3. MoRE-Brain引入CLIP空间进行编码,并使用扩散模型合成图像,通过双重阶段路由机制指导专家输出。
  4. MoRE-Brain实现了跨主体泛化,通过共享核心专家网络并仅调整主体特定路由器。
  5. 明确的路由机制为重建图像的语义和空间属性提供了机械洞察力,显示了不同脑区如何影响图像重建过程。
  6. 广泛实验验证了MoRE-Brain的高重建保真度,瓶颈分析进一步证明了其在利用fMRI信号方面的有效性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
医学图像 医学图像
医学图像 方向最新论文已更新,请持续关注 Update in 2025-10-10 Validation of Various Normalization Methods for Brain Tumor Segmentation Can Federated Learning Overcome This Heterogeneity?
2025-10-10
下一篇 
NeRF NeRF
NeRF 方向最新论文已更新,请持续关注 Update in 2025-10-10 VGGT-X When VGGT Meets Dense Novel View Synthesis
2025-10-10
  目录