嘘~ 正在从服务器偷取页面 . . .

I2I Translation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-17 更新

Regional Attention-Enhanced Swin Transformer for Clinically Relevant Medical Image Captioning

Authors:Zubia Naz, Farhan Asghar, Muhammad Ishfaq Hussain, Yahya Hadadi, Muhammad Aasim Rafique, Wookjin Choi, Moongu Jeon

Automated medical image captioning translates complex radiological images into diagnostic narratives that can support reporting workflows. We present a Swin-BART encoder-decoder system with a lightweight regional attention module that amplifies diagnostically salient regions before cross-attention. Trained and evaluated on ROCO, our model achieves state-of-the-art semantic fidelity while remaining compact and interpretable. We report results as mean$\pm$std over three seeds and include $95%$ confidence intervals. Compared with baselines, our approach improves ROUGE (proposed 0.603, ResNet-CNN 0.356, BLIP2-OPT 0.255) and BERTScore (proposed 0.807, BLIP2-OPT 0.645, ResNet-CNN 0.623), with competitive BLEU, CIDEr, and METEOR. We further provide ablations (regional attention on/off and token-count sweep), per-modality analysis (CT/MRI/X-ray), paired significance tests, and qualitative heatmaps that visualize the regions driving each description. Decoding uses beam search (beam size $=4$), length penalty $=1.1$, $no_repeat_ngram_size$ $=3$, and max length $=128$. The proposed design yields accurate, clinically phrased captions and transparent regional attributions, supporting safe research use with a human in the loop.

自动医疗图像描述生成技术将复杂的放射图像转化为诊断叙述,支持报告工作流程。我们提出了一种基于Swin-BART的编码器-解码器系统,该系统配备了一个轻量级的区域注意力模块,在交叉注意力之前放大了诊断性显著区域。我们的模型在ROCO上进行训练和评估,实现了最先进的语义保真度,同时保持了紧凑性和可解释性。我们报告的结果为平均值±标准差(来自三个种子)并包括95%置信区间。与基线相比,我们的方法在ROUGE(提出者得分为0.603,ResNet-CNN得分为0.356,BLIP2-OPT得分为0.255)和BERTScore(提出者得分为0.807,BLIP2-OPT得分为0.645,ResNet-CNN得分为0.623)上有所提升,同时在BLEU、CIDEr和METEOR上表现具有竞争力。我们还提供了消融研究(区域注意力开关和令牌计数扫描)、模态分析(CT/MRI/X光)、配对显著性检验和定性热图,可视化驱动每个描述的区域。解码使用宽度优先搜索(束宽=4)、长度惩罚=1.1、无重复n元语法大小=3和最大长度=128。所提出的设计产生了准确且临床表述清晰的描述,并具有透明的区域归属,支持人类参与的安全研究使用。

论文及项目相关链接

PDF

Summary:自动化医学图像描述生成能将复杂的放射图像转化为诊断叙述,支持报告工作流程。本文提出了一个基于Swin-BART的编码解码系统,带有轻量级局部注意力模块,在交叉注意力前放大诊断显著区域。在ROCO数据集上训练和评估,该模型在语义保真度方面达到最新水平,同时保持紧凑和可解释性。通过一系列实验验证,该模型在ROUGE、BERTScore等评估指标上优于基线方法,提供可视化热图展示关键区域。解码过程采用束搜索等参数设置,生成准确、符合临床语境的描述,并提供透明区域归因,支持有人类参与的安全研究使用。

Key Takeaways

  1. 自动化医学图像描述生成能够简化放射图像的解读和报告工作流程。
  2. 提出的Swin-BART编码解码系统带有局部注意力模块,能突出诊断关键区域。
  3. 模型在ROCO数据集上表现优异,达到最新语义保真度水平。
  4. 模型具备紧凑和可解释性特点。
  5. 与基线方法相比,模型在ROUGE和BERTScore等评估指标上有所提升。
  6. 通过可视化热图展示关键区域,增强模型的可解释性。

Cool Papers

点此查看论文截图

CrochetBench: Can Vision-Language Models Move from Describing to Doing in Crochet Domain?

Authors:Peiyu Li, Xiaobao Huang, Nitesh V. Chawla

We present CrochetBench, a benchmark for evaluating the ability of multimodal large language models to perform fine-grained, low-level procedural reasoning in the domain of crochet. Unlike prior benchmarks that focus on high-level description or visual question answering, CrochetBench shifts the emphasis from describing to doing: models are required to recognize stitches, select structurally appropriate instructions, and generate compilable crochet procedures. We adopt the CrochetPARADE DSL as our intermediate representation, enabling structural validation and functional evaluation via execution. The benchmark covers tasks including stitch classification, instruction grounding, and both natural language and image-to-DSL translation. Across all tasks, performance sharply declines as the evaluation shifts from surface-level similarity to executable correctness, exposing limitations in long-range symbolic reasoning and 3D-aware procedural synthesis. CrochetBench offers a new lens for assessing procedural competence in multimodal models and highlights the gap between surface-level understanding and executable precision in real-world creative domains. Code is available at https://github.com/Peiyu-Georgia-Li/crochetBench.

我们推出了CrochetBench,这是一个用于评估多模态大型语言模型在钩编领域进行精细、低级的程序推理能力的基准测试。与以往专注于高级描述或视觉问答的基准测试不同,CrochetBench将重点从描述转向操作:模型需要识别针脚、选择结构适当的指令,并生成可编译的钩编程序。我们采用CrochetPARADE DSL作为中间表示,通过执行来执行结构验证和功能评估。该基准测试包括针脚分类、指令定位以及自然语言与图像到DSL的翻译任务。随着评估从表面相似性转向可执行正确性,所有任务的性能急剧下降,暴露了长程符号推理和3D感知程序合成中的局限性。CrochetBench为评估多模态模型中的程序能力提供了新视角,并突出了现实世界的创意领域中表层理解与可执行精确度之间的差距。代码可通过以下链接获取:https://github.com/Peiyu-Georgia-Li/crochetBench

论文及项目相关链接

PDF code available at https://github.com/Peiyu-Georgia-Li/crochetBench

Summary

本文介绍了CrochetBench,一个用于评估多模态大型语言模型在钩编领域的精细、低级别程序推理能力的基准测试。它不同于以往侧重于高级描述或视觉问答的基准测试,要求模型识别针脚、选择结构适当的指令,并生成可编译的钩编程序。采用CrochetPARADE DSL作为中间表示,可进行结构验证和功能评估。该基准测试涵盖针脚分类、指令定位以及自然语言与图像到DSL的翻译任务。评估从表面相似性转向可执行正确性时,性能急剧下降,暴露了长程符号推理和3D程序合成的局限性。CrochetBench为评估多模态模型中的程序能力提供了新的视角,并突出了表面级理解与可执行精度在现实创意领域之间的差距。

Key Takeaways

  1. CrochetBench是一个用于评估多模态大型语言模型的基准测试,重点考察其在钩编领域的精细、低级别程序推理能力。
  2. 与传统基准测试不同,CrochetBench强调从描述到执行的操作能力,要求模型完成识别针脚、选择指令和生成可编译程序等任务。
  3. 采用CrochetPARADE DSL作为中间表示,支持结构验证和通过执行的功能评估。
  4. 基准测试涵盖针脚分类、指令定位以及自然语言与图像到DSL的翻译任务。
  5. 评估从表面相似性转向可执行正确性时,模型性能显著下降,暴露出长程符号推理和3D程序合成的挑战。
  6. CrochetBench为评估多模态模型中的程序能力提供了新视角。
  7. 强调了表面级理解与可执行精度在现实创意领域之间的差距。

Cool Papers

点此查看论文截图

Augment to Augment: Diverse Augmentations Enable Competitive Ultra-Low-Field MRI Enhancement

Authors:Felix F Zimmermann

Ultra-low-field (ULF) MRI promises broader accessibility but suffers from low signal-to-noise ratio (SNR), reduced spatial resolution, and contrasts that deviate from high-field standards. Image-to-image translation can map ULF images to a high-field appearance, yet efficacy is limited by scarce paired training data. Working within the ULF-EnC challenge constraints (50 paired 3D volumes; no external data), we study how task-adapted data augmentations impact a standard deep model for ULF image enhancement. We show that strong, diverse augmentations, including auxiliary tasks on high-field data, substantially improve fidelity. Our submission ranked third by brain-masked SSIM on the public validation leaderboard and fourth by the official score on the final test leaderboard. Code is available at https://github.com/fzimmermann89/low-field-enhancement.

超低场(ULF)MRI虽然为更广泛的可用性提供了潜力,但却存在信号噪声比(SNR)低、空间分辨率降低以及偏离高场标准的对比度等问题。图像到图像的翻译可以将ULF图像映射到高场外观,但其有效性受限于稀缺的配对训练数据。在ULF-EnC挑战的限制条件下(50对3D体积;无外部数据),我们研究了任务适应性数据增强如何影响用于ULF图像增强的标准深度模型。我们表明,包括在高场数据上的辅助任务在内的强大且多样化的增强措施,可以大大提高保真度。我们的提交在公共验证排行榜上以脑掩膜SSIM排名第三,在最终测试排行榜上以官方评分排名第四。代码可在https://github.comcom/fzimmermann89/low-field-enhancement获取。

论文及项目相关链接

PDF MICCAI 2025 ULF-EnC Challenge

Summary

超低频MRI虽有望提高普及性,但存在信号噪声比低、空间分辨率降低及对比度偏离高频标准等问题。图像到图像的转换可将低频图像映射到高频外观,但其有效性受限于配对训练数据的稀缺性。在ULF-EnC挑战的限制条件下(50对三维体积数据,无外部数据),我们研究了任务适应性数据增强对低频图像增强标准深度模型的影响。研究显示,包括高频数据辅助任务在内的强大、多样化的数据增强显著提高了保真度。我们的提交在公开验证排行榜上以脑掩膜SSIM排名第三,在最终测试排行榜上排名第四。代码可在链接处获取。

Key Takeaways

  • 超低频MRI面临信号噪声比低、空间分辨率降低和对比度偏离高频标准等挑战。
  • 图像到图像的转换方法可将低频MRI图像转化为高频外观,但受限于配对训练数据的稀缺性。
  • 在ULF-EnC挑战的限制条件下,任务适应性数据增强能提高低频图像增强的效果。
  • 强大的数据增强方法包括使用辅助任务处理高频数据,可显著提高保真度。
  • 研究成果在公开排行榜上获得较高排名,验证了方法的有效性。

Cool Papers

点此查看论文截图

DT-NVS: Diffusion Transformers for Novel View Synthesis

Authors:Wonbong Jang, Jonathan Tremblay, Lourdes Agapito

Generating novel views of a natural scene, e.g., every-day scenes both indoors and outdoors, from a single view is an under-explored problem, even though it is an organic extension to the object-centric novel view synthesis. Existing diffusion-based approaches focus rather on small camera movements in real scenes or only consider unnatural object-centric scenes, limiting their potential applications in real-world settings. In this paper we move away from these constrained regimes and propose a 3D diffusion model trained with image-only losses on a large-scale dataset of real-world, multi-category, unaligned, and casually acquired videos of everyday scenes. We propose DT-NVS, a 3D-aware diffusion model for generalized novel view synthesis that exploits a transformer-based architecture backbone. We make significant contributions to transformer and self-attention architectures to translate images to 3d representations, and novel camera conditioning strategies to allow training on real-world unaligned datasets. In addition, we introduce a novel training paradigm swapping the role of reference frame between the conditioning image and the sampled noisy input. We evaluate our approach on the 3D task of generalized novel view synthesis from a single input image and show improvements over state-of-the-art 3D aware diffusion models and deterministic approaches, while generating diverse outputs.

生成自然场景的新视角(例如室内和室外日常场景)是一个尚未被充分研究的问题,尽管它是面向对象的新型视图合成的有机延伸。现有的基于扩散的方法更多地关注真实场景中的小相机运动,或者只考虑不自然的以对象为中心的场景,从而限制了它们在现实世界设置中的潜在应用。在本文中,我们摆脱这些受限的制度,并提出了一种在真实世界、多类别、未对齐、随意获取的视频大型数据集上,仅通过图像损失进行训练的3D扩散模型。我们提出了DT-NVS,这是一个用于通用新型视图合成的3D感知扩散模型,它利用基于transformer的架构主干。我们对transformer和自我注意架构做出了重大贡献,以将图像翻译为3d表示,并引入了新的相机调节策略,以允许在真实世界未对齐的数据集上进行训练。此外,我们介绍了一种新的训练范式,在条件图像和采样噪声输入之间交换参考帧的角色。我们在从单个输入图像生成通用新型视图的3D任务上评估了我们的方法,并显示出相较于最先进的三维感知扩散模型和确定性方法有所改善,同时产生多样化的输出。

论文及项目相关链接

PDF 14 pages

Summary

本文提出一种名为DT-NVS的3D感知扩散模型,用于广义新颖视角合成。该模型基于变压器架构,能够在真实世界多类别、未对齐、随意获取的视频数据集上进行训练。文章贡献包括利用变压器和自注意力架构将图像翻译为3D表示,以及新型相机条件策略,允许在真实世界未对齐数据集上进行训练。此外,还引入了一种新型训练模式,在条件图像和采样噪声输入之间交换参考帧的角色。在单输入图像进行广义新颖视角合成的3D任务上,该方法优于最先进的3D感知扩散模型和确定性方法,同时生成多样化的输出。

Key Takeaways

  1. 提出一种名为DT-NVS的3D感知扩散模型,用于广义新颖视角合成。
  2. 模型基于变压器架构,适用于真实世界多类别、未对齐的视频数据集。
  3. 贡献包括利用变压器和自注意力架构将图像转化为3D表示。
  4. 引入新型相机条件策略,适应真实世界未对齐数据集的训练。
  5. 采用新型训练模式,在条件图像和噪声输入之间交换参考帧角色。
  6. 在单输入图像进行新颖视角合成的3D任务上,该模型表现优越。

Cool Papers

点此查看论文截图

PLUTO-4: Frontier Pathology Foundation Models

Authors:Harshith Padigela, Shima Nofallah, Atchuth Naveen Chilaparasetti, Ryun Han, Andrew Walker, Judy Shen, Chintan Shah, Blake Martin, Aashish Sood, Elliot Miller, Ben Glass, Andy Beck, Harsha Pokkalla, Syed Ashar Javed

Foundation models trained on large-scale pathology image corpora have demonstrated strong transfer capabilities across diverse histopathology tasks. Building on this progress, we introduce PLUTO-4, our next generation of pathology foundation models that extend the Pathology-Universal Transformer (PLUTO) to frontier scale. We share two complementary Vision Transformer architectures in the PLUTO-4 family: a compact and efficient PLUTO-4S model optimized for multi-scale deployment using a FlexiViT setup with 2D-RoPE embeddings, and a frontier-scale PLUTO-4G model trained with a single patch size to maximize representation capacity and stability. Both models are pretrained using a self-supervised objective derived from DINOv2 on a large multi-institutional corpus containing 551,164 WSIs from 137,144 patients across over 50 institutions, spanning over 60 disease types and over 100 stains. Comprehensive evaluation across public and internal benchmarks demonstrates that PLUTO-4 achieves state-of-the-art performance on tasks requiring varying spatial and biological context, including tile classification, segmentation, and slide-level diagnosis. The compact PLUTO-4S provides high-throughput and robust performance for practical deployment, while PLUTO-4G establishes new performance frontiers across multiple pathology benchmarks, including an 11% improvement in dermatopathology diagnosis. These diverse improvements underscore PLUTO-4’s potential to transform real-world applications as a backbone for translational research and diagnostic use cases.

基于大规模病理学图像语料库训练的模型已在多种组织病理学任务中展现出强大的迁移能力。在此基础上,我们推出了PLUTO-4,这是我们下一代病理学基础模型,它将病理学通用转换器(PLUTO)扩展到前沿规模。我们分享了PLUTO-4系列中的两种互补的愿景转换器架构:一个紧凑且高效的PLUTO-4S模型,采用FlexiViT设置和2D-RoPE嵌入技术,旨在实现多尺度部署的优化;以及一个以单一补丁尺寸训练的PLUTO-4G模型,以最大化表示能力和稳定性。这两种模型均使用来自DINOv2的自学目标,在包含来自50多个机构的137,144名患者的551,164张WSI的大型多机构语料库上进行预训练,跨越60多种疾病类型和超过100种染色。在公共和内部基准上的综合评估表明,PLUTO-4在需要不同空间和生物学背景的任务上实现了最先进的表现,包括瓷砖分类、分割和幻灯片级诊断。紧凑的PLUTO-4S为实际部署提供了高通量和稳健的性能,而PLUTO-4G在多个病理学基准测试中建立了新的性能边界,包括皮肤病理学诊断提高了11%。这些多样化的改进突显了PLUTO-4作为翻译研究和诊断用例后盾,在现实世界应用中的潜力。

论文及项目相关链接

PDF

Summary

大规模病理图像语料库训练的模型在跨多种组织病理学任务中展现出强大的迁移能力。在此基础上,我们推出了PLUTO-4,这是病理基础模型的下一代产品,它扩展了病理通用转换器(PLUTO)至前沿规模。我们分享了PLUTO-4系列中的两个互补的Vision Transformer架构:一个优化用于多尺度部署的紧凑高效的PLUTO-4S模型,采用FlexiViT设置和2D-RoPE嵌入;以及一个旨在最大化表示能力和稳定性的前沿规模PLUTO-4G模型,使用单一补丁尺寸进行训练。两个模型都在包含551,164张WSI的大型多机构语料库上进行预训练,该语料库涵盖超过60种疾病类型和超过100种染色,采用DINOv2的自我监督目标。在公共和内部基准测试上的综合评估表明,PLUTO-4在需要不同空间和生物背景的任务上实现了最新技术性能,包括瓦片分类、分割和幻灯片级诊断。紧凑型的PLUTO-4S为实际部署提供了高通量和稳健的性能,而PLUTO-4G在多个病理学基准测试上树立了新的性能标杆,包括皮肤病理学诊断提高了11%。这些多样化的改进突显了PLUTO-4作为翻译研究和诊断用例的后端潜力,有望改变实际应用的格局。

Key Takeaways

  1. PLUTO-4是病理基础模型的升级版,扩展至前沿规模。
  2. PLUTO-4家族包括针对多尺度部署优化的紧凑高效PLUTO-4S模型,以及最大化表示能力和稳定性的前沿规模PLUTO-4G模型。
  3. 两个模型都在大型多机构语料库上进行预训练,涵盖多种疾病和染色。
  4. PLUTO-4采用自我监督目标进行训练。
  5. PLUTO-4在多种组织病理学任务上实现最新技术性能,包括瓦片分类、分割和幻灯片级诊断。
  6. PLUTO-4S适合实际部署,具有高通量和稳健性能。

Cool Papers

点此查看论文截图

PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models

Authors:Patrick Haller, Fabio Barth, Jonas Golde, Georg Rehm, Alan Akbik

Vision-language models (VLMs) have demonstrated remarkable progress in multimodal reasoning. However, existing benchmarks remain limited in terms of high-quality, human-verified examples. Many current datasets rely on synthetically generated content by large language models (LLMs). Furthermore, most datasets are limited to English, as manual quality assurance of translated samples is time-consuming and costly. To fill this gap, we introduce PISA-Bench, a multilingual benchmark derived from English examples of the expert-created PISA tests, a unified framework for the assessment of student competencies in over eighty countries. Each example consists of human-extracted instructions, questions, answer options, and images, enriched with question type categories, and has been translated from English into five additional languages (Spanish, German, Chinese, French, and Italian), resulting in a fully parallel corpus covering six languages. We evaluate state-of-the-art vision-language models on PISA-Bench and find that especially small models (<20B parameters) fail to achieve high test scores. We further find substantial performance degradation on non-English splits as well as high error-rates when models are tasked with spatial and geometric reasoning. By releasing the dataset and evaluation framework, we provide a resource for advancing research on multilingual multimodal reasoning.

视觉语言模型(VLMs)在多模态推理方面取得了显著的进步。然而,现有的基准测试在高质量、人工验证的样本方面仍存在局限性。目前许多数据集依赖于大型语言模型(LLMs)合成的内容。此外,大多数数据集仅限于英语,因为对翻译样本进行手动质量保障既耗时又成本高昂。为了填补这一空白,我们推出了PISA-Bench,这是一个从专家创建的PISA测试英语样本中衍生出来的多语言基准测试。PISA测试是一个统一框架,用于评估八十多个国家学生的能力。每个样本都由人工提取的指令、问题、答案选项和图像组成,并丰富了问题类型类别,已从英语翻译成了另外五种语言(西班牙语、德语、中文、法语和意大利语),形成了一个涵盖六种语言的完全平行语料库。我们在PISA-Bench上评估了最先进的视觉语言模型,发现尤其是小型模型(<20B参数)很难取得较高的测试分数。我们还发现在非英语分割上的性能显著下降,当模型被赋予空间和几何推理任务时,错误率很高。我们通过发布数据集和评估框架,为推进多语言多模态推理研究提供了一项资源。

论文及项目相关链接

PDF 8 pages, 11 tables and figures

Summary

本文介绍了PISA-Bench多语言基准测试的开发背景与重要性。该基准测试基于专家创建的PISA测试英语样本,覆盖了超过八十个国家的学生能力评估。PISA-Bench包含了多种语言的样本,包括英语、西班牙语、德语、中文、法语和意大利语等六种语言的全套平行语料库。评估发现,小型视觉语言模型在非英语分支上的性能显著下降,尤其在空间几何推理方面存在较高错误率。发布数据集和评估框架可为多语言多模态推理研究提供资源。

Key Takeaways:

  1. PISA-Bench是一个多语言基准测试,基于专家创建的PISA测试英语样本。
  2. PISA-Bench包含了六种语言的平行语料库,包括英语、西班牙语、德语、中文等。
  3. 评估发现小型视觉语言模型在非英语分支上的性能下降显著。
  4. 视觉语言模型在空间几何推理方面存在挑战。
  5. PISA-Bench为推进多语言多模态推理研究提供了宝贵的资源。
  6. 当前基准测试在高质量、经过人工验证的样本方面存在局限性。

Cool Papers

点此查看论文截图

CoCoLIT: ControlNet-Conditioned Latent Image Translation for MRI to Amyloid PET Synthesis

Authors:Alec Sargood, Lemuel Puglisi, James H. Cole, Neil P. Oxtoby, Daniele Ravì, Daniel C. Alexander

Synthesizing amyloid PET scans from the more widely available and accessible structural MRI modality offers a promising, cost-effective approach for large-scale Alzheimer’s Disease (AD) screening. This is motivated by evidence that, while MRI does not directly detect amyloid pathology, it may nonetheless encode information correlated with amyloid deposition that can be uncovered through advanced modeling. However, the high dimensionality and structural complexity of 3D neuroimaging data pose significant challenges for existing MRI-to-PET translation methods. Modeling the cross-modality relationship in a lower-dimensional latent space can simplify the learning task and enable more effective translation. As such, we present CoCoLIT (ControlNet-Conditioned Latent Image Translation), a diffusion-based latent generative framework that incorporates three main innovations: (1) a novel Weighted Image Space Loss (WISL) that improves latent representation learning and synthesis quality; (2) a theoretical and empirical analysis of Latent Average Stabilization (LAS), an existing technique used in similar generative models to enhance inference consistency; and (3) the introduction of ControlNet-based conditioning for MRI-to-PET translation. We evaluate CoCoLIT’s performance on publicly available datasets and find that our model significantly outperforms state-of-the-art methods on both image-based and amyloid-related metrics. Notably, in amyloid-positivity classification, CoCoLIT outperforms the second-best method with improvements of +10.5% on the internal dataset and +23.7% on the external dataset. The code and models of our approach are available at https://github.com/brAIn-science/CoCoLIT.

通过将从更广泛和可访问的结构性MRI模态合成的淀粉样蛋白PET扫描,为大规模阿尔茨海默病(AD)筛查提供了有前景且经济实惠的方法。这背后的动机是,虽然MRI不直接检测淀粉样蛋白病变,但它可能包含与淀粉样蛋白沉积相关的信息,可以通过先进的建模来揭示。然而,3D神经成像数据的高维度和结构性复杂性对现有MRI到PET转换方法构成了重大挑战。在较低维度的潜在空间中建模跨模态关系可以简化学习任务并更有效地实现转换。因此,我们提出了CoCoLIT(ControlNet控制的潜在图像翻译),这是一种基于扩散的潜在生成框架,包含三个主要创新点:(1)一种新型的加权图像空间损失(WISL),可改善潜在表示学习和合成质量;(2)对潜在平均稳定化(LAS)的理论和实证分析,这是一种用于增强推理一致性的现有技术,用于类似的生成模型;(3)引入基于ControlNet的条件进行MRI到PET转换。我们在公开数据集上评估了CoCoLIT的性能,发现我们的模型在图像和淀粉样蛋白相关指标上均显著优于最新方法。值得注意的是,在淀粉样蛋白阳性分类方面,CoCoLIT在内部数据集上比第二名提高了+10.5%,在外部数据集上提高了+23.7%。我们的方法的代码和模型可在https://github.com/brAIn-science/CoCoLIT获取。

论文及项目相关链接

PDF Article accepted at AAAI-2026

Summary
合成淀粉样PET扫描与更普及、更易获取的结构性MRI模态相结合,为大规模阿尔茨海默病(AD)筛查提供了有前景且经济的解决方案。尽管MRI不直接检测淀粉样病理,但它可能包含与淀粉样沉积相关的信息,可通过高级建模揭示。本文提出CoCoLIT(基于控制网络的潜在图像翻译),采用扩散式潜在生成框架,包含三项主要创新:加权图像空间损失(WISL)提高潜在表示学习和合成质量;对潜在平均稳定化(LAS)进行理论和实证分析,用于增强推理一致性;引入基于控制网络的MRI-to-PET翻译条件。评估显示,CoCoLIT在公开数据集上的表现优于现有先进技术,特别是在淀粉样阳性分类方面。

Key Takeaways

  1. 合成淀粉样PET扫描与MRI结合为阿尔茨海默病筛查提供经济有效的解决方案。
  2. MRI可能包含与淀粉样沉积相关的信息,可通过高级建模揭示。
  3. CoCoLIT是一种基于扩散的潜在生成框架,包含加权图像空间损失(WISL)、潜在平均稳定化(LAS)和控制网络条件等三项主要创新。
  4. CoCoLIT在公开数据集上的表现显著优于现有技术。
  5. CoCoLIT在淀粉样阳性分类方面的改进尤为显著,内部数据集上较第二名方法提高10.5%,外部数据集上提高23.7%。
  6. CoCoLIT方法和代码可在指定链接找到。

Cool Papers

点此查看论文截图

A Unified and Fast-Sampling Diffusion Bridge Framework via Stochastic Optimal Control

Authors:Mokai Pan, Kaizhen Zhu, Yuexin Ma, Yanwei Fu, Jingyi Yu, Jingya Wang, Ye Shi

Recent advances in diffusion bridge models leverage Doob’s $h$-transform to establish fixed endpoints between distributions, demonstrating promising results in image translation and restoration tasks. However, these approaches often produce blurred or excessively smoothed image details and lack a comprehensive theoretical foundation to explain these shortcomings. To address these limitations, we propose UniDB, a unified and fast-sampling framework for diffusion bridges based on Stochastic Optimal Control (SOC). We reformulate the problem through an SOC-based optimization, proving that existing diffusion bridges employing Doob’s $h$-transform constitute a special case, emerging when the terminal penalty coefficient in the SOC cost function tends to infinity. By incorporating a tunable terminal penalty coefficient, UniDB achieves an optimal balance between control costs and terminal penalties, substantially improving detail preservation and output quality. To avoid computationally expensive costs of iterative Euler sampling methods in UniDB, we design a training-free accelerated algorithm by deriving exact closed-form solutions for UniDB’s reverse-time SDE. It is further complemented by replacing conventional noise prediction with a more stable data prediction model, along with an SDE-Corrector mechanism that maintains perceptual quality for low-step regimes, effectively reducing error accumulation. Extensive experiments across diverse image restoration tasks validate the superiority and adaptability of the proposed framework, bridging the gap between theoretical generality and practical efficiency. Our code is available online https://github.com/2769433owo/UniDB-plusplus.

近年来,扩散桥模型的新进展利用Doob的$h$-变换在分布之间建立固定端点,在图像翻译和恢复任务中展现出有前景的结果。然而,这些方法通常会产生模糊或过度平滑的图像细节,并且缺乏全面的理论基础来解释这些缺点。为了解决这些局限性,我们提出了基于随机最优控制(SOC)的扩散桥的统一快速采样框架UniDB。我们通过基于SOC的优化重新表述问题,证明采用Doob $h$-变换的现有扩散桥构成了一种特殊情况,这种情况出现在SOC成本函数的终端惩罚系数趋于无穷大时。通过引入可调终端惩罚系数,UniDB在控制成本和终端惩罚之间达到了最佳平衡,大大提高了细节保留和输出质量。为了避免UniDB中迭代欧拉采样方法的计算成本高的问题,我们设计了一种免训练加速算法,通过推导UniDB反向时间SDE的确切封闭形式解。它还通过用更稳定的数据预测模型代替传统噪声预测,以及通过SDE校正器机制维持低步骤状态下的感知质量,有效地减少了误差积累。在多种图像恢复任务上的广泛实验验证了所提出框架的优越性和适应性,缩小了理论普遍性和实际效率之间的差距。我们的代码可在网上找到 https://github.com/27 769433owo/UniDB-plusplus。

论文及项目相关链接

PDF

Summary

基于Doob的h变换的扩散桥模型在图像翻译和恢复任务中展现出有前景的结果,但存在模糊和过度平滑的细节问题,且缺乏全面理论解释。为此,我们提出基于随机最优控制的统一快速采样框架UniDB,通过SOC优化重新表述问题,证明现有扩散桥为特殊情形。UniDB通过调整终端惩罚系数实现控制成本与终端惩罚之间的平衡,改善细节保留和输出质量。此外,我们设计无需训练的加速算法,为UniDB的反向时间SDE推导精确封闭解,并用更稳定的数据预测模型和SDE校正器提高感知质量。实验证明UniDB在图像恢复任务中的优越性和适应性。

Key Takeaways

  • 扩散桥模型利用Doob的h变换在图像翻译和恢复中取得进展,但存在细节模糊和过度平滑的问题。
  • UniDB框架基于随机最优控制提出,为解决现有扩散桥的局限性而设计。
  • UniDB通过调整终端惩罚系数实现控制成本与终端惩罚之间的平衡,提高图像质量。
  • UniDB采用无需训练的加速算法,为反向时间SDE提供精确封闭解,提高效率和稳定性。
  • UniDB框架结合数据预测模型和SDE校正器,提高感知质量,并有效减少误差积累。
  • 广泛实验证明UniDB在图像恢复任务的优越性和适应性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Speech Speech
Speech 方向最新论文已更新,请持续关注 Update in 2025-11-17 SAC Neural Speech Codec with Semantic-Acoustic Dual-Stream Quantization
2025-11-17
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-11-17 Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback
2025-11-17
  目录