⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-06 更新
PLUTO-4: Frontier Pathology Foundation Models
Authors:Harshith Padigela, Shima Nofallah, Atchuth Naveen Chilaparasetti, Ryun Han, Andrew Walker, Judy Shen, Chintan Shah, Blake Martin, Aashish Sood, Elliot Miller, Ben Glass, Andy Beck, Harsha Pokkalla, Syed Ashar Javed
Foundation models trained on large-scale pathology image corpora have demonstrated strong transfer capabilities across diverse histopathology tasks. Building on this progress, we introduce PLUTO-4, our next generation of pathology foundation models that extend the Pathology-Universal Transformer (PLUTO) to frontier scale. We share two complementary Vision Transformer architectures in the PLUTO-4 family: a compact and efficient PLUTO-4S model optimized for multi-scale deployment using a FlexiViT setup with 2D-RoPE embeddings, and a frontier-scale PLUTO-4G model trained with a single patch size to maximize representation capacity and stability. Both models are pretrained using a self-supervised objective derived from DINOv2 on a large multi-institutional corpus containing 551,164 WSIs from 137,144 patients across over 50 institutions, spanning over 60 disease types and over 100 stains. Comprehensive evaluation across public and internal benchmarks demonstrates that PLUTO-4 achieves state-of-the-art performance on tasks requiring varying spatial and biological context, including patch-level classification, segmentation, and slide-level diagnosis. The compact PLUTO-4S provides high-throughput and robust performance for practical deployment, while PLUTO-4G establishes new performance frontiers across multiple pathology benchmarks, including an 11% improvement in dermatopathology diagnosis. These diverse improvements underscore PLUTO-4’s potential to transform real-world applications as a backbone for translational research and diagnostic use cases.
基于大规模病理学图像语料库训练的foundation模型已在各种组织病理学任务中展现出强大的迁移能力。在此基础上,我们推出了PLUTO-4,这是我们下一代病理学foundation模型,它将Pathology-Universal Transformer(PLUTO)推向了前沿规模。我们分享了PLUTO-4系列中的两种互补的Vision Transformer架构:一个紧凑高效的PLUTO-4S模型,采用FlexiViT设置和2D-RoPE嵌入,优化多尺度部署;以及一个前沿规模的PLUTO-4G模型,采用单一补丁大小进行训练,以最大化表示能力和稳定性。这两个模型都使用从DINOv2派生的自监督目标,在包含551,164张WSI的大型多机构语料库上进行预训练,这些图像来自超过50个机构的137,144名患者,跨越60多种疾病类型和超过100种染色。在公共基准测试和内部基准测试的综合评估中,PLUTO-4在需要不同空间和生物上下文的任务上达到了最先进的性能,包括补丁级分类、分割和幻灯片级诊断。紧凑的PLUTO-4S为实际部署提供了高通量和稳健的性能,而PLUTO-4G在多个病理学基准测试中建立了新的性能边界,包括皮肤病理学诊断提高了11%。这些不同的改进凸显了PLUTO-4作为翻译研究和诊断用例的潜在能力,对现实世界的应用产生变革潜力。
论文及项目相关链接
Summary
大型病理图像语料库训练的模型已展现出跨多种组织病理学任务的强大迁移能力。在此基础上,我们推出了下一代病理基础模型PLUTO-4,它扩展了病理通用变压器(PLUTO)至前沿规模。我们分享了PLUTO-4系列中的两种互补的Vision Transformer架构:优化的紧凑高效PLUTO-4S模型,使用FlexiViT设置和2D-RoPE嵌入进行多尺度部署;以及前沿规模的PLUTO-4G模型,使用单一补丁尺寸进行训练,以最大化表示能力和稳定性。两者都在包含551,164张WSI的大型多机构语料库上进行预训练,涵盖了超过60种疾病类型和超过100种染色。在公共和内部基准测试上的综合评估表明,PLUTO-4在需要不同空间和生物上下文的任务上实现了最先进的性能,包括补丁级别分类、分割和幻灯片级别诊断。紧凑的PLUTO-4S为实际部署提供了高吞吐量和稳健的性能,而PLUTO-4G在多个病理基准测试上建立了新的性能前沿,包括在皮肤病理诊断中提高了11%的性能。这些多样化的改进突显了PLUTO-4作为翻译研究和诊断用例的后端,在现实世界应用中的潜力。
Key Takeaways
- PLUTO-4是下一代病理基础模型,扩展了PLUTO至前沿规模,包含两种Vision Transformer架构:PLUTO-4S和PLUTO-4G。
- PLUTO-4S模型优化且紧凑高效,适用于多尺度部署,采用FlexiViT设置和2D-RoPE嵌入。
- PLUTO-4G模型训练使用单一补丁尺寸,以最大化表示能力和稳定性。
- 模型预训练在包含大量病理图像的大型多机构语料库上进行,涵盖多种疾病类型和染色。
- PLUTO-4在多种任务上实现最先进的性能,包括补丁级别分类、分割和幻灯片级别诊断。
- PLUTO-4S适用于实际部署,具有高通量和稳健性能。
- PLUTO-4G在多个病理基准测试上表现优异,包括皮肤病理诊断任务的11%性能提升。
点此查看论文截图
Wavelet-Optimized Motion Artifact Correction in 3D MRI Using Pre-trained 2D Score Priors
Authors:Genyuan Zhang, Xuyang Duan, Songtao Zhu, Ao Wang, Fenglin Liu
Motion artifacts in magnetic resonance imaging (MRI) remain a major challenge, as they degrade image quality and compromise diagnostic reliability. Score-based generative models (SGMs) have recently shown promise for artifact removal. However, existing 3D SGM-based approaches are limited in two key aspects: (1) their strong dependence on known forward operators makes them ineffective for correcting MRI motion artifacts, and (2) their slow inference speed hinders clinical translation. To overcome these challenges, we propose a wavelet-optimized end-to-end framework for 3D MRI motion correct using pre-trained 2D score priors (3D-WMoCo). Specifically, two orthogonal 2D score priors are leveraged to guide the 3D distribution prior, while a mean-reverting stochastic differential equation (SDE) is employed to model the restoration process of motion-corrupted 3D volumes to motion-free 3D distribution. Furthermore, wavelet diffusion is introduced to accelerate inference, and wavelet convolution is applied to enhance feature extraction. We validate the effectiveness of our approach through both simulated motion artifact experiments and real-world clinical motion artifact correction tests. The proposed method achieves robust performance improvements over existing techniques. Implementation details and source code are available at: https://github.com/ZG-yuan/3D-WMoCo.
磁共振成像(MRI)中的运动伪影仍然是一个主要挑战,因为它们会降低图像质量并影响诊断的可靠性。基于得分的生成模型(SGMs)最近在去除伪影方面显示出希望。然而,现有的3D SGM方法存在两个主要局限性:(1)它们对已知前向算子的强烈依赖使它们无法有效地校正MRI运动伪影;(2)其缓慢的推理速度阻碍了临床转化。为了克服这些挑战,我们提出了一种利用预训练的2D分数先验进行3D MRI运动校正的小波优化端到端框架(3D-WMoCo)。具体来说,利用两个正交的2D分数先验来引导3D分布先验,同时采用均值回归随机微分方程(SDE)对运动损坏的3D体积的恢复过程进行建模,以形成无运动的3D分布。此外,引入小波扩散以加速推理,并应用小波卷积以增强特征提取。我们通过模拟运动伪影实验和现实世界中的临床运动伪影校正测试验证了该方法的有效性。所提出的方法在技术上实现了对现有技术的稳健性能提升。有关实施细节和源代码,请参见:https://github.com/ZG-yuan/3D-WMoCo。
论文及项目相关链接
PDF 11 pages, 5 figures
Summary
本文提出了一个针对三维MRI运动校正的端到端框架(3D-WMoCo),利用预训练的二维分数先验和小波优化技术,解决了磁共振成像中的运动伪影问题。该框架通过引入均值回归随机微分方程来模拟运动矫正过程,并采用了小波扩散来加速推断和小波卷积以增强特征提取。实验验证表明,该方法在模拟和真实临床数据上均取得了显著的改进效果。
Key Takeaways
- 磁共振成像中的运动伪影是诊断可靠性的主要问题。
- 现有的基于分数生成模型的方法存在对已知前向算子的强烈依赖和推理速度慢的问题。
- 提出了一种新的三维MRI运动校正框架(3D-WMoCo),利用预训练的二维分数先验来指导三维分布先验。
- 使用均值回归随机微分方程模拟运动矫正过程。
- 引入小波扩散来加速推断过程,应用小波卷积以增强特征提取。
- 方法在模拟和真实临床数据测试中实现了稳健的性能提升。
点此查看论文截图
Monocular absolute depth estimation from endoscopy via domain-invariant feature learning and latent consistency
Authors:Hao Li, Daiwei Lu, Jesse d’Almeida, Dilara Isik, Ehsan Khodapanah Aghdam, Nick DiSanto, Ayberk Acar, Susheela Sharma, Jie Ying Wu, Robert J. Webster III, Ipek Oguz
Monocular depth estimation (MDE) is a critical task to guide autonomous medical robots. However, obtaining absolute (metric) depth from an endoscopy camera in surgical scenes is difficult, which limits supervised learning of depth on real endoscopic images. Current image-level unsupervised domain adaptation methods translate synthetic images with known depth maps into the style of real endoscopic frames and train depth networks using these translated images with their corresponding depth maps. However a domain gap often remains between real and translated synthetic images. In this paper, we present a latent feature alignment method to improve absolute depth estimation by reducing this domain gap in the context of endoscopic videos of the central airway. Our methods are agnostic to the image translation process and focus on the depth estimation itself. Specifically, the depth network takes translated synthetic and real endoscopic frames as input and learns latent domain-invariant features via adversarial learning and directional feature consistency. The evaluation is conducted on endoscopic videos of central airway phantoms with manually aligned absolute depth maps. Compared to state-of-the-art MDE methods, our approach achieves superior performance on both absolute and relative depth metrics, and consistently improves results across various backbones and pretrained weights. Our code is available at https://github.com/MedICL-VU/MDE.
单目深度估计(MDE)是引导自主医疗机器人的重要任务。然而,从手术场景中的内窥镜相机获取绝对(度量)深度是很困难的,这限制了在现实内窥镜图像上监督深度学习的应用。当前基于图像层面的无监督域适应方法将带有已知深度图的合成图像转化为真实内窥镜帧的风格,并使用这些翻译后的图像及其对应的深度图对深度网络进行训练。然而,真实和翻译的合成图像之间往往仍存在域差距。在本文中,我们提出了一种潜在特征对齐方法,通过减少中央气道内窥镜视频上下文中的域差距,提高绝对深度估计。我们的方法不依赖于图像翻译过程,而是专注于深度估计本身。具体来说,深度网络以翻译后的合成帧和真实内窥镜帧为输入,通过对抗学习和方向特征一致性学习潜在域不变特征。评估是在中央气道幻影的内窥镜视频上进行的,具有手动对齐的绝对深度图。与最先进的MDE方法相比,我们的方法在绝对和相对深度指标上均实现了卓越的性能,并且在各种主干网络和预训练权重上均改进了结果。我们的代码可在https://github.com/MedICL-VU/MDE找到。
论文及项目相关链接
Summary
本文提出一种基于潜在特征对齐的方法,用于改进在中央气道内窥镜视频中的绝对深度估计。通过对抗性学习和方向特征一致性,学习合成图像和真实内窥镜图像之间的域不变特征,从而提高深度估计的准确性。实验证明,该方法在绝对和相对深度指标上均优于当前最先进的单眼深度估计方法,且在各种主干网络和预训练权重上均表现一致。
Key Takeaways
- 单眼深度估计(MDE)在指导自主医疗机器人方面具有重要意义。
- 在手术场景中,从内窥镜相机获得绝对深度是困难的,这限制了在真实内窥镜图像上的深度监督学习。
- 当前的无监督域适应方法存在域差距问题。
- 本文提出了一种基于潜在特征对齐的方法,以减少合成图像和真实内窥镜图像之间的域差距,提高绝对深度估计的准确性。
- 该方法通过对抗性学习和方向特征一致性,学习域不变特征。
- 实验证明,该方法在绝对和相对深度指标上均优于现有最先进的MDE方法。
- 该方法的代码已公开可用。
点此查看论文截图
Fractional Diffusion Bridge Models
Authors:Gabriel Nobis, Maximilian Springenberg, Arina Belova, Rembert Daems, Christoph Knochenhauer, Manfred Opper, Tolga Birdal, Wojciech Samek
We present Fractional Diffusion Bridge Models (FDBM), a novel generative diffusion bridge framework driven by an approximation of the rich and non-Markovian fractional Brownian motion (fBM). Real stochastic processes exhibit a degree of memory effects (correlations in time), long-range dependencies, roughness and anomalous diffusion phenomena that are not captured in standard diffusion or bridge modeling due to the use of Brownian motion (BM). As a remedy, leveraging a recent Markovian approximation of fBM (MA-fBM), we construct FDBM that enable tractable inference while preserving the non-Markovian nature of fBM. We prove the existence of a coupling-preserving generative diffusion bridge and leverage it for future state prediction from paired training data. We then extend our formulation to the Schr"{o}dinger bridge problem and derive a principled loss function to learn the unpaired data translation. We evaluate FDBM on both tasks: predicting future protein conformations from aligned data, and unpaired image translation. In both settings, FDBM achieves superior performance compared to the Brownian baselines, yielding lower root mean squared deviation (RMSD) of C$_\alpha$ atomic positions in protein structure prediction and lower Fr'echet Inception Distance (FID) in unpaired image translation.
我们提出了分数扩散桥梁模型(FDBM),这是一种新型生成式扩散桥梁框架,由对丰富且非马尔可夫分数布朗运动(fBM)的近似驱动。实际随机过程表现出一定程度的记忆效应(时间相关性)、长程依赖性、粗糙度和异常扩散现象,这些在标准扩散或桥梁建模中并没有被捕捉到,因为使用的是布朗运动(BM)。为了解决这一问题,我们利用分数布朗运动的马尔可夫近似(MA-fBM),构建了FDBM,实现在进行推理时能够处理,同时保留fBM的非马尔可夫性质。我们证明了存在一种耦合保留生成扩散桥梁,并利用它对配对训练数据进行未来状态预测。然后,我们将公式扩展到Schrödinger桥梁问题,并推导出一种有原则的损失函数来学习未配对数据的翻译。我们在两个任务上评估了FDBM:从对齐数据中预测未来蛋白质构象和未配对图像翻译。在两个场景中,FDBM均实现了优于布朗基准线的性能,在蛋白质结构预测中获得了更低的Cα原子位置均方根偏差(RMSD),在未配对图像翻译中获得了更低的Fréchet Inception Distance(FID)。
论文及项目相关链接
PDF To appear in NeurIPS 2025 proceedings. This version includes post-camera-ready revisions
Summary
本文提出了分数扩散桥模型(FDBM),这是一种新的生成扩散桥框架,由对丰富且非马尔可夫分数布朗运动(fBM)的近似驱动。该模型解决了真实随机过程中的记忆效应、远程依赖、粗糙度和异常扩散现象,这些问题在标准扩散或桥模型中由于使用布朗运动(BM)而无法捕捉。通过利用最近对fBM的马尔可夫近似(MA-fBM),我们构建了FDBM,能够在推理时进行推理,同时保留fBM的非马尔可夫性质。本文证明了存在一种耦合保留生成扩散桥,并利用它来预测配对训练数据的未来状态。此外,我们将该公式扩展到薛定谔桥问题,并推导出一种原则性的损失函数来学习未配对数据的翻译。在预测蛋白质构象和未配对图像翻译的任务上,FDBM均表现出卓越的性能,与布朗基线相比,蛋白质结构预测的Cα原子位置均方根偏差(RMSD)较低,未配对图像翻译的Fréchet Inception Distance(FID)较低。
Key Takeaways
- 提出了Fractional Diffusion Bridge Models(FDBM),这是一个新的生成扩散桥框架。
- FDBM通过利用分数布朗运动(fBM)的近似解决了标准扩散模型无法捕捉到的随机过程的记忆效应和远程依赖等问题。
- FDBM能够在进行推理的同时保留fBM的非马尔可夫性质。
- 证明了存在一种耦合保留生成扩散桥,并用于预测配对训练数据的未来状态。
- FDBM的公式被扩展到薛定谔桥问题,并开发了一种原则性的损失函数进行未配对数据的翻译学习。
- 在蛋白质构象预测任务中,FDBM相较于布朗基线表现出更优秀的性能,具有较低的RMSD。
点此查看论文截图
NSYNC: Negative Synthetic Image Generation for Contrastive Training to Improve Stylized Text-To-Image Translation
Authors:Serkan Ozturk, Samet Hicsonmez, Pinar Duygulu
Current text conditioned image generation methods output realistic looking images, but they fail to capture specific styles. Simply finetuning them on the target style datasets still struggles to grasp the style features. In this work, we present a novel contrastive learning framework to improve the stylization capability of large text-to-image diffusion models. Motivated by the astonishing advance in image generation models that makes synthetic data an intrinsic part of model training in various computer vision tasks, we exploit synthetic image generation in our approach. Usually, the generated synthetic data is dependent on the task, and most of the time it is used to enlarge the available real training dataset. With NSYNC, alternatively, we focus on generating negative synthetic sets to be used in a novel contrastive training scheme along with real positive images. In our proposed training setup, we forward negative data along with positive data and obtain negative and positive gradients, respectively. We then refine the positive gradient by subtracting its projection onto the negative gradient to get the orthogonal component, based on which the parameters are updated. This orthogonal component eliminates the trivial attributes that are present in both positive and negative data and directs the model towards capturing a more unique style. Experiments on various styles of painters and illustrators show that our approach improves the performance over the baseline methods both quantitatively and qualitatively. Our code is available at https://github.com/giddyyupp/NSYNC.
当前基于文本条件的图像生成方法能够生成外观逼真的图像,但它们无法捕捉特定的风格。即使在目标风格数据集上进行微调,它们仍然难以掌握风格特征。在这项工作中,我们提出了一种新的对比学习框架,旨在提高大型文本到图像扩散模型的风格化能力。受图像生成模型的惊人进展的启发,合成数据已成为各种计算机视觉任务中模型训练不可或缺的一部分,我们的方法利用了合成图像生成。通常,生成的合成数据取决于任务,并且大部分时间用于扩大可用的真实训练数据集。然而,通过使用NSYNC,我们专注于生成用于新型对比训练方案的负面合成集,以及真实的正面图像。在我们提出的训练设置中,我们将负面数据与正面数据一起向前传递,并分别获得负面和正面梯度。然后,我们通过从正面梯度中减去其在负面梯度上的投影来优化正面梯度,从而获得正交分量,基于该正交分量更新参数。这个正交分量消除了同时存在于正面和负面数据中的常规属性,并指导模型捕捉更独特的风格。对各种画家和插画师风格的实验表明,我们的方法无论在定量还是定性方面都超过了基线方法。我们的代码可在https://github.com/giddyyupp/NSYNC找到。
论文及项目相关链接
PDF Under review
Summary
本文提出了一种基于对比学习的新框架,旨在提高大型文本到图像扩散模型的风格化能力。该框架通过生成负合成集,与真实正图像一起用于新型对比训练方案。通过正负数据的梯度计算和正交分量优化,消除两者共有的常规属性,使模型更专注于捕捉独特风格。实验证明,该方法在画家和插画师的各种风格上均优于基准方法,定量和定性皆有显著提升。
Key Takeaways
- 当前文本条件图像生成方法难以捕捉特定风格,即使对目标风格数据集进行微调仍难以掌握风格特征。
- 本文提出了一种新型对比学习框架,旨在提高大型文本到图像扩散模型的风格化能力。
- 引入了负合成集生成,用于对比训练。
- 通过正负数据的梯度计算,获取正交分量,以优化模型参数。
- 正交分量有助于消除常规属性,使模型更专注于捕捉独特风格。
- 实验结果显示,该方法在多种风格上的性能优于基准方法,实现定量和定性的提升。
- 项目的代码已公开在GitHub上。
点此查看论文截图
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
Authors:Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
Unsupervised learning of depth and ego-motion, two fundamental 3D perception tasks, has made significant strides in recent years. However, most methods treat ego-motion as an auxiliary task, either mixing all motion types or excluding depth-independent rotational motions in supervision. Such designs limit the incorporation of strong geometric constraints, reducing reliability and robustness under diverse conditions. This study introduces a discriminative treatment of motion components, leveraging the geometric regularities of their respective rigid flows to benefit both depth and ego-motion estimation. Given consecutive video frames, network outputs first align the optical axes and imaging planes of the source and target cameras. Optical flows between frames are transformed through these alignments, and deviations are quantified to impose geometric constraints individually on each ego-motion component, enabling more targeted refinement. These alignments further reformulate the joint learning process into coaxial and coplanar forms, where depth and each translation component can be mutually derived through closed-form geometric relationships, introducing complementary constraints that improve depth robustness. DiMoDE, a general depth and ego-motion joint learning framework incorporating these designs, achieves state-of-the-art performance on multiple public datasets and a newly collected diverse real-world dataset, particularly under challenging conditions. Our source code will be publicly available at mias.group/DiMoDE upon publication.
近年来,深度学习和自我运动这两个基本的3D感知任务的无监督学习取得了重大进展。然而,大多数方法将自我运动视为辅助任务,要么混合所有运动类型,要么在监督中排除与深度无关的回转运动。这种设计限制了强几何约束的融入,降低了在不同条件下的可靠性和鲁棒性。本研究对运动成分进行了区分处理,利用各自刚性流动的几何规律,为深度和自我运动估计带来好处。给定连续的视频帧,网络输出首先对齐源相机和目标相机的光学轴和成像平面。通过这些对齐,帧之间的光流会发生变化,并且偏差被量化,以便对每个自我运动组件单独施加几何约束,从而实现更有针对性的优化。这些对齐进一步将联合学习过程重新制定为同轴和共面形式,深度和每个平移成分可以通过封闭的几何关系相互推导,引入互补约束以提高深度鲁棒性。DiMoDE是一个包含这些设计的通用深度和自我运动联合学习框架,在多个公共数据集和新收集的多样的现实世界数据集上实现了最佳性能,尤其在具有挑战的条件下。我们的源代码将在mias.group/DiMoDE上公开发布。
论文及项目相关链接
PDF 18 pages, 14 figures
Summary
本文主要研究无监督学习下的深度感知和自主运动两个基本任务,通过区分处理运动成分,利用各自的几何规律,提高深度和自主运动估计的可靠性。该研究通过连续视频帧进行网络输出,首先对齐源相机和目标相机的光学轴和成像平面,通过转换光学流动并量化偏差,对每种自主运动成分施加几何约束,实现更有针对性的优化。这种对齐方法进一步将联合学习过程转化为同轴和平面形式,深度和每个平移成分可以通过封闭的几何关系相互推导,引入互补约束以提高深度稳健性。提出的DiMoDE框架在多个公共数据集和新收集的多样化的真实世界数据集上实现了最佳性能,特别是在具有挑战性的条件下。
Key Takeaways
- 研究实现了无监督学习下的深度感知和自主运动联合学习。
- 通过区分处理运动成分,利用几何规律提高估计的可靠性。
- 通过网络输出对齐相机光学轴和成像平面,转换光学流动并量化偏差。
- 对每个自主运动成分施加几何约束,实现更有针对性的优化。
- 将联合学习过程转化为同轴和平面形式,通过封闭的几何关系提高深度和每个平移成分的估计精度。
- 提出的DiMoDE框架在多个数据集上实现最佳性能,特别是在具有挑战性的条件下。
点此查看论文截图
Deep Generative Models for Enhanced Vitreous OCT Imaging
Authors:Simone Sarrocco, Philippe C. Cattin, Peter M. Maloca, Paul Friedrich, Philippe Valmaggia
Purpose: To evaluate deep learning (DL) models for enhancing vitreous optical coherence tomography (OCT) image quality and reducing acquisition time. Methods: Conditional Denoising Diffusion Probabilistic Models (cDDPMs), Brownian Bridge Diffusion Models (BBDMs), U-Net, Pix2Pix, and Vector-Quantised Generative Adversarial Network (VQ-GAN) were used to generate high-quality spectral-domain (SD) vitreous OCT images. Inputs were SD ART10 images, and outputs were compared to pseudoART100 images obtained by averaging ten ART10 images per eye location. Model performance was assessed using image quality metrics and Visual Turing Tests, where ophthalmologists ranked generated images and evaluated anatomical fidelity. The best model’s performance was further tested within the manually segmented vitreous on newly acquired data. Results: U-Net achieved the highest Peak Signal-to-Noise Ratio (PSNR: 30.230) and Structural Similarity Index Measure (SSIM: 0.820), followed by cDDPM. For Learned Perceptual Image Patch Similarity (LPIPS), Pix2Pix (0.697) and cDDPM (0.753) performed best. In the first Visual Turing Test, cDDPM ranked highest (3.07); in the second (best model only), cDDPM achieved a 32.9% fool rate and 85.7% anatomical preservation. On newly acquired data, cDDPM generated vitreous regions more similar in PSNR to the ART100 reference than true ART1 or ART10 B-scans and achieved higher PSNR on whole images when conditioned on ART1 than ART10. Conclusions: Results reveal discrepancies between quantitative metrics and clinical evaluation, highlighting the need for combined assessment. cDDPM showed strong potential for generating clinically meaningful vitreous OCT images while reducing acquisition time fourfold. Translational Relevance: cDDPMs show promise for clinical integration, supporting faster, higher-quality vitreous imaging. Dataset and code will be made publicly available.
目的:评估深度学习(DL)模型在提高玻璃体光学相干断层扫描(OCT)图像质量和减少采集时间方面的效果。方法:使用条件去噪扩散概率模型(cDDPMs)、布朗桥扩散模型(BBDMs)、U-Net、Pix2Pix和向量量化生成对抗网络(VQ-GAN)生成高质量谱域(SD)玻璃体OCT图像。输入为SD ART10图像,输出与通过平均每个眼位十个ART10图像获得的伪ART100图像进行比较。模型性能通过图像质量指标和视觉图灵测试进行评估,眼科医生对生成的图像进行排名并评估其解剖保真度。最佳模型的性能在新获取的数据的手动分割玻璃体中进行测试。结果:U-Net在峰值信号噪声比(PSNR:30.230)和结构相似性指数度量(SSIM:0.820)方面表现最佳,其次是cDDPM。在感知图像斑块相似性(LPIPS)方面,Pix2Pix(0.697)和cDDPM(0.753)表现最好。在第一次视觉图灵测试中,cDDPM排名最高(3.07);在第二次(仅最佳模型)中,cDDPM的欺骗率为32.9%,解剖保留率为85.7%。在新获取的数据中,cDDPM生成的玻璃体区域在PSNR方面与ART100参考相比更接近于真实ART1或ART10的B扫描,并且在有条件的情况下,整个图像的PSNR高于ART10。结论:结果揭示了定量指标与临床评估之间的差异,强调了需要结合评估的必要性。cDDPM在生成具有临床意义的玻璃体OCT图像方面显示出强大潜力,同时能将采集时间缩短四倍。翻译意义:cDDPMs在临床应用中显示出潜力,支持更快、更高质量的玻璃体成像。数据集和代码将公开可用。
论文及项目相关链接
Summary
深度学习模型用于提升玻璃体光学相干断层扫描图像质量并减少采集时间的研究。采用多种深度学习模型生成高质量光谱域玻璃体OCT图像,并进行性能评估。结果显示,cDDPM模型在图像质量和解剖学保真度方面表现出最佳效果,具有降低采集时间四倍的潜力。
Key Takeaways
- 研究目的:评估深度学习模型在提高玻璃体光学相干断层扫描(OCT)图像质量和减少采集时间方面的应用。
- 方法:采用多种深度学习模型(如cDDPMs、BBDMs、U-Net、Pix2Pix和VQ-GAN)生成高质量光谱域(SD)玻璃体OCT图像。
- 评估指标:通过图像质量指标和视觉图灵测试评估模型性能,其中眼科医生对生成图像进行排名并评估解剖学保真度。
- 最佳模型:cDDPM在图像质量和解剖学保真度方面表现最佳,尤其在手动分割的玻璃体区域的新数据上测试时。
- 结果:cDDPM在峰值信噪比(PSNR)和结构相似性指数(SSIM)方面表现优秀,并且在视觉图灵测试中排名靠前,实现了较高的欺骗率和解剖学保留率。
- 临床意义:cDDPM模型在生成具有临床意义的玻璃体OCT图像方面显示出强大潜力,并有望降低采集时间。
点此查看论文截图
OSMGen: Highly Controllable Satellite Image Synthesis using OpenStreetMap Data
Authors:Amir Ziashahabi, Narges Ghasemi, Sajjad Shahabi, John Krumm, Salman Avestimehr, Cyrus Shahabi
Accurate and up-to-date geospatial data are essential for urban planning, infrastructure monitoring, and environmental management. Yet, automating urban monitoring remains difficult because curated datasets of specific urban features and their changes are scarce. We introduce OSMGen, a generative framework that creates realistic satellite imagery directly from raw OpenStreetMap (OSM) data. Unlike prior work that relies on raster tiles, OSMGen uses the full richness of OSM JSON, including vector geometries, semantic tags, location, and time, giving fine-grained control over how scenes are generated. A central feature of the framework is the ability to produce consistent before-after image pairs: user edits to OSM inputs translate into targeted visual changes, while the rest of the scene is preserved. This makes it possible to generate training data that addresses scarcity and class imbalance, and to give planners a simple way to preview proposed interventions by editing map data. More broadly, OSMGen produces paired (JSON, image) data for both static and changed states, paving the way toward a closed-loop system where satellite imagery can automatically drive structured OSM updates. Source code is available at https://github.com/amir-zsh/OSMGen.
准确且最新的地理空间数据对于城市规划、基础设施监测以及环境管理至关重要。然而,实现城市监测的自动化仍然具有挑战性,因为缺乏特定城市特征及其变化的精选数据集。我们介绍了OSMGen这一生成框架,它能够直接从原始的OpenStreetMap(OSM)数据生成逼真的卫星图像。不同于先前依赖于栅格瓦片的工作,OSMGen使用完整的OSM JSON,包括矢量几何、语义标签、位置和时间,实现对场景生成方式的精细控制。该框架的一个核心功能是能够生成一致的前后图像对:用户编辑的OSM输入转化为有针对性的视觉变化,而其余场景保持不变。这使得生成解决稀缺性和类别不平衡问题的训练数据成为可能,并为规划人员提供一种通过编辑地图数据来预览拟议干预的简便方法。更广泛地说,OSMGen为静态和更改状态生成配对(JSON,图像)数据,为建立一个闭环系统铺平道路,在该系统中,卫星图像可以自动驱动结构化的OSM更新。源代码可在https://github.com/amir-zsh/OSMGen获得。
论文及项目相关链接
PDF Accepted at NeurIPS 2025 UrbanAI Workshop
Summary
基于OpenStreetMap(OSM)数据的地理空间信息对城市规划、基础设施监测和环境管理至关重要。但由于缺乏针对特定城市特征和变化的精选数据集,自动化城市监测仍然具有挑战性。为此,我们推出了OSMGen这一生成框架,它能直接从原始的OSM数据中生成逼真的卫星图像。与依赖栅格瓦片的先前工作不同,OSMGen使用OSM JSON的全丰富性,包括矢量几何、语义标签、位置和时间,对场景生成方式提供精细控制。该框架的一个核心功能是能够生成一致的前后图像对:用户编辑的OSM输入转化为有针对性的视觉变化,而其余场景保持不变。这解决了数据稀缺和类别不平衡问题,为规划人员提供了一种通过编辑地图数据来预览拟议干预的简便方法。更广泛地说,OSMGen为静态和变化状态生成配对(JSON、图像)数据,为建立一个卫星图像可自动驱动结构化OSM更新的闭环系统铺平了道路。
Key Takeaways
- OSMGen是一个基于OpenStreetMap数据的生成框架,能生成逼真的卫星图像。
- 与依赖栅格瓦片的方法不同,OSMGen使用完整的OSM JSON数据,包括矢量几何、语义标签等。
- OSMGen能生成一致的前后图像对,使用户编辑的地图数据转化为可视变化。
- 该框架有助于解决数据稀缺和类别不平衡问题,便于规划人员预览拟议干预效果。
- OSMGen生成的数据对城市规划、基础设施监测和环境管理有重要作用。
- OSMGen为建立卫星图像驱动的结构化OSM更新闭环系统奠定了基础。
点此查看论文截图
MambaNetLK: Enhancing Colonoscopy Point Cloud Registration with Mamba
Authors:Linzhe Jiang, Jiayuan Huang, Sophia Bano, Matthew J. Clarkson, Zhehua Mao, Mobarak I. Hoque
Accurate 3D point cloud registration underpins reliable image-guided colonoscopy, directly affecting lesion localization, margin assessment, and navigation safety. However, biological tissue exhibits repetitive textures and locally homogeneous geometry that cause feature degeneracy, while substantial domain shifts between pre-operative anatomy and intra-operative observations further degrade alignment stability. To address these clinically critical challenges, we introduce a novel 3D registration method tailored for endoscopic navigation and a high-quality, clinically grounded dataset to support rigorous and reproducible benchmarking. We introduce C3VD-Raycasting-10k, a large-scale benchmark dataset with 10,014 geometrically aligned point cloud pairs derived from clinical CT data. We propose MambaNetLK, a novel correspondence-free registration framework, which enhances the PointNetLK architecture by integrating a Mamba State Space Model (SSM) as a cross-modal feature extractor. As a result, the proposed framework efficiently captures long-range dependencies with linear-time complexity. The alignment is achieved iteratively using the Lucas-Kanade algorithm. On the clinical dataset, C3VD-Raycasting-10k, MambaNetLK achieves the best performance compared with the state-of-the-art methods, reducing median rotation error by 56.04% and RMSE translation error by 26.19% over the second-best method. The model also demonstrates strong generalization on ModelNet40 and superior robustness to initial pose perturbations. MambaNetLK provides a robust foundation for 3D registration in surgical navigation. The combination of a globally expressive SSM-based feature extractor and a large-scale clinical dataset enables more accurate and reliable guidance systems in minimally invasive procedures like colonoscopy.
精确的三维点云配准为可靠的图像引导结肠镜检查提供了支持,直接影响病灶定位、边界评估和导航安全。然而,生物组织表现出重复的纹理和局部均匀的几何形状,导致特征退化,而术前解剖与术中观察之间的显著领域偏移进一步降低了对齐稳定性。为了解决这些临床上至关重要的挑战,我们针对内镜导航引入了一种新型三维配准方法以及高质量、基于临床的数据集,以支持严格和可重复性的基准测试。我们介绍了C3VD-Raycasting-10k,这是一个大规模基准数据集,包含从临床CT数据派生的10,014对几何对齐的点云。我们提出了MambaNetLK,这是一种无对应关系的配准框架,通过整合Mamba状态空间模型(SSM)作为跨模态特征提取器,增强了PointNetLK架构。因此,该框架能够高效地捕捉长距离依赖关系,具有线性时间复杂度。对齐是通过Lucas-Kanade算法迭代实现的。在临床数据集C3VD-Raycasting-10k上,MambaNetLK与最新技术相比取得了最佳性能,将中位旋转误差减少了56.04%,将RMSE平移误差减少了26.19%。该模型在ModelNet40上表现出强大的泛化能力,并对初始姿势扰动表现出优越的鲁棒性。MambaNetLK为手术导航中的三维配准提供了稳健的基础。基于全局表达性SSM的特征提取器与大规模临床数据集的组合,为结肠镜检查等微创手术提供了更准确、更可靠的指导系统。
论文及项目相关链接
PDF 12 pages, 4 figures, 3 tables, IPCAI conference
Summary
该文介绍了在图像引导结肠镜检查中准确的三维点云注册的重要性及其面临的挑战。为应对这些挑战,研究团队提出了新型的适用于内镜导航的三维注册方法和高质量的临床数据集C3VD-Raycasting-10k,用于支持严格和可重复性的基准测试。同时,他们提出了无对应关系的注册框架MambaNetLK,该框架结合了Mamba State Space Model(SSM)作为跨模态特征提取器,能高效捕捉远程依赖关系并具有线性时间复杂度。在临床试验和大型数据集上的结果表明,MambaNetLK相较于其他前沿方法具有最佳性能,显著减少了旋转误差和平移误差。这为手术导航中的三维注册提供了稳健的基础,并有望为结肠镜等微创手术提供更准确可靠的指导系统。
Key Takeaways
- 3D点云注册在图像引导结肠镜检查中起到关键作用,影响病灶定位、边界评估和导航安全。
- 生物组织存在特征退化问题和术前解剖与术中观察的显著领域漂移问题,为注册带来挑战。
- 引入新型3D注册方法MambaNetLK,结合Mamba State Space Model(SSM)和PointNetLK架构,提升远程依赖捕捉能力并具有线性时间复杂度。
- 提出大型临床数据集C3VD-Raycasting-10k,包含从临床CT数据派生的几何对齐点云对。
- MambaNetLK在临床试验和大型数据集上表现最佳,相较于其他前沿方法显著减少旋转和平移误差。
- MambaNetLK框架为手术导航中的三维注册提供了稳健基础。
点此查看论文截图
GeneFlow: Translation of Single-cell Gene Expression to Histopathological Images via Rectified Flow
Authors:Mengbo Wang, Shourya Verma, Aditya Malusare, Luopin Wang, Yiyang Lu, Vaneet Aggarwal, Mario Sola, Ananth Grama, Nadia Atallah Lanman
Spatial transcriptomics (ST) technologies can be used to align transcriptomes with histopathological morphology, presenting exciting new opportunities for biomolecular discovery. Using ST data, we construct a novel framework, GeneFlow, to map transcriptomics onto paired cellular images. By combining an attention-based RNA encoder with a conditional UNet guided by rectified flow, we generate high-resolution images with different staining methods (e.g. H&E, DAPI) to highlight various cellular/tissue structures. Rectified flow with high-order ODE solvers creates a continuous, bijective mapping between transcriptomics and image manifolds, addressing the many-to-one relationship inherent in this problem. Our method enables the generation of realistic cellular morphology features and spatially resolved intercellular interactions from observational gene expression profiles, provides potential to incorporate genetic/chemical perturbations, and enables disease diagnosis by revealing dysregulated patterns in imaging phenotypes. Our rectified flow-based method outperforms diffusion-based baseline method in all experiments. Code can be found at https://github.com/wangmengbo/GeneFlow.
空间转录组学(ST)技术可用于将转录组与病理形态学相结合,为生物分子发现提供了令人兴奋的新机遇。我们使用ST数据构建了一个新型框架GeneFlow,将转录组映射到配对的细胞图像上。通过结合基于注意力的RNA编码器和由校正流引导的条件UNet,我们生成了具有不同染色方法(例如H&E、DAPI)的高分辨率图像,以突出显示各种细胞/组织结构。使用高阶ODE求解器的校正流在转录组和图像流形之间创建了连续的双射映射,解决了该问题所固有的多对一关系。我们的方法能够从观察性的基因表达谱中生成现实的细胞形态特征和空间解决的细胞间相互作用,具有整合遗传/化学干扰的潜力,并通过揭示成像表型中的失调模式来进行疾病诊断。我们的基于校正流的方法在所有实验中均表现出优于基于扩散的基线方法。代码可在https://github.com/wangmengbo/GeneFlow找到。
论文及项目相关链接
Summary
空间转录组学技术可用于将转录组与组织病理学形态对齐,为生物分子发现提供了新的机会。通过GeneFlow框架,我们将空间转录组学数据与细胞图像配对,结合基于注意力的RNA编码器和条件UNet生成高分辨率图像。该方法使用校正流和高阶ODE求解器创建转录组和图像流形之间的连续双射映射,解决了该问题固有的多对一关系。该方法可生成现实的细胞形态特征和空间解决的细胞间相互作用,具有整合遗传/化学干扰的潜力,并通过揭示成像表型中的失调模式实现疾病诊断。GeneFlow方法优于所有实验中的扩散基线方法。
Key Takeaways
- 空间转录组学技术将转录组与组织病理学形态结合,促进生物分子发现的新机遇。
- GeneFlow框架用于将空间转录组学数据与细胞图像配对。
- 结合基于注意力的RNA编码器和条件UNet生成高分辨率图像,以突出显示不同的染色方法(如H&E,DAPI)。
- 使用校正流和高阶ODE求解器解决转录组和图像之间的多对一映射问题。
- 该方法可以生成现实的细胞形态特征和空间解决的细胞间相互作用。
- GeneFlow具有整合遗传/化学干扰的潜力。
点此查看论文截图