⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-17 更新
Second-order spatial analysis of shapes of tumor cell nuclei
Authors:Ye Jin Choi, Sebastian Kurtek, Simeng Zhu, Karthik Bharath
Intra-tumor heterogeneity driving disease progression is characterized by distinct growth and spatial proliferation patterns of cells and their nuclei within tumor and non-tumor tissues. A widely accepted hypothesis is that these spatial patterns are correlated with morphology of the cells and their nuclei. Nevertheless, tools to quantify the correlation, with uncertainty, are scarce, and the state-of-the-art is based on low-dimensional numerical summaries of the shapes that are inadequate to fully encode shape information. To this end, we propose a marked point process framework to assess spatial correlation among shapes of planar closed curves, which represent cell or nuclei outlines. With shapes of curves as marks, the framework is based on a mark-weighted $K$ function, a second-order spatial statistic that accounts for the marks’ variation by using test functions that capture only the shapes of cells and their nuclei. We then develop local and global hypothesis tests for spatial dependence between the marks using the $K$ function. The framework is brought to bear on the cell nuclei extracted from histopathology images of breast cancer, where we uncover distinct correlation patterns that are consistent with clinical expectations.
肿瘤内异质性推动疾病进展的特点是肿瘤和非肿瘤组织内细胞及其细胞核的独特生长和空间增殖模式。一个被广泛接受的假设是,这些空间模式与细胞和细胞核的形态有关。然而,用来量化这种不确定关联的工具却很稀缺,当前的技术是基于对形状的低维数值摘要,这不足以完全编码形状信息。为此,我们提出了一个标记点过程框架,用于评估平面闭合曲线形状之间的空间相关性,这些曲线代表细胞或细胞核的轮廓。以曲线形状为标记,该框架基于标记加权K函数,这是一个二阶空间统计量,通过使用仅捕捉细胞和细胞核形状的测试函数来考虑标记的变化。然后,我们为标记之间使用K函数进行局部和全局假设检验空间依赖性。该框架应用于从乳腺癌组织病理学图像中提取的细胞核上,我们发现了一些明显的关联模式,这些模式与临床预期相符。
论文及项目相关链接
Summary
本文探讨了肿瘤内异质性驱动疾病进展的特征,表现为肿瘤和非肿瘤组织内细胞及其细胞核的生长和空间增殖模式的差异。文章提出了一种基于标记点过程框架的方法,用于评估平面闭合曲线形状之间的空间相关性,这些曲线代表细胞或细胞核的轮廓。该方法基于标记加权的K函数,是一种二阶空间统计量,通过使用仅捕捉细胞和细胞核形状的测试函数来考虑标记的变化。然后,使用K函数对标记之间的空间依赖性进行局部和全局假设检验。该框架应用于从乳腺癌组织病理学图像中提取的细胞核,揭示了与临床预期一致的不同相关性模式。
Key Takeaways
- 肿瘤内异质性是疾病进展的关键特征,涉及细胞和细胞核的空间增殖模式差异。
- 目前缺乏量化细胞形态和空间模式相关性的工具。
- 提出了一种基于标记点过程框架的方法,用于评估平面闭合曲线(代表细胞或细胞核轮廓)形状之间的空间相关性。
- 该方法使用标记加权的K函数,这是一种二阶空间统计量,通过测试函数捕捉细胞和细胞核的形状变化。
- 开发了局部和全局假设检验,以检验标记(如细胞和细胞核)之间的空间依赖性。
- 该框架应用于乳腺癌组织病理学图像的细胞核分析,发现了与临床预期相符的相关性模式。
点此查看论文截图
SAMora: Enhancing SAM through Hierarchical Self-Supervised Pre-Training for Medical Images
Authors:Shuhang Chen, Hangjie Yuan, Pengwei Liu, Hanxue Gu, Tao Feng, Dong Ni
The Segment Anything Model (SAM) has demonstrated significant potential in medical image segmentation. Yet, its performance is limited when only a small amount of labeled data is available, while there is abundant valuable yet often overlooked hierarchical information in medical data. To address this limitation, we draw inspiration from self-supervised learning and propose SAMora, an innovative framework that captures hierarchical medical knowledge by applying complementary self-supervised learning objectives at the image, patch, and pixel levels. To fully exploit the complementarity of hierarchical knowledge within LoRAs, we introduce HL-Attn, a hierarchical fusion module that integrates multi-scale features while maintaining their distinct characteristics. SAMora is compatible with various SAM variants, including SAM2, SAMed, and H-SAM. Experimental results on the Synapse, LA, and PROMISE12 datasets demonstrate that SAMora outperforms existing SAM variants. It achieves state-of-the-art performance in both few-shot and fully supervised settings while reducing fine-tuning epochs by 90%. The code is available at https://github.com/ShChen233/SAMora.
Segment Anything Model(SAM)在医学图像分割中展现出了巨大的潜力。然而,当只有少量标记数据时,其性能受到限制,而医学数据中存在着大量有价值但被忽略的层级信息。为了解决这一限制,我们受到自我监督学习的启发,提出了SAMora,这是一个创新框架,它通过应用图像、补丁和像素级别的互补自我监督学习目标来捕获医学知识的层次结构。为了充分利用LoRAs内部层次知识的互补性,我们引入了HL-Attn,这是一个层次融合模块,能够整合多尺度特征,同时保持其独特特性。SAMora可以与各种SAM变体兼容,包括SAM2、SAMed和H-SAM。在Synapse、LA和PROMISE12数据集上的实验结果表明,SAMora优于现有的SAM变体。它在小样本和完全监督设置下达到了最先进的性能,同时减少了微调周期达90%。代码可在https://github.com/ShChen233/SAMora获取。
论文及项目相关链接
Summary
SAMora模型在医学图像分割领域展现出巨大潜力,尤其是在少量标注数据的情况下。它通过自我监督学习捕获医学知识的层次结构,并在图像、补丁和像素级别应用互补的自学目标。此外,引入HL-Attn模块实现多层次特征融合,提升性能。SAMora与多种SAM变体兼容,并在Synapse、LA和PROMISE12数据集上实现最佳性能,减少微调周期90%。
Key Takeaways
- SAMora模型在医学图像分割领域具有显著潜力。
- 在少量标注数据的情况下,SAMora通过自我监督学习提高性能。
- SAMora通过应用互补的自学目标在图像、补丁和像素级别捕获医学知识的层次结构。
- HL-Attn模块的引入实现了多层次特征融合,进一步提升性能。
- SAMora与多种SAM变体兼容。
- 在Synapse、LA和PROMISE12数据集上,SAMora实现了最佳性能。
- SAMora减少了微调周期90%。
点此查看论文截图
SENCA-st: Integrating Spatial Transcriptomics and Histopathology with Cross Attention Shared Encoder for Region Identification in Cancer Pathology
Authors:Shanaka Liyanaarachchi, Chathurya Wijethunga, Shihab Aaqil Ahamed, Akthas Absar, Ranga Rodrigo
Spatial transcriptomics is an emerging field that enables the identification of functional regions based on the spatial distribution of gene expression. Integrating this functional information present in transcriptomic data with structural data from histopathology images is an active research area with applications in identifying tumor substructures associated with cancer drug resistance. Current histopathology-spatial-transcriptomic region segmentation methods suffer due to either making spatial transcriptomics prominent by using histopathology features just to assist processing spatial transcriptomics data or using vanilla contrastive learning that make histopathology images prominent due to only promoting common features losing functional information. In both extremes, the model gets either lost in the noise of spatial transcriptomics or overly smoothed, losing essential information. Thus, we propose our novel architecture SENCA-st (Shared Encoder with Neighborhood Cross Attention) that preserves the features of both modalities. More importantly, it emphasizes regions that are structurally similar in histopathology but functionally different on spatial transcriptomics using cross-attention. We demonstrate the superior performance of our model that surpasses state-of-the-art methods in detecting tumor heterogeneity and tumor micro-environment regions, a clinically crucial aspect.
空间转录组学是一个新兴领域,它可以根据基因表达的空间分布来识别功能区域。将转录组数据中的功能信息与组织病理学图像的结构数据相结合,是一个活跃的研究领域,在识别与癌症药物抵抗相关的肿瘤亚结构方面具有应用前景。当前的组织病理学-空间转录组区域分割方法存在缺陷,要么过分强调空间转录组学,仅使用组织病理学特征辅助处理空间转录组数据;要么使用普通的对比学习,使得组织病理学图像因仅强调共同特征而失去功能信息。在这两种极端情况下,模型要么迷失在噪声的空间转录组中,要么过于平滑而失去关键信息。因此,我们提出了新颖架构SENCA-st(具有邻域交叉注意力的共享编码器),能够保留两种模式的特征。更重要的是,它利用交叉注意力强调在组织病理学结构上相似但在空间转录组学上功能不同的区域。我们展示了模型在检测肿瘤异质性和肿瘤微环境区域方面的卓越性能,这是临床上至关重要的方面,超越了最先进的方法。
论文及项目相关链接
PDF Accepted at WACV 2026
Summary
空间转录组学是一个新兴领域,能够通过基因表达的空间分布来识别功能区域。本文将空间转录组数据与组织病理学图像的结构数据相结合,提出一种新型架构SENCA-st,既保留了两种模态的特征,又强调在组织病理学上结构相似但在空间转录组学上功能不同的区域。该模型在检测肿瘤异质性和肿瘤微环境区域方面表现出卓越性能,具有临床应用潜力。
Key Takeaways
- 空间转录组学能够基于基因表达的空间分布识别功能区域。
- 结合空间转录组学与组织病理学图像具有识别肿瘤子结构与应用在抗癌药物抵抗性研究中的潜力。
- 当前的方法存在缺陷,要么过度依赖空间转录组学数据,要么过于强调组织病理学图像的共同特征而忽略功能信息。
- SENCA-st架构旨在平衡两种模态数据的特征,同时强调在组织学上结构相似但功能上不同的区域。
- 该模型利用跨注意力机制来识别空间转录组学和组织病理学图像之间的关联。
- SENCA-st模型在检测肿瘤异质性和肿瘤微环境区域方面表现出卓越性能。
点此查看论文截图
Cross-pyramid consistency regularization for semi-supervised medical image segmentation
Authors:Matus Bojko, Maros Kollar, Marek Jakab, Wanda Benesova
Semi-supervised learning (SSL) enables training of powerful models with the assumption of limited, carefully labelled data and a large amount of unlabeled data to support the learning. In this paper, we propose a hybrid consistency learning approach to effectively exploit unlabeled data for semi-supervised medical image segmentation by leveraging Cross-Pyramid Consistency Regularization (CPCR) between two decoders. First, we design a hybrid Dual Branch Pyramid Network (DBPNet), consisting of an encoder and two decoders that differ slightly, each producing a pyramid of perturbed auxiliary predictions across multiple resolution scales. Second, we present a learning strategy for this network named CPCR that combines existing consistency learning and uncertainty minimization approaches on the main output predictions of decoders with our novel regularization term. More specifically, in this term, we extend the soft-labeling setting to pyramid predictions across decoders to support knowledge distillation in deep hierarchical features. Experimental results show that DBPNet with CPCR outperforms five state-of-the-art self-supervised learning methods and has comparable performance with recent ones on a public benchmark dataset.
半监督学习(SSL)能够在有限且精心标注的数据和大量无标签数据支持的假设下,训练出强大的模型。在本文中,我们提出了一种混合一致性学习方法,通过利用两个解码器之间的跨金字塔一致性正则化(CPCR),有效地利用无标签数据进行半监督医学图像分割。首先,我们设计了一种混合双分支金字塔网络(DBPNet),它由略有不同的一个编码器和两个解码器组成,每个解码器都可以产生不同分辨率的金字塔辅助预测。其次,我们针对该网络提出了一种名为CPCR的学习策略,它将现有的一致性学习和不确定性最小化方法结合在解码器的主要输出预测上,并与我们新颖的正则化项相结合。更具体地说,在这一项中,我们将软标签设置扩展到解码器之间的金字塔预测,以支持深度层次特征中的知识蒸馏。实验结果表明,带有CPCR的DBPNet优于五种最先进的自监督学习方法,并在公共基准数据集上的性能与最新方法相当。
论文及项目相关链接
Summary
半监督学习用于训练医学图像分割模型,通过利用大量未标记数据和少量仔细标记的数据,实现更高效的模型训练。本文提出了一种混合一致性学习方法,通过利用两个解码器之间的跨金字塔一致性正则化(CPCR)来有效利用未标记数据。设计了一种混合双分支金字塔网络(DBPNet),并结合现有的一致性学习方法和不确定性最小化策略,提出了一种名为CPCR的学习策略。实验结果表明,DBPNet与CPCR相比五种最先进的自监督学习方法具有优越性,并在公共基准数据集上的性能与最新方法相当。
Key Takeaways
- 半监督学习(SSL)在医学图像分割中能够有效利用有限标记数据和大量未标记数据。
- 提出了混合一致性学习方法,通过利用跨金字塔一致性正则化(CPCR)来增强模型性能。
- 设计了混合双分支金字塔网络(DBPNet),包括一个编码器及两个轻微不同的解码器,产生多个分辨率尺度的扰动辅助预测。
- CPCR结合了现有的一致性学习策略和不确定性最小化方法,对解码器的主要输出预测进行正则化。
- 将软标签设置扩展到金字塔预测,以支持深度层次特征中的知识蒸馏。
- 实验结果表明,DBPNet与CPCR在公共基准数据集上表现出优异的性能,优于五种最先进的自监督学习方法。
- 所提方法与最新方法的性能相当。
点此查看论文截图
The Impact of Longitudinal Mammogram Alignment on Breast Cancer Risk Assessment
Authors:Solveig Thrun, Stine Hansen, Zijun Sun, Nele Blum, Suaiba A. Salahuddin, Xin Wang, Kristoffer Wickstrøm, Elisabeth Wetzer, Robert Jenssen, Maik Stille, Michael Kampffmeyer
Regular mammography screening is crucial for early breast cancer detection. By leveraging deep learning-based risk models, screening intervals can be personalized, especially for high-risk individuals. While recent methods increasingly incorporate longitudinal information from prior mammograms, accurate spatial alignment across time points remains a key challenge. Misalignment can obscure meaningful tissue changes and degrade model performance. In this study, we provide insights into various alignment strategies, image-based registration, feature-level (representation space) alignment with and without regularization, and implicit alignment methods, for their effectiveness in longitudinal deep learning-based risk modeling. Using two large-scale mammography datasets, we assess each method across key metrics, including predictive accuracy, precision, recall, and deformation field quality. Our results show that image-based registration consistently outperforms the more recently favored feature-based and implicit approaches across all metrics, enabling more accurate, temporally consistent predictions and generating smooth, anatomically plausible deformation fields. Although regularizing the deformation field improves deformation quality, it reduces the risk prediction performance of feature-level alignment. Applying image-based deformation fields within the feature space yields the best risk prediction performance. These findings underscore the importance of image-based deformation fields for spatial alignment in longitudinal risk modeling, offering improved prediction accuracy and robustness. This approach has strong potential to enhance personalized screening and enable earlier interventions for high-risk individuals. The code is available at https://github.com/sot176/Mammogram_Alignment_Study_Risk_Prediction.git, allowing full reproducibility of the results.
规律性的乳腺钼靶筛查对于早期乳腺癌的发现至关重要。通过利用基于深度学习的风险模型,可以实现个性化的筛查间隔,尤其适用于高风险个体。虽然近期的方法越来越多地融入了先前钼靶摄影的纵向信息,但时间点上准确的空间对齐仍是一个关键挑战。错位可能会掩盖有意义的组织变化,并降低模型性能。在本研究中,我们深入探讨了各种对齐策略,包括基于图像的注册、特征级(表示空间)对齐(有/无正则化)以及隐式对齐方法,它们在基于深度学习的纵向风险模型中的有效性。使用两个大规模的钼靶摄影数据集,我们根据关键指标评估了每种方法,包括预测精度、精确度、召回率和变形场质量。我们的结果表明,基于图像的注册在所有指标上始终优于最近更受欢迎的基于特征和隐式的方法,能够实现更精确、时间上一致的预测,并生成平滑、解剖上合理的变形场。虽然对变形场进行正则化提高了变形质量,但它降低了特征级对齐的风险预测性能。在特征空间内应用基于图像的变形场可以获得最佳的风险预测性能。这些发现强调了基于图像的变形场在纵向风险模型中的空间对齐的重要性,提高了预测精度和稳健性。这种方法有望提高个性化筛查,并为高风险个体更早地采取干预措施。代码可在https://github.com/sot176/Mammogram_Alignment_Study_Risk_Prediction.git上获取,以实现结果的完全可重复性。
论文及项目相关链接
Summary
该研究探讨了如何利用深度学习技术针对乳腺癌的筛查和早期检测进行个性化分析。研究通过不同的纵向图像对齐策略,如图像注册、特征级别对齐和隐式对齐方法,发现图像基础的注册方法在预测精度、时间一致性和生成平滑变形场方面表现最优。通过深度学习模型集成此策略能更准确地评估乳腺癌风险并有助于提高检测准确率。这将有助于提高个人化的筛查间隔选择以及对高危人群的早期干预能力。有关代码已在GitHub上公开可供复制和验证。
Key Takeaways
- 利用深度学习对乳腺癌风险进行个性化预测的重要性。
- 研究对不同的纵向图像对齐策略进行了比较评估,包括图像注册、特征级别对齐和隐式对齐方法。
- 图像基础的注册方法在所有评估指标上表现最优,包括预测精度、时间一致性等。
- 集成图像基础的变形场能提高风险预测性能。
- 研究强调了图像基础的变形场在纵向风险模型中的空间对齐中的重要性。
- 该研究的方法具有提高乳腺癌早期检测准确率和个性化筛查的潜力。
点此查看论文截图
Federated CLIP for Resource-Efficient Heterogeneous Medical Image Classification
Authors:Yihang Wu, Ahmad Chaddad
Despite the remarkable performance of deep models in medical imaging, they still require source data for training, which limits their potential in light of privacy concerns. Federated learning (FL), as a decentralized learning framework that trains a shared model with multiple hospitals (a.k.a., FL clients), provides a feasible solution. However, data heterogeneity and resource costs hinder the deployment of FL models, especially when using vision language models (VLM). To address these challenges, we propose a novel contrastive language-image pre-training (CLIP) based FL approach for medical image classification (FedMedCLIP). Specifically, we introduce a masked feature adaptation module (FAM) as a communication module to reduce the communication load while freezing the CLIP encoders to reduce the computational overhead. Furthermore, we propose a masked multi-layer perceptron (MLP) as a private local classifier to adapt to the client tasks. Moreover, we design an adaptive Kullback-Leibler (KL) divergence-based distillation regularization method to enable mutual learning between FAM and MLP. Finally, we incorporate model compression to transmit the FAM parameters while using ensemble predictions for classification. Extensive experiments on four publicly available medical datasets demonstrate that our model provides feasible performance (e.g., 8% higher compared to second best baseline on ISIC2019) with reasonable resource cost (e.g., 120$\times$ faster than FedAVG).
尽管深度模型在医学成像中表现出卓越的性能,但它们仍然需要源数据进行训练,这考虑到隐私问题,限制了其潜力。联邦学习(FL)作为一种分散式学习框架,可以与多家医院(即FL客户端)共同训练共享模型,为此提供了可行的解决方案。然而,数据异质性和资源成本阻碍了联邦学习模型的部署,特别是在使用视觉语言模型(VLM)时。为了应对这些挑战,我们提出了一种基于对比语言图像预训练(CLIP)的联邦学习方法,用于医学图像分类(FedMedCLIP)。具体来说,我们引入了一个掩码特征适配模块(FAM)作为通信模块,以减少通信负载,同时冻结CLIP编码器以减少计算开销。此外,我们提出了一种掩码多层感知器(MLP)作为私有本地分类器,以适应客户端任务。此外,我们设计了一种基于自适应Kullback-Leibler(KL)散度的蒸馏正则化方法,以实现FAM和MLP之间的相互学习。最后,我们结合了模型压缩来传输FAM参数,同时使用集成预测进行分类。在四个公开的医学数据集上的大量实验表明,我们的模型在性能上提供了可行的结果(例如在ISIC2019上比第二名基准高出8%),同时资源成本合理(例如比FedAVG快120倍)。
论文及项目相关链接
PDF Accepted in AAAI 2026 Main track. Code is available at https://github.com/AIPMLab/FedMedCLIP
Summary
本文介绍了在医学图像领域面临的挑战,包括数据隐私、数据异质性和资源成本问题。为解决这些问题,提出了一种基于对比语言图像预训练的联邦学习方案(FedMedCLIP),用于医学图像分类。该方法引入特征适应模块(FAM)减少通信负载并设计了一种自适应KL散度蒸馏正则化的方法,实现了在保持性能的同时降低资源成本的目标。实验证明,该方法在四个公开医学数据集上表现优异。
Key Takeaways
- 联邦学习是解决医学成像中数据隐私问题的可行解决方案。
- 数据异质性和资源成本是部署联邦学习模型的挑战。
- 提出了基于对比语言图像预训练的联邦学习方案(FedMedCLIP)用于医学图像分类。
- FedMedCLIP通过引入特征适应模块(FAM)减少通信负载并冻结CLIP编码器以降低计算开销。
- 设计了自适应KL散度蒸馏正则化的方法以实现特征适应模块(FAM)和多层感知器(MLP)之间的互学习。
- 采用了模型压缩技术以传输FAM参数并利用集成预测进行分类。
点此查看论文截图
Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging
Authors:Jarett Dewbury, Chi-en Amy Tai, Alexander Wong
Current deep learning approaches for prostate cancer lesion segmentation achieve limited performance, with Dice scores of 0.32 or lower in large patient cohorts. To address this limitation, we investigate synthetic correlated diffusion imaging (CDI$^s$) as an enhancement to standard diffusion-based protocols. We conduct a comprehensive evaluation across six state-of-the-art segmentation architectures using 200 patients with co-registered CDI$^s$, diffusion-weighted imaging (DWI) and apparent diffusion coefficient (ADC) sequences. We demonstrate that CDI$^s$ integration reliably enhances or preserves segmentation performance in 94% of evaluated configurations, with individual architectures achieving up to 72.5% statistically significant relative improvement over baseline modalities. CDI$^s$ + DWI emerges as the safest enhancement pathway, achieving significant improvements in half of evaluated architectures with zero instances of degradation. Since CDI$^s$ derives from existing DWI acquisitions without requiring additional scan time or architectural modifications, it enables immediate deployment in clinical workflows. Our results establish validated integration pathways for CDI$^s$ as a practical drop-in enhancement for PCa lesion segmentation tasks across diverse deep learning architectures.
当前深度学习在前列腺癌病灶分割方面的表现有限,在大规模患者队列中的Dice得分低于或等于0.32。为了解决这一局限性,我们研究了合成相关扩散成像(CDI$^s$)作为基于标准扩散协议的增强手段。我们使用了200位患者的数据进行全面评估,这些患者都有共注册的CDI$^s$、扩散加权成像(DWI)和表观扩散系数(ADC)序列。研究涵盖了六种最先进的分割架构。我们的结果表明,在94%的评估配置中,CDI$^s$的集成可靠地增强了或保持了分割性能,个别架构相对于基线模式实现了高达72.5%的统计显著相对改善。CDI$^s$+DWI被认为是最安全的增强途径,在评估的一半架构中都取得了显著的改进,且没有出现性能下降的情况。由于CDI$^s$源于现有的DWI采集,无需额外的扫描时间或架构修改,因此可以立即部署在临床工作流程中。我们的结果验证了CDI$^s$作为多种深度学习架构中PCa病灶分割任务的实用即时增强方法的集成途径。
论文及项目相关链接
PDF Accepted at ML4H 2025 Findings
Summary
本研究探究了合成相关扩散成像(CDI^s)对前列腺癌病灶分割的深度学习的性能提升效果。研究评估了六种最先进的分割架构,涉及200名患者的CDI^s、扩散加权成像(DWI)和表观扩散系数(ADC)序列。研究结果表明,CDI^s集成在94%的评估配置中可靠地提升了或保持了分割性能,并且在某些架构中相对于基准模态实现了高达72.5%的统计学显著相对改进。由于CDI^s源于现有的DWI采集,无需额外的扫描时间或架构修改,因此可立即部署在临床工作流程中。本研究结果为CDI^s作为实用即插即用增强功能在多种深度学习架构中的前列腺癌病灶分割任务中的集成途径提供了验证。
Key Takeaways
- 本研究评估了合成相关扩散成像(CDI^s)对前列腺癌病灶分割深度学习的性能影响。
- 在大型患者队列中,当前深度学习方法性能有限,Dice分数低于0.32。
- 通过集成CDI^s,研究发现在94%的评估配置中,分割性能有所提升或保持不变。
- 在某些架构中,与基线模态相比,CDI^s集成实现了高达72.5%的显著改善。
- CDI^s与DWI结合表现出最安全的效果,在多个架构中实现了改进,没有性能下降的情况。
- CDI^s源于现有的DWI采集,无需额外的扫描时间或复杂的架构修改,可轻松融入当前临床工作流程。
点此查看论文截图
Class Incremental Medical Image Segmentation via Prototype-Guided Calibration and Dual-Aligned Distillation
Authors:Shengqian Zhu, Chengrong Yu, Qiang Wang, Ying Song, Guangjun Li, Jiafei Wu, Xiaogang Xu, Zhang Yi, Junjie Hu
Class incremental medical image segmentation (CIMIS) aims to preserve knowledge of previously learned classes while learning new ones without relying on old-class labels. However, existing methods 1) either adopt one-size-fits-all strategies that treat all spatial regions and feature channels equally, which may hinder the preservation of accurate old knowledge, 2) or focus solely on aligning local prototypes with global ones for old classes while overlooking their local representations in new data, leading to knowledge degradation. To mitigate the above issues, we propose Prototype-Guided Calibration Distillation (PGCD) and Dual-Aligned Prototype Distillation (DAPD) for CIMIS in this paper. Specifically, PGCD exploits prototype-to-feature similarity to calibrate class-specific distillation intensity in different spatial regions, effectively reinforcing reliable old knowledge and suppressing misleading information from old classes. Complementarily, DAPD aligns the local prototypes of old classes extracted from the current model with both global prototypes and local prototypes, further enhancing segmentation performance on old categories. Comprehensive evaluations on two widely used multi-organ segmentation benchmarks demonstrate that our method outperforms state-of-the-art methods, highlighting its robustness and generalization capabilities.
类增量医学图像分割(CIMIS)旨在保留先前学习类别的知识,在学习新类别时不需要依赖旧类别的标签。然而,现有方法1)采用一刀切策略,平等对待所有空间区域和特征通道,这可能阻碍准确旧知识的保留;2)或者只关注局部原型与旧类的全局原型对齐,而忽视新数据中它们的局部表示,导致知识退化。为了缓解上述问题,本文提出了用于CIMIS的原型引导校准蒸馏(PGCD)和双对齐原型蒸馏(DAPD)。具体来说,PGCD利用原型到特征的相似性来校准不同空间区域内的类特定蒸馏强度,有效地强化了可靠的旧知识,抑制了旧类的误导信息。作为补充,DAPD将当前模型中旧类的局部原型与全局原型和局部原型对齐,进一步提高旧类别的分割性能。在两个广泛使用的多器官分割基准测试上的综合评估表明,我们的方法优于最新方法,突出了其稳健性和泛化能力。
论文及项目相关链接
Summary
本文提出了针对医学图像分割中的类增量学习问题(CIMIS)的解决方案。针对现有方法的不足,本文提出了原型引导校准蒸馏(PGCD)和双对齐原型蒸馏(DAPD)。前者利用原型与特征之间的相似性,在不同空间区域校准类特定的蒸馏强度,强化旧知识并抑制误导信息。后者则对齐旧类的局部原型,进一步提高旧类别的分割性能。经多器官分割基准测试验证,该方法优于现有技术,表现出稳健性和泛化能力。
Key Takeaways
- Class incremental medical image segmentation (CIMIS) 旨在学习新类时保留旧类的知识。
- 现有方法存在的问题:采用一刀切策略或过分关注局部原型与全局的对齐,忽视新数据中的局部表示。
- 原型引导校准蒸馏(PGCD)利用原型与特征之间的相似性,在不同空间区域校准类特定的蒸馏强度。
- 双对齐原型蒸馏(DAPD)对齐旧类的局部原型与全局原型,进一步提高旧类别的分割性能。
- 本文方法通过强化旧知识和抑制误导信息,实现对可靠旧知识的有效保留。
- 在两个广泛使用的多器官分割基准测试上,本文方法表现出优异的性能,优于当前先进技术。
点此查看论文截图
Integrating Epigenetic and Phenotypic Features for Biological Age Estimation in Cancer Patients via Multimodal Learning
Authors:Shuyue Jiang, Wenjing Ma, Shaojun Yu, Chang Su, Runze Yan, Jiaying Lu
Biological age, which may be older or younger than chronological age due to factors such as genetic predisposition, environmental exposures, serves as a meaningful biomarker of aging processes and can inform risk stratification, treatment planning, and survivorship care in cancer patients. We propose EpiCAge, a multimodal framework that integrates epigenetic and phenotypic data to improve biological age prediction. Evaluated on eight internal and four external cancer cohorts, EpiCAge consistently outperforms existing epigenetic and phenotypic age clocks. Our analyses show that EpiCAge identifies biologically relevant markers, and its derived age acceleration is significantly associated with mortality risk. These results highlight EpiCAge as a promising multimodal machine learning tool for biological age assessment in oncology.
生物年龄可能因遗传倾向、环境暴露等因素而高于或低于实际年龄。生物年龄是衰老过程的重要生物标志物,能为癌症患者的风险评估、治疗计划和生存护理提供信息。我们提出了EpiCAge,这是一个多模式框架,融合了表观遗传和表型数据,以提高生物年龄的预测能力。在八个内部和四个外部癌症队列中进行评估,EpiCAge始终优于现有的表观遗传和表型年龄时钟。我们的分析显示,EpiCAge能够识别出具有生物学意义的标记物,其衍生的年龄加速与死亡风险有显着关联。这些结果突出了EpiCAge在肿瘤生物学年龄评估中具有前景的多模式机器学习工具的地位。
论文及项目相关链接
Summary
本文提出一种名为EpiCAge的多模式框架,该框架整合表观遗传和表型数据以改进生物年龄预测。通过评估多个癌症队列,发现EpiCAge比现有的其他预测工具表现更优秀,且能够识别与生物学相关的标志物,其衍生出的年龄加速与死亡风险显著相关。这表明EpiCAge在肿瘤生物学年龄评估中具有广阔应用前景。
Key Takeaways
- 生物年龄是反映衰老过程的重要生物标志物,可应用于癌症患者的风险评估、治疗计划和生存护理。
- EpiCAge是一种多模式框架,结合了表观遗传和表型数据,旨在提高生物年龄的预测准确性。
- EpiCAge在内部和外部癌症队列中的表现均优于现有的生物年龄预测工具。
- EpiCAge能够识别生物学相关的标志物,这些标志物对于理解癌症和其他疾病的发展过程可能具有重要意义。
- EpiCAge的衍生年龄加速与死亡风险显著相关,提示其在评估患者预后和制定个性化治疗方案中的潜在应用价值。
- EpiCAge具有广泛的应用前景,可能用于肿瘤生物学、流行病学和其他相关领域。
点此查看论文截图
Ambiguity-aware Truncated Flow Matching for Ambiguous Medical Image Segmentation
Authors:Fanding Li, Xiangyu Li, Xianghe Su, Xingyu Qiu, Suyu Dong, Wei Wang, Kuanquan Wang, Gongning Luo, Shuo Li
A simultaneous enhancement of accuracy and diversity of predictions remains a challenge in ambiguous medical image segmentation (AMIS) due to the inherent trade-offs. While truncated diffusion probabilistic models (TDPMs) hold strong potential with a paradigm optimization, existing TDPMs suffer from entangled accuracy and diversity of predictions with insufficient fidelity and plausibility. To address the aforementioned challenges, we propose Ambiguity-aware Truncated Flow Matching (ATFM), which introduces a novel inference paradigm and dedicated model components. Firstly, we propose Data-Hierarchical Inference, a redefinition of AMIS-specific inference paradigm, which enhances accuracy and diversity at data-distribution and data-sample level, respectively, for an effective disentanglement. Secondly, Gaussian Truncation Representation (GTR) is introduced to enhance both fidelity of predictions and reliability of truncation distribution, by explicitly modeling it as a Gaussian distribution at $T_{\text{trunc}}$ instead of using sampling-based approximations.Thirdly, Segmentation Flow Matching (SFM) is proposed to enhance the plausibility of diverse predictions by extending semantic-aware flow transformation in Flow Matching (FM). Comprehensive evaluations on LIDC and ISIC3 datasets demonstrate that ATFM outperforms SOTA methods and simultaneously achieves a more efficient inference. ATFM improves GED and HM-IoU by up to $12%$ and $7.3%$ compared to advanced methods.
在模糊医学图像分割(AMIS)中,由于固有的权衡,预测准确性和多样性的同时提高仍然是一个挑战。虽然截断扩散概率模型(TDPM)在范式优化方面具有巨大潜力,但现有的TDPM在预测的准确性、多样性和可信度方面存在不足。为了解决上述挑战,我们提出了模糊感知截断流匹配(ATFM),它引入了一种新的推理范式和专门的模型组件。首先,我们提出了数据分层推理,这是一种针对AMIS的特定推理范式的重新定义,分别在数据分布和样本层面提高了准确性和多样性,以实现有效的解纠缠。其次,引入高斯截断表示(GTR),通过将截断分布显式建模为截断时间Tt的高斯分布,而不是使用基于采样的近似值,从而提高预测的准确性和截断分布的可信度。第三,提出了分割流匹配(SFM),通过扩展流匹配(FM)中的语义感知流变换,以提高多样预测的可信性。在LIDC和ISIC3数据集上的综合评估表明,ATFM优于最先进的方法,同时实现了更有效的推理。与高级方法相比,ATFM在GED和HM-IoU方面提高了高达12%和7.3%。
论文及项目相关链接
PDF 13 pages, 10 figures, extended version of AAAI-26 paper
Summary
该文针对具有内在矛盾的医学图像分割问题提出了挑战性问题:在分割具有不确定性的医学图像时如何同时提高预测的准确性及多样性。为了解决此挑战,引入了一种全新的推理框架和相关模型组件构建“歧义感知截断流匹配”(ATFM)。通过数据层次推理方法,提高了预测准确性和多样性;通过高斯截断表示法,提高了预测准确性和截断分布的可靠性;通过分割流匹配技术,增强了预测多样性的合理性。在LIDC和ISIC3数据集上的综合评估表明,ATFM在性能上优于现有方法,实现了更高效推理。
Key Takeaways
- 医学图像分割(AMIS)面临着提高预测准确性和多样性的挑战。现有截断扩散概率模型(TDPM)仍存在一定缺陷。
- 提出的歧义感知截断流匹配(ATFM)包含新颖推理框架和特定模型组件来解决上述问题。
- 通过数据层次推理方法增强预测准确性和多样性。
- 高斯截断表示法提高了预测准确性和截断分布的可靠性。
- 分割流匹配技术增强了预测多样性的合理性。
- 在LIDC和ISIC3数据集上的评估显示,ATFM在性能上优于现有方法,显著提高全局编辑距离和分层交并比指标。
点此查看论文截图
Beyond Plain Demos: A Demo-centric Anchoring Paradigm for In-Context Learning in Alzheimer’s Disease Detection
Authors:Puzhen Su, Haoran Yin, Yongzhu Miao, Jintao Tang, Shasha Li, Ting Wang
Detecting Alzheimer’s disease (AD) from narrative transcripts challenges large language models (LLMs): pre-training rarely covers this out-of-distribution task, and all transcript demos describe the same scene, producing highly homogeneous contexts. These factors cripple both the model’s built-in task knowledge (\textbf{task cognition}) and its ability to surface subtle, class-discriminative cues (\textbf{contextual perception}). Because cognition is fixed after pre-training, improving in-context learning (ICL) for AD detection hinges on enriching perception through better demonstration (demo) sets. We demonstrate that standard ICL quickly saturates, its demos lack diversity (context width) and fail to convey fine-grained signals (context depth), and that recent task vector (TV) approaches improve broad task adaptation by injecting TV into the LLMs’ hidden states (HSs), they are ill-suited for AD detection due to the mismatch of injection granularity, strength and position. To address these bottlenecks, we introduce \textbf{DA4ICL}, a demo-centric anchoring framework that jointly expands context width via \emph{\textbf{Diverse and Contrastive Retrieval}} (DCR) and deepens each demo’s signal via \emph{\textbf{Projected Vector Anchoring}} (PVA) at every Transformer layer. Across three AD benchmarks, DA4ICL achieves large, stable gains over both ICL and TV baselines, charting a new paradigm for fine-grained, OOD and low-resource LLM adaptation.
从叙事记录中检测阿尔茨海默病(AD)对于大型语言模型(LLM)是一大挑战:预训练很少涉及这种偏离分布的任务,所有的转录示例都描述同一场景,导致高度同质的上下文环境。这些因素不仅影响模型对内置任务知识(任务认知)的认知能力,还影响其识别细微且类别可辨识线索(上下文感知)的能力。由于认知在预训练后已固定,因此提高阿尔茨海默病检测能力的上下文学习(ICL)依赖于通过更好的演示集来丰富感知能力。我们证明标准ICL很快达到饱和状态,其演示缺乏多样性(上下文宽度)且无法传递精细信号(上下文深度),而最近的基于任务向量(TV)的方法通过向LLM的隐藏状态(HSs)注入TV改善了广泛的任务适应性,但由于注入的粒度、强度和位置的匹配问题,它们不适用于阿尔茨海默病的检测。为了克服这些瓶颈,我们引入了以演示为中心的锚定框架DA4ICL,它通过通过不同方式和对比检索来同时扩展上下文宽度和不同深度来深化每个演示信号的感知投影向量锚定法,该框架在每个Transformer层上执行这两个操作。在三个阿尔茨海默病基准测试中,DA4ICL与ICL和TV基线相比取得了稳定的大幅增长,为精细、偏离正常情境和低资源语言模型适应领域创造了新的范例。
论文及项目相关链接
PDF Accepted to the 40th Annual AAAI Conference on Artificial Intelligence (2026) - Main Technical Track (Oral)
Summary
本文探讨了利用大型语言模型(LLMs)从叙事转录本中检测阿尔茨海默病(AD)的挑战。由于预训练很少涉及此类任务,且所有转录本描述的场景相同,使得模型的内置任务知识和上下文感知能力受限。提高模型的上下文学习能力(ICL)的关键在于通过更好的演示集丰富感知能力。然而,标准ICL快速饱和,演示缺乏多样性且无法传递精细信号。尽管近期任务向量(TV)方法通过注入TV提高任务适应性,但由于注入粒度、强度和位置的差异,它们在AD检测中并不适用。为解决这些问题,本文引入了一种以演示为中心的锚定框架DA4ICL,通过多样化和对比检索扩大上下文宽度,并通过投影向量锚定技术深化每个演示的信号。在三个AD基准测试中,DA4ICL相较于ICL和TV基线实现了显著且稳定的提升,为细粒度、异常检测以及低资源LLM适应设定了新的范式。
Key Takeaways
- 大型语言模型(LLMs)在检测阿尔茨海默病(AD)的叙事转录方面面临挑战,因为预训练很少涉及此类任务,且语境高度同质化。
- 模型在任务认知和上下文感知方面存在局限,需要通过更好的演示集来丰富感知能力。
- 标准上下文学习(ICL)方法快速饱和,演示缺乏多样性和精细信号传递能力。
- 任务向量(TV)方法虽然能提高广泛任务适应性,但在阿尔茨海默病检测中因注入粒度、强度和位置的差异而不适用。
- 引入的DA4ICL框架通过多样化和对比检索扩大上下文宽度,并通过投影向量锚定技术深化每个演示的信号。
- DA4ICL在三个阿尔茨海默病基准测试中实现了相较于传统方法显著且稳定的提升。
点此查看论文截图
Dutch Metaphor Extraction from Cancer Patients’ Interviews and Forum Data using LLMs and Human in the Loop
Authors:Lifeng Han, David Lindevelt, Sander Puts, Erik van Mulligen, Suzan Verberne
Metaphors and metaphorical language (MLs) play an important role in healthcare communication between clinicians, patients, and patients’ family members. In this work, we focus on Dutch language data from cancer patients. We extract metaphors used by patients using two data sources: (1) cancer patient storytelling interview data and (2) online forum data, including patients’ posts, comments, and questions to professionals. We investigate how current state-of-the-art large language models (LLMs) perform on this task by exploring different prompting strategies such as chain of thought reasoning, few-shot learning, and self-prompting. With a human-in-the-loop setup, we verify the extracted metaphors and compile the outputs into a corpus named HealthQuote.NL. We believe the extracted metaphors can support better patient care, for example shared decision making, improved communication between patients and clinicians, and enhanced patient health literacy. They can also inform the design of personalized care pathways. We share prompts and related resources at https://github.com/aaronlifenghan/HealthQuote.NL
隐喻和隐喻语言(MLs)在医生、患者和患者家庭成员之间的医疗卫生沟通中发挥着重要作用。在这项工作中,我们重点关注来自癌症患者的荷兰语数据。我们通过两个数据源提取患者使用的隐喻:(1)癌症患者讲故事访谈数据;(2)在线论坛数据,包括患者的帖子、评论和向专业人士提出的问题。我们通过探索不同的提示策略,如思维链推理、小样本学习和自我提示,来研究当前最先进的大型语言模型(LLMs)在此任务上的表现。通过人工循环设置,我们验证了提取的隐喻,并将输出编译成名为HealthQuote.NL的语料库。我们相信提取的隐喻可以改善患者护理,例如支持共同决策、改善患者与临床医生之间的沟通以及提高患者的健康素养。它们还可以为个性化护理路径的设计提供信息。我们在https://github.com/aaronlifenghan/HealthQuote.NL分享提示和相关资源。
论文及项目相关链接
PDF Ongoing project report, on behalf of 4D PICTURE https://4dpicture.eu/
Summary
从这段文本中可以看出,研究人员在荷兰语数据中研究隐喻及其语言(MLs)在医患及家庭成员之间的沟通重要性。通过采用癌症患者的两种数据源:病人讲述故事的面谈数据以及在线论坛数据(包括患者帖子、评论和问题),研究人员探讨了当前最先进的自然语言模型在处理隐喻提取任务时的表现。他们验证并编译了提取出的隐喻,并创建了一个名为HealthQuote.NL的语料库。提取出的隐喻有望支持更好的病人护理,如决策共享、改善医患沟通以及提高患者健康素养等。同时,它们还可以为个性化护理路径的设计提供信息。
Key Takeaways
- 隐喻和隐喻性语言在医疗保健沟通中扮演重要角色,特别是在医患及家庭成员之间。
- 研究人员采用荷兰语数据来探讨自然语言模型在处理隐喻提取任务时的表现。
- 研究使用两种数据源提取癌症患者的隐喻:面谈数据和在线论坛数据。
- 探讨了多种语言模型提示策略,如链式思维推理、少样本学习和自我提示。
- 人类参与验证和编译提取出的隐喻,创建了一个名为HealthQuote.NL的语料库。
- 提取出的隐喻能够支持更好的病人护理,如共享决策、改善沟通和提高患者健康素养等。
点此查看论文截图
A Mixture-of-Experts Framework with Log-Logistic Components for Survival Analysis on Histopathology Images
Authors:Ardhendu Sekhar, Vasu Soni, Keshav Aske, Shivam Madnoorkar, Pranav Jeevan, Amit Sethi
We propose a modular framework for predicting cancer specific survival from whole slide pathology images (WSIs). The method integrates four components: (i) Quantile Gated Patch Selection via quantile based thresholding to isolate prognostically informative tissue regions; (ii) Graph Guided Clustering using a k nearest neighbor graph to capture phenotype level heterogeneity through spatial and morphological coherence; (iii) Hierarchical Context Attention to learn intra and inter cluster interactions; and (iv) an Expert Driven Mixture of Log logistics framework to estimate complex survival distributions using Log logistics distributions. The model attains a concordance index of 0.644 on TCGA LUAD, 0.751 on TCGA KIRC, and 0.752 on TCGA BRCA respectively, outperforming existing state of the art approaches.
我们提出一种模块化框架,用于从全病理切片图像(WSI)预测癌症特异性生存。该方法融合了四个组件:(i)基于分位数阈值的Quantile Gated Patch Selection,用于隔离预后信息丰富的组织区域;(ii)使用k近邻图的Graph Guided Clustering,通过空间形态一致性捕捉表型水平异质性;(iii)层次上下文注意力(Hierarchical Context Attention),学习集群内部和外部的交互作用;(iv)专家驱动的混合对数逻辑框架(Expert Driven Mixture of Log logistics framework),利用对数逻辑分布估计复杂的生存分布。该模型在TCGA LUAD上达到0.644的契合指数,在TCGA KIRC上达到0.751,在TCGA BRCA上达到0.752,超过了现有先进技术方法的性能。
论文及项目相关链接
Summary
本文提出了一种基于模块化框架的预测癌症特异性生存的方法,该方法利用全幻灯片病理图像(WSIs),整合了四项技术:定量门控补丁选择、图引导聚类、层次上下文注意力和专家驱动的混合逻辑回归框架。该模型在TCGA肺癌、肾癌和乳腺癌数据集上取得了较高的预测一致性指数,优于现有技术。
Key Takeaways
- 提出了一种模块化框架用于预测癌症特异性生存。
- 利用全幻灯片病理图像(WSIs)进行分析。
- 整合了四项技术:定量门控补丁选择、图引导聚类、层次上下文注意力和专家驱动的混合逻辑回归框架。
- 模型在TCGA肺癌、肾癌和乳腺癌数据集上获得较高预测一致性指数。
- 方法能够捕捉预后信息中的组织区域、现象型水平的异质性以及簇内和簇间的交互作用。
点此查看论文截图
Explicit Knowledge-Guided In-Context Learning for Early Detection of Alzheimer’s Disease
Authors:Puzhen Su, Yongzhu Miao, Chunxi Guo, Jintao Tang, Shasha Li, Ting Wang
Detecting Alzheimer’s Disease (AD) from narrative transcripts remains a challenging task for large language models (LLMs), particularly under out-of-distribution (OOD) and data-scarce conditions. While in-context learning (ICL) provides a parameter-efficient alternative to fine-tuning, existing ICL approaches often suffer from task recognition failure, suboptimal demonstration selection, and misalignment between label words and task objectives, issues that are amplified in clinical domains like AD detection. We propose Explicit Knowledge In-Context Learners (EK-ICL), a novel framework that integrates structured explicit knowledge to enhance reasoning stability and task alignment in ICL. EK-ICL incorporates three knowledge components: confidence scores derived from small language models (SLMs) to ground predictions in task-relevant patterns, parsing feature scores to capture structural differences and improve demo selection, and label word replacement to resolve semantic misalignment with LLM priors. In addition, EK-ICL employs a parsing-based retrieval strategy and ensemble prediction to mitigate the effects of semantic homogeneity in AD transcripts. Extensive experiments across three AD datasets demonstrate that EK-ICL significantly outperforms state-of-the-art fine-tuning and ICL baselines. Further analysis reveals that ICL performance in AD detection is highly sensitive to the alignment of label semantics and task-specific context, underscoring the importance of explicit knowledge in clinical reasoning under low-resource conditions.
从叙事文本中检测阿尔茨海默病(AD)对于大型语言模型(LLM)来说仍然是一项具有挑战性的任务,特别是在超出分布范围(OOD)和缺乏数据的情况下。虽然上下文学习(ICL)为微调提供了一种参数效率高的替代方案,但现有的ICL方法往往存在任务识别失败、演示选择不佳以及标签词与任务目标之间的不匹配等问题,这些问题在阿尔茨海默病检测等临床领域尤为突出。我们提出了显式知识上下文学习者(EK-ICL),这是一个集成结构化显式知识以增强上下文学习中的推理稳定性和任务对齐的新型框架。EK-ICL结合了三种知识成分:从小型语言模型(SLM)派生的置信度分数,以将预测与任务相关模式相结合;解析特征分数,以捕捉结构差异并改进演示选择;标签词替换,以解决与LLM先验知识的语义不匹配问题。此外,EK-ICL采用基于解析的检索策略和集成预测,以缓解阿尔茨海默病转录中的语义一致性对预测结果的干扰。在三个阿尔茨海默症数据集上的大量实验表明,EK-ICL显著优于最新的微调及ICL基线方法。进一步的分析表明,阿尔茨海默症检测中ICL的性能高度依赖于标签语义和任务特定上下文的匹配度,这凸显了在资源有限的条件下临床推理中显式知识的重要性。
论文及项目相关链接
PDF This paper was accepted by IEEE BIBM 2025 conference
Summary
基于文本描述,提出一种名为EK-ICL的新框架,该框架结合结构化明确知识,以提高上下文学习中的推理稳定性与任务对齐。通过引入小语言模型的置信度评分、解析特征评分和标签词替换三个知识组件来解决任务识别失败、示范选择不佳和标签词与任务目标间的对齐问题。并通过解析式检索策略和集成预测缓解AD转录本的语义同质性问题。在三个AD数据集上的广泛实验表明,EK-ICL显著优于先进的微调与上下文学习基线。分析表明,AD检测中的上下文学习性能高度依赖于标签语义与任务特定上下文的对齐,突显在低资源条件下临床推理中明确知识的重要性。
Key Takeaways
- 检测阿尔茨海默病(AD)从叙事转录对于大型语言模型(LLM)来说是一项挑战,特别是在分布外(OOD)和数据稀缺的条件下。
- 现有上下文学习(ICL)方法经常面临任务识别失败、示范选择不佳和标签词与任务目标间对齐问题。
- EK-ICL框架结合了结构化明确知识来提高推理稳定性和任务对齐。包括小语言模型的置信度评分、解析特征评分和标签词替换三个知识组件。
- EK-ICL使用解析式检索策略和集成预测来缓解AD转录本的语义同质性问题。
- 在三个AD数据集上的实验表明,EK-ICL显著优于其他方法。
- ICL在AD检测中的性能高度依赖于标签语义与任务特定上下文的对齐。
点此查看论文截图
NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling
Authors:Muhammad Usama, Mohammad Sadil Khan, Didier Stricker, Muhammad Zeshan Afzal
Generating editable 3D CAD models from natural language remains challenging, as existing text-to-CAD systems either produce meshes or rely on scarce design-history data. We present NURBGen, the first framework to generate high-fidelity 3D CAD models directly from text using Non-Uniform Rational B-Splines (NURBS). To achieve this, we fine-tune a large language model (LLM) to translate free-form texts into JSON representations containing NURBS surface parameters (\textit{i.e}, control points, knot vectors, degrees, and rational weights) which can be directly converted into BRep format using Python. We further propose a hybrid representation that combines untrimmed NURBS with analytic primitives to handle trimmed surfaces and degenerate regions more robustly, while reducing token complexity. Additionally, we introduce partABC, a curated subset of the ABC dataset consisting of individual CAD components, annotated with detailed captions using an automated annotation pipeline. NURBGen demonstrates strong performance on diverse prompts, surpassing prior methods in geometric fidelity and dimensional accuracy, as confirmed by expert evaluations. Code and dataset will be released publicly.
从自然语言生成可编辑的3D CAD模型仍然是一项挑战,因为现有的文本到CAD系统要么产生网格,要么依赖于稀缺的设计历史数据。我们推出了NURBGen,这是一个使用非均匀有理B样条(NURBS)直接从文本生成高保真3D CAD模型的首个框架。为了实现这一点,我们对大型语言模型(LLM)进行了微调,以将自由形式的文本翻译成包含NURBS曲面参数的JSON表示(即控制点、结向量、度数和有理权重),然后可以直接使用Python将其转换为BRep格式。我们进一步提出了一种混合表示法,它将未修剪的NURBS与解析原始语相结合,以更稳健地处理修剪表面和退化区域,同时降低令牌复杂度。此外,我们还推出了partABC,这是ABC数据集的一个精选子集,由单个CAD组件组成,并使用自动化注释管道进行了详细的标题注释。NURBGen在不同提示下表现出强大的性能,在几何保真度和尺寸准确性方面超过了先前的方法,这得到了专家评估的证实。代码和数据集将公开发布。
论文及项目相关链接
PDF Accepted in AAAI 2026
摘要
基于非均匀有理B样条(NURBS)技术,我们提出了一种全新的框架NURBGen,它能直接从文本生成高质量的三维CAD模型。通过微调大型语言模型(LLM),将自由形式的文本转换为包含NURBS曲面参数的JSON表示形式,进而通过Python直接转换为BRep格式。我们还提出了一种混合表示法,结合了未修剪的NURBS和解析基本体,以更稳健地处理修剪曲面和退化区域,同时降低标记复杂性。此外,我们引入了包含CAD组件的partABC数据集子集,采用自动化注释管道对其实施详细的注释。在多种提示上表现出色,几何保真度和尺寸精度均优于现有方法,专家评估结果证实了这一点。代码和数据集将公开发布。
关键见解
- 提出了一种基于非均匀有理B样条(NURBGen)技术的全新框架,直接从文本生成高质量的三维CAD模型。
- 通过微调大型语言模型(LLM)实现文本到CAD模型的转换。
- 利用JSON表示形式来存储NURBS曲面参数,并通过Python转换为BRep格式。
- 提出了一种混合表示法,结合了未修剪的NURBS和解析基本体,提高了处理复杂曲面的能力。
- 引入了包含详细注释的CAD组件数据集partABC。
- NURBGen在多种应用场景下表现出强大的性能,得到专家的肯定评价。
- 代码和数据集将公开发布,便于其他研究者使用与进一步开发。
点此查看论文截图
Distributed Deep Learning for Medical Image Denoising with Data Obfuscation
Authors:Sulaimon Oyeniyi Adebayo, Ayaz H. Khan
Medical image denoising is essential for improving image quality while minimizing the exposure of sensitive information, particularly when working with large-scale clinical datasets. This study explores distributed deep learning for denoising chest X-ray images from the NIH Chest X-ray14 dataset, using additive Gaussian noise as a lightweight obfuscation technique. We implement and evaluate U-Net and U-Net++ architectures under single-GPU, standard multi-GPU (DataParallel), and optimized multi-GPU training configurations using PyTorch’s DistributedDataParallel (DDP) and Automatic Mixed Precision (AMP). Our results show that U-Net++ consistently delivers superior denoising performance, achieving competitive Peak Signal to Noise Ratio (PSNR) and Structured Similarity Index Method (SSIM) scores, though with less performance in Learned Perceptual Image Patch Similarity (LPIPS) compared to U-Net under low and moderate noise levels. This indicates U-Net++’s enhanced structural fidelity and low perceptual similarity. Meanwhile, our optimized training pipeline reduces training time by over 60% for both models compared to single-GPU training, and outperforms standard DataParallel by over 40%, with only a minor accuracy drop for both models (trading some accuracy for speed). These findings highlight the effectiveness of software-level optimization in distributed learning for medical imaging. This work demonstrates the practical viability of combining architectural design, lightweight obfuscation, and advanced distributed training strategies to accelerate and enhance medical image processing pipelines in real-world clinical and research environments. The full implementation is publicly available at: https://github.com/Suadey/medical-image-denoising-ddp.
医学图像去噪对于提高图像质量并最小化敏感信息的暴露至关重要,特别是在处理大规模临床数据集时。本研究探索了分布式深度学习在NIH Chest X-ray14数据集胸部X射线图像去噪方面的应用,采用高斯噪声作为轻量级模糊技术。我们在单个GPU、标准多GPU(DataParallel)和优化多GPU训练配置下实现了U-Net和U-Net++架构,使用PyTorch的DistributedDataParallel(DDP)和自动混合精度(AMP)。我们的结果表明,U-Net++在去噪性能方面始终表现更优,在峰值信噪比(PSNR)和结构相似性指数方法(SSIM)方面取得了有竞争力的成绩,但在低噪声和中噪声水平下,其在学习的感知图像块相似性(LPIPS)方面的表现略逊于U-Net。这表明U-Net++具有更高的结构保真度和较低的感知相似性。同时,我们的优化训练管道将两个模型相对于单个GPU训练的时间缩短了超过60%,并且相较于标准的DataParallel提高了超过40%,同时两个模型的精度略有下降(以牺牲一些准确性换取速度)。这些发现突显了软件级优化在医学成像分布式学习中的有效性。这项工作证明了结合架构设计、轻量级模糊技术和先进的分布式训练策略,可以加速和改进真实临床和研究环境中的医学图像处理流程的实际可行性。完整的实现可公开访问:https://github.com/Suadey/medical-image-denoising-ddp。
论文及项目相关链接
Summary
本研究探讨了基于分布式深度学习的医学图像去噪技术,特别是针对胸部X射线图像的应用。研究采用了NIH Chest X-ray14数据集,使用添加高斯噪声作为轻量级混淆技术。研究实现了U-Net和U-Net++架构,并在单GPU、标准多GPU和优化多GPU训练配置下进行了评估。结果显示,U-Net++在去噪性能上表现更优秀,在峰值信噪比(PSNR)和结构相似性指数方法(SSIM)方面表现出竞争力,但在低噪声和中噪声水平下感知图像块相似性(LPIPS)方面的表现略逊于U-Net。这表明U-Net++具有更高的结构保真度和较低的感知相似性。同时,优化训练管道将两个模型的训练时间减少了60%以上,与单GPU训练相比提高了性能,并优于标准DataParallel训练,但以轻微的性能下降为代价。该研究展示了结合架构设计、轻量级混淆和高级分布式训练策略在实际临床和研究环境中加速和改进医学图像处理流程的实用性。
Key Takeaways
- 研究探索了分布式深度学习在医学图像去噪中的应用,特别是针对胸部X射线图像。
- 使用NIH Chest X-ray14数据集和添加高斯噪声作为轻量级混淆技术。
- U-Net++在去噪性能上表现优异,尤其在PSNR和SSIM方面。
- 在低噪声和中噪声水平下,U-Net++表现出较高的结构保真度和较低的感知相似性。
- 优化训练管道显著减少了训练时间,提高了性能。
- 优化训练在分布式学习中软件级优化的有效性。
点此查看论文截图
A Dual-Mode ViT-Conditioned Diffusion Framework with an Adaptive Conditioning Bridge for Breast Cancer Segmentation
Authors:Prateek Singh, Moumita Dholey, P. K. Vinod
In breast ultrasound images, precise lesion segmentation is essential for early diagnosis; however, low contrast, speckle noise, and unclear boundaries make this difficult. Even though deep learning models have demonstrated potential, standard convolutional architectures frequently fall short in capturing enough global context, resulting in segmentations that are anatomically inconsistent. To overcome these drawbacks, we suggest a flexible, conditional Denoising Diffusion Model that combines an enhanced UNet-based generative decoder with a Vision Transformer (ViT) encoder for global feature extraction. We introduce three primary innovations: 1) an Adaptive Conditioning Bridge (ACB) for efficient, multi-scale fusion of semantic features; 2) a novel Topological Denoising Consistency (TDC) loss component that regularizes training by penalizing structural inconsistencies during denoising; and 3) a dual-head architecture that leverages the denoising objective as a powerful regularizer, enabling a lightweight auxiliary head to perform rapid and accurate inference on smaller datasets and a noise prediction head. Our framework establishes a new state-of-the-art on public breast ultrasound datasets, achieving Dice scores of 0.96 on BUSI, 0.90 on BrEaST and 0.97 on BUS-UCLM. Comprehensive ablation studies empirically validate that the model components are critical for achieving these results and for producing segmentations that are not only accurate but also anatomically plausible.
在乳腺超声图像中,精确的病变分割对于早期诊断至关重要。然而,由于对比度低、斑点噪声和边界不清等问题,这一任务变得困难。尽管深度学习模型已经显示出潜力,但标准的卷积架构通常难以捕获足够的全局上下文信息,导致分割结果解剖上不连贯。为了克服这些缺点,我们提出了一种灵活的、有条件的去噪扩散模型,该模型结合了基于增强型UNet的生成解码器和Vision Transformer(ViT)编码器进行全局特征提取。我们引入了三个主要创新点:1)自适应条件桥(ACB)实现语义特征的高效多尺度融合;2)一种新的拓扑去噪一致性(TDC)损失组件,通过惩罚去噪过程中的结构不一致性来规范训练;3)双头架构利用去噪目标作为强大的正则化器,使轻量级辅助头能够在较小数据集上执行快速而准确的推理,以及一个噪声预测头。我们的框架在公共乳腺超声数据集上达到了最新水平,在BUSI上实现了0.96的Dice得分,在BrEaST上实现了0.90的Dice得分,以及在BUS-UCLM上实现了0.97的Dice得分。综合消融研究经验性地验证了模型组件对于实现这些结果和产生既准确又解剖上合理分割的关键作用。
论文及项目相关链接
PDF 5 pages, 2 figures, 3 tables, submitted to ISBI 2026
Summary
针对乳腺超声图像中的病灶分割难题,如低对比度、斑点噪声和边界不清等问题,提出一种结合增强型UNet生成解码器与Vision Transformer(ViT)编码器的灵活条件去噪扩散模型。模型引入三项创新技术,包括自适应条件桥(ACB)、拓扑去噪一致性(TDC)损失组件和双头架构,实现高效多尺度语义特征融合、结构不一致性的训练惩罚以及快速准确的小数据集推理。在公共乳腺超声数据集上取得最新成果,Dice得分达到领先水平。
Key Takeaways
- 乳腺超声图像中的病灶分割对于早期诊断至关重要,但存在低对比度、斑点噪声和边界不清等挑战。
- 深度学习模型在乳腺超声图像病灶分割中具有潜力,但标准卷积架构通常无法捕获足够的全局上下文信息。
- 提出的灵活条件去噪扩散模型结合了增强型UNet生成解码器和Vision Transformer(ViT)编码器,以提高分割精度和效率。
- 模型引入三项创新技术:自适应条件桥(ACB)、拓扑去噪一致性(TDC)损失组件和双头架构。
- ACB实现多尺度语义特征融合,提高分割效率。
- TDC损失组件通过惩罚结构不一致性来正则化训练,提高模型的稳定性和泛化能力。
- 双头架构利用去噪目标作为强大正则化器,允许在小型数据集上进行快速准确的推理。
- 该模型在公共乳腺超声数据集上取得了最先进的成果,Dice得分领先。
点此查看论文截图
DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities
Authors:Nagur Shareef Shaik, Teja Krishna Cherukuri, Adnan Masood, Dong Hye Ye
The integration of medical images with clinical context is essential for generating accurate and clinically interpretable radiology reports. However, current automated methods often rely on resource-heavy Large Language Models (LLMs) or static knowledge graphs and struggle with two fundamental challenges in real-world clinical data: (1) missing modalities, such as incomplete clinical context , and (2) feature entanglement, where mixed modality-specific and shared information leads to suboptimal fusion and clinically unfaithful hallucinated findings. To address these challenges, we propose the DiA-gnostic VLVAE, which achieves robust radiology reporting through Disentangled Alignment. Our framework is designed to be resilient to missing modalities by disentangling shared and modality-specific features using a Mixture-of-Experts (MoE) based Vision-Language Variational Autoencoder (VLVAE). A constrained optimization objective enforces orthogonality and alignment between these latent representations to prevent suboptimal fusion. A compact LLaMA-X decoder then uses these disentangled representations to generate reports efficiently. On the IU X-Ray and MIMIC-CXR datasets, DiA has achieved competetive BLEU@4 scores of 0.266 and 0.134, respectively. Experimental results show that the proposed method significantly outperforms state-of-the-art models.
将医学图像与临床背景相结合对于生成准确且可临床解读的放射学报告至关重要。然而,当前的自动化方法常常依赖于资源密集的大型语言模型(LLMs)或静态知识图谱,并在真实世界临床数据面临两个基本挑战:(1)缺失模态,例如不完整的临床背景;(2)特征纠缠,其中混合的模态特定和共享信息导致次优融合和临床上不真实的幻想发现。为了解决这些挑战,我们提出了诊断式VLVAEModel(DiA-gnostic VLVAE),它通过解纠缠对齐实现了稳健的放射学报告生成。我们的框架旨在通过专家混合(MoE)的视语言变分自动编码器(Vision-Language Variational Autoencoder,VLAVAE)来解纠缠共享和模态特定特征,从而对缺失的模态具有韧性。约束优化目标强制执行这些潜在表示之间的正交性和对齐,以防止次优融合。然后,一个紧凑的LLaMA-X解码器使用这些解纠缠的表示有效地生成报告。在IU X光片和MIMIC-CXR数据集上,DiA取得了具有竞争力的BLEU@4得分分别为0.266和0.134。实验结果表明,所提出的方法显著优于现有先进技术模型。
论文及项目相关链接
PDF Accepted for Oral Presentation at the 40th AAAI Conference on Artificial Intelligence (AAAI-26), Main Technical Track
Summary
本文强调医学图像与临床背景的融合对生成准确且可解释的放射学报告的重要性。针对现有自动化方法面临如缺失模态和特征纠缠等挑战,提出了DiA-gnostic VLVAE框架,通过解纠缠对齐实现稳健的放射学报告生成。该框架采用基于MoE的Vision-Language Variational Autoencoder (VLVAE)来分离共享和模态特定特征,并通过约束优化目标实现这些潜在表示之间的正交性和对齐,从而防止次优融合。使用LLaMA-X解码器生成报告。在IU X-Ray和MIMIC-CXR数据集上的实验结果表明,该方法显著优于现有模型。
Key Takeaways
- 医学图像与临床背景的整合对生成准确且可解释的放射学报告至关重要。
- 当前自动化方法面临缺失模态和特征纠缠的挑战。
- DiA-gnostic VLVAE框架通过解纠缠对齐解决这些问题,实现稳健的放射学报告生成。
- 该框架采用MoE的Vision-Language Variational Autoencoder (VLVAE)分离共享和模态特定特征。
- 通过约束优化目标实现潜在表示之间的正交性和对齐,防止次优融合。
- 使用LLaMA-X解码器高效生成报告。