⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-19 更新
JEDA: Query-Free Clinical Order Search from Ambient Dialogues
Authors:Praphul Singh, Corey Barrett, Sumana Srivasta, Amitabh Saikia, Irfan Bulu, Sri Gadde, Krishnaram Kenthapadi
Clinical conversations mix explicit directives (order a chest X-ray) with implicit reasoning (the cough worsened overnight, we should check for pneumonia). Many systems rely on LLM rewriting, adding latency, instability, and opacity that hinder real-time ordering. We present JEDA (Joint Embedding for Direct and Ambient clinical orders), a domain-initialized bi-encoder that retrieves canonical orders directly and, in a query-free mode, encodes a short rolling window of ambient dialogue to trigger retrieval. Initialized from PubMedBERT and fine-tuned with a duplicate-safe contrastive objective, JEDA aligns heterogeneous expressions of intent to shared order concepts. Training uses constrained LLM guidance to tie each signed order to complementary formulations (command only, context only, command+context, context+reasoning), producing clearer inter-order separation, tighter query extendash order coupling, and stronger generalization. The query-free mode is noise-resilient, reducing sensitivity to disfluencies and ASR errors by conditioning on a short window rather than a single utterance. Deployed in practice, JEDA yields large gains and substantially outperforms its base encoder and recent open embedders (Linq Embed Mistral, SFR Embedding, GTE Qwen, BGE large, Embedding Gemma). The result is a fast, interpretable, LLM-free retrieval layer that links ambient context to actionable clinical orders in real time.
临床对话中融合了明确的指示(如进行胸部X光检查)与隐含的推理(夜间咳嗽加重,我们应该检查是否患肺炎)。许多系统依赖于大型语言模型(LLM)进行重写,增加了延迟、不稳定和透明度降低,从而阻碍了实时排序。我们提出了JEDA(用于直接和周围环境临床订单的联合嵌入),这是一种域初始化双编码器,它可以直接检索规范订单,并在无查询模式下,将周围对话的简短滚动窗口进行编码,以触发检索。JEDA通过PubMedBERT进行初始化,并使用具有防重复对比目标的方法进行微调,将意图的异质表达与共享订单概念对齐。训练过程中采用受限制的大型语言模型指导,将每个已签署的订单与补充配方(仅命令、仅上下文、命令+上下文、上下文+推理)相关联,从而产生更清晰的订单间分离、更紧密的查询扩展订单耦合以及更强的泛化能力。无查询模式是噪声耐用的,通过基于简短窗口而不是单个话语进行条件设置,减少了对口误和语音识别错误的敏感性。在实践中部署JEDA取得了巨大的收益,并显著优于其基础编码器以及最近的开放嵌入器(Linq Embed Mistral、SFR Embedding、GTE Qwen、BGE large、Embedding Gemma)。结果是一个快速、可解释、无需大型语言模型的检索层,能够实时将周围环境上下文与可操作的临床订单联系起来。
论文及项目相关链接
Summary
本文介绍了临床对话中指令与推理的混合特点,以及现有系统依赖大型语言模型(LLM)带来的延迟、不稳定和透明度问题。为此,提出了一种名为JEDA的联合嵌入方法,用于直接和间接临床订单。JEDA通过PubMedBERT初始化并微调,使用安全的对比目标对齐不同意图表达,训练使用受约束的LLM指导来绑定每种已签订单和补充制剂,以提高清晰度和泛化能力。在实践中部署JEDA取得了显著成效,明显优于基础编码器和最新开放嵌入器。结果是一个快速、可解释、无需大型语言模型的检索层,实时地将上下文背景与可操作的临床订单相关联。
Key Takeaways
- 临床对话包含明确指令和隐含推理。
- 传统系统依赖大型语言模型(LLM),导致延迟、不稳定和透明度问题。
- JEDA是一种双编码器方法,用于直接和间接临床订单检索。
- JEDA使用PubMedBERT初始化,通过微调与对比目标对齐不同意图表达。
- JEDA训练中使用受约束的LLM指导,以提高订单清晰度和泛化能力。
- JEDA具有查询自由模式,对噪音和自动语音识别(ASR)错误具有抗性。
- JEDA在实践中表现优异,明显优于其他编码器和开放嵌入器。
点此查看论文截图






DiffLoc: Diffusion Model-Based High-Precision Positioning for 6G Networks
Authors:Taekyun Lee, Tommaso Balercia, Heasung Kim, Hyeji Kim, Jeffrey G. Andrews
This paper introduces a novel framework for high-accuracy outdoor user equipment (UE) positioning that applies a conditional generative diffusion model directly to high-dimensional massive MIMO channel state information (CSI). Traditional fingerprinting methods struggle to scale to large, dynamic outdoor environments and require dense, impractical data surveys. To overcome these limitations, our approach learns a direct mapping from raw uplink Sounding Reference Signal (SRS) fingerprints to continuous geographic coordinates. We demonstrate that our DiffLoc framework achieves unprecedented sub-centimeter precision, with our best model (DiffLoc-CT) delivering 0.5 cm fusion accuracy and 1-2 cm single base station (BS) accuracy in a realistic, ray-traced Tokyo urban macro-cell environment. This represents an order-of-magnitude improvement over existing methods, including supervised regression approaches (over 10 m error) and grid-based fusion (3 m error). Our consistency training approach reduces inference time from 200 steps to just 2 steps while maintaining exceptional accuracy even for high-speed users (15-25 m/s) and unseen user trajectories, demonstrating the practical feasibility of our framework for real-time 6G applications.
本文介绍了一种用于高精度户外用户设备(UE)定位的新型框架,该框架直接将条件生成扩散模型应用于高维大规模MIMO信道状态信息(CSI)。传统的指纹方法难以扩展到大型、动态的室外环境,并且需要密集、不切实际的数据调查。为了克服这些局限性,我们的方法学习从原始上行链路探测参考信号(SRS)指纹到连续地理坐标的直接映射。我们证明,我们的DiffLoc框架实现了前所未有的亚厘米级精度,其中最佳模型(DiffLoc-CT)在现实的、通过射线追踪的东京城市宏小区环境中实现了0.5厘米的融合精度和1-2厘米的单基站(BS)精度。这代表了相对于现有方法的数量级改进,包括监督回归方法(误差超过10米)和网格融合方法(误差为3米)。我们的一致性训练方法将推理时间从200步减少到仅两步,同时即使在高速用户(速度为每秒速度15~25米)和未见过的用户轨迹情况下也保持了出色的准确性,这证明了我们的框架在实际实时应用中的可行性。这对于未来的实时应用非常有利,特别是在未来的无线通信领域,如物联网和自动驾驶汽车等领域。
论文及项目相关链接
Summary
本文介绍了一种基于条件生成扩散模型的新型高精度户外用户设备(UE)定位框架,该框架直接应用于高维大规模MIMO信道状态信息(CSI)。传统的指纹方法难以扩展到大型动态户外环境,且需要密集、不切实际的数据调查。而本文提出的DiffLoc框架可以实现从原始上行链路探测参考信号(SRS)指纹到连续地理坐标的直接映射,实现前所未有的亚厘米级精度。在现实的东京城市宏观环境中,最佳模型DiffLoc-CT实现了0.5厘米的融合精度和1-2厘米的单基站精度,比现有方法(包括监督回归方法和网格融合方法)的误差提高了数个数量级。此外,本文的一致性训练方法将推理时间从200步减少到仅2步,即使在用户高速移动(15-25 m/s)和未见用户轨迹的情况下也能保持出色的准确性,证明了该框架在实时6G应用中的实际可行性。
Key Takeaways
- 论文提出了一种新型的高精度户外用户设备定位框架DiffLoc,基于条件生成扩散模型处理高维大规模MIMO信道状态信息。
- 传统指纹方法面临大型动态环境挑战,而DiffLoc能实现从SRS指纹到地理坐标的直接映射。
- DiffLoc框架实现了前所未有的亚厘米级定位精度,在东京城市宏观环境下表现优异。
- 与现有方法相比,DiffLoc的精度显著提高,包括监督回归和网格融合方法。
- 一致性训练方法显著减少了推理时间,提高了框架的实际应用效率。
- DiffLoc框架适用于高速移动用户和未见轨迹的情况。
点此查看论文截图





Large Language Model Agents Enable Autonomous Design and Image Analysis of Microwell Microfluidics
Authors:Dinh-Nguyen Nguyen, Sadia Shakil, Raymond Kai-Yu Tong, Ngoc-Duy Dinh
Microwell microfluidics has been utilized for single-cell analysis to reveal heterogeneity in gene expression, signaling pathways, and phenotypic responses for identifying rare cell types, understanding disease progression, and developing more precise therapeutic strategies. However, designing microwell microfluidics is a considerably complex task, requiring knowledge, experience, and CAD software, as well as manual intervention, which often fails initial designs, demanding multiple costly and time-consuming iterations. In this study, we establish an autonomous large language model (LLM)-driven microwell design framework to generate code-based computer-aided design (CAD) scripts, that enables the rapid and reproducible creation of microwells with diverse geometries and imaging-based analysis. We propose a multimodal large language model (MLLM)-logistic regression framework based on integrating high-level semantic descriptions generated by MLLMs with image embeddings for image classification tasks, aiming to identify microwell occupancy and microwell shape. The fused multimodal representation is input to a logistic regression model, which is both interpretable and computationally efficient. We achieved significant improvements, exceeding 0.92 for occupancy classification and 0.99 for shape classification, across all evaluated MLLMs, compared with 0.50 and 0.55, respectively, when relying solely on direct classification. The MLLM-logistic regression framework is a scalable, efficient solution for high-throughput microwell image analysis. Our study demonstrates an autonomous design microwell platform by translating natural language prompts into optimized device geometries, CAD scripts and image analysis, facilitating the development of next-generation digital discovery by integration of literature mining, autonomous design and experimental data analysis.
微孔微流体技术已被应用于单细胞分析,以揭示基因表达、信号通路和表型反应中的异质性,从而识别稀有细胞类型、了解疾病进展,并开发更精确的治疗策略。然而,设计微孔微流体是一项相当复杂的任务,需要知识、经验和计算机辅助设计软件,以及手动干预,这通常会导致初始设计失败,需要进行多次昂贵和耗时的迭代。在本研究中,我们建立了一个自主大型语言模型(LLM)驱动的微孔设计框架,生成基于代码的计算辅助设计(CAD)脚本,能够迅速、可重复地创建具有不同几何形状的微孔,并进行基于成像的分析。我们提出了一个基于多模态大型语言模型(MLLM)的逻辑回归框架,该框架旨在将MLLM生成的高级语义描述与图像嵌入相结合,用于图像分类任务,以识别微孔占用情况和微孔形状。融合的多模态表示被输入逻辑回归模型,该模型既具有可解释性又计算高效。我们取得了显著的改进,在所有评估的MLLM中,占用分类超过0.92,形状分类超过0.99,相比之下,仅依赖直接分类时分别为0.50和0.55。MLLM逻辑回归框架是一个可扩展、高效的解决方案,适用于高通量微孔图像分析。我们的研究展示了一个自主设计的微孔平台,通过自然语言提示将其转化为优化的设备几何形状、CAD脚本和图像分析,促进了通过文献挖掘、自主设计和实验数据分析的下一代数字发现的开发。
论文及项目相关链接
Summary
本文介绍了利用微井微流体技术进行单细胞分析的重要性,包括揭示基因表达、信号通路和表型反应的异质性,以及其在疾病进展和治疗策略中的应用。然而,设计微井微流体是一项复杂且需要专业技能的任务,往往需要计算机辅助设计软件。为了克服这一问题,本研究提出了一种基于大型语言模型的自动化微井设计框架,通过生成基于代码的计算机辅助设计脚本实现快速可重复性的微井创建。此外,本研究还提出了一个结合文本语义描述和图像嵌入的多模态大型语言模型逻辑回归框架,用于解决图像分类问题,例如微井占用率和微井形状的识别。这一自动化平台为数字发现的下一代发展提供了便利,通过整合文献挖掘、自主设计和实验数据分析,将自然语言提示转化为优化后的设备几何形状和图像分析。
Key Takeaways
- 微井微流体技术用于单细胞分析在基因表达、信号通路和表型反应异质性揭示中发挥着关键作用。
- 设计微井微流体是一项复杂任务,需要专业知识、经验和计算机辅助设计软件。
- 提出一种基于大型语言模型的自动化微井设计框架,通过生成基于代码的计算机辅助设计脚本实现快速可重复性的微井创建。
- 提出一种多模态大型语言模型逻辑回归框架,结合文本语义描述和图像嵌入,解决了如微井占用和形状识别的图像分类问题。
- 大型语言模型逻辑回归框架显著提高了分类性能,占用分类超过92%,形状分类超过99%。
- 该框架具有可扩展性和高效性,为解决高通量微井图像分析提供了可行方案。
点此查看论文截图



Evaluating the Explainability of Vision Transformers in Medical Imaging
Authors:Leili Barekatain, Ben Glocker
Understanding model decisions is crucial in medical imaging, where interpretability directly impacts clinical trust and adoption. Vision Transformers (ViTs) have demonstrated state-of-the-art performance in diagnostic imaging; however, their complex attention mechanisms pose challenges to explainability. This study evaluates the explainability of different Vision Transformer architectures and pre-training strategies - ViT, DeiT, DINO, and Swin Transformer - using Gradient Attention Rollout and Grad-CAM. We conduct both quantitative and qualitative analyses on two medical imaging tasks: peripheral blood cell classification and breast ultrasound image classification. Our findings indicate that DINO combined with Grad-CAM offers the most faithful and localized explanations across datasets. Grad-CAM consistently produces class-discriminative and spatially precise heatmaps, while Gradient Attention Rollout yields more scattered activations. Even in misclassification cases, DINO with Grad-CAM highlights clinically relevant morphological features that appear to have misled the model. By improving model transparency, this research supports the reliable and explainable integration of ViTs into critical medical diagnostic workflows.
在医学成像领域,理解模型决策至关重要,因为可解释性直接影响临床信任和采用。视觉转换器(ViTs)在诊断成像方面表现出了卓越的性能;然而,其复杂的注意力机制对解释性构成挑战。本研究使用梯度注意力展开和Grad-CAM评估了不同的视觉转换器架构和预训练策略——ViT、DeiT、DINO和Swin Transformer的解释性。我们在两项医学成像任务上进行了定量和定性分析:外周血细胞分类和乳腺超声图像分类。我们的研究结果表明,DINO与Grad-CAM相结合提供了跨数据集最忠实和局部化的解释。Grad-CAM始终产生类别区分度高且空间精确的热图,而梯度注意力展开产生的激活更分散。即使在误分类的情况下,DINO与Grad-CAM也能突出临床上与形态相关的特征,这些特征似乎导致了模型的误导。通过提高模型的透明度,该研究支持将ViTs可靠且可解释地集成到关键的医学诊断工作流程中。
论文及项目相关链接
PDF Accepted at Workshop on Interpretability of Machine Intelligence in Medical Image Computing at MICCAI 2025
Summary
本研究评估了不同Vision Transformer架构和预训练策略(包括ViT、DeiT、DINO和Swin Transformer)在医学成像任务中的解释性,采用Gradient Attention Rollout和Grad-CAM方法进行定量和定性分析。研究发现,DINO结合Grad-CAM提供跨数据集的最忠实和局部化解释。这项研究通过提高模型的透明度,支持将ViTs可靠地融入关键的医学诊断流程中。
Key Takeaways
- Vision Transformers (ViTs) 在医学成像中展现出色的性能,但其复杂的注意力机制对解释性构成挑战。
- 研究通过Gradient Attention Rollout和Grad-CAM评估了不同ViT架构和预训练策略的解释性。
- DINO结合Grad-CAM提供跨数据集的最忠实和局部化解释,支持模型的可靠和透明。
- Grad-CAM能产生类别区分度高、空间精确的热图,而Gradient Attention Rollout产生的激活更为分散。
- 即使在误分类的情况下,DINO与Grad-CAM也能突出临床上重要的形态特征,这些特征似乎误导了模型。
- 研究结果对于将ViTs融入医学诊断流程具有重要意义。
点此查看论文截图





EvoCAD: Evolutionary CAD Code Generation with Vision Language Models
Authors:Tobias Preintner, Weixuan Yuan, Adrian König, Thomas Bäck, Elena Raponi, Niki van Stein
Combining large language models with evolutionary computation algorithms represents a promising research direction leveraging the remarkable generative and in-context learning capabilities of LLMs with the strengths of evolutionary algorithms. In this work, we present EvoCAD, a method for generating computer-aided design (CAD) objects through their symbolic representations using vision language models and evolutionary optimization. Our method samples multiple CAD objects, which are then optimized using an evolutionary approach with vision language and reasoning language models. We assess our method using GPT-4V and GPT-4o, evaluating it on the CADPrompt benchmark dataset and comparing it to prior methods. Additionally, we introduce two new metrics based on topological properties defined by the Euler characteristic, which capture a form of semantic similarity between 3D objects. Our results demonstrate that EvoCAD outperforms previous approaches on multiple metrics, particularly in generating topologically correct objects, which can be efficiently evaluated using our two novel metrics that complement existing spatial metrics.
将大型语言模型与进化计算算法相结合,利用语言模型的生成能力和上下文学习能力以及进化算法的优势,是一个充满前景的研究方向。在这项工作中,我们提出了EvoCAD方法,该方法通过视觉语言模型和进化优化生成计算机辅助设计(CAD)对象的符号表示。我们的方法采样多个CAD对象,然后使用带有视觉语言和推理语言模型的进化方法进行优化。我们使用GPT-4V和GPT-4o评估了我们的方法,在CADPrompt基准数据集上对其进行了评估,并将其与先前的方法进行了比较。此外,我们还引入了基于欧拉特征定义的两个新指标,它们能够捕捉三维对象之间的语义相似性。我们的结果表明,在多个指标上,EvoCAD优于先前的方法,特别是在生成拓扑正确的对象方面,这可以通过我们补充现有空间指标的两个新指标进行有效评估。
论文及项目相关链接
PDF Accepted to IEEE ICTAI 2025
Summary
本工作提出一种名为EvoCAD的方法,结合大型语言模型和进化计算算法,通过视觉语言模型和进化优化生成计算机辅助设计(CAD)对象的符号表示。该方法采用进化算法优化采样得到的CAD对象,并在CADPrompt基准数据集上评估其性能,引入基于Euler特征拓扑属性的两个新指标来捕捉三维对象之间的语义相似性。实验结果表明,EvoCAD在多个指标上优于先前的方法,特别是在生成拓扑正确的对象方面。
Key Takeaways
- EvoCAD结合了大型语言模型和进化计算算法,生成计算机辅助设计(CAD)对象的符号表示。
- 使用进化算法优化CAD对象的采样结果。
- 在CADPrompt基准数据集上评估EvoCAD性能。
- 引入两个基于Euler特征的拓扑属性新指标,用于捕捉三维对象之间的语义相似性。
- EvoCAD在多个指标上优于先前方法,尤其在生成拓扑正确的对象方面表现突出。
- 新提出的两个指标能够补充现有的空间指标,对对象进行更有效的评估。
- 该方法展现了大型语言模型与进化计算算法结合的潜力,为计算机辅助设计领域带来新的研究方向。
点此查看论文截图





TDADL-IE: A Deep Learning-Driven Cryptographic Architecture for Medical Image Security
Authors:Junhua Zhou, Quanjun Li, Weixuan Li, Guang Yu, Yihua Shao, Yihang Dong, Mengqian Wang, Zimeng Li, Changwei Gong, Xuhang Chen
The rise of digital medical imaging, like MRI and CT, demands strong encryption to protect patient data in telemedicine and cloud storage. Chaotic systems are popular for image encryption due to their sensitivity and unique characteristics, but existing methods often lack sufficient security. This paper presents the Three-dimensional Diffusion Algorithm and Deep Learning Image Encryption system (TDADL-IE), built on three key elements. First, we propose an enhanced chaotic generator using an LSTM network with a 1D-Sine Quadratic Chaotic Map (1D-SQCM) for better pseudorandom sequence generation. Next, a new three-dimensional diffusion algorithm (TDA) is applied to encrypt permuted images. TDADL-IE is versatile for images of any size. Experiments confirm its effectiveness against various security threats. The code is available at \href{https://github.com/QuincyQAQ/TDADL-IE}{https://github.com/QuincyQAQ/TDADL-IE}.
数字医学成像(如MRI和CT)的兴起,要求在远程医疗和云存储中保护患者数据需要强大的加密技术。由于混沌系统的敏感性和独特特性,它们在图象加密中很受欢迎,但现有方法往往缺乏足够的安全性。本文提出了基于三个关键元素的三维扩散算法和深度学习图像加密系统(TDADL-IE)。首先,我们提出了一种增强的混沌生成器,该生成器使用带有1D-Sine Quadratic Chaotic Map(1D-SQCM)的LSTM网络,以生成更好的伪随机序列。接下来,将新的三维扩散算法(TDA)应用于加密置换图像。TDADL-IE适用于任何大小的图像。实验证实了其对抗各种安全威胁的有效性。代码可在https://github.com/QuincyQAQ/TDADL-IE获得。
论文及项目相关链接
PDF Accepted By BIBM 2025
Summary
数字医学影像技术如MRI和CT的发展,要求远程医疗和云存储中的患者数据必须有强大的加密保护。本文提出基于三个关键元素的全新三维扩散算法与深度学习图像加密系统(TDADL-IE)。首先,利用LSTM网络与一维正弦二次混沌映射(1D-SQCM)构建增强型混沌生成器,以生成更佳的伪随机序列。其次,应用新型三维扩散算法(TDA)对置换图像进行加密。TDADL-IE适用于任何大小的图像,实验证实其能有效抵御各种安全威胁。代码公开于:https://github.com/QuincyQAQ/TDADL-IE。
Key Takeaways
- 数字医学影像技术的普及需要更强的加密技术来保护患者数据在远程医疗和云存储中的安全。
- 该论文提出了一个结合了深度学习技术的三维扩散算法和图像加密系统(TDADL-IE)。
- 采用增强型混沌生成器生成伪随机序列,利用一维正弦二次混沌映射(1D-SQCM)和LSTM网络进行构建。
- TDADL-IE使用新型三维扩散算法(TDA)对图像进行加密。
- 该系统适用于任何大小的图像加密,具有广泛的适用性。
- 实验证明TDADL-IE能有效抵御多种安全威胁。
点此查看论文截图






DTEA: Dynamic Topology Weaving and Instability-Driven Entropic Attenuation for Medical Image Segmentation
Authors:Weixuan Li, Quanjun Li, Guang Yu, Song Yang, Zimeng Li, Chi-Man Pun, Yupeng Liu, Xuhang Chen
In medical image segmentation, skip connections are used to merge global context and reduce the semantic gap between encoder and decoder. Current methods often struggle with limited structural representation and insufficient contextual modeling, affecting generalization in complex clinical scenarios. We propose the DTEA model, featuring a new skip connection framework with the Semantic Topology Reconfiguration (STR) and Entropic Perturbation Gating (EPG) modules. STR reorganizes multi-scale semantic features into a dynamic hypergraph to better model cross-resolution anatomical dependencies, enhancing structural and semantic representation. EPG assesses channel stability after perturbation and filters high-entropy channels to emphasize clinically important regions and improve spatial attention. Extensive experiments on three benchmark datasets show our framework achieves superior segmentation accuracy and better generalization across various clinical settings. The code is available at \href{https://github.com/LWX-Research/DTEA}{https://github.com/LWX-Research/DTEA}.
在医学图像分割中,跳过连接用于合并全局上下文,并减少编码器与解码器之间的语义差距。当前的方法往往面临结构表示有限和上下文建模不足的问题,影响了在复杂临床场景中的泛化能力。我们提出了DTEA模型,它采用具有语义拓扑重构(STR)和熵扰动门控(EPG)模块的新型跳过连接框架。STR将多尺度语义特征重组为动态超图,以更好地建模跨分辨率的解剖依赖性,增强结构和语义表示。EPG评估扰动后的通道稳定性,并过滤高熵通道,以强调临床上重要的区域并提高空间注意力。在三个基准数据集上的大量实验表明,我们的框架实现了较高的分割精度,并在各种临床环境中具有较好的泛化能力。代码可在https://github.com/LWX-Research/DTEA获得。
论文及项目相关链接
PDF Accepted by BIBM 2025
Summary
医学图像分割中,使用跳连接合并全局上下文信息,缩小编码器和解码器之间的语义鸿沟。当前方法存在结构表征有限和上下文建模不足的问题,影响在复杂临床场景中的泛化能力。提出DTEA模型,采用带有语义拓扑重构(STR)和熵扰动门控(EPG)模块的新跳连接框架。STR将多尺度语义特征重构为动态超图,以更好地建模跨分辨率解剖依赖性,增强结构和语义表征。EPG评估扰动后的通道稳定性,过滤高熵通道以突出临床重要区域,提高空间注意力。在三个基准数据集上的广泛实验表明,该框架实现了更高的分割精度,并在各种临床环境中具有更好的泛化能力。
Key Takeaways
- 医学图像分割中跳连接用于合并全局上下文信息,缩小编码器和解码器间的语义鸿沟。
- 当前方法存在结构表征有限和上下文建模不足的问题。
- DTEA模型采用新的跳连接框架,包括语义拓扑重构(STR)和熵扰动门控(EPG)模块。
- STR通过动态超图重构多尺度语义特征,增强结构和语义表征。
- EPG评估通道稳定性,过滤高熵通道以提高空间注意力,突出临床重要区域。
- 在三个基准数据集上的实验表明,DTEA模型实现了较高的分割精度。
点此查看论文截图









G2L:From Giga-Scale to Cancer-Specific Large-Scale Pathology Foundation Models via Knowledge Distillation
Authors:Yesung Cho, Sungmin Lee, Geongyu Lee, Minkyung Lee, Jongbae Park, Dongmyung Shin
Recent studies in pathology foundation models have shown that scaling training data, diversifying cancer types, and increasing model size consistently improve their performance. However, giga-scale foundation models, which are trained on hundreds of thousands of slides covering tens of cancer types and contain billions of parameters, pose significant challenges for practical use due to their tremendous computational costs in both development and deployment. In this work, we present a novel strategy, named the G2L framework, to increase the performance of large-scale foundation models, which consist of only $15%$ of the parameters of giga-scale models, to a comparable performance level of giga-scale models in cancer-specific tasks. Our approach applies knowledge distillation, transferring the capabilities of a giga-scale model to a large-scale model, using just 1K pathology slides of a target cancer (e.g., breast, prostate, etc.). The resulting distilled model not only outperformed state-of-the-art models of the same size (i.e., large-scale) across several benchmarks but also, interestingly, surpassed the giga-scale teacher and huge-scale models in some benchmarks. In addition, the distilled model exhibited a higher robustness index, indicating improved resilience to image variations originating from multiple institutions. These findings suggest that the proposed distillation approach for a large-scale model is a data- and parameter-efficient way to achieve giga-scale-level performance for cancer-specific applications without prohibitive computational burden.
近期的病理学基础模型研究表明,通过扩大训练数据规模、多样化癌症类型以及增加模型大小,可以持续提高其性能。然而,训练在数以十万计的切片上、覆盖数十种癌症类型并且包含数十亿参数的千兆规模基础模型,在开发和部署方面都需要巨大的计算成本,因此在实际应用中带来了重大挑战。在这项工作中,我们提出了一种名为G2L框架的新型策略,旨在提高大规模基础模型的性能。这些模型仅包含千兆模型的15%参数,就能达到特定癌症任务的千兆模型性能水平。我们的方法应用知识蒸馏,将千兆模型的能力转移到大规模模型上,仅使用目标癌症(例如乳腺癌、前列腺癌等)的1000个病理切片。得到的蒸馏模型不仅在同一规模(即大规模)的模型中表现出最佳性能,而且在多个基准测试中超越了千兆教师模型和大规模模型。有趣的是,在某些基准测试中,该模型甚至超过了千兆教师模型和超大规模模型。此外,蒸馏模型展现出更高的稳健性指数,表明其对于来自多个机构的图像变化的适应性更强。这些发现表明,针对大规模模型提出的蒸馏方法是一种数据高效且参数高效的方式,可在不承受巨大计算负担的情况下实现千兆规模的癌症特异性应用性能。
论文及项目相关链接
Summary
本文提出一种名为G2L框架的新型策略,通过知识蒸馏技术,将大规模基础模型的性能提升到与千兆规模模型相当的水平,且仅使用目标癌症(如乳腺癌、前列腺癌等)的1K病理切片。这种蒸馏模型不仅在多个基准测试中超越了现有大规模模型,还在某些基准测试中超越了原始千兆规模模型,并展现出更高的稳健性指数。
Key Takeaways
- 研究表明,扩大训练数据、多样化癌症类型和增加模型规模能持续提升病理基础模型的性能。
- 千亿规模的基础模型虽然性能优越,但在开发和部署过程中的计算成本高昂。
- 提出G2L框架,通过知识蒸馏技术,仅使用1K目标癌症病理切片,提高大规模模型的性能。
- 蒸馏模型在多个基准测试中超越了现有大规模模型,并在某些情况下超越了原始千兆规模模型。
- 蒸馏模型展现出更高的稳健性指数,对来自多个机构的图像变化更具抗性。
- 蒸馏策略是一种数据高效、参数有效的方法,无需巨大的计算负担即可实现针对癌症特定应用的千兆规模性能。
点此查看论文截图





Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Authors:Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
随着计算机辅助设计(CAD)绘图在工程、建筑和工业设计中的广泛应用,准确解读和分析这些绘图的能力变得至关重要。在众多子任务中,全景符号识别对于下游应用如CAD自动化和设计检索等具有重要意义。现有方法主要关注CAD绘图中的几何元素来解决这一任务,但它们面临以下问题:它们通常忽略了CAD绘图中的丰富文本注释,缺乏对元素间关系的显式建模,导致对整体绘图的综合理解不足。为了填补这一空白,我们提出了一种结合文本注释的全景符号识别框架。该框架通过联合建模几何和文本元素来构建统一表示。然后,使用由预训练卷积神经网络提取的视觉特征作为初始表示,采用基于Transformer的骨干网,并辅以类型感知注意力机制,以显式地模拟各种元素之间的不同类型空间依赖性。在真实数据集上的大量实验表明,所提出的方法在涉及文本注释的符号识别任务上优于现有方法,并且在应用于复杂的CAD绘图时表现出卓越的稳健性。
论文及项目相关链接
PDF 7 pages, 3figures. This version is the original submitted manuscript of the paper accepted by The 12th International Conference on Behavioural and Social Computing
Summary
CAD绘图解读中的全景符号识别技术至关重要。现有方法主要关注CAD绘图中的几何基本元素,但忽略了文本标注和元素间关系的建模。本文提出一个结合文本标注的全景符号识别框架,通过联合建模几何和文本基本元素构建统一表示,并采用基于视觉特征的预训练CNN提取初始表示,利用带类型感知注意力机制的Transformer骨干网络建模各种元素间的空间依赖关系。实验证明,该方法在包含文本标注的符号识别任务上优于现有方法,对复杂CAD绘图表现出较强的鲁棒性。
Key Takeaways
- CAD绘图解读中的全景符号识别技术很重要。
- 现有方法主要关注几何基本元素,忽略文本标注和元素间关系的建模。
- 本文提出结合文本标注的全景符号识别框架。
- 该框架通过联合建模几何和文本基本元素构建统一表示。
- 采用预训练CNN提取视觉特征作为初始表示。
- 使用带类型感知注意力机制的Transformer骨干网络建模元素间的空间依赖关系。
点此查看论文截图




MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Authors:Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
多模态脑肿瘤分割对于临床诊断至关重要,它要求准确识别不同的内部解剖亚区。虽然基于提示的分割范式最近使临床医生能够拥有交互式体验,但现有方法忽略了跨模态的关联,并依赖于劳动密集型的特定类别提示,限制了它们在现实场景中的应用。为了解决这些问题,我们提出了多模态脑肿瘤分割的MSM-Seg框架。MSM-Seg引入了一种新型双内存分割范式,该范式协同整合多模态和跨切片信息,以及有效的类别无关提示,以促进对脑肿瘤的理解。为此,我们首先设计了一种模态和切片内存注意力(MSMA),以利用输入扫描之间的跨模态和跨切片关系。然后,我们提出了一种多尺度类别无关提示编码器(MCP-Encoder),以为解码提供肿瘤区域指导。此外,我们设计了一种模态自适应融合解码器(MF-Decoder),该解码器利用不同模态之间的互补解码信息来提高分割精度。在不同MRI数据集上的广泛实验表明,我们的MSM-Seg框架在多模态转移和胶质瘤肿瘤分割方面的性能优于最先进的方法。代码可在https://github.com/xq141839/MSM-Seg上找到。
论文及项目相关链接
PDF Under Review
Summary
多模态脑肿瘤分割对临床诊断至关重要,需要准确识别不同的内部解剖亚区。针对现有方法忽视跨模态关联并依赖劳动密集型的特定类别提示的问题,我们提出了MSM-Seg框架进行多模态脑肿瘤分割。该框架引入了一种新型双记忆分割范式,协同整合多模态和跨切片信息,并借助高效的类别无关提示进行脑肿瘤理解。通过模态和切片记忆注意力(MSMA)机制挖掘输入扫描中的跨模态和跨切片关系。此外,我们提出了多尺度类别无关提示编码器(MCP-Encoder)以提供肿瘤区域指导进行解码,并设计了模态自适应融合解码器(MF-Decoder),利用不同模态的互补解码信息提高分割精度。在多个MRI数据集上的实验表明,我们的MSM-Seg框架在多模态转移和胶质瘤肿瘤分割方面的性能优于最新方法。
Key Takeaways
- 多模态脑肿瘤分割对临床诊断非常重要,需要精准识别内部解剖亚区。
- 现有方法存在忽视跨模态关联和依赖劳动密集型特定类别提示的问题。
- 提出了MSM-Seg框架,采用新型双记忆分割范式进行多模态脑肿瘤分割。
- 该框架整合了多模态和跨切片信息,并借助高效的类别无关提示进行脑肿瘤理解。
- MSM-Seg框架通过模态和切片记忆注意力机制挖掘输入扫描中的跨模态和跨切片关系。
- 多尺度类别无关提示编码器和模态自适应融合解码器提高了肿瘤分割精度。
点此查看论文截图





Learning from Disagreement: A Group Decision Simulation Framework for Robust Medical Image Segmentation
Authors:Chen Zhong, Yuxuan Yang, Xinyue Zhang, Ruohan Ma, Yong Guo, Gang Li, Jupeng Li
Medical image segmentation annotation suffers from inter-rater variability (IRV) due to differences in annotators’ expertise and the inherent blurriness of medical images. Standard approaches that simply average expert labels are flawed, as they discard the valuable clinical uncertainty revealed in disagreements. We introduce a fundamentally new approach with our group decision simulation framework, which works by mimicking the collaborative decision-making process of a clinical panel. Under this framework, an Expert Signature Generator (ESG) learns to represent individual annotator styles in a unique latent space. A Simulated Consultation Module (SCM) then intelligently generates the final segmentation by sampling from this space. This method achieved state-of-the-art results on challenging CBCT and MRI datasets (92.11% and 90.72% Dice scores). By treating expert disagreement as a useful signal instead of noise, our work provides a clear path toward more robust and trustworthy AI systems for healthcare.
医学图像分割标注存在评估者间变异(IRV)的问题,这是由于标注人员的专业差异和医学图像本身的模糊性所导致的。一些简单地平均专家标签的标准方法存在缺陷,因为它们忽略了分歧中体现出的有价值的临床不确定性。我们引入了一种全新的方法,即我们的群体决策模拟框架,它通过模拟临床小组的合作决策过程来发挥作用。在该框架下,专家签名生成器(ESG)学习在独特的潜在空间中表示单个注释者的风格。然后,模拟咨询模块(SCM)通过从此空间中采样智能生成最终的分割。该方法在具有挑战性的CBC和MRI数据集上取得了最新结果(Dice得分分别为92.11%和90.72%)。通过将专家分歧视为有用的信号而非噪音,我们的工作为医疗保健领域提供更稳健和可信赖的AI系统提供了明确的途径。
论文及项目相关链接
Summary
医学图像分割标注存在评注人变异性问题,因为标注人的专业差异和医学图像本身的模糊性。新的决策模拟框架通过模拟临床小组的协作决策过程来解决这一问题。该方法学习代表个体注释器风格的专家签名生成器(ESG),并通过模拟协商模块(SCM)智能生成最终分割结果。此方法在复杂的CBCCT和MRI数据集上取得了最新结果,证明了对待专家分歧作为一种有用信号而非噪音的有效性。此工作为实现更为稳健可靠的医疗人工智能系统指明了方向。
Key Takeaways
- 医学图像分割标注存在评注人变异性问题。
- 传统方法简单平均专家标签存在问题,无法体现临床不确定性。
- 提出全新的决策模拟框架,模拟临床小组的协作决策过程。
- 通过专家签名生成器(ESG)学习个体注释器风格。
- 模拟协商模块(SCM)智能生成最终分割结果。
- 在CBCCT和MRI数据集上取得最新结果,表现出优异性能。
点此查看论文截图






Traj-CoA: Patient Trajectory Modeling via Chain-of-Agents for Lung Cancer Risk Prediction
Authors:Sihang Zeng, Yujuan Fu, Sitong Zhou, Zixuan Yu, Lucas Jing Liu, Jun Wen, Matthew Thompson, Ruth Etzioni, Meliha Yetisgen
Large language models (LLMs) offer a generalizable approach for modeling patient trajectories, but suffer from the long and noisy nature of electronic health records (EHR) data in temporal reasoning. To address these challenges, we introduce Traj-CoA, a multi-agent system involving chain-of-agents for patient trajectory modeling. Traj-CoA employs a chain of worker agents to process EHR data in manageable chunks sequentially, distilling critical events into a shared long-term memory module, EHRMem, to reduce noise and preserve a comprehensive timeline. A final manager agent synthesizes the worker agents’ summary and the extracted timeline in EHRMem to make predictions. In a zero-shot one-year lung cancer risk prediction task based on five-year EHR data, Traj-CoA outperforms baselines of four categories. Analysis reveals that Traj-CoA exhibits clinically aligned temporal reasoning, establishing it as a promisingly robust and generalizable approach for modeling complex patient trajectories.
大型语言模型(LLM)为病人轨迹建模提供了一种通用方法,但其在处理时间序列推理时面临着电子健康记录(EHR)数据存在的时间长和嘈杂问题。为了应对这些挑战,我们引入了Traj-CoA系统,这是一个涉及代理链的多智能体系统,用于病人轨迹建模。Traj-CoA采用一系列智能体来顺序处理可管理的电子健康记录数据块,将数据中的关键事件蒸馏到一个共享的长期记忆模块EHRMem中,以减少噪音并保留全面的时间线。最后的管理智能体会根据工人智能体的总结和EHRMem中提取的时间线进行预测。在一个基于五年电子健康记录数据的零样本肺癌风险预测任务中,Traj-CoA的表现优于四个类别的基线模型。分析表明,Traj-CoA展现了与临床相符的时间序列推理能力,证明它是一种稳健且通用的建模复杂病人轨迹的可靠方法。
论文及项目相关链接
PDF Accepted by NeurIPS 2025 GenAI4Health Workshop
Summary
基于大型语言模型(LLMs)在患者轨迹建模中的通用性和电子健康记录(EHR)数据在时序推理中的长噪问题,我们引入了Traj-CoA多智能体系统,该系统通过一系列工作智能体处理EHR数据,将关键事件蒸馏到共享的长期内存模块EHRMem中,以减小噪声并保留全面的时间线。最终管理者智能体结合了工作智能体的摘要和EHRMem中提取的时间线进行预测。在基于五年EHR数据的零样本一年肺癌风险预测任务中,Traj-CoA优于四类基线方法,展现出良好的临床一致性时序推理能力。
Key Takeaways
- Traj-CoA是一个多智能体系统,用于处理电子健康记录(EHR)数据,以进行患者轨迹建模。
- Traj-CoA通过工作智能体处理数据,将数据分解为可管理的部分,并通过共享长期内存模块EHRMem进行关键事件的蒸馏和噪声减少。
- EHRMem模块保存了全面的时间线信息。
- 最终管理者智能体结合工作智能体的摘要和EHRMem中的时间线进行预测。
- Traj-CoA在零样本肺癌风险预测任务中表现优异。
- Traj-CoA具有临床一致性的时序推理能力。
点此查看论文截图



Are Video Models Emerging as Zero-Shot Learners and Reasoners in Medical Imaging?
Authors:Yuxiang Lai, Jike Zhong, Ming Li, Yuheng Li, Xiaofeng Yang
Recent advances in large generative models have shown that simple autoregressive formulations, when scaled appropriately, can exhibit strong zero-shot generalization across domains. Motivated by this trend, we investigate whether autoregressive video modeling principles can be directly applied to medical imaging tasks, despite the model never being trained on medical data. Specifically, we evaluate a large vision model (LVM) in a zero-shot setting across four representative tasks: organ segmentation, denoising, super-resolution, and motion prediction. Remarkably, even without domain-specific fine-tuning, the LVM can delineate anatomical structures in CT scans and achieve competitive performance on segmentation, denoising, and super-resolution. Most notably, in radiotherapy motion prediction, the model forecasts future 3D CT phases directly from prior phases of a 4D CT scan, producing anatomically consistent predictions that capture patient-specific respiratory dynamics with realistic temporal coherence. We evaluate the LVM on 4D CT data from 122 patients, totaling over 1,820 3D CT volumes. Despite no prior exposure to medical data, the model achieves strong performance across all tasks and surpasses specialized DVF-based and generative baselines in motion prediction, achieving state-of-the-art spatial accuracy. These findings reveal the emergence of zero-shot capabilities in medical video modeling and highlight the potential of general-purpose video models to serve as unified learners and reasoners laying the groundwork for future medical foundation models built on video models.
最近的大型生成模型的进展表明,简单的自回归公式,在适当规模上,可以展现出跨领域的零样本泛化能力。受此趋势的推动,我们研究是否可以将自回归视频建模原则直接应用于医学成像任务,尽管该模型从未在医疗数据上进行训练。具体来说,我们在四个代表性任务中评估了一个大型视觉模型(LVM)的零样本设置:器官分割、去噪、超分辨率和运动预测。值得注意的是,即使没有针对特定领域的微调,LVM也能在CT扫描中描绘出解剖结构,并在分割、去噪和超分辨率方面达到颇具竞争力的性能。最值得注意的是,在放疗运动预测中,该模型直接从4D CT扫描的先前阶段预测未来的3D CT阶段,产生解剖结构一致的预测,捕捉患者特定的呼吸动力学,具有现实的时间连贯性。我们在来自122名患者的4D CT数据上评估了LVM,总计超过1820个3D CT体积。尽管该模型之前没有接触过医疗数据,但它在所有任务中都表现出强大的性能,在运动预测方面超越了基于DVF和生成基线,达到了最先进的空间精度。这些发现揭示了医疗视频建模中零样本能力的出现,并突出了通用视频模型作为未来建立在视频模型上的医疗基础模型的统一学习者和推理者的潜力。
论文及项目相关链接
Summary
本文探讨了大型生成模型在医学视频建模中的应用。研究发现在零样本场景下,即使未经过医学数据训练,基于自动回归原理的大型视觉模型(LVM)也能在医学成像任务中表现出强大的泛化能力。在器官分割、去噪、超分辨率和动态预测等四个任务中,LVM展现了竞争性能,特别是在放疗动态预测中,该模型可直接从4D CT扫描的先前阶段预测未来的3D CT阶段,产生解剖结构一致、捕捉患者特定呼吸动态的预测结果。这些发现揭示了零样本能力在医学视频建模中的涌现,突显了通用视频模型作为统一学习者和推理者的潜力,为未来的医学基础模型提供了参考。
Key Takeaways
- 大型生成模型在医学视频建模中展现出零样本泛化能力。
- 自动回归原理的大型视觉模型(LVM)在医学成像任务中表现出色。
- LVM在器官分割、去噪和超分辨率任务中具有竞争力。
- 在放疗动态预测中,LVM能预测未来的3D CT阶段,产生解剖结构一致的预测结果。
- LVM模型能捕捉患者特定的呼吸动态,具有现实的时间连贯性。
- 零样本能力在医学视频建模中的涌现表明通用视频模型的潜力。
点此查看论文截图




ViConEx-Med: Visual Concept Explainability via Multi-Concept Token Transformer for Medical Image Analysis
Authors:Cristiano Patrício, Luís F. Teixeira, João C. Neves
Concept-based models aim to explain model decisions with human-understandable concepts. However, most existing approaches treat concepts as numerical attributes, without providing complementary visual explanations that could localize the predicted concepts. This limits their utility in real-world applications and particularly in high-stakes scenarios, such as medical use-cases. This paper proposes ViConEx-Med, a novel transformer-based framework for visual concept explainability, which introduces multi-concept learnable tokens to jointly predict and localize visual concepts. By leveraging specialized attention layers for processing visual and text-based concept tokens, our method produces concept-level localization maps while maintaining high predictive accuracy. Experiments on both synthetic and real-world medical datasets demonstrate that ViConEx-Med outperforms prior concept-based models and achieves competitive performance with black-box models in terms of both concept detection and localization precision. Our results suggest a promising direction for building inherently interpretable models grounded in visual concepts. Code is publicly available at https://github.com/CristianoPatricio/viconex-med.
基于概念模型的目的是用人类可理解的概念来解释模型的决策。然而,现有的大多数方法都将概念视为数值属性,而没有提供可以定位预测概念的补充视觉解释。这限制了它们在现实世界应用和高风险场景(如医疗用例)中的实用性。本文提出了ViConEx-Med,这是一种基于transformer的视觉概念可解释性新框架,它引入了多概念可学习令牌来共同预测和定位视觉概念。通过利用用于处理视觉和基于文本的概念令牌的特殊注意力层,我们的方法在保持高预测准确性的同时,生成了概念层面的定位图。在合成和真实世界医疗数据集上的实验表明,ViConEx-Med优于先前的基于概念模型,在概念检测和定位精度方面实现了与黑匣模型相竞争的表现。我们的研究为建立基于视觉概念的内在可解释模型提供了一个有前途的方向。代码可在https://github.com/CristianoPatricio/viconex-med上公开获取。
论文及项目相关链接
PDF This work has been submitted to the IEEE for possible publication
Summary
医学图像概念模型旨在用人类可理解的概念来解释模型决策。但现有方法多将概念视为数值属性,缺乏可视化解释来定位预测概念,这在真实世界应用和医疗等高风险场景中限制了其效用。本文提出ViConEx-Med框架,采用基于视觉概念解释性的新型转换器技术,引入多概念学习令牌进行视觉概念的联合预测和定位。通过利用专门的注意力层处理视觉和文本概念令牌,该方法在保持高预测准确性的同时,生成概念级别的定位图。在合成和真实医疗数据集上的实验表明,ViConEx-Med优于现有概念模型,与黑盒模型在概念检测和定位精度方面表现相当。这为构建基于视觉概念的固有可解释模型提供了有前景的方向。
Key Takeaways
- 概念模型用于解释医学图像模型的决策过程。
- 当前方法主要将概念视为数值属性,缺乏可视化解释。
- ViConEx-Med框架引入多概念学习令牌进行视觉概念的联合预测和定位。
- 通过专门的注意力层处理视觉和文本概念令牌,生成概念级别定位图。
- 实验证明ViConEx-Med在概念检测和定位精度方面表现优异。
- 该框架优于现有概念模型,与黑盒模型表现相当。
点此查看论文截图



A Biophysically-Conditioned Generative Framework for 3D Brain Tumor MRI Synthesis
Authors:Valentin Biller, Lucas Zimmer, Can Erdur, Sandeep Nagar, Daniel Rückert, Niklas Bubeck, Jonas Weidner
Magnetic resonance imaging (MRI) inpainting supports numerous clinical and research applications. We introduce the first generative model that conditions on voxel-level, continuous tumor concentrations to synthesize high-fidelity brain tumor MRIs. For the BraTS 2025 Inpainting Challenge, we adapt this architecture to the complementary task of healthy tissue restoration by setting the tumor concentrations to zero. Our latent diffusion model conditioned on both tissue segmentations and the tumor concentrations generates 3D spatially coherent and anatomically consistent images for both tumor synthesis and healthy tissue inpainting. For healthy inpainting, we achieve a PSNR of 18.5, and for tumor inpainting, we achieve 17.4. Our code is available at: https://github.com/valentin-biller/ldm.git
磁共振成像(MRI)在多个临床和研究应用中都有广泛的应用。我们引入首个基于体素级别、连续的肿瘤浓度的生成模型,以合成高保真脑肿瘤MRI。在BraTS 2025补全挑战中,我们将肿瘤浓度设置为零,以适应健康组织修复的辅助任务。我们的潜在扩散模型既根据组织分割又根据肿瘤浓度进行条件处理,可生成用于肿瘤合成和健康组织补全的3D空间连贯性和解剖一致性图像。对于健康组织的补全,我们实现的峰值信噪比(PSNR)为18.5,对于肿瘤组织的补全,我们实现的PSNR为17.4。我们的代码可在以下网址找到:https://github.com/valentin-biller/ldm.git
论文及项目相关链接
Summary
本文介绍了一种基于磁性共振成像(MRI)的生成模型,该模型可根据体素级连续的肿瘤浓度信息合成高保真度的脑肿瘤MRI。该模型可应用于BraTS 2025 Inpainting Challenge中的肿瘤合成与健康组织修复任务。对于健康组织的修复,该模型的峰值信噪比(PSNR)达到18.5;对于肿瘤的修复,PSNR为17.4。模型代码已公开于https://github.com/valentin-biller/ldm.git。
Key Takeaways
- 介绍了一种基于MRI的生成模型,能利用体素级连续的肿瘤浓度信息。
- 模型可用于合成高保真度的脑肿瘤MRI,适用于临床和研究应用。
- 模型可应用于BraTS 2025 Inpainting Challenge中的肿瘤合成与健康组织修复任务。
- 健康组织修复任务的PSNR达到18.5,肿瘤修复任务的PSNR为17.4。
- 模型采用潜在扩散模型,同时基于组织分割和肿瘤浓度信息进行生成。
- 模型能生成3D空间连贯、解剖结构一致的图片。
点此查看论文截图



MIP-Based Tumor Segmentation: A Radiologist-Inspired Approach
Authors:Romario Zarik, Nahum Kiryati, Michael Green, Liran Domachevsky, Arnaldo Mayer
PET/CT imaging is the gold standard for tumor detection, offering high accuracy in identifying local and metastatic lesions. Radiologists often begin assessment with rotational Multi-Angle Maximum Intensity Projections (MIPs) from PET, confirming findings with volumetric slices. This workflow is time-consuming, especially in metastatic cases. Despite their clinical utility, MIPs are underutilized in automated tumor segmentation, where 3D volumetric data remains the norm. We propose an alternative approach that trains segmentation models directly on MIPs, bypassing the need to segment 3D volumes and then project. This better aligns the model with its target domain and yields substantial gains in computational efficiency and training time. We also introduce a novel occlusion correction method that restores MIP annotations occluded by high-intensity structures, improving segmentation. Using the autoPET 2022 Grand Challenge dataset, we evaluate our method against standard 3D pipelines in terms of performance and training/computation efficiency for segmentation and classification, and analyze how MIP count affects segmentation. Our MIP-based approach achieves segmentation performance on par with 3D (<=1% Dice difference, 26.7% better Hausdorff Distance), while reducing training time (convergence time) by 55.8-75.8%, energy per epoch by 71.7-76%, and TFLOPs by two orders of magnitude, highlighting its scalability for clinical use. For classification, using 16 MIPs only as input, we surpass 3D performance while reducing training time by over 10x and energy consumption per epoch by 93.35%. Our analysis of the impact of MIP count on segmentation identified 48 views as optimal, offering the best trade-off between performance and efficiency.
PET/CT成像在肿瘤检测方面是金标准,其能准确识别局部和转移性病灶。放射科医生通常从PET的旋转多角度最大强度投影(MIPs)开始评估,并通过体积切片进行验证。特别是在转移性病例中,这种工作流程非常耗时。尽管MIP在临床上有实用价值,但在自动肿瘤分割中却未得到充分利用,而3D体积数据仍是常态。我们提出了一种替代方法,该方法直接在MIP上训练分割模型,从而无需分割3D体积然后再投影,这使模型与其目标领域更加匹配,并在计算效率和训练时间上实现了可观的收益。我们还引入了一种新颖的遮挡校正方法,该方法可以恢复被高强度结构遮挡的MIP注释,从而提高了分割效果。我们使用autoPET 2022挑战赛数据集评估了我们的方法与传统3D管道在分割和分类方面的性能以及训练和计算效率,并分析了MIP计数如何影响分割。我们的基于MIP的方法在分割性能上达到了与3D相当的水平(Dice差异≤1%,Hausdorff距离提高了26.7%),同时减少了训练时间(收敛时间)的55.8%-75.8%,每个周期能耗减少了71.7%-76%,TFLOPs减少了两个数量级,突显了其临床应用的可扩展性。对于分类任务,仅使用16个MIP作为输入,我们在性能上超过了3D,同时减少了超过10倍的训练时间和每个周期的能耗达93.35%。我们对MIP计数对分割影响的分析确定了48个视图是最优的,可在性能和效率之间提供最佳权衡。
论文及项目相关链接
摘要
PET/CT成像在肿瘤检测方面是金标准,能准确识别局部和转移性病灶。本文提出一种基于MIP(多角度最大强度投影)的肿瘤分割方法,直接对MIPs进行训练,避免了三维体积的分割和投影需求,提高了计算效率和训练时间。同时,引入了一种新颖的遮挡校正方法,用于恢复被高强度结构遮挡的MIP注释,提高了分割效果。实验结果表明,MIP方法达到与三维技术相当的分割性能,同时降低了训练时间、能耗和计算量。对于分类任务,仅使用16个MIP作为输入,即可超越三维技术的性能。对MIP数量对分割影响的分析表明,48个视角是最佳的,能在性能和效率之间达到最佳平衡。
关键见解
- PET/CT成像在肿瘤检测中具有高准确性,是当前的金标准。
- 传统的肿瘤分割方法主要基于三维体积数据,但处理转移性病例时耗时较长。
- 提出一种基于MIP的肿瘤分割方法,直接训练分割模型,提高计算效率和训练时间。
- 引入了一种新颖的遮挡校正方法,提高了分割效果的准确性。
- 实验结果表明,MIP方法在分割性能上接近三维技术,但训练时间、能耗和计算量有所降低。
- 对于分类任务,使用较少的MIP输入即可达到甚至超越三维技术的性能。
- 分析发现,48个视角的MIP数量在分割性能与效率之间达到最佳平衡。
点此查看论文截图



SAM2-3dMed: Empowering SAM2 for 3D Medical Image Segmentation
Authors:Yeqing Yang, Le Xu, Lixia Tian
Accurate segmentation of 3D medical images is critical for clinical applications like disease assessment and treatment planning. While the Segment Anything Model 2 (SAM2) has shown remarkable success in video object segmentation by leveraging temporal cues, its direct application to 3D medical images faces two fundamental domain gaps: 1) the bidirectional anatomical continuity between slices contrasts sharply with the unidirectional temporal flow in videos, and 2) precise boundary delineation, crucial for morphological analysis, is often underexplored in video tasks. To bridge these gaps, we propose SAM2-3dMed, an adaptation of SAM2 for 3D medical imaging. Our framework introduces two key innovations: 1) a Slice Relative Position Prediction (SRPP) module explicitly models bidirectional inter-slice dependencies by guiding SAM2 to predict the relative positions of different slices in a self-supervised manner; 2) a Boundary Detection (BD) module enhances segmentation accuracy along critical organ and tissue boundaries. Extensive experiments on three diverse medical datasets (the Lung, Spleen, and Pancreas in the Medical Segmentation Decathlon (MSD) dataset) demonstrate that SAM2-3dMed significantly outperforms state-of-the-art methods, achieving superior performance in segmentation overlap and boundary precision. Our approach not only advances 3D medical image segmentation performance but also offers a general paradigm for adapting video-centric foundation models to spatial volumetric data.
在疾病评估和制定治疗方案等临床应用中,对三维医学图像进行精确分割至关重要。虽然Segment Anything Model 2(SAM2)通过利用时序线索在视频对象分割方面取得了显著的成功,但将其直接应用于三维医学图像面临两个基本的领域差距:一是切片之间的双向解剖连续性与视频中的单向时间流存在明显对比;二是精确的边缘界定对于形态分析至关重要,在视频任务中经常被忽视。为了弥补这些差距,我们提出了SAM2-3dMed,这是一个针对三维医学成像的SAM2的改进框架。我们的框架引入了两个关键的创新点:一是切片相对位置预测(SRPP)模块通过指导SAM2以自我监督的方式预测不同切片的相对位置,显式地建立切片间的双向依赖关系;二是边界检测(BD)模块可提高重要器官和组织边界处的分割精度。在医学分割全能挑战赛(MSD)数据集的三部分数据集(肺部、脾脏和胰腺)上进行的广泛实验表明,SAM2-3dMed在分割重叠和边界精度方面均显著优于最先进的方法。我们的方法不仅提高了三维医学图像分割的性能,还为将视频中心基础模型适应于空间体积数据提供了一个通用的范式。
论文及项目相关链接
Summary
SAM2模型在视频对象分割方面表现出卓越的性能,但直接应用于3D医学图像存在两个领域差距。为此,我们提出了SAM2-3dMed框架,通过引入Slice Relative Position Prediction(SRPP)模块和Boundary Detection(BD)模块来解决这些问题,显著提高了在医学分割挑战赛(MSD)数据集(包括肺、脾和胰腺)上的分割重叠和边界精度,优于其他最先进的方法。
Key Takeaways
- SAM2模型在视频对象分割中表现优异,但在处理3D医学图像时面临两个主要问题。
- 针对这些问题,我们提出了SAM2-3dMed框架,它是专为处理3D医学图像设计的。
- SAM2-3dMed引入了两个关键模块:Slice Relative Position Prediction(SRPP)模块和Boundary Detection(BD)模块。SRPP模块通过预测不同切片之间的相对位置来模拟双向切片间依赖性;BD模块提高了关键器官和组织的边界分割精度。
- 在三个不同的医学数据集上的实验表明,SAM2-3dMed显著提高了分割重叠和边界精度,优于其他最先进的方法。
点此查看论文截图



Progressive Uncertainty-Guided Evidential U-KAN for Trustworthy Medical Image Segmentation
Authors:Zhen Yang, Yansong Ma, Lei Chen
Trustworthy medical image segmentation aims at deliver accurate and reliable results for clinical decision-making. Most existing methods adopt the evidence deep learning (EDL) paradigm due to its computational efficiency and theoretical robustness. However, the EDL-based methods often neglect leveraging uncertainty maps rich in attention cues to refine ambiguous boundary segmentation. To address this, we propose a progressive evidence uncertainty guided attention (PEUA) mechanism to guide the model to focus on the feature representation learning of hard regions. Unlike conventional approaches, PEUA progressively refines attention using uncertainty maps while employing low-rank learning to denoise attention weights, enhancing feature learning for challenging regions. Concurrently, standard EDL methods suppress evidence of incorrect class indiscriminately via Kullback-Leibler (KL) regularization, impairing the uncertainty assessment in ambiguous areas and consequently distorts the corresponding attention guidance. We thus introduce a semantic-preserving evidence learning (SAEL) strategy, integrating a semantic-smooth evidence generator and a fidelity-enhancing regularization term to retain critical semantics. Finally, by embedding PEUA and SAEL with the state-of-the-art U-KAN, we proposes Evidential U-KAN, a novel solution for trustworthy medical image segmentation. Extensive experiments on 4 datasets demonstrate superior accuracy and reliability over the competing methods. The code is available at \href{https://anonymous.4open.science/r/Evidence-U-KAN-BBE8}{github}.
可信医学图像分割旨在提供准确可靠的结果,为临床决策提供支持。大多数现有方法采用证据深度学习(EDL)范式,因其计算效率和理论稳健性。然而,基于EDL的方法往往忽略了利用富含注意力线索的不确定性映射来细化模糊的边界分割。为了解决这一问题,我们提出了一种渐进证据不确定性引导注意力(PEUA)机制,引导模型关注困难区域特征表示学习。与常规方法不同,PEUA利用不确定性映射逐步细化注意力,同时采用低秩学习对注意力权重进行去噪,增强对挑战区域的特征学习。同时,标准EDL方法通过Kullback-Leibler(KL)正则化无差别地抑制错误类别的证据,损害模糊区域的不确定性评估,并因此扭曲相应的注意力引导。因此,我们引入了一种语义保留证据学习(SAEL)策略,集成语义平滑证据生成器和保真度增强正则化项以保留关键语义。最后,通过将PEUA和SAEL嵌入到最先进的U-KAN中,我们提出了Evidential U-KAN,这是一种可信医学图像分割的新解决方案。在四个数据集上的大量实验表明,其在准确性和可靠性方面优于其他方法。代码可在https://anonymous.4open.science/r/Evidence-U-KAN-BBE8的github上获取。
论文及项目相关链接
摘要
医学图像分割需准确可靠,为临床决策提供支持。现有方法多采用证据深度学习(EDL)范式,注重计算效率和理论稳健性。然而,EDL方法往往忽视利用富含注意力线索的不确定性图来优化模糊边界分割。为解决这个问题,我们提出了渐进证据不确定性引导注意力(PEUA)机制,引导模型关注硬区域特征表示学习。PEUA不同于传统方法,它利用不确定性图渐进优化注意力,并采用低秩学习去噪注意力权重,增强对挑战区域的特征学习。同时,标准EDL方法会无差别地抑制错误类别的证据,通过Kullback-Leibler(KL)正则化损害模糊区域的不确定性评估,并导致注意力指导失真。因此,我们引入语义保留证据学习(SAEL)策略,集成语义平滑证据生成器和保真增强正则化项,以保留关键语义。通过将PEUA和SAEL嵌入到最先进的U-KAN中,我们提出了证据U-KAN,这是一种可靠的医学图像分割新解决方案。在四个数据集上的实验表明,其在准确性和可靠性方面优于其他方法。代码可通过链接访问。
关键见解
- 医学图像分割需要准确可靠的结果以支持临床决策。
- 现有证据深度学习(EDL)方法在医学图像分割中忽略了不确定性图的作用。
- 提出的PEUA机制利用不确定性图渐进优化注意力,增强特征学习。
- 标准EDL方法在处理模糊区域时存在缺陷,可能影响不确定性评估和注意力指导。
- 引入的SAEL策略通过保留关键语义来改善证据学习。
- 将PEUA和SAEL与U-KAN结合,形成新的医学图像分割解决方案——证据U-KAN。
点此查看论文截图






The Boundaries of Fair AI in Medical Image Prognosis: A Causal Perspective
Authors:Thai-Hoang Pham, Jiayuan Chen, Seungyeon Lee, Yuanlong Wang, Sayoko Moroi, Xueru Zhang, Ping Zhang
As machine learning (ML) algorithms are increasingly used in medical image analysis, concerns have emerged about their potential biases against certain social groups. Although many approaches have been proposed to ensure the fairness of ML models, most existing works focus only on medical image diagnosis tasks, such as image classification and segmentation, and overlooked prognosis scenarios, which involve predicting the likely outcome or progression of a medical condition over time. To address this gap, we introduce FairTTE, the first comprehensive framework for assessing fairness in time-to-event (TTE) prediction in medical imaging. FairTTE encompasses a diverse range of imaging modalities and TTE outcomes, integrating cutting-edge TTE prediction and fairness algorithms to enable systematic and fine-grained analysis of fairness in medical image prognosis. Leveraging causal analysis techniques, FairTTE uncovers and quantifies distinct sources of bias embedded within medical imaging datasets. Our large-scale evaluation reveals that bias is pervasive across different imaging modalities and that current fairness methods offer limited mitigation. We further demonstrate a strong association between underlying bias sources and model disparities, emphasizing the need for holistic approaches that target all forms of bias. Notably, we find that fairness becomes increasingly difficult to maintain under distribution shifts, underscoring the limitations of existing solutions and the pressing need for more robust, equitable prognostic models.
随着机器学习算法在医学图像分析中的广泛应用,人们越来越关注它们对特定社会群体的潜在偏见。尽管已经提出了许多方法来确保机器学习模型的公平性,但大多数现有工作只关注医学图像诊断任务,如图像分类和分割,而忽略了预后情景,这涉及到预测医疗状况随时间可能的结果或进展。为了弥补这一空白,我们引入了FairTTE,这是医学成像中评估时间到事件(TTE)预测公平性的首个综合框架。FairTTE涵盖了广泛的成像方式和TTE结果,集成了前沿的TTE预测和公平性算法,能够对医学图像预后的公平性进行系统和精细的分析。借助因果分析技术,FairTTE能够发现和量化医学成像数据集中嵌入的不同偏见来源。我们的大规模评估显示,不同成像方式中都普遍存在偏见,目前的公平方法提供的缓解措施有限。我们进一步证明了基础偏见来源与模型差异之间的强烈关联,强调需要全面关注所有形式的偏见的方法。值得注意的是,我们发现公平在分布变化的情况下越来越难以维持,这突显了现有解决方案的局限性以及对更稳健、公平的预后模型的迫切需求。
论文及项目相关链接
PDF Accepted at NeurIPS 2025
Summary
本文主要关注机器学习算法在医学图像分析中的潜在偏见问题,特别是在预测疾病发生或进展的预后情景中的公平性评估。为此,文章提出了FairTTE框架,该框架能够系统地、精细地分析医学图像预后中的公平性,涵盖多种成像方式和时间至事件(TTE)结果,并集成了先进的TTE预测和公平性算法。通过因果分析技术,FairTTE能够发现和量化医学图像数据集中的不同偏见来源。文章还指出当前公平性方法提供的缓解措施有限,偏见在多种成像模态中普遍存在,且存在模型差异性与底层偏见来源之间的强烈关联。此外,文章强调了公平性的维护在分布转移下变得更加困难,突显了现有解决方案的局限性以及对更稳健、公平的预后模型的迫切需求。
Key Takeaways
- 机器学习算法在医学图像分析中存在潜在偏见问题,特别是在预后情景中的公平性评估。
- FairTTE框架被提出用于系统地、精细地分析医学图像预后中的公平性。
- FairTTE涵盖多种成像方式和时间至事件(TTE)结果,集成先进的TTE预测和公平性算法。
- 通过因果分析技术,FairTTE能够发现和量化医学图像数据集中的偏见来源。
- 当前公平性方法提供的缓解措施有限,偏见在多种成像模态中普遍存在。
- 模型差异性与底层偏见来源之间存在强烈关联。
点此查看论文截图




A Denoising Framework for Real-World Ultra-Low Dose Lung CT Images Based on an Image Purification Strategy
Authors:Guoliang Gong, Man Yu
Ultra-low dose CT (uLDCT) significantly reduces radiation exposure but introduces severe noise and artifacts. It also leads to substantial spatial misalignment between uLDCT and normal dose CT (NDCT) image pairs. This poses challenges for directly applying existing denoising networks trained on synthetic noise or aligned data. To address this core challenge in uLDCT denoising, this paper proposes an innovative denoising framework based on an Image Purification (IP) strategy. First, we construct a real clinical uLDCT lung dataset. Then, we propose an Image Purification strategy that generates structurally aligned uLDCT-NDCT image pairs, providing a high-quality data foundation for network training. Building upon this, we propose a Frequency-domain Flow Matching (FFM) model, which works synergistically with the IP strategy to excellently preserve the anatomical structure integrity of denoised images. Experiments on the real clinical dataset demonstrate that our IP strategy significantly enhances the performance of multiple mainstream denoising models on the uLDCT task. Notably, our proposed FFM model combined with the IP strategy achieves state-of-the-art (SOTA) results in anatomical structure preservation. This study provides an effective solution to the data mismatch problem in real-world uLDCT denoising. Code and dataset are available at https://github.com/MonkeyDadLufy/flow-matching.
超低剂量CT(uLDCT)显著减少了辐射暴露,但引入了严重的噪声和伪影。它还导致uLDCT与正常剂量CT(NDCT)图像对之间出现较大的空间错位。这为直接应用现有合成噪声或对齐数据训练的降噪网络带来了挑战。针对uLDCT降噪中的这一核心挑战,本文提出了一种基于图像净化(IP)策略的降噪框架。首先,我们构建了真实的临床uLDCT肺部数据集。然后,我们提出了一种图像净化策略,生成结构对齐的uLDCT-NDCT图像对,为网络训练提供高质量的数据基础。在此基础上,我们提出了频域流匹配(FFM)模型,该模型与IP策略协同工作,出色地保留了去噪图像的解剖结构完整性。在真实临床数据集上的实验表明,我们的IP策略显著提高了多个主流降噪模型在uLDCT任务上的性能。值得注意的是,我们提出的FFM模型与IP策略相结合,在解剖结构保留方面达到了最新水平。本研究为解决真实世界uLDCT降噪中的数据不匹配问题提供了有效解决方案。代码和数据集可在https://github.com/MonkeyDadLufy/flow-matching获取。
论文及项目相关链接
Summary
本论文针对超低剂量CT(uLDCT)图像中的噪声和伪影问题,提出了一种基于图像净化(IP)策略的降噪框架。通过构建真实临床uLDCT肺部数据集,提出一种生成结构对齐的uLDCT-NDCT图像对的方法,为网络训练提供高质量的数据基础。在此基础上,结合频域流匹配(FFM)模型,协同IP策略,出色地保留了去噪图像的解剖结构完整性。实验证明,该策略显著提升主流去噪模型在uLDCT任务上的性能,特别是在解剖结构保留方面达到先进水平。
Key Takeaways
- 超低剂量CT(uLDCT)降低了辐射暴露,但引入了严重的噪声和伪影。
- uLDCT与正常剂量CT(NDCT)图像对之间存在空间不对齐问题,给现有降噪网络的直接应用带来挑战。
- 论文提出了一种基于图像净化(IP)策略的降噪框架,构建真实临床uLDCT肺部数据集。
- 论文引入了频域流匹配(FFM)模型,与IP策略结合,有效保留去噪图像的解剖结构完整性。
- 实验证明,IP策略显著提升主流去噪模型在uLDCT任务上的性能。
- 结合IP策略和FFM模型的方案在解剖结构保留方面达到先进水平。
点此查看论文截图






