嘘~ 正在从服务器偷取页面 . . .

医学图像


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-19 更新

LamiGauss: Pitching Radiative Gaussian for Sparse-View X-ray Laminography Reconstruction

Authors:Chu Chen, Ander Biguri, Jean-Michel Morel, Raymond H. Chan, Carola-Bibiane Schönlieb, Jizhou Li

X-ray Computed Laminography (CL) is essential for non-destructive inspection of plate-like structures in applications such as microchips and composite battery materials, where traditional computed tomography (CT) struggles due to geometric constraints. However, reconstructing high-quality volumes from laminographic projections remains challenging, particularly under highly sparse-view acquisition conditions. In this paper, we propose a reconstruction algorithm, namely LamiGauss, that combines Gaussian Splatting radiative rasterization with a dedicated detector-to-world transformation model incorporating the laminographic tilt angle. LamiGauss leverages an initialization strategy that explicitly filters out common laminographic artifacts from the preliminary reconstruction, preventing redundant Gaussians from being allocated to false structures and thereby concentrating model capacity on representing the genuine object. Our approach effectively optimizes directly from sparse projections, enabling accurate and efficient reconstruction with limited data. Extensive experiments on both synthetic and real datasets demonstrate the effectiveness and superiority of the proposed method over existing techniques. LamiGauss uses only 3$%$ of full views to achieve superior performance over the iterative method optimized on a full dataset.

X射线计算层析成像(CL)对于微芯片和复合电池材料等板状结构的非破坏性检测至关重要。由于几何约束,传统计算机断层扫描(CT)在这些应用中面临困难。然而,从层析投影重建高质量体积仍然是一个挑战,特别是在高度稀疏视图采集条件下。在本文中,我们提出了一种重建算法,即LamiGauss,它将高斯Splatting辐射光栅化与结合层析倾斜角的专用检测器到世界转换模型相结合。LamiGauss利用初始化策略,明确过滤出常见的层析伪影,防止冗余高斯值被分配到错误的结构上,从而将模型容量集中在表示真实物体上。我们的方法直接从稀疏投影中进行优化,可用有限的数据实现准确高效的重建。在合成和真实数据集上的大量实验证明了所提方法的有效性和优越性。LamiGauss仅使用3%的全视图即可实现优于全数据集优化迭代方法的高性能表现。

论文及项目相关链接

PDF

Summary

X光计算层析成像(CL)对于微芯片和复合电池材料等板状结构的非破坏性检测至关重要,传统计算机断层扫描(CT)因几何约束而难以应用。本文提出一种结合高斯溅射辐射光栅化和包含层析倾斜角的专用检测器到世界转换模型的重建算法LamiGauss。该算法通过初步重建过滤掉常见的层析成像伪影,避免冗余高斯分配于错误结构,从而专注于真实物体的表示。此算法直接从稀疏投影进行优化,在有限数据下实现准确高效的重建。在合成和真实数据集上的大量实验证明,该方法在现有技术上的效果和优越性。仅使用全部视图的3%,便可超越在全数据集上优化的迭代方法。

Key Takeaways

  1. X-ray Computed Laminography (CL)对于非破坏性检测板状结构非常重要,尤其适用于微芯片和复合电池材料等应用。
  2. 传统计算机断层扫描(CT)由于几何约束在某些领域难以应用。
  3. LamiGauss算法结合了Gaussian Splatting和检测器到世界的转换模型。
  4. LamiGauss通过过滤层析成像伪影,优化模型容量以表示真实物体。
  5. 该算法可直接从稀疏投影进行优化,实现有限数据下的准确高效重建。
  6. 在合成和真实数据集上的实验证明LamiGauss方法和现有技术的优越性。

Cool Papers

点此查看论文截图

Consistent View Alignment Improves Foundation Models for 3D Medical Image Segmentation

Authors:Puru Vaish, Felix Meister, Tobias Heimann, Christoph Brune, Jelmer M. Wolterink

Many recent approaches in representation learning implicitly assume that uncorrelated views of a data point are sufficient to learn meaningful representations for various downstream tasks. In this work, we challenge this assumption and demonstrate that meaningful structure in the latent space does not emerge naturally. Instead, it must be explicitly induced. We propose a method that aligns representations from different views of the data to align complementary information without inducing false positives. Our experiments show that our proposed self-supervised learning method, Consistent View Alignment, improves performance for downstream tasks, highlighting the critical role of structured view alignment in learning effective representations. Our method achieved first and second place in the MICCAI 2025 SSL3D challenge when using a Primus vision transformer and ResEnc convolutional neural network, respectively. The code and pretrained model weights are released at https://github.com/Tenbatsu24/LatentCampus.

在表示学习的诸多最新方法中,隐含地假设一个数据点的非相关视图足以为各种下游任务学习有意义的表示。在这项工作中,我们质疑这一假设,并证明潜在空间中的有意义结构并不会自然出现。相反,它必须显式地诱导产生。我们提出了一种方法,通过对数据不同视图的表示进行对齐,以对齐互补信息,而不会产生误报。我们的实验表明,我们提出的自监督学习方法——一致视图对齐,提高了下游任务的性能,凸显了结构化视图对齐在学习有效表示中的关键作用。当使用Primus视觉变压器和ResEnc卷积神经网络时,我们的方法在MICCAI 2025 SSL3D挑战中分别取得第一和第二名。相关代码和预训练模型权重已发布在https://github.com/Tenbatsu24/LatentCampus

论文及项目相关链接

PDF MICCAI 2025: 1st Place in Transformer track and 2nd Place in Convolution track of SSL3D-OpenMind challenge

Summary
本文挑战了现有表示学习方法中无关数据点视图能自然形成有意义结构的假设,并提出一种方法,通过对不同视图的数据表示进行对齐,以获取互补信息,避免产生误报。实验证明,其提出的自监督学习方法Consistent View Alignment对下游任务性能有所提升。在MICCAI 2025 SSL3D挑战赛中,使用Primus Vision Transformer和ResEnc卷积神经网络的方法分别获得第一和第二名。代码和预训练模型权重已发布在LatentCampus上。

Key Takeaways

  1. 现有表示学习方法存在假设:无关数据点视图足以形成有意义结构,本文对此提出质疑。
  2. 本文提出一种方法,通过显式诱导形成有意义结构,而非假设其会自然出现。
  3. 方法名为Consistent View Alignment,旨在对齐不同视图的数据表示,获取互补信息并避免误报。
  4. 实验证明,该方法能提高下游任务性能。
  5. 在MICCAI 2025 SSL3D挑战赛中,使用此方法在两种不同网络架构上取得优异成绩。
  6. 代码和预训练模型权重已公开发布在LatentCampus上,方便研究者和开发者使用。

Cool Papers

点此查看论文截图

Semi-MoE: Mixture-of-Experts meets Semi-Supervised Histopathology Segmentation

Authors:Nguyen Lan Vi Vu, Thanh-Huy Nguyen, Thien Nguyen, Daisuke Kihara, Tianyang Wang, Xingjian Li, Min Xu

Semi-supervised learning has been employed to alleviate the need for extensive labeled data for histopathology image segmentation, but existing methods struggle with noisy pseudo-labels due to ambiguous gland boundaries and morphological misclassification. This paper introduces Semi-MOE, to the best of our knowledge, the first multi-task Mixture-of-Experts framework for semi-supervised histopathology image segmentation. Our approach leverages three specialized expert networks: A main segmentation expert, a signed distance field regression expert, and a boundary prediction expert, each dedicated to capturing distinct morphological features. Subsequently, the Multi-Gating Pseudo-labeling module dynamically aggregates expert features, enabling a robust fuse-and-refine pseudo-labeling mechanism. Furthermore, to eliminate manual tuning while dynamically balancing multiple learning objectives, we propose an Adaptive Multi-Objective Loss. Extensive experiments on GlaS and CRAG benchmarks show that our method outperforms state-of-the-art approaches in low-label settings, highlighting the potential of MoE-based architectures in advancing semi-supervised segmentation. Our code is available at https://github.com/vnlvi2k3/Semi-MoE.

半监督学习已被应用于缓解病理学图像分割对大量标注数据的需求,但现有方法在处理由于腺体边界模糊和形态误分类而产生的噪声伪标签时遇到了困难。本文引入了Semi-MOE,据我们所知,这是第一个用于半监督病理学图像分割的多任务混合专家框架。我们的方法利用三个专业的专家网络:主要分割专家、带符号距离场回归专家和边界预测专家,每个专家网络都专注于捕获不同的形态特征。随后,多门控伪标签模块动态聚合专家特征,实现稳健的融合和细化伪标签机制。此外,为了消除手动调整,同时动态平衡多个学习目标,我们提出了自适应多目标损失。在GlaS和CRAG基准测试上的大量实验表明,我们的方法在低标签设置下优于最新方法,突显了基于MoE架构的潜力在推进半监督分割方面的优势。我们的代码可在https://github.com/vnlvi2k3/Semi-MoE获得。

论文及项目相关链接

PDF Accepted to BMVC 2025

Summary

半监督学习被应用于缓解医学图像分割中对大量标注数据的需求,但现有方法因腺体边界模糊和形态误分类而面临噪声伪标签的问题。本文引入Semi-MOE,据我们所知,它是第一个用于半监督医学图像分割的多任务混合专家框架。该方法利用三个专业专家网络:主分割专家、符号距离场回归专家和边界预测专家,分别专注于捕捉不同的形态特征。随后,多门控伪标签模块动态聚合专家特征,实现稳健的融合和细化伪标签机制。此外,为了消除手动调整并动态平衡多个学习目标,我们提出了自适应多目标损失。在GlaS和CRAG基准测试上的实验表明,我们的方法在低标签设置下优于最新方法,突显了基于MoE架构的潜力。

Key Takeaways

  1. 本研究解决半监督学习在医学图像分割中面临噪声伪标签的问题。
  2. 引入Semi-MOE,据称首个多任务混合专家框架用于半监督医学图像分割。
  3. 利用三个专业专家网络进行特征捕捉:主分割、符号距离场回归和边界预测。
  4. 多门控伪标签模块动态聚合专家特征,实现稳健伪标签机制。
  5. 提出自适应多目标损失以消除手动调整并动态平衡多个学习目标。
  6. 在GlaS和CRAG基准测试上表现优于其他方法,特别是在低标签设置下。

Cool Papers

点此查看论文截图

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Authors:Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro

Accurately segmenting articulatory structures in real-time magnetic resonance imaging (rtMRI) remains challenging, as most existing methods rely almost entirely on visual cues. Yet synchronized acoustic and phonological signals provide complementary context that can enrich visual information and improve precision. In this paper, we introduce VocSegMRI, a multimodal framework that integrates video, audio, and phonological inputs through cross-attention fusion for dynamic feature alignment. To further enhance cross-modal representation, we incorporate a contrastive learning objective that improves segmentation performance even when the audio modality is unavailable at inference. Evaluated on a sub-set of USC-75 rtMRI dataset, our approach achieves state-of-the-art performance, with a Dice score of 0.95 and a 95th percentile Hausdorff Distance (HD_95) of 4.20 mm, outperforming both unimodal and multimodal baselines. Ablation studies confirm the contributions of cross-attention and contrastive learning to segmentation precision and robustness. These results highlight the value of integrative multimodal modeling for accurate vocal tract analysis.

实时磁共振成像(rtMRI)中精确分割发音结构仍然是一个挑战,因为大多数现有方法几乎完全依赖于视觉线索。然而,同步的声学和语音信号提供了丰富的上下文信息,可以丰富视觉信息并提高精度。在本文中,我们介绍了VocSegMRI,这是一个多模式框架,通过跨注意融合整合视频、音频和语音输入,实现动态特征对齐。为了进一步增强跨模式表示,我们引入了对比学习目标,即使在推理时音频模式不可用,也能提高分割性能。在USC-75 rtMRI数据集的一个子集上进行了评估,我们的方法达到了最先进的性能,Dice得分为0.95,95th百分位Hausdorff距离(HD_95)为4.20毫米,超过了单模态和多模态基线。消融研究证实了跨注意力和对比学习对分割精度和稳健性的贡献。这些结果突显了整合多模式建模在准确分析声带结构中的重要性。

论文及项目相关链接

PDF Preprint submitted to ICASSP

Summary
本论文提出VocSegMRI的多模态框架,通过融合视频、音频和语音信号,利用跨注意力融合实现动态特征对齐,提高实时磁共振成像(rtMRI)中对发音结构的准确分割。即使在没有音频模态的情况下,通过对比学习目标,该框架也能提高分割性能。在USC-75 rtMRI数据集上评估,该方法达到领先水平,Dice系数为0.95,Hausdorff Distance(HD_95)为4.20mm。

Key Takeaways

  1. VocSegMRI是一个多模态框架,能够整合视频、音频和语音信号。
  2. 该框架利用跨注意力融合实现动态特征对齐。
  3. 对比学习目标的引入提高了分割性能的鲁棒性,即使在没有音频模态的情况下。
  4. 在USC-75 rtMRI数据集上评估,VocSegMRI达到领先水平。
  5. 该方法的Dice系数达到0.95,显示出较高的分割准确性。
  6. 框架的Ablation研究证实了跨注意力和对比学习对分割精度和稳健性的贡献。

Cool Papers

点此查看论文截图

SAMIR, an efficient registration framework via robust feature learning from SAM

Authors:Yue He, Min Liu, Qinghao Liu, Jiazheng Wang, Yaonan Wang, Hang Zhang, Xiang Chen

Image registration is a fundamental task in medical image analysis. Deformations are often closely related to the morphological characteristics of tissues, making accurate feature extraction crucial. Recent weakly supervised methods improve registration by incorporating anatomical priors such as segmentation masks or landmarks, either as inputs or in the loss function. However, such weak labels are often not readily available, limiting their practical use. Motivated by the strong representation learning ability of visual foundation models, this paper introduces SAMIR, an efficient medical image registration framework that utilizes the Segment Anything Model (SAM) to enhance feature extraction. SAM is pretrained on large-scale natural image datasets and can learn robust, general-purpose visual representations. Rather than using raw input images, we design a task-specific adaptation pipeline using SAM’s image encoder to extract structure-aware feature embeddings, enabling more accurate modeling of anatomical consistency and deformation patterns. We further design a lightweight 3D head to refine features within the embedding space, adapting to local deformations in medical images. Additionally, we introduce a Hierarchical Feature Consistency Loss to guide coarse-to-fine feature matching and improve anatomical alignment. Extensive experiments demonstrate that SAMIR significantly outperforms state-of-the-art methods on benchmark datasets for both intra-subject cardiac image registration and inter-subject abdomen CT image registration, achieving performance improvements of 2.68% on ACDC and 6.44% on the abdomen dataset. The source code will be publicly available on GitHub following the acceptance of this paper.

图像配准是医学图像分析中的基本任务。变形通常与组织的形态特征密切相关,因此准确的特征提取至关重要。最近出现的弱监督方法通过融入解剖学先验(如分割掩膜或标记点)来改善配准效果,无论是作为输入还是用于损失函数。然而,此类弱标签通常难以获取,从而限制了其实际应用。受视觉基础模型强大表示学习能力的影响,本文介绍了SAMIR,这是一个高效的医学图像配准框架,它利用“任意分割模型”(SAM)增强特征提取。SAM在大规模自然图像数据集上进行预训练,可学习稳健的通用视觉表示。我们没有使用原始输入图像,而是设计了一个特定任务的适应管道,使用SAM的图像编码器来提取结构感知特征嵌入,从而更准确地模拟解剖一致性和变形模式。我们进一步设计了一个轻量级的3D头部,在嵌入空间内细化特征,以适应医学图像中的局部变形。此外,我们引入了分层特征一致性损失,以引导从粗糙到精细的特征匹配并改善解剖学对齐。大量实验表明,在基准数据集上,SAMIR在受试者内部心脏图像配准和受试者之间腹部CT图像配准方面都显著优于最新方法,在ACDC上实现了2.68%的性能提升,在腹部数据集上实现了6.44%的性能提升。论文被接受后,源代码将在GitHub上公开提供。

论文及项目相关链接

PDF

Summary

本文提出了一种高效的医学图像注册框架SAMIR,它利用预训练在大型自然图像数据集上的Segment Anything Model(SAM)增强特征提取。通过设计任务特定的适应管道和3D头,SAMIR能更准确地建模解剖结构的一致性和变形模式。此外,还引入了分层特征一致性损失,以指导粗到细的特征匹配,提高解剖对齐。实验表明,SAMIR在心脏图像注册的基准数据集上比最新技术领先了高达2.68%,在腹部CT图像注册的基准数据集上领先了高达6.44%。

Key Takeaways

  1. 医学图像注册中,特征提取的重要性在于其与组织形态的紧密关联。
  2. 预训练的Segment Anything Model(SAM)用于增强医学图像的特征提取。
  3. SAMIR框架通过任务特定适应管道和3D头设计,实现更准确的结构感知特征嵌入提取。
  4. 引入分层特征一致性损失以改善粗到细的特征匹配和解剖对齐。
  5. SAMIR在心脏和腹部CT图像注册的基准数据集上实现了显著的性能提升。
  6. SAMIR框架源代码将在论文被接受后公开在GitHub上。

Cool Papers

点此查看论文截图

Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction for Sparse-View CT

Authors:Haodong Li, Shuo Han, Haiyang Mao, Yu Shi, Changsheng Fang, Jianjia Zhang, Weiwen Wu, Hengyong Yu

Sparse-View CT (SVCT) reconstruction enhances temporal resolution and reduces radiation dose, yet its clinical use is hindered by artifacts due to view reduction and domain shifts from scanner, protocol, or anatomical variations, leading to performance degradation in out-of-distribution (OOD) scenarios. In this work, we propose a Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction (CDPIR) framework to tackle the OOD problem in SVCT. CDPIR integrates cross-distribution diffusion priors, derived from a Scalable Interpolant Transformer (SiT), with model-based iterative reconstruction methods. Specifically, we train a SiT backbone, an extension of the Diffusion Transformer (DiT) architecture, to establish a unified stochastic interpolant framework, leveraging Classifier-Free Guidance (CFG) across multiple datasets. By randomly dropping the conditioning with a null embedding during training, the model learns both domain-specific and domain-invariant priors, enhancing generalizability. During sampling, the globally sensitive transformer-based diffusion model exploits the cross-distribution prior within the unified stochastic interpolant framework, enabling flexible and stable control over multi-distribution-to-noise interpolation paths and decoupled sampling strategies, thereby improving adaptation to OOD reconstruction. By alternating between data fidelity and sampling updates, our model achieves state-of-the-art performance with superior detail preservation in SVCT reconstructions. Extensive experiments demonstrate that CDPIR significantly outperforms existing approaches, particularly under OOD conditions, highlighting its robustness and potential clinical value in challenging imaging scenarios.

稀疏视图CT(SVCT)重建提高了时间分辨率并降低了辐射剂量,但其临床应用受到视图减少和来自扫描仪、协议或解剖结构变化所导致的域偏移所产生的伪影的阻碍,这导致在分布外(OOD)场景中性能下降。在这项工作中,我们提出了一个跨分布扩散先验驱动迭代重建(CDPIR)框架,以解决SVCT中的OOD问题。CDPIR将跨分布扩散先验与基于模型的迭代重建方法相结合,这些先验是由可扩展插值转换器(SiT)得出的。具体来说,我们训练了一个SiT骨干网,这是扩散转换器(DiT)架构的扩展,以建立一个统一的随机插值框架,利用多个数据集之间的无分类指导(CFG)。通过训练过程中随机丢弃空嵌入作为条件,模型学会了特定领域和跨领域的先验知识,增强了其通用性。在采样过程中,全局敏感性的基于变压器的扩散模型在统一的随机插值框架内利用跨分布先验,实现对多分布到噪声插值路径和解耦采样策略的灵活稳定控制,从而提高了对OOD重建的适应性。通过数据保真度和采样更新之间的交替,我们的模型在SVCT重建中实现了最先进的性能,并出色地保留了细节。大量实验表明,CDPIR显著优于现有方法,尤其是在OOD条件下,突显其在具有挑战性的成像场景中的稳健性和潜在的临床价值。

论文及项目相关链接

PDF 11 pages, 8 figures, under reviewing of IEEE TMI

Summary

本文提出一种名为CDPIR的跨分布扩散先验驱动迭代重建框架,以解决稀疏视图CT(SVCT)中的跨分布问题。CDPIR结合了来自可扩展插值变换器(SiT)的跨分布扩散先验与模型驱动的迭代重建方法。通过训练SiT骨干——一个基于扩散转换器(DiT)架构的扩展,建立统一随机插值框架,利用多个数据集的无分类器引导(CFG)。模型在训练过程中通过随机丢弃条件并使用空嵌入,学习特定领域和跨领域的先验知识,提高泛化能力。采样时,基于全局敏感变换的扩散模型在统一随机插值框架内利用跨分布先验,实现多分布到噪声插值路径的灵活稳定控制和解耦采样策略,适应跨分布重建。通过交替进行数据保真度和采样更新,我们的模型在SVCT重建中实现了最先进的性能,尤其在细节保留方面表现出卓越的性能。

Key Takeaways

  1. CDPIR框架被提出以解决稀疏视图CT(SVCT)中的跨分布问题。
  2. 跨分布扩散先验与模型驱动的迭代重建方法的结合提高了SVCT的性能。
  3. SiT骨干的建立结合了扩散转换器(DiT)架构,并引入了无分类器引导(CFG)。
  4. 训练过程中,模型学习特定领域和跨领域的先验知识,提高泛化能力。
  5. 在采样过程中,模型利用跨分布先验实现灵活稳定的插值路径和采样策略。
  6. CDPIR框架通过交替进行数据保真度和采样更新,实现了SVCT重建中的最佳性能。

Cool Papers

点此查看论文截图

Semantic 3D Reconstructions with SLAM for Central Airway Obstruction

Authors:Ayberk Acar, Fangjie Li, Hao Li, Lidia Al-Zogbi, Kanyifeechukwu Jane Oguine, Susheela Sharma Stern, Jesse F. d’Almeida, Robert J. Webster III, Ipek Oguz, Jie Ying Wu

Central airway obstruction (CAO) is a life-threatening condition with increasing incidence, caused by tumors in and outside of the airway. Traditional treatment methods such as bronchoscopy and electrocautery can be used to remove the tumor completely; however, these methods carry a high risk of complications. Recent advances allow robotic interventions with lesser risk. The combination of robot interventions with scene understanding and mapping also opens up the possibilities for automation. We present a novel pipeline that enables real-time, semantically informed 3D reconstructions of the central airway using monocular endoscopic video. Our approach combines DROID-SLAM with a segmentation model trained to identify obstructive tissues. The SLAM module reconstructs the 3D geometry of the airway in real time, while the segmentation masks guide the annotation of obstruction regions within the reconstructed point cloud. To validate our pipeline, we evaluate the reconstruction quality using ex vivo models. Qualitative and quantitative results show high similarity between ground truth CT scans and the 3D reconstructions (0.62 mm Chamfer distance). By integrating segmentation directly into the SLAM workflow, our system produces annotated 3D maps that highlight clinically relevant regions in real time. High-speed capabilities of the pipeline allows quicker reconstructions compared to previous work, reflecting the surgical scene more accurately. To the best of our knowledge, this is the first work to integrate semantic segmentation with real-time monocular SLAM for endoscopic CAO scenarios. Our framework is modular and can generalize to other anatomies or procedures with minimal changes, offering a promising step toward autonomous robotic interventions.

中央气道梗阻(CAO)是一种生命威胁性疾病,发病率不断上升,由气道内外肿瘤引起。传统治疗方法如支气管镜检和电烙术可完全切除肿瘤;然而,这些方法并发症风险较高。最近的进展使得机器人干预的风险降低。机器人干预与场景理解和映射的结合也为自动化打开了可能性。我们提出了一种新型管道,能够实现使用单眼内窥镜视频进行中央气道的实时、语义信息3D重建。我们的方法结合了DROID-SLAM和一个经过训练用于识别阻塞性组织的分割模型。SLAM模块实时重建气道的3D几何结构,而分割掩膜引导重建点云中梗阻区域的注释。为了验证我们的管道,我们使用离体模型评估重建质量。定性和定量结果表明,地面真实CT扫描和3D重建之间具有高度相似性(0.62毫米Chamfer距离)。通过将分割直接集成到SLAM工作流程中,我们的系统产生注释的3D地图,可实时突出显示临床上相关的区域。管道的高速能力可实现与先前工作相比更快的重建,更准确地反映手术场景。据我们所知,这是第一个将语义分割与实时单眼SLAM相结合用于内窥镜CAO场景的工作。我们的框架是模块化的,并且可以通过最小的更改概括到其他解剖结构或程序,是朝着自主机器人干预的有希望的一步。

论文及项目相关链接

PDF 5 pages, 2 figures, 1 table

Summary

本文介绍了一种基于单目内窥镜视频进行中央气道实时、语义信息丰富的三维重建的新型管道。该管道结合了DROID-SLAM和一个用于识别阻塞性组织的分割模型,实现了气道的实时三维几何重建,并通过分割掩膜指导阻塞区域的标注。实验验证显示,该管道重建结果与真实CT扫描高度相似。此外,该管道还具有模块化特点,可广泛应用于其他解剖结构或手术场景,为自主机器人干预提供了有前途的一步。

Key Takeaways

  1. 中央气道阻塞(CAO)是威胁生命的疾病,其发病率正在上升,通常由气道内外肿瘤引起。
  2. 传统治疗方法如支气管镜和电烙术可以完全去除肿瘤,但并发症风险较高。
  3. 新型机器人干预技术风险较低,并与场景理解和映射结合,为自动化提供了可能性。
  4. 提出了一种基于单目内窥镜视频进行中央气道实时三维重建的管道,结合DROID-SLAM和分割模型实现精准重建。
  5. 重建结果与真实CT扫描高度相似,定量评估显示Chamfer距离为0.62毫米。
  6. 该管道通过将分割直接集成到SLAM工作流程中,产生注释的三维地图,实时突出显示临床相关区域。
  7. 管道的高速特性允许更快的重建,更准确地反映手术场景,并且是模块化的,可轻松应用于其他解剖结构或手术程序。

Cool Papers

点此查看论文截图

FunKAN: Functional Kolmogorov-Arnold Network for Medical Image Enhancement and Segmentation

Authors:Maksim Penkin, Andrey Krylov

Medical image enhancement and segmentation are critical yet challenging tasks in modern clinical practice, constrained by artifacts and complex anatomical variations. Traditional deep learning approaches often rely on complex architectures with limited interpretability. While Kolmogorov-Arnold networks offer interpretable solutions, their reliance on flattened feature representations fundamentally disrupts the intrinsic spatial structure of imaging data. To address this issue we propose a Functional Kolmogorov-Arnold Network (FunKAN) – a novel interpretable neural framework, designed specifically for image processing, that formally generalizes the Kolmogorov-Arnold representation theorem onto functional spaces and learns inner functions using Fourier decomposition over the basis Hermite functions. We explore FunKAN on several medical image processing tasks, including Gibbs ringing suppression in magnetic resonance images, benchmarking on IXI dataset. We also propose U-FunKAN as state-of-the-art binary medical segmentation model with benchmarks on three medical datasets: BUSI (ultrasound images), GlaS (histological structures) and CVC-ClinicDB (colonoscopy videos), detecting breast cancer, glands and polyps, respectively. Experiments on those diverse datasets demonstrate that our approach outperforms other KAN-based backbones in both medical image enhancement (PSNR, TV) and segmentation (IoU, F1). Our work bridges the gap between theoretical function approximation and medical image analysis, offering a robust, interpretable solution for clinical applications.

医学图像增强和分割是现代临床实践中既重要又具挑战性的任务,受到伪影和复杂解剖结构变化的影响。传统的深度学习方法往往依赖于具有有限解释性的复杂架构。尽管Kolmogorov-Arnold网络提供了可解释的解决方案,但它们对扁平特征表示的依赖从根本上破坏了成像数据的内在空间结构。为了解决这个问题,我们提出了一种功能Kolmogorov-Arnold网络(FunKAN)——一种专门用于图像处理的全新可解释神经网络框架,它正式将Kolmogorov-Arnold表示定理推广到功能空间,并使用Hermite函数的基函数的傅里叶分解来学习内部函数。我们在多个医学图像处理任务上探索了FunKAN,包括对磁共振图像中的Gibbs振铃进行抑制,并在IXI数据集上进行基准测试。我们还提出了U-FunKAN,这是最先进的二元医学分割模型,在三个医学数据集上进行基准测试:BUSI(超声图像)、GlaS(组织结构)和CVC-ClinicDB(结肠镜检查视频),分别检测乳腺癌、腺体和多发性息肉。在这些不同数据集上的实验表明,我们的方法在医学图像增强(PSNR,TV)和分割(IoU,F1)方面都优于其他KAN基础方法。我们的工作缩小了理论函数逼近和医学图像分析之间的差距,为临床应用提供了稳健、可解释的解决方案。

论文及项目相关链接

PDF 9 pages, 5 figures, submitted to the Fortieth AAAI Conference on Artificial Intelligence (AAAI-26)

Summary

医学图像增强与分割是现代临床实践中重要且具有挑战性的任务,受到伪影和复杂解剖结构变化的影响。为解决这个问题,本文提出了一种名为Functional Kolmogorov-Arnold Network(FunKAN)的新型神经网络框架,该框架在功能空间上推广了Kolmogorov-Arnold表示定理,并利用Hermite函数的傅立叶分解来学习内在函数。该框架用于磁共振图像中的Gibbs伪影抑制等医学图像处理任务,并在IXI数据集上进行基准测试。同时,本文还提出了U-FunKAN作为最先进的二元医学分割模型,并在BUSI(超声图像)、GlaS(组织结构)和CVC-ClinicDB(结肠镜检查视频)三个医学数据集上进行基准测试,分别检测乳腺癌、腺体和多发性息肉。实验结果表明,该方法在医学图像增强(PSNR,TV)和分割(IoU,F1)方面优于其他KAN基础模型。本文缩小了理论函数逼近与医学图像分析之间的差距,为临床应用提供了稳健、可解释的解决方案。

Key Takeaways

  1. 医学图像增强与分割是临床实践中重要的任务,面临伪影和复杂解剖结构变化的挑战。
  2. 传统深度学习方法依赖复杂架构,而Kolmogorov-Arnold网络虽然具有解释性,但会破坏成像数据的内在空间结构。
  3. 提出了Functional Kolmogorov-Arnold Network (FunKAN) 新型神经网络框架,旨在解决医学图像处理问题。
  4. FunKAN能够在磁共振图像中抑制Gibbs伪影,并在IXI数据集上进行基准测试。
  5. U-FunKAN作为最先进的二元医学分割模型提出,用于检测乳腺癌、腺体和多发性息肉。
  6. U-FunKAN在BUSI、GlaS和CVC-ClinicDB三个医学数据集上进行了基准测试。

Cool Papers

点此查看论文截图

PREDICT-GBM: Platform for Robust Evaluation and Development of Individualized Computational Tumor Models in Glioblastoma

Authors:L. Zimmer, J. Weidner, M. Balcerak, F. Kofler, I. Ezhov, B. Menze, B. Wiestler

Glioblastoma is the most prevalent primary brain malignancy, distinguished by its highly invasive behavior and exceptionally high rates of recurrence. Conventional radiation therapy, which employs uniform treatment margins, fails to account for patient-specific anatomical and biological factors that critically influence tumor cell migration. To address this limitation, numerous computational models of glioblastoma growth have been developed, enabling generation of tumor cell distribution maps extending beyond radiographically visible regions and thus informing more precise treatment strategies. However, despite encouraging preliminary findings, the clinical adoption of these growth models remains limited. To bridge this translational gap and accelerate both model development and clinical validation, we introduce PREDICT-GBM, a comprehensive integrated pipeline and dataset for modeling and evaluation. This platform enables systematic benchmarking of state-of-the-art tumor growth models using an expert-curated clinical dataset comprising 255 subjects with complete tumor segmentations and tissue characterization maps. Our analysis demonstrates that personalized radiation treatment plans derived from tumor growth predictions achieved superior recurrence coverage compared to conventional uniform margin approaches for two of the evaluated models. This work establishes a robust platform for advancing and systematically evaluating cutting-edge tumor growth modeling approaches, with the ultimate goal of facilitating clinical translation and improving patient outcomes.

胶质母细胞瘤是最常见的主要脑恶性肿瘤,其特点是具有高度侵袭性和极高的复发率。传统的放射治疗采用均匀的治疗边界,忽视了特定患者的解剖和生物学因素,这些因素对肿瘤细胞迁移有重要影响。为了解决这一局限性,已经开发了许多胶质母细胞瘤生长的计算模型,能够生成超越放射学可见区域的肿瘤细胞分布图,从而为更精确的治疗策略提供信息。然而,尽管初步发现令人鼓舞,但这些生长模型的临床应用仍然有限。为了弥合这一转化差距并加速模型开发和临床验证,我们引入了PREDICT-GBM,这是一个用于建模和评估的综合集成管道和数据集。该平台使用专家编制的临床数据集,其中包括255名患者的完整肿瘤分割和组织特征图,能够对最先进的肿瘤生长模型进行系统性的基准测试。我们的分析表明,根据肿瘤生长预测制定的个性化放射治疗计划,对于所评估的两个模型来说,相较于传统均匀边界方法实现了更高的复发覆盖。这项工作建立了一个稳健的平台,用于推进和系统评估前沿的肿瘤生长建模方法,最终目标是通过改善临床翻译和提高患者疗效来实现突破。

论文及项目相关链接

PDF

Summary

本文介绍了胶质母细胞瘤是一种常见且易于复发的原发性脑恶性肿瘤。传统的放射治疗无法考虑到患者特定的解剖和生物学因素,影响治疗效果。为了解决这个问题,已经开发了许多胶质母细胞瘤生长的计算模型,以生成肿瘤细胞的分布图并预测肿瘤生长,从而为更精确的治疗策略提供依据。然而,这些模型的临床应用仍然有限。为了缩小差距并加速模型开发和临床验证,引入了一个名为PREDICT-GBM的综合管道和数据集。此平台能够系统地评估最先进的肿瘤生长模型,并使用包含255名患者的专家分类临床数据集进行验证。分析表明,基于肿瘤生长预测制定的个性化放射治疗计划在某些模型中实现了优于传统均匀边界方法的复发覆盖率。这为推进和系统评估前沿的肿瘤生长建模方法提供了一个稳健的平台,最终目标是为临床翻译和改善患者预后提供便利。

Key Takeaways

  1. 胶质母细胞瘤是常见且易复发的原发性脑恶性肿瘤。
  2. 传统放射治疗未考虑患者特定的解剖和生物学因素。
  3. 计算模型用于预测胶质母细胞瘤的生长,以提供更精确的治疗策略。
  4. PREDICT-GBM平台旨在推进和系统评估肿瘤生长建模方法。
  5. 该平台使用了包含255名患者的专家分类临床数据集进行验证。
  6. 基于肿瘤生长预测制定的个性化放射治疗计划在某些模型中显示出更高的复发覆盖率。

Cool Papers

点此查看论文截图

Data-Efficient Fine-Tuning of Vision-Language Models for Diagnosis of Alzheimer’s Disease

Authors:Fangqi Cheng, Surajit Ray, Xiaochen Yang

Medical vision-language models (Med-VLMs) have shown impressive results in tasks such as report generation and visual question answering, but they still face several limitations. Most notably, they underutilize patient metadata and lack integration of clinical diagnostic knowledge. Moreover, most existing models are typically trained from scratch or fine-tuned on large-scale 2D image-text pairs, requiring extensive computational resources, and their effectiveness on 3D medical imaging is often limited due to the absence of structural information. To address these gaps, we propose a data-efficient fine-tuning pipeline to adapt 3D CT-based Med-VLMs for 3D MRI and demonstrate its application in Alzheimer’s disease (AD) diagnosis. Our system introduces two key innovations. First, we convert structured metadata into synthetic reports, enriching textual input for improved image-text alignment. Second, we add an auxiliary token trained to predict the mini-mental state examination (MMSE) score, a widely used clinical measure of cognitive function that correlates with AD severity. This provides additional supervision for fine-tuning. Applying lightweight prompt tuning to both image and text modalities, our approach achieves state-of-the-art performance on two AD datasets using 1,500 training images, outperforming existing methods fine-tuned on 10,000 images. Code will be released upon publication.

医疗视觉语言模型(Med-VLMs)在报告生成和视觉问答等任务中展现出了令人印象深刻的结果,但它们仍然面临一些局限性。最显著的是,它们对病人元数据的利用不足,且缺乏临床诊断知识的整合。此外,大多数现有模型通常是从头开始训练或在大量2D图像文本对上微调,需要大量的计算资源,它们在3D医学成像上的应用效果往往由于缺少结构信息而受限。为了解决这些差距,我们提出了一种数据高效微调管道,以适应基于3D CT的Med-VLMs用于3D MRI,并展示了其在阿尔茨海默病(AD)诊断中的应用。我们的系统引入了两个关键创新点。首先,我们将结构化元数据转换为合成报告,丰富文本输入,以改进图像文本对齐。其次,我们添加了一个辅助令牌,用于预测迷你精神状态检查表(MMSE)得分,这是一个广泛应用于临床的认知功能测量表,与AD严重程度相关。这为微调提供了额外的监督。通过对图像和文本模态应用轻量级提示调整,我们的方法在两个AD数据集上使用1500张训练图像达到了最先进的性能,优于在10000张图像上微调的现有方法。代码将在发布时公布。

论文及项目相关链接

PDF

Summary
医学视觉语言模型(Med-VLMs)在报告生成和视觉问答等任务中表现出令人印象深刻的结果,但仍存在几个局限性。最主要的是,它们未充分利用患者元数据并缺乏临床诊断知识的整合。针对这些不足,我们提出了一种数据高效的微调管道,以适应基于3D CT的Med-VLMs用于3D MRI,并展示了其在阿尔茨海默病(AD)诊断中的应用。我们的系统包含两个关键创新点:首先,我们将结构化元数据转换为合成报告,丰富文本输入以提高图像文本对齐;其次,我们添加了一个用于预测微小精神状态检查(MMSE)得分的辅助标记符号进行微调监督,作为衡量认知功能的常用指标,它与AD的严重程度密切相关。这种方法仅在数千个训练图像上实现了一项应用方面的最前沿成果,可预测更高级的图像处理技术要求精细推理的数据集的表现,超越在现有方法的十倍训练数据上的表现。该方法的实现代码将在出版时公开发布。对于注意力机制和结构化的元数据的价值有了更深入的见解。这种精细调整的语言模型能更准确地解释和理解复杂的医学图像数据,这对于诊断和医疗决策具有至关重要的意义。它提供了更大的可能性,即通过机器学习模型更精确地分析阿尔茨海默病等神经性疾病的早期症状。总体而言,该模型显著提高了对医学图像信息的理解准确性并减少了训练成本。因此它有助于更有效地利用资源并提供更好的医疗服务。这开启了人工智能在医学领域的新的里程碑。医学图像理解和报告生成等任务的精确度和效率都获得了显著的提升和前景明朗的应用发展轨迹都指明了我们的进步对未来精确诊断和相关临床应用产生的影响意义重大值得期待通过减轻其面对的各种限制因素的措施将其实际应用得到进一步扩大是我们后续的研究方向将充分发挥出其更大的潜力推进医疗保健技术的进步从而为未来的患者提供更高效的服务减少治疗成本和提高治疗效率。同时我们还将致力于开发更加智能的算法以应对未来可能出现的挑战和机遇提高诊断的准确性同时也进一步拓展其应用范围以实现更加广泛的医疗服务从而为广大患者带来实实在在的利益这也是我们的目标所在。”这是对我们未来研究和工作的一种强有力的鞭策。”接下来我将根据这些信息提取关键要点并进行简明扼要的解释以帮助理解。虽然这个过程非常复杂需要各种技能和知识背景知识的支撑但我仍然能够确保分析和解释的准确性和清晰性以满足你的需求并努力达成你的期望目标。Key Takeaways:

  1. Med-VLMs在医学图像相关任务中表现出色,但在利用患者元数据和整合临床知识方面存在不足。
  2. 提出的微调管道适应了基于3D CT的Med-VLMs用于处理3D MRI数据,用于阿尔茨海默病的诊断。
  3. 系统创新点包括利用结构化元数据生成合成报告以增强图像文本对齐,以及通过预测MMSE得分提供微调监督。
  4. 该方法在阿尔茨海默病数据集上实现了卓越性能,使用较少的训练图像超越了使用更多图像进行训练的方法。
  5. 该方法有助于更准确地理解和解释医学图像数据,对于精确诊断和医疗决策至关重要。
  6. 未来的研究方向包括扩大模型的实际应用范围和开发更智能的算法以提高诊断准确性及拓展应用范围。

Cool Papers

点此查看论文截图

Sample-Aware Test-Time Adaptation for Medical Image-to-Image Translation

Authors:Irene Iele, Francesco Di Feola, Valerio Guarrasi, Paolo Soda

Image-to-image translation has emerged as a powerful technique in medical imaging, enabling tasks such as image denoising and cross-modality conversion. However, it suffers from limitations in handling out-of-distribution samples without causing performance degradation. To address this limitation, we propose a novel Test-Time Adaptation (TTA) framework that dynamically adjusts the translation process based on the characteristics of each test sample. Our method introduces a Reconstruction Module to quantify the domain shift and a Dynamic Adaptation Block that selectively modifies the internal features of a pretrained translation model to mitigate the shift without compromising the performance on in-distribution samples that do not require adaptation. We evaluate our approach on two medical image-to-image translation tasks: low-dose CT denoising and T1 to T2 MRI translation, showing consistent improvements over both the baseline translation model without TTA and prior TTA methods. Our analysis highlights the limitations of the state-of-the-art that uniformly apply the adaptation to both out-of-distribution and in-distribution samples, demonstrating that dynamic, sample-specific adjustment offers a promising path to improve model resilience in real-world scenarios. The code is available at: https://github.com/Sample-Aware-TTA/Code.

图像到图像的转换技术已成为医学成像中的一项强大技术,能够完成图像去噪和跨模态转换等任务。然而,它在处理离群样本时存在局限,可能导致性能下降。为了解决这一局限,我们提出了一种新颖的测试时间适应(TTA)框架,该框架根据每个测试样本的特性动态调整翻译过程。我们的方法引入了一个重建模块来量化域差异和一个动态适应块,该块有选择地修改预训练翻译模型的内部特征,以减轻域差异的影响,同时不损害对不需要适应的离群样本的性能。我们在两个医学图像到图像的翻译任务上评估了我们的方法:低剂量CT去噪和T1到T2 MRI翻译,显示出相较于没有TTA的基线翻译模型和先前的TTA方法的一致改进。我们的分析强调了当前主流技术的局限性,即对离群样本和离群样本统一应用适应策略,表明动态、针对样本的特定调整是提高模型在现实场景中的稳健性的有前途的途径。代码可在:https://github.com/Sample-Aware-TTA/Code获取。

论文及项目相关链接

PDF

Summary
医学图像领域中的图像到图像翻译技术虽可实现图像去噪和跨模态转换等任务,但在处理离群样本时存在性能下降的局限性。为此,我们提出一种新颖的Test-Time Adaptation(TTA)框架,可基于每个测试样本的特性动态调整翻译过程。通过引入重建模块来衡量域偏移,并使用动态适配块选择性修改预训练翻译模型的内部特征,以减轻偏移影响,同时不损害对不需要适配的离群样本的性能。

Key Takeaways

  1. 医学图像翻译技术面临处理离群样本时的性能下降问题。
  2. 提出Test-Time Adaptation(TTA)框架,可动态调整翻译过程以适应不同测试样本。
  3. 引入重建模块来衡量域偏移。
  4. 通过动态适配块选择性修改预训练翻译模型的内部特征,以减轻偏移影响。
  5. 在低剂量CT去噪和T1到T2 MRI翻译两个任务上进行了评估,较基线翻译模型和现有TTA方法有所改进。
  6. 分析指出统一适配离群样本和离群样本的现有方法存在局限性。

Cool Papers

点此查看论文截图

MEGANet-W: A Wavelet-Driven Edge-Guided Attention Framework for Weak Boundary Polyp Detection

Authors:Zhe Yee Tan, Ashwaq Qasem

Colorectal polyp segmentation is critical for early detection of colorectal cancer, yet weak and low contrast boundaries significantly limit automated accuracy. Existing deep models either blur fine edge details or rely on handcrafted filters that perform poorly under variable imaging conditions. We propose MEGANet-W, a Wavelet Driven Edge Guided Attention Network that injects directional, parameter free Haar wavelet edge maps into each decoder stage to recalibrate semantic features. The key novelties of MEGANet-W include a two-level Haar wavelet head for multi-orientation edge extraction; and Wavelet Edge Guided Attention (W-EGA) modules that fuse wavelet cues with boundary and input branches. On five public polyp datasets, MEGANet-W consistently outperforms existing methods, improving mIoU by up to 2.3% and mDice by 1.2%, while introducing no additional learnable parameters. This approach improves reliability in difficult cases and offers a robust solution for medical image segmentation tasks requiring precise boundary detection.

结肠息肉分割对结直肠癌的早期检测至关重要,但弱边界和低对比度边界显著限制了自动化精度。现有的深度模型要么模糊精细边缘细节,要么依赖于在可变成像条件下表现不佳的手工过滤器。我们提出了MEGANet-W,这是一种基于小波驱动的边缘引导注意力网络,它将方向性、无参数的Haar小波边缘图注入到每个解码器阶段以重新校准语义特征。MEGANet-W的主要新颖性包括用于多方向边缘提取的两级Haar小波头;以及小波边缘引导注意力(W-EGA)模块,该模块将小波线索与边界和输入分支融合。在五个公共息肉数据集上,MEGANet-W始终优于现有方法,mIoU提高最多达2.3%,mDice提高1.2%,同时没有引入任何额外的可学习参数。该方法在困难情况下提高了可靠性,并为需要精确边界检测的医学图像分割任务提供了稳健的解决方案。

论文及项目相关链接

PDF This work has been submitted to the IEEE for possible publication

Summary
医学图像中结肠息肉分割对于早期检测结直肠癌至关重要,但边界模糊和对比度低影响自动化分割精度。现有深度模型存在边缘细节模糊或在不同成像条件下表现不佳的问题。本研究提出MEGANet-W模型,通过小波驱动的边引导注意力机制来改进分割效果。该模型采用两级Haar小波头进行多方向边缘提取,以及小波边引导注意力模块融合小波线索与边界和输入分支。在五个公共息肉数据集上的实验表明,MEGANet-W显著提高了现有方法的性能,平均交并比(mIoU)提高最多达2.3%,平均Dice系数提高1.2%,且没有增加额外的可学习参数。此方法提高了困难病例的可靠性,并为需要精确边界检测的医学图像分割任务提供了稳健解决方案。

Key Takeaways

  1. 医学图像中结肠息肉的自动分割对早期结直肠癌检测至关重要,但边界模糊和对比度低限制了自动化分割的准确性。
  2. 现有深度模型在应对模糊边界和多变成像条件时表现欠佳。
  3. MEGANet-W模型通过结合小波理论和边引导注意力机制来提高医学图像分割的精度和可靠性。
  4. MEGANet-W采用两级Haar小波头进行多方向边缘提取,增强模型对边缘细节的捕捉能力。
  5. 小波边引导注意力模块融合小波线索、边界信息和输入数据,提高了模型的性能。
  6. 在多个公共数据集上的实验表明,MEGANet-W在医学图像分割任务上表现出优异的性能,相较于现有方法有所提高。

Cool Papers

点此查看论文截图

A Unified Benchmark of Federated Learning with Kolmogorov-Arnold Networks for Medical Imaging

Authors:Youngjoon Lee, Jinu Gong, Joonhyuk Kang

Federated Learning (FL) enables model training across decentralized devices without sharing raw data, thereby preserving privacy in sensitive domains like healthcare. In this paper, we evaluate Kolmogorov-Arnold Networks (KAN) architectures against traditional MLP across six state-of-the-art FL algorithms on a blood cell classification dataset. Notably, our experiments demonstrate that KAN can effectively replace MLP in federated environments, achieving superior performance with simpler architectures. Furthermore, we analyze the impact of key hyperparameters-grid size and network architecture-on KAN performance under varying degrees of Non-IID data distribution. In addition, our ablation studies reveal that optimizing KAN width while maintaining minimal depth yields the best performance in federated settings. As a result, these findings establish KAN as a promising alternative for privacy-preserving medical imaging applications in distributed healthcare. To the best of our knowledge, this is the first comprehensive benchmark of KAN in FL settings for medical imaging task.

联邦学习(FL)能够在分散的设备上进行模型训练,无需共享原始数据,从而保护医疗等敏感领域的隐私。在本文中,我们评估了Kolmogorov-Arnold网络(KAN)架构与传统多层感知机(MLP)在六种最先进的联邦学习算法上的表现,这些算法是基于血细胞分类数据集。值得注意的是,我们的实验表明,在联邦环境中,KAN可以有效地替代MLP,在架构更简单的情况下实现卓越的性能。此外,我们分析了关键超参数——网格大小和网络架构在不同程度的非独立同分布(Non-IID)数据分布下对KAN性能的影响。另外,我们的消融研究表明,在保持深度最小的情况下优化KAN的宽度,在联邦环境中可以获得最佳性能。因此,这些发现证明了KAN在分布式医疗护理的隐私保护医学影像应用中的巨大潜力。据我们所知,这是首次在联邦学习环境下对KAN进行医学影像任务的全面基准测试。

论文及项目相关链接

PDF Accepted to AI/ML for Edge/Fog Networks Workshop - IEEE GLOBECOM 2025

Summary

基于联邦学习(FL)的Kolmogorov-Arnold网络(KAN)在血液细胞分类数据集上进行了评估。实验表明,与传统多层感知机(MLP)相比,KAN在联邦环境中表现更优,且架构更简单。研究还分析了关键超参数对KAN性能的影响,并发现优化KAN宽度同时保持深度最小能在联邦环境中获得最佳性能。这些发现使KAN成为分布式医疗保健中隐私保护医学影像应用的有前途的替代方案。据我们所知,这是首次针对医学成像任务在联邦学习环境中全面评估KAN。

Key Takeaways

  1. 联邦学习(FL)允许在不共享原始数据的情况下进行模型训练,保护隐私。
    2.Kolmogorov-Arnold网络(KAN)在血液细胞分类数据集上的性能优于传统多层感知机(MLP)。
  2. 在联邦环境中,KAN架构更简单,可实现优越性能。
  3. 关键超参数如网格大小和网络架构对KAN性能有影响。
  4. 在非独立同分布(Non-IID)数据环境下,优化KAN宽度并保持深度最小可获得最佳性能。
  5. KAN在隐私保护的医学影像应用中有潜力成为分布式医疗保健的替代方案。

Cool Papers

点此查看论文截图

Y-AR: A Mixed Reality CAD Tool for 3D Wire Bending

Authors:Shuo Feng, Bo Liu, Yifan, Shan, Roy Zunder, Wei-Che Lin, Tri Dinh, Harald Haraldsson, Ofer Berman, Thijs Roumen

Wire bending is a technique used in manufacturing to mass-produce items such as clips, mounts, and braces. Recent advances in programmable wire bending have made this process increasingly accessible for custom fabrication. However, CNC wire benders are controlled using Computer Aided Manufacturing (CAM) software, without design tools, making custom designs challenging to produce. We present Y-AR, a Computer Aided Design (CAD) interface for 3D wire bending. Y-AR uses mixed reality to let designers create clips, mounts, and braces to physically connect objects to their surrounding environment. The interface incorporates springs as design primitives which (1) apply forces to hold objects, and (2) counter-act dimensional inaccuracies inherently caused by mid-air modeling and measurement errors in AR. Springs are a natural design element when working with metal wire-bending given its specific material properties. We demonstrate workflows to design and fabricate a range of mechanisms in Y-AR as well as structures made using free-hand design tools. We found that combining gesture-based interaction with fabrication-aware design principles allowed novice users to create functional wire connectors, even when using imprecise XR-based input. In our usability evaluation, all 12 participants successfully designed and fabricated a functional bottle holder using Y-AR.

弯曲金属线制造是一种在制造业中用于批量生产夹子、支架和箍的技术。随着可编程弯曲金属线技术的最新发展,这一过程对于定制制造变得越来越容易接近。然而,CNC金属线弯曲机是通过计算机辅助制造(CAM)软件控制的,没有设计工具,使得定制设计的生产具有挑战性。我们提出了Y-AR,这是一个用于3D金属线弯曲的计算机辅助设计(CAD)界面。Y-AR使用混合现实技术,让设计师能够创建夹子、支架和箍,以将物体物理连接到其周围环境。该界面采用弹簧作为设计元素,弹簧(1)施加力来固定物体,(2)抵消由于空中建模和测量误差固有产生的尺寸误差。在与金属线弯曲相结合工作时,弹簧作为一种自然设计元素因其特定的材料特性而发挥作用。我们展示了在Y-AR中设计和制作一系列机制的工作流程,以及使用自由手绘工具制作的结构。我们发现,将基于手势的交互与面向制造的设计原则相结合,即使使用不精确的XR输入,新手用户也能创建出功能性的金属线连接器。在我们的可用性评估中,所有12名参与者都成功使用Y-AR设计和制作了一个功能性的瓶架。

论文及项目相关链接

PDF

Summary

该文章介绍了用于制造业的大规模生产物品(如夹子、支架和撑架)的一种弯曲金属丝技术——Y-AR。近年来,可编程的金属丝弯曲技术让这一工艺对于定制制造变得更具可访问性。然而,数控金属丝弯曲器通过计算机辅助制造软件进行控制,没有设计工具,因此制作定制设计具有挑战性。因此文章提出了一个名为Y-AR的计算机辅助设计界面,该界面结合了增强现实技术,允许设计师创建用于将物体与其周围环境连接的夹子、支架和撑杆。该界面采用弹簧作为设计元素,通过弹簧力来固定物体并抵消因空中建模和测量误差造成的尺寸误差。此外,文章展示了在Y-AR中进行设计和制作的一系列工作流程,以及使用自由手绘工具构建的结构。最后,通过可用性评估发现,结合了基于手势的交互和制造意识的设计原则后,即使是新手用户也能创造出实用的金属丝连接器。所有参与者都成功使用Y-AR设计和制作了一个实用的瓶架。

Key Takeaways

  1. Y-AR是一个结合了增强现实技术的计算机辅助设计界面,主要用于创建用于物体连接的金属丝产品(如夹子、支架和撑杆)。
  2. 该界面利用弹簧作为设计元素,利用其物理特性应对制作过程中可能出现的误差。
  3. Y-AR允许设计者进行自由手绘设计,并展示了多种工作流程来创建各种机制结构。
  4. 文章强调了可编程金属丝弯曲技术的最新进展及其在定制制造中的应用。
  5. 结合手势交互和制造意识的设计原则,新手用户也能使用Y-AR创建实用的金属丝连接器。
  6. Y-AR的可用性得到了验证,所有参与者均成功设计和制作了一个瓶架。

Cool Papers

点此查看论文截图

DiffGAN: A Test Generation Approach for Differential Testing of Deep Neural Networks for Image Analysis

Authors:Zohreh Aghababaeyan, Manel Abdellatif, Lionel Briand, Ramesh S

Deep Neural Networks (DNNs) are increasingly deployed across applications. However, ensuring their reliability remains a challenge, and in many situations, alternative models with similar functionality and accuracy are available. Traditional accuracy-based evaluations often fail to capture behavioral differences between models, especially with limited test datasets, making it difficult to select or combine models effectively. Differential testing addresses this by generating test inputs that expose discrepancies in DNN model behavior. However, existing approaches face significant limitations: many rely on model internals or are constrained by available seed inputs. To address these challenges, we propose DiffGAN, a black-box test image generation approach for differential testing of DNN models. DiffGAN leverages a Generative Adversarial Network (GAN) and the Non-dominated Sorting Genetic Algorithm II to generate diverse and valid triggering inputs that reveal behavioral discrepancies between models. DiffGAN employs two custom fitness functions, focusing on diversity and divergence, to guide the exploration of the GAN input space and identify discrepancies between models’ outputs. By strategically searching this space, DiffGAN generates inputs with specific features that trigger differences in model behavior. DiffGAN is black-box, making it applicable in more situations. We evaluate DiffGAN on eight DNN model pairs trained on widely used image datasets. Our results show DiffGAN significantly outperforms a SOTA baseline, generating four times more triggering inputs, with greater diversity and validity, within the same budget. Additionally, the generated inputs improve the accuracy of a machine learning-based model selection mechanism, which selects the best-performing model based on input characteristics and can serve as a smart output voting mechanism when using alternative models.

深度神经网络(DNNs)在各种应用中部署得越来越广泛。然而,确保它们的可靠性仍然是一个挑战,而且在许多情况下,存在具有相似功能和准确性的替代模型。传统的基于准确性的评估往往无法捕捉模型之间的行为差异,尤其是在有限的测试数据集下,这使得有效选择或组合模型变得困难。差异测试通过生成暴露DNN模型行为差异的测试输入来解决这个问题。然而,现有方法存在重大局限性:许多方法依赖于模型内部,或受到可用种子输入的约束。为了解决这些挑战,我们提出了DiffGAN,这是一种用于DNN模型差异测试的黑盒测试图像生成方法。DiffGAN利用生成对抗网络(GAN)和非支配排序遗传算法II来生成多样且有效的触发输入,这些输入揭示了模型之间的行为差异。DiffGAN采用两个自定义的适应度函数,专注于多样性和发散性,以指导GAN输入空间的探索,并识别模型输出之间的差异。通过有针对性地搜索这个空间,DiffGAN生成具有特定特征的输入,这些特征会引发模型行为的差异。DiffGAN是黑盒式的,使其适用于更多场景。我们在广泛使用的图像数据集上训练的8对DNN模型上评估DiffGAN。结果表明,DiffGAN显著优于最新基线,在相同的预算下,生成了触发输入的数量是基线方法的四倍,并且具有更大的多样性和有效性。此外,生成的输入提高了基于机器学习模型的选型机制的准确性,该机制根据输入特性选择性能最佳的模型,当使用替代模型时,它可以作为智能输出投票机制。

论文及项目相关链接

PDF Accepted into IEEE Transactions on Software Engineering

Summary

本文提出一种基于生成对抗网络(GAN)和非支配排序遗传算法II的差分测试方法DiffGAN,用于对深度神经网络(DNN)模型进行黑盒测试图像生成。DiffGAN旨在通过生成具有特定特征的输入来揭示不同模型间的行为差异,适用于多种场景下的模型可靠性验证。在广泛使用的图像数据集上进行的实验表明,相较于当前最佳实践方法,DiffGAN显著提高了性能,能生成更丰富多样的触发输入。同时,DiffGAN有助于更精准地选择和组合模型,进而优化模型选择机制与智能输出投票机制。

Key Takeaways

  • DiffGAN方法旨在解决深度神经网络模型可靠性的验证问题,通过生成对抗网络和非支配排序遗传算法II生成测试图像。
  • DiffGAN聚焦于揭示模型间行为差异,在有限的测试数据集条件下具有重要应用价值。
  • 方法可应用于黑盒测试,适用范围更广。
  • 实验结果表明,相较于现有方法,DiffGAN能生成更多样化的触发输入。
  • DiffGAN能优化模型选择机制,提高模型性能评估的准确性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
TTS TTS
TTS 方向最新论文已更新,请持续关注 Update in 2025-09-19 CS-FLEURS A Massively Multilingual and Code-Switched Speech Dataset
2025-09-19
下一篇 
Diffusion Models Diffusion Models
Diffusion Models 方向最新论文已更新,请持续关注 Update in 2025-09-19 Noise-Level Diffusion Guidance Well Begun is Half Done
  目录