⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-21 更新
Joint Semantic-Channel Coding and Modulation for Token Communications
Authors:Jingkai Ying, Zhijin Qin, Yulong Feng, Liejun Wang, Xiaoming Tao
In recent years, the Transformer architecture has achieved outstanding performance across a wide range of tasks and modalities. Token is the unified input and output representation in Transformer-based models, which has become a fundamental information unit. In this work, we consider the problem of token communication, studying how to transmit tokens efficiently and reliably. Point cloud, a prevailing three-dimensional format which exhibits a more complex spatial structure compared to image or video, is chosen to be the information source. We utilize the set abstraction method to obtain point tokens. Subsequently, to get a more informative and transmission-friendly representation based on tokens, we propose a joint semantic-channel and modulation (JSCCM) scheme for the token encoder, mapping point tokens to standard digital constellation points (modulated tokens). Specifically, the JSCCM consists of two parallel Point Transformer-based encoders and a differential modulator which combines the Gumel-softmax and soft quantization methods. Besides, the rate allocator and channel adapter are developed, facilitating adaptive generation of high-quality modulated tokens conditioned on both semantic information and channel conditions. Extensive simulations demonstrate that the proposed method outperforms both joint semantic-channel coding and traditional separate coding, achieving over 1dB gain in reconstruction and more than 6x compression ratio in modulated symbols.
近年来,Transformer架构在广泛的任务和模态中取得了卓越的性能。令牌是Transformer模型中的统一输入输出表示,已成为基本的信息单元。在这项工作中,我们考虑令牌通信问题,研究如何高效可靠地传输令牌。点云作为一种流行的三维格式,与图像或视频相比,展现出更复杂的空间结构,被选为信息来源。我们利用集合抽象方法获取点令牌。为了基于令牌获得更具信息性和传输友好的表示,我们为令牌编码器提出了一种联合语义通道和调制(JSCCM)方案,将点令牌映射到标准数字星座点(调制令牌)。具体来说,JSCCM包含两个并行的基于Point Transformer的编码器和一种差分调制器,该调制器结合了Gumel-softmax和软量化方法。此外,还开发了速率分配器和通道适配器,便于根据语义信息和通道条件自适应生成高质量调制令牌。大量仿真表明,所提出的方法在重建上实现了超过1dB的增益,在调制符号的压缩比上也达到了6倍以上,超过了联合语义通道编码和传统单独编码的表现。
论文及项目相关链接
PDF 14 pages, 14 figures, 2 tables
Summary
本研究利用Transformer架构研究点云数据的标记(token)通信问题。通过集合抽象方法获取点标记,并提出联合语义通道和调制(JSCCM)方案,将点标记映射为标准数字星座点(调制标记)。该方案包括两个并行Point Transformer编码器、差分调制器以及速率分配器和通道适配器,可自适应生成高质量调制标记。模拟结果表明,该方法在重建上优于联合语义通道编码和传统分离编码,调制符号的压缩比达到6倍以上。
Key Takeaways
- 研究利用Transformer架构解决点云数据的标记通信问题。
- 通过集合抽象方法获取点标记作为基本的信息单元。
- 提出JSCCM方案,将点标记映射到标准数字星座点,实现更友好传输。
- JSCCM方案包含两个并行Point Transformer编码器、差分调制器。
- 开发速率分配器和通道适配器,实现自适应生成高质量调制标记。
- 模拟结果表明所提方法优于传统编码方式,在重建上获得超过1dB的增益。
点此查看论文截图
Multi-Stage Residual-Aware Unsupervised Deep Learning Framework for Consistent Ultrasound Strain Elastography
Authors:Shourov Joarder, Tushar Talukder Showrav, Md. Kamrul Hasan
Ultrasound Strain Elastography (USE) is a powerful non-invasive imaging technique for assessing tissue mechanical properties, offering crucial diagnostic value across diverse clinical applications. However, its clinical application remains limited by tissue decorrelation noise, scarcity of ground truth, and inconsistent strain estimation under different deformation conditions. Overcoming these barriers, we propose MUSSE-Net, a residual-aware, multi-stage unsupervised sequential deep learning framework designed for robust and consistent strain estimation. At its backbone lies our proposed USSE-Net, an end-to-end multi-stream encoder-decoder architecture that parallelly processes pre- and post-deformation RF sequences to estimate displacement fields and axial strains. The novel architecture incorporates Context-Aware Complementary Feature Fusion (CACFF)-based encoder with Tri-Cross Attention (TCA) bottleneck with a Cross-Attentive Fusion (CAF)-based sequential decoder. To ensure temporal coherence and strain stability across varying deformation levels, this architecture leverages a tailored consistency loss. Finally, with the MUSSE-Net framework, a secondary residual refinement stage further enhances accuracy and suppresses noise. Extensive validation on simulation, in vivo, and private clinical datasets from Bangladesh University of Engineering and Technology (BUET) medical center, demonstrates MUSSE-Net’s outperformed existing unsupervised approaches. On MUSSE-Net achieves state-of-the-art performance with a target SNR of 24.54, background SNR of 132.76, CNR of 59.81, and elastographic SNR of 9.73 on simulation data. In particular, on the BUET dataset, MUSSE-Net produces strain maps with enhanced lesion-to-background contrast and significant noise suppression yielding clinically interpretable strain patterns.
超声应变弹性成像(USE)是一种强大的非侵入性成像技术,用于评估组织的机械特性,在多种临床应用中具有重要的诊断价值。然而,其临床应用仍受到组织去相关噪声、真实数据缺乏和不同变形条件下的应变估计不一致等问题的限制。为了克服这些障碍,我们提出了MUSSE-Net,这是一个剩余感知、多阶段无监督的深度学习框架,旨在实现稳健且一致的应变估计。其核心是我们提出的USSE-Net,这是一种端到端的多元流编码解码器架构,并行处理预变形和后变形射频序列以估计位移场和轴向应变。该新型架构结合了基于上下文感知互补特征融合的编码器与带有三交叉注意力(TCA)瓶颈的交叉注意力融合(CAF)序贯解码器。为了确保不同变形水平的时空一致性和应变稳定性,该架构利用定制的一致性损失。最后,通过MUSSE-Net框架,二次残差细化阶段进一步提高了准确性并抑制了噪声。在模拟、体内以及来自孟加拉国工程技术大学的私人临床数据集上的验证表明,MUSSE-Net超越了现有的无监督方法。在模拟数据上,MUSSE-Net达到了目标信噪比(SNR)为24.54、背景信噪比为132.76、对比度噪声比(CNR)为59.81和弹性成像信噪比为9.73的先进水平性能。特别是在BUET数据集上,MUSSE-Net生成的应变图具有增强的病变与背景对比度以及显著噪声抑制,产生可临床解释的应变模式。
论文及项目相关链接
PDF 13 pages, 9 figures
摘要
超声应变弹性成像(USE)是一种评估组织机械特性的强大无创成像技术,在多种临床应用中具有重要诊断价值。然而,其临床应用仍受限于组织去相关噪声、地面真实情况的稀缺性以及在不同变形条件下的应变估计不一致等问题。为了克服这些障碍,我们提出了MUSSE-Net,这是一个残余感知、多阶段的无人监督的深度学习框架,旨在实现稳健且一致的应变估计。其核心在于我们提出的USSE-Net,这是一种端到端的多流编码器-解码器架构,它并行处理预变形和后变形的射频序列以估计位移场和轴向应变。该新颖架构结合了基于上下文感知互补特征融合的编码器与带有三重交叉注意力瓶颈的交叉注意力融合基于序列的解码器。为了确保在不同变形水平上的时间连贯性和应变稳定性,该架构利用定制的连贯性损失。最后,通过MUSSE-Net框架,二次残差细化阶段进一步提高了准确性并抑制了噪声。在模拟、体内以及来自孟加拉国工程技术大学的私人临床数据集上的广泛验证表明,MUSSE-Net超越了现有的无人监督方法。在目标信噪比、背景信噪比、对比度噪声比和弹性图像信噪比等指标上,MUSSE-Net达到了最新性能水平。特别是在BUET数据集上,MUSSE-Net产生的应变图具有增强的病灶与背景对比度,并显著抑制了噪声,产生了可临床解释的应变模式。
关键见解
- Ultrasound Strain Elastography (USE) 是一种用于评估组织机械特性的重要非侵入性成像技术。
- USE在临床应用上面临噪声、缺乏真实参照和应变估计不一致等挑战。
- 提出的MUSSE-Net框架是一种多阶段、基于深度学习的解决方案,旨在实现稳健和一致的应变估计。
- USSE-Net作为核心架构,通过并行处理预变形和后变形的射频序列来估计位移场和轴向应变。
- MUSSE-Net使用定制的连贯性损失确保在不同变形水平上的应变稳定性。
- 二次残差细化阶段提高了准确性和噪声抑制效果。
点此查看论文截图
MaskMed: Decoupled Mask and Class Prediction for Medical Image Segmentation
Authors:Bin Xie, Gady Agam
Medical image segmentation typically adopts a point-wise convolutional segmentation head to predict dense labels, where each output channel is heuristically tied to a specific class. This rigid design limits both feature sharing and semantic generalization. In this work, we propose a unified decoupled segmentation head that separates multi-class prediction into class-agnostic mask prediction and class label prediction using shared object queries. Furthermore, we introduce a Full-Scale Aware Deformable Transformer module that enables low-resolution encoder features to attend across full-resolution encoder features via deformable attention, achieving memory-efficient and spatially aligned full-scale fusion. Our proposed method, named MaskMed, achieves state-of-the-art performance, surpassing nnUNet by +2.0% Dice on AMOS 2022 and +6.9% Dice on BTCV.
医学图像分割通常采用逐点卷积分割头来预测密集标签,其中每个输出通道都启发式地与特定类别相关联。这种刚性的设计既限制了特征共享也限制了语义泛化。在这项工作中,我们提出了一种统一的解耦分割头,利用共享对象查询将多类别预测分为与类别无关的掩膜预测和类别标签预测。此外,我们引入了一个全尺度可变形Transformer模块,该模块使低分辨率编码器特征能够通过可变形注意力关注全分辨率编码器特征,实现内存高效且空间对齐的全尺度融合。我们提出的方法名为MaskMed,实现了最先进的性能,在AMOS 2022上比nnUNet高出+2.0%的Dice系数,在BTCV上高出+6.9%的Dice系数。
论文及项目相关链接
Summary
本文提出了一种统一的解耦分割头,通过将多类预测分离为类无关的掩膜预测和类标签预测,利用共享对象查询来实现。同时引入了全尺度感知可变形转换器模块,使低分辨率编码器特征能够通过可变形注意力关注全分辨率编码器特征,实现内存高效且空间对齐的全尺度融合。所提出的方法MaskMed在AMOS 2022和BTCV上分别超越了nnUNet,Dice得分提高了+2.0%和+6.9%。
Key Takeaways
- 提出了一种新的统一解耦分割头,用于改进传统的点卷积分割头方法。这种新方法通过将多类预测分解为两个步骤来优化特征共享和语义泛化。
- 通过引入共享对象查询,实现了类无关的掩膜预测和类标签预测的分离。这有助于简化模型复杂性并提高其灵活性。
- 引入了全尺度感知可变形转换器模块,实现了低分辨率和高分辨率特征之间的有效融合。这有助于捕捉图像中的细微细节并保持内存高效。
- 所提出的方法MaskMed在全尺度的空间和尺度上的动态特性和交互性使其在医学图像分割任务上表现出卓越性能。
点此查看论文截图
US-X Complete: A Multi-Modal Approach to Anatomical 3D Shape Recovery
Authors:Miruna-Alexandra Gafencu, Yordanka Velikova, Nassir Navab, Mohammad Farid Azampour
Ultrasound offers a radiation-free, cost-effective solution for real-time visualization of spinal landmarks, paraspinal soft tissues and neurovascular structures, making it valuable for intraoperative guidance during spinal procedures. However, ultrasound suffers from inherent limitations in visualizing complete vertebral anatomy, in particular vertebral bodies, due to acoustic shadowing effects caused by bone. In this work, we present a novel multi-modal deep learning method for completing occluded anatomical structures in 3D ultrasound by leveraging complementary information from a single X-ray image. To enable training, we generate paired training data consisting of: (1) 2D lateral vertebral views that simulate X-ray scans, and (2) 3D partial vertebrae representations that mimic the limited visibility and occlusions encountered during ultrasound spine imaging. Our method integrates morphological information from both imaging modalities and demonstrates significant improvements in vertebral reconstruction (p < 0.001) compared to state of art in 3D ultrasound vertebral completion. We perform phantom studies as an initial step to future clinical translation, and achieve a more accurate, complete volumetric lumbar spine visualization overlayed on the ultrasound scan without the need for registration with preoperative modalities such as computed tomography. This demonstrates that integrating a single X-ray projection mitigates ultrasound’s key limitation while preserving its strengths as the primary imaging modality. Code and data can be found at https://github.com/miruna20/US-X-Complete
超声提供了一种无辐射、成本效益高的解决方案,用于实时可视化脊柱标志、旁脊柱软组织和神经血管结构,对于脊柱手术过程中的术中指导非常有价值。然而,超声在可视化完整椎体解剖结构方面存在固有局限性,特别是在显示椎体方面,由于骨骼引起的声影效应。在这项工作中,我们提出了一种新型的多模态深度学习方法,利用单张X射线图像的补充信息来完成3D超声中的遮挡解剖结构。为了进行训练,我们生成了配对训练数据,包括:(1)模拟X射线扫描的2D侧位椎体视图;(2)模拟超声脊柱成像中遇到的有限可见性和遮挡的3D部分椎体表示。我们的方法融合了两种成像模式的形态信息,与3D超声椎体完成的前沿技术相比,在椎体重建方面取得了显著改进(p < 0.001)。我们进行了幻影研究,作为未来临床转化的初步步骤,并在无需与术前模式(如计算机断层扫描)配准的情况下,实现了更精确、完整的腰椎超声扫描上的体积可视化。这证明,整合单张X射线投影可以缓解超声的主要局限性,同时保留其作为主要成像模式的优势。代码和数据可在https://github.com/miruna20/US-X-Complete找到。
论文及项目相关链接
PDF Accepted at the Workshop on Shape in Medical Imaging at MICCAI 2025
Summary
本文介绍了一种利用深度学习技术,结合超声和X射线图像进行三维椎体完整化显示的方法。该方法解决了超声成像在显示完整椎体解剖结构方面的局限性,通过利用X射线图像的补充信息,实现了对遮挡的解剖结构的重建。通过生成配对训练数据,模拟X射线扫描的二维侧面椎体视图和模拟超声成像中的有限可见性和遮挡问题的三维部分椎体表示,提高了椎体重建的准确度。此方法能更准确、完整地显示腰椎脊柱的超声扫描图像,无需与术前模态(如计算机断层扫描)进行配准。
Key Takeaways
- 该方法利用深度学习技术结合超声和X射线图像进行三维椎体完整化显示。
- 通过生成配对训练数据模拟X射线扫描的二维侧面椎体视图和超声成像中的遮挡问题。
- 该方法整合了两种成像模式的形态信息,提高了椎体重建的准确度。
- 该技术克服了超声成像在显示完整椎体解剖结构方面的局限性。
- 方法通过结合单张X射线投影实现了更准确、完整的腰椎脊柱可视化。
- 该技术保留了超声成像作为主要成像模态的优势。
点此查看论文截图
Excess of diffuse gamma-ray emission detected from the galaxy cluster Abell 119 from 14-year Fermi-LAT Data
Authors:Gajanan D Harale, Surajit Paul
Galaxy clusters are among the most massive gravitationally bound systems in the Universe and are considered major reservoirs of high-energy cosmic rays, yet no conclusive $γ$-ray detection from them has been achieved. This non-detection may stem from limited sensitivity and source localization of current $γ$-ray instruments, as well as strong interactions of $γ$-rays with intervening material that restrict detectable signals to only a few nearby and dynamically active clusters. Motivated by these constraints, we selected a sample of nearby ($z<0.05$) merging clusters and analyzed 14 years of \textit{Fermi}-LAT data. In this work, we present a detailed study of Abell 119 (A119), a merging cluster with significant X-ray luminosity and complex dynamics. Using \textit{Fermipy} and \textit{Fermi} Science Tools, we modeled all potential $γ$-ray sources and confirmed the 4FGL point sources 4FGL J0059.3$-$0152, 4FGL J0101.0$-$0059, and 4FGL J0059.2+0006 with significant TS values.s. It further reveals, a $\sim4σ$ excess of diffuse $γ$-ray emission offset by $\sim0.25^\circ$ from the cluster center, plausibly associated with the cluster halo. An extended model provides the best fit, yielding luminosity bounds of $\sim 12.21^{+2.74}{-3.95}\times10^{42},\mathrm{erg,s^{-1}}$ and a particle spectral index of $\sim2.25^{+0.38}{-0.13}$, consistent with earlier expectations for cluster-scale non-thermal emission. These results suggest a hadronic origin for the detected signal. Although the $\sim4σ$ excess is compelling, uncertainties in localization and instrumental limitations prevent a definitive detection. Nonetheless, the results highlight the potential for deeper cluster studies, and the estimated neutrino flux $E^{2}φ_ν\approx3\times10^{-10},\mathrm{GeV,cm^{-2},s^{-1},sr^{-1}}$ motivates future observations with upcoming neutrino telescopes.
星系团是宇宙中最大的引力束缚系统之一,被认为是高能宇宙射线的主要储存库,然而,至今尚未实现对它们的确定性γ射线检测。这种非检测可能是由于当前γ射线仪器的灵敏度有限和源定位不准确,以及γ射线与中间物质的强烈相互作用,使得可检测到的信号仅限于少数附近的动态活跃星系团。基于这些限制,我们选择了一个邻近(z<0.05)的合并星系团样本,并分析了长达14年的费米LAT数据。在这项工作中,我们对具有显著X射线发光度和复杂动态的合并星系团阿贝尔119(A119)进行了详细研究。使用费米皮和费米科学工具,我们对所有潜在的γ射线源进行了建模,并确认了具有显著TS值的四个FGL点源:FGL J0059.3-0152、FGL J0101.0-0059和FGL J0059.2+0006。它进一步揭示了一个与星系团晕有关,位于星系团中心偏移约$ 0.25^\circ $的$\sim 4σ$漫射γ射线发射过剩。扩展模型提供了最佳拟合,得到的光度约束约为$ 12.21^{+2.74}{-3.95} \times 10^{42} , \text{erg s}^{-1}$,粒子谱指数约为$ 2.25^{+0.38}{-0.13}$,与早期对集群规模非热发射的预期一致。这些结果暗示检测到的信号具有强子起源。尽管$ \sim 4σ $的过剩很令人信服,但定位上的不确定性和仪器上的局限性仍无法确定其检测结果。尽管如此,这些结果突出了对更深层次的集群研究的潜力,估计的中微子流量$ E^{2}φ_ν \approx 3 \times 10^{-10} , \text{GeV cm}^{-2} , \text{s}^{-1} , \text{sr}^{-1}$激励了未来使用即将出现的中微子望远镜进行观测。
论文及项目相关链接
PDF 20 pages, 9 figures, Published in Physical Review D, This is the accepted manuscript. The final published version is available at https://doi.org/10.1103/gn1q-pzx3
Summary
研究团队针对宇宙中的星系团进行γ射线探测分析,选取近距离(z<0.05)合并中的星系团样本进行研究。通过详细研究Abell 119,检测到具有统计显著性的漫射γ射线辐射信号。此研究初步揭示出星系团内的非热发射源可能为粒子和高能宇宙射线的主要储藏地之一,为后续深入研究和观测提供了可能性。但由于γ射线源的定位和仪器灵敏度的限制以及环境干扰的不确定性因素,此检测结果仍有待验证。预计未来将促进以先进仪器开展的深入研究,以明确检测是否存在粒子间相互作用所产生的高能发射信号并测量可能的微小中微子流量。
Key Takeaways
- 研究团队针对宇宙中的星系团进行γ射线探测分析,但迄今为止尚未有确凿的检测记录。
- 研究对象Abell 119是一个具有显著X射线亮度且动态复杂的合并中的星系团。
- 利用费米卫星数据,研究团队检测到具有统计显著性的漫射γ射线辐射信号,可能与星系团内的非热发射源有关。此结果初步揭示出星系团内存在高能宇宙射线的可能性。然而,检测结果受限于仪器灵敏度和定位精度以及环境干扰的不确定性因素,仍有待验证。预计未来将促进更深入的研究和观测以确认该结果的真实性。未来可能的进一步研究可能涉及利用先进的仪器对星系团进行更深入的研究和观测以测量可能存在的微小中微子流量并验证粒子间相互作用产生的高能发射信号。
点此查看论文截图
NTK-Guided Implicit Neural Teaching
Authors:Chen Zhang, Wei Zuo, Bingyang Cheng, Yikun Wang, Wei-Bin Kou, Yik Chung WU, Ngai Wong
Implicit Neural Representations (INRs) parameterize continuous signals via multilayer perceptrons (MLPs), enabling compact, resolution-independent modeling for tasks like image, audio, and 3D reconstruction. However, fitting high-resolution signals demands optimizing over millions of coordinates, incurring prohibitive computational costs. To address it, we propose NTK-Guided Implicit Neural Teaching (NINT), which accelerates training by dynamically selecting coordinates that maximize global functional updates. Leveraging the Neural Tangent Kernel (NTK), NINT scores examples by the norm of their NTK-augmented loss gradients, capturing both fitting errors and heterogeneous leverage (self-influence and cross-coordinate coupling). This dual consideration enables faster convergence compared to existing methods. Through extensive experiments, we demonstrate that NINT significantly reduces training time by nearly half while maintaining or improving representation quality, establishing state-of-the-art acceleration among recent sampling-based strategies.
隐式神经表示(INRs)通过多层感知器(MLPs)对连续信号进行参数化,为图像、音频和3D重建等任务提供紧凑、分辨率独立的建模。然而,拟合高分辨率信号需要在数百万个坐标上进行优化,从而产生巨大的计算成本。为解决这一问题,我们提出了基于神经坦桑石核(NTK)引导的隐式神经教学(NINT),它通过动态选择最大化全局功能更新的坐标来加速训练。NINT通过NTK增强损失梯度的范数来为示例打分,这既考虑了拟合误差,又考虑了异质杠杆(自我影响和跨坐标耦合)。这种双重考虑使得其相较于现有方法能够更快地收敛。通过大量实验,我们证明NINT在保持或提高表示质量的同时,将训练时间减少了近一半,并在最近的基于采样的策略中建立了最先进的加速效果。
论文及项目相关链接
PDF Preprint
Summary
隐式神经网络表示(INR)通过多层感知器(MLP)对连续信号进行参数化,为图像、音频和3D重建等任务提供紧凑且分辨率独立的建模。然而,拟合高分辨率信号需要在数百万个坐标上进行优化,计算成本高昂。为解决此问题,我们提出了基于神经元切线核(NTK)引导的隐式神经网络教学(NINT)方法,通过动态选择最大化全局功能更新的坐标来加速训练。NINT通过结合NTK和损失梯度的范数来评估样本,同时考虑拟合误差和异质杠杆(自我影响和跨坐标耦合)。这种双重考量使得其相比现有方法收敛更快。通过大量实验,我们证明了NINT在保持或提高表示质量的同时,将训练时间减少近一半,成为基于采样的最新策略中最先进的加速方法。
Key Takeaways
- 隐式神经网络表示(INR)能通过多层感知器(MLP)参数化连续信号,为多种任务提供分辨率独立的建模。
- 拟合高分辨率信号需要进行大量的坐标优化,计算成本高昂。
- 提出了NTK引导的隐式神经网络教学方法(NINT),能动态选择最大化全局功能更新的坐标,从而加速训练。
- NINT结合NTK和损失梯度的范数来评估样本,同时考虑拟合误差和异质杠杆。
- NINT相比现有方法收敛更快,能显著减少训练时间。
- NINT在保持或提高表示质量的同时实现了训练加速。
点此查看论文截图
Deep Learning for Accurate Vision-based Catch Composition in Tropical Tuna Purse Seiners
Authors:Xabier Lekunberri, Ahmad Kamal, Izaro Goienetxea, Jon Ruiz, Iñaki Quincoces, Jaime Valls Miro, Ignacio Arganda-Carreras, Jose A. Fernandes-Salvador
Purse seiners play a crucial role in tuna fishing, as approximately 69% of the world’s tropical tuna is caught using this gear. All tuna Regional Fisheries Management Organizations have established minimum standards to use electronic monitoring (EM) in fisheries in addition to traditional observers. The EM systems produce a massive amount of video data that human analysts must process. Integrating artificial intelligence (AI) into their workflow can decrease that workload and improve the accuracy of the reports. However, species identification still poses significant challenges for AI, as achieving balanced performance across all species requires appropriate training data. Here, we quantify the difficulty experts face to distinguish bigeye tuna (BET, Thunnus Obesus) from yellowfin tuna (YFT, Thunnus Albacares) using images captured by EM systems. We found inter-expert agreements of 42.9% $\pm$ 35.6% for BET and 57.1% $\pm$ 35.6% for YFT. We then present a multi-stage pipeline to estimate the species composition of the catches using a reliable ground-truth dataset based on identifications made by observers on board. Three segmentation approaches are compared: Mask R-CNN, a combination of DINOv2 with SAM2, and a integration of YOLOv9 with SAM2. We found that the latest performs the best, with a validation mean average precision of 0.66 $\pm$ 0.03 and a recall of 0.88 $\pm$ 0.03. Segmented individuals are tracked using ByteTrack. For classification, we evaluate a standard multiclass classification model and a hierarchical approach, finding a superior generalization by the hierarchical. All our models were cross-validated during training and tested on fishing operations with fully known catch composition. Combining YOLOv9-SAM2 with the hierarchical classification produced the best estimations, with 84.8% of the individuals being segmented and classified with a mean average error of 4.5%.
围网在捕捞金枪鱼方面扮演着至关重要的角色,因为全球约69%的热带金枪鱼都是使用这种渔具捕捞的。除了传统观察员外,所有金枪鱼区域渔业管理组织都为渔业制定了使用电子监测(EM)的最低标准。电子监测系统会产生大量的视频数据,需要人类分析师进行处理。将人工智能(AI)集成到他们的工作流程中,可以减少工作量并提高报告准确性。然而,物种识别仍然给人工智能带来了巨大的挑战,因为在所有物种中实现平衡性能需要大量的训练数据。在这里,我们量化专家在使用电子监测系统拍摄的图像来区分大眼金枪鱼(BET,Thunnus Obesus)和黄鳍金枪鱼(YFT,Thunnus Albacares)时的难度。我们发现专家之间对BET的识别一致率为42.9% ± 35.6%,对YFT的识别一致率为57.1% ± 35.6%。然后,我们提出一个多阶段流程来估计捕捞物种组成,该流程基于可靠的地面真实数据集,该数据集基于船上观察员的识别结果。我们比较了三种分割方法:Mask R-CNN、结合DINOv2与SAM2以及YOLOv9与SAM2的集成。我们发现最新方法表现最佳,验证平均精度为0.66 ± 0.03,召回率为0.88 ± 0.03。分割后的个体使用ByteTrack进行跟踪。对于分类,我们评估了标准多类分类模型和分层方法,发现分层方法的泛化性更佳。我们的所有模型在训练过程中都经过了交叉验证,并在捕捞作业上进行了测试,捕捞作业的捕获组成是众所周知的。结合YOLOv9-SAM2与分层分类产生了最佳估算结果,其中84.8%的个体被分割和分类,平均误差为4.5%。
论文及项目相关链接
PDF 23 pages, 5 figures
Summary
本文研究了集成人工智能对渔业电子监测系统工作效率的提升。通过集成人工智能技术,可有效减少分析大规模视频数据的工作量,并提高报告准确性。在研究中使用图像数据区分大眼金枪鱼与黄鳍金枪鱼的困难仍然存在。为解决这一问题,提出了一套采用观察员登船身份验证数据的物种构成估计流程。结合YOLOv9-SAM2技术的分层分类模型在区分效果上表现最佳。整体来看,融合人工智能技术可以提高捕捞业工作效率及精确度。同时面临训练数据和识别技术的挑战。对于提高AI的物种识别性能需要继续深入研究与探索新的解决方案。目前最先进的模型能将大多数个体分类正确且平均误差仅为百分之四点五左右。虽然尚有提升空间,但对于行业发展和技术推进具有重要的现实意义。需要不断的研发与试验来提升技术的精准度,保证对于生态环境数据的搜集和管理水平的有效性和完整性,对人类社会长期发展也将会起到深远的影响和意义。这篇文章涉及技术深入分析与比较阐述了一个集成的流程以更高效的手段应对庞大的海洋生态系统捕捞信息捕捉作业的新方式带来了现实意义上的提升与发展潜力和市场商业价值是令人兴奋的革新点主要克服了智能化背景下依靠采集及统计分析等问题进一步提高专业的工作效率挖掘实际应用中潜在价值并推动行业发展。
Key Takeaways
1. 捕捞业中,人工分析处理大量视频数据的工作量大且效率低,人工智能的集成能够提高工作效率和报告准确性。然而,人工智能在物种识别方面仍然面临挑战,特别是在区分不同种类金枪鱼时。
2. 研究发现专家在区分大眼金枪鱼和黄鳍金枪鱼时存在困难,因此引入一种基于观察者身份验证数据的物种构成估计流程和多阶段管道。这个管道借助不同的计算机视觉技术,包括使用YOLOv9-SAM2结合分层分类模型的方法表现最佳。
3. 结合人工智能技术和传统的数据验证模型表现出良好预测效果。最新的多层次深度学习技术配合高精度监测系统能够帮助有效分析处理捕捉对象的准确鉴别及计数工作进而提升了渔业捕捞作业的精准度和效率使结果更为可靠准确高效快速便利便捷有效以及可优化运营效益与经济效益 减少了漏检错检等不良现象发生的可能性促进了智能捕捉采集信息的真实性有利于更好地监管和维护海洋生态平衡利用先进技术提供对自然环境数据进行搜集和管理的解决方案提高精准度同时保护海洋生态的可持续发展具备巨大的市场潜力以及广阔的应用前景值得进一步推广应用和探索创新方案技术创新的有效集成和创新能力的提升可以提高企业管理决策的准确性和效果不断提升科技创新成果的效能逐步促进企业竞争优势和市场竞争力的加强整体价值收益体现不可小觑的因素无疑对行业推进将带来更加重要的意义有利的发展成果能够在整体视野领域推广后发掘应用实效影响面广催生出许多创新型解决方案和商业价值挖掘促进可持续发展推动产业结构的升级和转型优化具有长远的社会价值和技术推动作用市场推动力经济价值的积极意义针对公司创新发展商业模式具有较强的实际意义也有较强的市场需求和项目发展趋势等优势全面打造综合管控服务模式提供智能化的综合管控服务提高市场竞争力并实现可持续发展对于海洋资源的保护和可持续利用也具有重要的现实意义和商业价值促进公司长远发展经济效益和社会效益双提升同时加强产业链的完善和产业升级使成果产生一定的社会和经济效益激发市场竞争的活力和提高发展的持续性和潜力创新合作的开放创新实践与发展空间及可持续发展前景十分广阔可引领行业发展风向推动行业的科技水平提升为行业的创新发展提供强有力的支持引领未来市场的发展趋势以及开辟新的市场领域和商业价值实现方式具有重大的战略意义和市场潜力对于未来发展具有广阔的空间和无限的可能性是创新发展的重要方向之一具有重要的战略意义和市场潜力值得深入研究和推广应用具有重要的战略意义和市场前景值得广泛推广和应用研究探讨并引领行业未来的发展方向和发展趋势并产生积极的社会影响和经济价值。
点此查看论文截图
WarNav: An Autonomous Driving Benchmark for Segmentation of Navigable Zones in War Scenes
Authors:Marc-Emmanuel Coupvent des Graviers, Hejer Ammar, Christophe Guettier, Yann Dumortier, Romaric Audigier
We introduce WarNav, a novel real-world dataset constructed from images of the open-source DATTALION repository, specifically tailored to enable the development and benchmarking of semantic segmentation models for autonomous ground vehicle navigation in unstructured, conflict-affected environments. This dataset addresses a critical gap between conventional urban driving resources and the unique operational scenarios encountered by unmanned systems in hazardous and damaged war-zones. We detail the methodological challenges encountered, ranging from data heterogeneity to ethical considerations, providing guidance for future efforts that target extreme operational contexts. To establish performance references, we report baseline results on WarNav using several state-of-the-art semantic segmentation models trained on structured urban scenes. We further analyse the impact of training data environments and propose a first step towards effective navigability in challenging environments with the constraint of having no annotation of the targeted images. Our goal is to foster impactful research that enhances the robustness and safety of autonomous vehicles in high-risk scenarios while being frugal in annotated data.
我们引入了WarNav数据集,这是一个新的真实世界数据集,通过对开源DATTALION库中的图像进行构建,专门用于开发和评估在结构不良、受冲突影响的环境中自主地面车辆导航的语义分割模型。该数据集解决了传统城市驾驶资源与无人系统在危险和战争破坏区域所面临的独特操作场景之间的关键差距。我们详细介绍了从数据异质性到伦理考量所遇到的方法论挑战,为未来针对极端操作环境的努力提供指导。为了建立性能参考,我们报告了使用几个最新的语义分割模型在结构化城市场景上进行训练后在WarNav上的基线结果。我们还分析了训练数据环境的影响,并提出了在具有挑战性的环境中实现有效导航的第一步,其约束条件是没有目标图像的注释。我们的目标是推动有影响力的研究,提高自主车辆在高风险场景中的稳健性和安全性,同时在标注数据方面保持节俭。
论文及项目相关链接
PDF Accepted at CAID (Conference on Artificial Intelligence for Defence)
Summary
WarNav数据集基于开源DATTALION仓库的图像构建,专为开发并评估自主地面车辆在不结构化、受冲突影响的环境中进行语义分割模型的导航能力而设计。该数据集解决了传统城市驾驶资源与无人系统在危险和受损战区所面临的独特操作场景之间的关键差距。文章详述了从数据异质性到伦理考虑的方法论挑战,为未来针对极端操作环境的努力提供指导。为建立性能参考,作者在WarNav上报告了使用多种先进语义分割模型在结构化城市场景上的基线结果。进一步分析了训练数据环境的影响力,并提出了在具有挑战性环境中实现有效导航的第一步,即无需对目标图像进行注释的约束。旨在促进在高风险场景中增强自主车辆的稳健性和安全性的研究,同时节约标注数据。
Key Takeaways
- WarNav是一个基于DATTALION仓库图像构建的新现实世界数据集。
- 该数据集专为评估自主地面车辆在不结构化环境中的语义分割模型导航能力而设计。
- WarNav数据集填补了传统城市驾驶资源与无人系统在战区所面临的独特场景之间的空白。
- 文章详述了构建数据集过程中遇到的方法论挑战,包括数据异质性和伦理考虑。
- 报告了使用先进语义分割模型在WarNav上的基线结果,以建立性能参考。
- 分析了训练数据环境对模型性能的影响。
点此查看论文截图
Controlling False Positives in Image Segmentation via Conformal Prediction
Authors:Luca Mossina, Corentin Friedrich
Reliable semantic segmentation is essential for clinical decision making, yet deep models rarely provide explicit statistical guarantees on their errors. We introduce a simple post-hoc framework that constructs confidence masks with distribution-free, image-level control of false-positive predictions. Given any pretrained segmentation model, we define a nested family of shrunken masks obtained either by increasing the score threshold or by applying morphological erosion. A labeled calibration set is used to select a single shrink parameter via conformal prediction, ensuring that, for new images that are exchangeable with the calibration data, the proportion of false positives retained in the confidence mask stays below a user-specified tolerance with high probability. The method is model-agnostic, requires no retraining, and provides finite-sample guarantees regardless of the underlying predictor. Experiments on a polyp-segmentation benchmark demonstrate target-level empirical validity. Our framework enables practical, risk-aware segmentation in settings where over-segmentation can have clinical consequences. Code at https://github.com/deel-ai-papers/conseco.
可靠的语义分割对于临床决策至关重要,但深度模型很少对其错误提供明确的统计保证。我们引入了一个简单的后续处理框架,通过非分布性、图像级控制假阳性预测来构建置信掩膜。对于任何预训练的分割模型,我们通过增加得分阈值或应用形态侵蚀来获得缩小掩膜的可嵌套家族。使用有标签的校准集,通过符合预测选择一个单一的收缩参数,确保对于与校准数据可交换的新图像,置信掩膜中保留的假阳性比例在用户指定的容忍度以下且概率较高。该方法与模型无关,无需重新训练,并为底层预测器提供了有限样本保证。在多边形分割基准测试上的实验证明了目标级别的经验有效性。我们的框架能够在过度分割会产生临床后果的环境中实现实用的风险感知分割。代码地址:https://github.com/deel-ai-papers/conseco。
论文及项目相关链接
Summary
可靠语义分割对临床决策至关重要,但深度模型很少提供明确的统计保证。我们引入了一种简单的后处理框架,通过构建置信掩膜,实现对假阳性预测的图像级控制,无需依赖特定分布。对于任何预训练的分割模型,我们通过提高分数阈值或应用形态学腐蚀来获得缩小的掩膜。使用标签校准集并通过共适预测来选择单个收缩参数,确保对于与校准数据可交换的新图像,置信掩膜中保留的假阳性比例低于用户指定的容忍度。该方法具有模型无关性,无需重新训练,并且为底层预测器提供了有限样本保证。在息肉分割基准测试上的实验证明了目标级别的经验有效性。我们的框架为过度分割具有临床后果的环境提供了实用的风险意识分割。
Key Takeaways
- 可靠语义分割对临床决策的重要性。
- 现有深度模型在统计保证方面的不足。
- 引入了一种后处理框架,通过构建置信掩膜实现对假阳性预测的图像级控制。
- 框架适用于任何预训练的分割模型。
- 通过提高分数阈值或应用形态学腐蚀来创建缩小的掩膜。
- 使用标签校准集和共适预测来选择收缩参数。
- 框架具有模型无关性,无需重新训练,并提供了有限样本保证。在息肉分割基准测试上验证了其有效性,为临床决策提供了风险意识分割。
点此查看论文截图
Taming Generative Synthetic Data for X-ray Prohibited Item Detection
Authors:Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.
训练禁止物品检测模型需要大量的X光安检图像,但收集和标注这些图像既耗时又费力。为了解决数据不足的问题,X光安检图像合成方法通过合成图像来扩展数据集。然而,之前的方法主要遵循两阶段管道,在第一阶段进行劳动密集型的前景提取,然后在第二阶段进行图像合成。这种管道流程带来了额外的不可避免的人工成本且效率低下。在本文中,我们提出了一种基于文本到图像生成的一阶段X光安检图像合成管道(Xsyn),它采用了两种有效的策略来提高合成图像的使用价值。Cross-Attention Refinement(CAR)策略利用扩散模型的交叉注意力图来完善边界框注释。Background Occlusion Modeling(BOM)策略在潜在空间中显式地建立背景遮挡模型,以提高成像的复杂性。据我们所知,与以前的方法相比,Xsyn首次实现了无需额外人工成本的高质量X光安检图像合成。实验表明,我们的方法在mAP上提高了1.2%,超过了所有先前的方法,并且我们方法生成的合成图像对提高各种X光安检数据集和检测器的禁止物品检测性能是有益的。代码可通过https://github.com/pILLOW-1/Xsyn/获得。
论文及项目相关链接
Summary
提出一种基于文本到图像生成的一站式X射线安检图像合成方法(Xsyn),采用两种策略提高合成图像的使用性。其中Cross-Attention Refinement策略利用扩散模型的交叉注意力图优化边界框标注,Background Occlusion Modeling策略在潜在空间中显式建模背景遮挡以增强图像复杂性。Xsyn无需额外劳动力成本,实现高质量X射线安检图像合成,提升性能优于其他方法。
Key Takeaways
- 面对X射线安检图像中禁止物品检测模型训练数据不足的问题,提出了Xsyn图像合成方法。
- Xsyn采用基于文本到图像生成的一站式流程,相较于传统的两阶段流程更加高效,无需额外劳动力成本。
- Xsyn通过Cross-Attention Refinement策略优化边界框标注,提高合成图像的准确性。
- Xsyn通过Background Occlusion Modeling策略在潜在空间中建模背景遮挡,增强图像复杂性。
- Xsyn方法实现了高质量X射线安检图像合成,相较于其他方法有所提升。
- 实验表明,Xsyn合成的图像对提高禁止物品检测性能有益,适用于多种X射线安检数据集和检测器。
点此查看论文截图
OEMA: Ontology-Enhanced Multi-Agent Collaboration Framework for Zero-Shot Clinical Named Entity Recognition
Authors:Xinli Tao, Xin Dong, Xuezhong Zhou
Clinical named entity recognition (NER) is crucial for extracting information from electronic health records (EHRs), but supervised models like CRF and BioClinicalBERT require costly annotated data. While zero-shot NER with large language models (LLMs) reduces this dependency, it struggles with example selection granularity and integrating prompts with self-improvement. To address this, we propose OEMA, a zero-shot clinical NER framework using multi-agent collaboration. OEMA’s three components are: a self-annotator generating examples, a discriminator filtering them via SNOMED CT, and a predictor using entity descriptions for accurate inference. On MTSamples and VAERS datasets, OEMA achieves state-of-the-art exact-match performance. Under related-match, it matches supervised BioClinicalBERT and surpasses CRF. OEMA addresses key zero-shot NER challenges through ontology-guided reasoning and multi-agent collaboration, achieving near-supervised performance and showing promise for clinical NLP applications.
临床命名实体识别(NER)是从电子健康记录(EHRs)中提取信息的关键技术,但CRF和BioClinicalBERT等监督模型需要昂贵的标注数据。虽然使用大型语言模型的零样本NER减少了对此类数据的依赖,但在示例选择粒度和整合提示以实现自我改进方面仍存在困难。为解决这一问题,我们提出了OEMA,这是一个利用多智能体协作的零样本临床NER框架。OEMA的三个组件包括:生成示例的自我注释器、通过SNOMED CT进行过滤的鉴别器,以及使用实体描述进行准确推断的预测器。在MTSample和VAERS数据集上,OEMA达到了最先进的精确匹配性能。在相关匹配方面,它与监督的BioClinicalBERT相匹配并超越了CRF。OEMA通过本体引导推理和多智能体协作解决了关键的零样本NER挑战,实现了接近监督的性能,并在临床自然语言处理应用中显示出良好的前景。
论文及项目相关链接
PDF 12 pages, 4 figures, 4 tables
Summary
临床命名实体识别(NER)在电子健康记录(EHRs)信息提取中至关重要,但监督模型如CRF和BioClinicalBERT需要大量标注数据。零样本NER使用大型语言模型(LLM)减少了对此依赖,但在示例选择粒度以及与自我改进结合方面存在问题。为解决此问题,我们提出了使用多智能体协作的零样本临床NER框架OEMA。OEMA包含三个组件:生成例子的自我注释器、通过SNOMED CT过滤它们的鉴别器以及使用实体描述进行准确推断的预测器。在MTS样本和VAERS数据集上,OEMA实现了精确匹配的最新性能。在相关匹配下,它与监督的BioClinicalBERT相匹配并超过了CRF。OEMA通过本体引导推理和多智能体协作解决了零样本NER的关键挑战,实现了接近监督的性能,为临床NLP应用程序显示出良好的前景。
Key Takeaways
- 临床命名实体识别(NER)在电子健康记录信息提取中很重要。
- 监督模型如CRF和BioClinicalBERT需要大量标注数据。
- 零样本NER使用大型语言模型可以减少对标注数据的依赖。
- 零样本临床NER框架OEMA通过使用多智能体协作来解决示例选择粒度等挑战。
- OEMA包含自我注释器、鉴别器和预测器三个组件。
- OEMA在MTS样本和VAERS数据集上实现了精确匹配的最新性能。
点此查看论文截图
BrainRotViT: Transformer-ResNet Hybrid for Explainable Modeling of Brain Aging from 3D sMRI
Authors:Wasif Jalal, Md Nafiu Rahman, M. Sohel Rahman
Accurate brain age estimation from structural MRI is a valuable biomarker for studying aging and neurodegeneration. Traditional regression and CNN-based methods face limitations such as manual feature engineering, limited receptive fields, and overfitting on heterogeneous data. Pure transformer models, while effective, require large datasets and high computational cost. We propose Brain ResNet over trained Vision Transformer (BrainRotViT), a hybrid architecture that combines the global context modeling of vision transformers (ViT) with the local refinement of residual CNNs. A ViT encoder is first trained on an auxiliary age and sex classification task to learn slice-level features. The frozen encoder is then applied to all sagittal slices to generate a 2D matrix of embedding vectors, which is fed into a residual CNN regressor that incorporates subject sex at the final fully-connected layer to estimate continuous brain age. Our method achieves an MAE of 3.34 years (Pearson $r=0.98$, Spearman $ρ=0.97$, $R^2=0.95$) on validation across 11 MRI datasets encompassing more than 130 acquisition sites, outperforming baseline and state-of-the-art models. It also generalizes well across 4 independent cohorts with MAEs between 3.77 and 5.04 years. Analyses on the brain age gap (the difference between the predicted age and actual age) show that aging patterns are associated with Alzheimer’s disease, cognitive impairment, and autism spectrum disorder. Model attention maps highlight aging-associated regions of the brain, notably the cerebellar vermis, precentral and postcentral gyri, temporal lobes, and medial superior frontal gyrus. Our results demonstrate that this method provides an efficient, interpretable, and generalizable framework for brain-age prediction, bridging the gap between CNN- and transformer-based approaches while opening new avenues for aging and neurodegeneration research.
从结构磁共振成像(MRI)准确估计大脑年龄是研究衰老和神经退化的宝贵生物标志物。传统回归和基于CNN的方法面临诸如手动特征工程、感受野有限以及对异质数据过度拟合等局限性。纯Transformer模型虽然有效,但需要大量数据集和较高的计算成本。我们提出了Brain ResNet over trained Vision Transformer(BrainRotViT),这是一种混合架构,结合了视觉Transformer(ViT)的全局上下文建模和残差CNN的局部精细化。首先,ViT编码器在辅助的年龄和性别分类任务上进行训练,以学习切片级别的特征。然后将冻结的编码器应用于所有矢状切片,以生成嵌入向量的二维矩阵,该矩阵被输入到残差CNN回归器中,并在最终的全连接层中结合受试者性别来估计连续的大脑年龄。我们的方法在11个MRI数据集(涵盖超过130个采集站点)的验证上实现了平均绝对误差(MAE)为3.34年的结果(皮尔逊相关系数r=0.98,斯皮尔曼ρ=0.97,R^2=0.95),超越了基准和最新模型。它在4个独立队列中也表现良好,MAE在3.77至5.04年之间。对大脑年龄差距(预测年龄与实际年龄之间的差异)的分析显示,衰老模式与阿尔茨海默病、认知障碍和自闭症谱系障碍有关。模型注意力图突出了与衰老相关的大脑区域,尤其是小脑中部、中央前后回、颞叶和内侧前额叶皮层。我们的结果表明,该方法提供了一个高效、可解释和通用的脑龄预测框架,缩小了基于CNN和Transformer的方法之间的差距,并为衰老和神经退化研究开辟了新的途径。
论文及项目相关链接
Summary
本文提出了一种结合Vision Transformer和残差CNN的混合架构(BrainResNet over trained Vision Transformer,简称BrainRotViT),用于从结构MRI准确估计大脑年龄。该方法通过辅助年龄和性别分类任务训练ViT编码器以学习切片级特征,并结合残差CNN回归器来估计连续的大脑年龄。在跨越多个MRI数据集和独立队列的验证中,该方法表现出优异的性能,并揭示了大脑年龄差异与阿尔茨海默病、认知障碍和自闭症谱系障碍之间的关联。
Key Takeaways
- BrainRotViT是一个混合架构,结合了Vision Transformer和残差CNN的优点,用于大脑年龄估计。
- ViT编码器通过辅助任务学习切片级特征,然后与残差CNN回归器结合,以估计连续的大脑年龄。
- 该方法在多个MRI数据集和独立队列中表现出优异的性能,包括高准确性、稳定性和泛化能力。
- 研究发现大脑年龄差异与某些疾病(如阿尔茨海默病、认知障碍和自闭症谱系障碍)之间存在关联。
- 模型注意力图突出了与衰老相关的大脑区域,包括小脑、前额叶、颞叶等。
- 该方法提供了一种高效、可解释和通用的框架,为大脑年龄预测和神经退行性疾病研究开辟了新的途径。
点此查看论文截图
WaveFuse-AL: Cyclical and Performance-Adaptive Multi-Strategy Active Learning for Medical Images
Authors:Nishchala Thakur, Swati Kochhar, Deepti R. Bathula, Sukrit Gupta
Active learning reduces annotation costs in medical imaging by strategically selecting the most informative samples for labeling. However, individual acquisition strategies often exhibit inconsistent behavior across different stages of the active learning cycle. We propose Cyclical and Performance-Adaptive Multi-Strategy Active Learning (WaveFuse-AL), a novel framework that adaptively fuses multiple established acquisition strategies-BALD, BADGE, Entropy, and CoreSet throughout the learning process. WaveFuse-AL integrates cyclical (sinusoidal) temporal priors with performance-driven adaptation to dynamically adjust strategy importance over time. We evaluate WaveFuse-AL on three medical imaging benchmarks: APTOS-2019 (multi-class classification), RSNA Pneumonia Detection (binary classification), and ISIC-2018 (skin lesion segmentation). Experimental results demonstrate that WaveFuse-AL consistently outperforms both single-strategy and alternating-strategy baselines, achieving statistically significant performance improvements (on ten out of twelve metric measurements) while maximizing the utility of limited annotation budgets.
主动学习通过策略性地选择最具信息量的样本进行标注,降低了医学成像的标注成本。然而,不同的主动学习周期阶段,个体获取策略往往表现出不一致的行为。我们提出了循环和性能自适应多策略主动学习(WaveFuse-AL),这是一种新型框架,能够自适应地融合多种已建立的获取策略,包括BALD、BADGE、熵和CoreSet,贯穿学习过程。WaveFuse-AL结合了循环(正弦)时间先验知识和性能驱动的自适应,以随时间动态调整策略的重要性。我们在三个医学成像基准测试上对WaveFuse-AL进行了评估:APTOS-2019(多类分类)、RSNA肺炎检测(二元分类)和ISIC-2018(皮肤病变分割)。实验结果表明,WaveFuse-AL始终优于单策略和交替策略的基线,在12个度量指标中的10个指标上实现了统计上显著的性能提升,同时最大限度地提高了有限标注预算的效用。
论文及项目相关链接
Summary
本文介绍了主动学习方法在医学成像中的标注成本降低效果,提出一种新型框架WaveFuse-AL,该框架可自适应融合多种采集策略,如BALD、BADGE、Entropy和CoreSet。WaveFuse-AL通过结合循环(正弦)时间先验知识和性能驱动的自适应机制,在不同学习阶段动态调整策略重要性。在APTOS-2019、RSNA肺炎检测和ISIC-2018三个医学成像基准测试上,WaveFuse-AL表现出色,一致优于单策略和交替策略基准测试,并在十个度量指标中实现了显著的性能提升。
Key Takeaways
- 主动学习在医学成像中通过选择性标注最具信息量的样本,降低了标注成本。
- WaveFuse-AL是一种新型框架,可自适应融合多种采集策略,以提高学习效果。
- WaveFuse-AL结合了循环(正弦)时间先验知识和性能驱动的自适应机制,能动态调整策略重要性。
- 在三个医学成像基准测试上,WaveFuse-AL性能表现优异,超越了单策略和交替策略。
- WaveFuse-AL最大化了有限标注预算的效用。
- WaveFuse-AL在十二个度量指标中的十个实现了显著的性能提升。
点此查看论文截图
A Novel Pixel-Chip-Based Region-of-Interest Readout Circuit Design
Authors:Shi-Qiang Zhou, Li-Rong Xie, Dong Wang, Cheng Lian, Si-Ying Liu, Zi-Yi Zhang, Xiang-Ming Sun, Hong-Bang Liu, Chao-Song Gao, Jun Liu, Huan-Bo Feng, Di-Fan Yi
This paper presents a novel pixel chip readout scheme: the Region-of-Interest Readout Circuit (ROIRC), which is designed for large area, large array pixel chips and Gas Pixel Detector (GPD). This design employs a sentinel pixel detection strategy, enabling rapid identification and prioritized readout of the pixel regions containing signal events. During the scanning readout of these signal events, ROIRC employs a Block-based readout approach, effectively minimizing the readout of non-signal pixels. The functionality of ROIRC has been successfully implemented on both the ASIC and FPGA platforms. In the tests of the ROIRC, the pixel chip embedded in the GPD is capable of detecting low-energy X-rays in the range of 2-10 keV and supports multiple event readouts, and the pixel chip can read out photo-electron signal events with the count rate up to 15k / (cm2 x s).
本文介绍了一种新型的像素芯片读出方案:感兴趣区域读出电路(ROIRC),该方案针对大面积、大阵列像素芯片和气体像素探测器(GPD)而设计。该设计采用哨兵像素检测策略,能够迅速识别和优先读出含有信号事件的像素区域。在扫描读出这些信号事件时,ROIRC采用基于区块的读出方法,有效地减少了非信号像素的读出。ROIRC的功能已在ASIC和FPGA平台上成功实现。在ROIRC测试中,嵌入GPD中的像素芯片能够检测2-10keV范围内的低能X射线,支持多次事件读出,且该像素芯片能够读出计数率高达15k/(cm2 x s)的光电子信号事件。
论文及项目相关链接
Summary
本文介绍了一种新型像素芯片读出方案——感兴趣区域读出电路(ROIRC),适用于大面积、大阵列像素芯片和气体像素探测器(GPD)。采用哨兵像素检测策略,可快速识别并优先读出含有信号事件的像素区域,采用基于分块的读出方法,有效减少非信号像素的读出。ROIRC已在ASIC和FPGA平台上成功实现功能。测试表明,嵌入GPD的像素芯片可检测2-10keV低能X射线,支持多次事件读出,像素芯片可读出计数率高达15k/(cm²·s)的光电子信号事件。
Key Takeaways
- ROIRC是一种针对大面积、大阵列像素芯片和气体像素探测器(GPD)的新型像素芯片读出方案。
- 采用哨兵像素检测策略,可快速识别和优先读出含有信号事件的像素区域。
- ROIRC采用基于分块的读出方法,有效减少非信号像素的读出。
- ROIRC已在ASIC和FPGA平台上成功实现功能。
- 像素芯片可检测2-10keV低能X射线。
- 像素芯片支持多次事件读出。
点此查看论文截图
Deep Pathomic Learning Defines Prognostic Subtypes and Molecular Drivers in Colorectal Cancer
Authors:Zisong Wang, Xuanyu Wang, Hang Chen, Haizhou Wang, Yuxin Chen, Yihang Xu, Yunhe Yuan, Lihuan Luo, Xitong Ling, Xiaoping Liu
Precise prognostic stratification of colorectal cancer (CRC) remains a major clinical challenge due to its high heterogeneity. The conventional TNM staging system is inadequate for personalized medicine. We aimed to develop and validate a novel multiple instance learning model TDAM-CRC using histopathological whole-slide images for accurate prognostic prediction and to uncover its underlying molecular mechanisms. We trained the model on the TCGA discovery cohort (n=581), validated it in an independent external cohort (n=1031), and further we integrated multi-omics data to improve model interpretability and identify novel prognostic biomarkers. The results demonstrated that the TDAM-CRC achieved robust risk stratification in both cohorts. Its predictive performance significantly outperformed the conventional clinical staging system and multiple state-of-the-art models. The TDAM-CRC risk score was confirmed as an independent prognostic factor in multivariable analysis. Multi-omics analysis revealed that the high-risk subtype is closely associated with metabolic reprogramming and an immunosuppressive tumor microenvironment. Through interaction network analysis, we identified and validated Mitochondrial Ribosomal Protein L37 (MRPL37) as a key hub gene linking deep pathomic features to clinical prognosis. We found that high expression of MRPL37, driven by promoter hypomethylation, serves as an independent biomarker of favorable prognosis. Finally, we constructed a nomogram incorporating the TDAM-CRC risk score and clinical factors to provide a precise and interpretable clinical decision-making tool for CRC patients. Our AI-driven pathological model TDAM-CRC provides a robust tool for improved CRC risk stratification, reveals new molecular targets, and facilitates personalized clinical decision-making.
结直肠癌(CRC)的精确预后分层因其高度的异质性仍然是一个主要的临床挑战。传统的TNM分期系统对于个性化医疗来说是不够的。我们的目标是开发并验证一种新型的多实例学习模型TDAM-CRC,利用病理全切片图像进行准确的预后预测,并揭示其潜在的分子机制。我们在TCGA发现队列(n=581)中训练了模型,在独立的外部队列(n=1031)中进行了验证,并进一步整合了多组学数据,以提高模型的可解释性并识别新的预后生物标志物。结果表明,TDAM-CRC在两个队列中均实现了稳健的风险分层。其预测性能显著优于传统临床分期系统和多种最先进的模型。TDAM-CRC风险评分在多变量分析中被确认为独立的预后因素。多组学分析表明,高风险亚型与代谢重编程和免疫抑制的肿瘤微环境密切相关。通过相互作用网络分析,我们确定了线粒体核糖体蛋白L37(MRPL37)是一个关键的中心基因,它将深度病理特征连接到临床预后。我们发现,由启动子低甲基化驱动的高MRPL37表达是预后良好的独立生物标志物。最后,我们构建了一个结合TDAM-CRC风险评分和临床因素的列线图,为CRC患者提供精确和可解释的临床决策工具。我们的人工智能驱动的病理模型TDAM-CRC为改进CRC风险分层、揭示新的分子靶标和促临床决策个性化提供了强大的工具。
论文及项目相关链接
摘要
结直肠癌(CRC)的精确预后分层是一大临床挑战,因肿瘤高度异质性导致常规TNM分期系统无法满足个性化医疗需求。本研究旨在开发并验证一种新型多重实例学习模型TDAM-CRC,利用病理全切片图像进行准确的预后预测,并揭示其潜在的分子机制。模型在TCGA发现队列(n=581)中进行训练,并在独立的外部队列(n=1031)中验证。此外,本研究整合了多组学数据以提高模型的可解释性并识别新的预后生物标志物。结果表明,TDAM-CRC在两个队列中均实现了稳健的风险分层,其预测性能显著优于常规临床分期系统和多种最先进的模型。TDAM-CRC风险评分在多变量分析中被确认为独立的预后因素。多组学分析显示,高风险亚型的肿瘤与代谢重编程和免疫抑制的肿瘤微环境密切相关。通过相互作用网络分析,我们确定了线粒体核糖体蛋白L37(MRPL37)是一个关键的中心基因,它将深度病理学特征联系到临床预后。我们发现MRPL37的高表达由启动子低甲基化驱动,可作为独立的预后生物标志物。最后,我们构建了一个诺模图,将TDAM-CRC风险评分和临床因素相结合,为CRC患者提供精确且可解释的临床决策工具。本研究开发的AI驱动的病理模型TDAM-CRC为改善CRC风险分层提供了强大工具,揭示了新的分子靶点,促进了个性化的临床决策制定。
关键见解
- 结直肠癌的预后分层面临挑战,需要更精确的预测方法。
- TDAM-CRC模型利用全病理切片图像进行训练和验证,显示出良好的预测性能。
- TDAM-CRC模型的预测性能优于传统的TNM分期系统和其他现有模型。
- 多组学分析揭示了与高风险亚型相关的代谢重编程和免疫抑制的肿瘤微环境。
- MRPL37基因被鉴定为联系临床预后和病理学特征的关键基因。
- MRPL37的高表达水平可作为结直肠癌的独立预后生物标志物。
- 构建了包含TDAM-CRC风险评分和临床因素的诺模图,为临床医生提供决策支持。
点此查看论文截图
ProPL: Universal Semi-Supervised Ultrasound Image Segmentation via Prompt-Guided Pseudo-Labeling
Authors:Yaxiong Chen, Qicong Wang, Chunlei Li, Jingliang Hu, Yilei Shi, Shengwu Xiong, Xiao Xiang Zhu, Lichao Mou
Existing approaches for the problem of ultrasound image segmentation, whether supervised or semi-supervised, are typically specialized for specific anatomical structures or tasks, limiting their practical utility in clinical settings. In this paper, we pioneer the task of universal semi-supervised ultrasound image segmentation and propose ProPL, a framework that can handle multiple organs and segmentation tasks while leveraging both labeled and unlabeled data. At its core, ProPL employs a shared vision encoder coupled with prompt-guided dual decoders, enabling flexible task adaptation through a prompting-upon-decoding mechanism and reliable self-training via an uncertainty-driven pseudo-label calibration (UPLC) module. To facilitate research in this direction, we introduce a comprehensive ultrasound dataset spanning 5 organs and 8 segmentation tasks. Extensive experiments demonstrate that ProPL outperforms state-of-the-art methods across various metrics, establishing a new benchmark for universal ultrasound image segmentation.
针对超声图像分割问题,现有的方法,无论是监督学习还是半监督学习,通常都针对特定的解剖结构或任务,限制了它们在临床环境中的实际应用。在本文中,我们首创了通用半监督超声图像分割任务,并提出了一种可以处理多个器官和分割任务的同时利用有标签和无标签数据的ProPL框架。ProPL的核心是一个共享的视觉编码器,结合提示引导的双解码器,通过解码提示机制和不确定驱动的伪标签校准(UPLC)模块实现灵活的任务适应性和可靠的自我训练。为了促进这一方向的研究,我们引入了一个包含5个器官和8个分割任务的全面超声数据集。大量实验表明,ProPL在各项指标上均优于最新方法,为通用超声图像分割建立了新的基准。
论文及项目相关链接
PDF AAAI 2026
Summary
本文提出一种新型的半监督超声图像分割方法ProPL,能同时处理多器官和多任务分割问题,并利用标注和非标注数据。该方法通过共享视觉编码器与提示引导的双解码器实现灵活的任务适应性,并采用基于不确定性驱动伪标签校准的UPLC模块进行可靠自训练。同时引入涵盖5个器官和8个分割任务的全面超声数据集,实验表明ProPL在多种指标上优于现有技术,为通用超声图像分割建立了新基准。
Key Takeaways
- ProPL是一种新型半监督超声图像分割框架,能处理多器官和多任务分割。
- ProPL通过共享视觉编码器与提示引导的双解码器实现任务灵活性。
- UPLC模块基于不确定性驱动伪标签校准,增强模型自训练能力。
- 引入涵盖多个器官和分割任务的全面超声数据集。
- ProPL在多种指标上优于现有技术,为超声图像分割建立新基准。
- 该方法利用标注和非标注数据,提高模型泛化能力。
点此查看论文截图
CellGenNet: A Knowledge-Distilled Framework for Robust Cell Segmentation in Cancer Tissues
Authors:Srijan Ray, Bikesh K. Nirala, Jason T. Yustein, Sundaresh Ram
Accurate nuclei segmentation in microscopy whole slide images (WSIs) remains challenging due to variability in staining, imaging conditions, and tissue morphology. We propose CellGenNet, a knowledge distillation framework for robust cross-tissue cell segmentation under limited supervision. CellGenNet adopts a student-teacher architecture, where a capacity teacher is trained on sparse annotations and generates soft pseudo-labels for unlabeled regions. The student is optimized using a joint objective that integrates ground-truth labels, teacher-derived probabilistic targets, and a hybrid loss function combining binary cross-entropy and Tversky loss, enabling asymmetric penalties to mitigate class imbalance and better preserve minority nuclear structures. Consistency regularization and layerwise dropout further stabilize feature representations and promote reliable feature transfer. Experiments across diverse cancer tissue WSIs show that CellGenNet improves segmentation accuracy and generalization over supervised and semi-supervised baselines, supporting scalable and reproducible histopathology analysis.
显微镜全切片图像(WSI)中的细胞核精确分割仍然是一个挑战,因为染色、成像条件和组织形态存在差异性。我们提出了CellGenNet,这是一个在有限监督下进行稳健跨组织细胞分割的知识蒸馏框架。CellGenNet采用了一种学生-教师架构,其中教师模型在稀疏注释上进行训练,并为未标记区域生成软伪标签。学生模型通过整合真实标签、教师生成的概率目标和结合二元交叉熵和Tversky损失的混合损失函数进行优化,采用不对称惩罚来缓解类别不平衡问题,并更好地保留少数细胞核结构。一致性正则化和逐层丢弃进一步稳定特征表示,并促进可靠的特征迁移。在不同癌症组织WSI上的实验表明,CellGenNet的分割准确性和泛化能力超过了监督和半监督基线,支持可扩展和可重复的病理组织分析。
论文及项目相关链接
PDF 4 pages, 3 figures, Submitted to IEEE SSIAI 2026
Summary
本文提出了CellGenNet,一种基于知识蒸馏的跨组织细胞分割框架,用于在有限的监督条件下实现显微全切片图像(WSIs)中细胞核的精确分割。该框架采用学生-教师架构,通过稀疏注释训练教师模型,为未标记区域生成软伪标签。学生模型使用联合目标进行优化,该目标结合了真实标签、教师生成的概率目标和混合损失函数(包括二元交叉熵和Tversky损失),以缓解类别不平衡问题并更好地保留少数细胞核结构。通过一致性正则化和逐层丢弃策略进一步稳定特征表示并促进可靠的特征转移。实验表明,CellGenNet在多样化的癌症组织WSIs上提高了分割精度和泛化能力,支持可扩展和可重复的组织病理学分析。
Key Takeaways
- CellGenNet是一个基于知识蒸馏的跨组织细胞分割框架,用于解决显微全切片图像中细胞核分割的挑战。
- 采用学生-教师架构,其中教师模型在稀疏注释上进行训练,生成软伪标签以辅助学生模型的训练。
- 学生模型使用联合目标进行优化,结合了真实标签、教师概率目标和混合损失函数。
- 混合损失函数包括二元交叉熵和Tversky损失,以缓解类别不平衡问题并保留少数细胞核结构。
- 通过一致性正则化和逐层丢弃策略来稳定特征表示并促进特征转移。
- 实验表明,CellGenNet在多样化的癌症组织WSIs上表现出较高的分割精度和泛化能力。
点此查看论文截图
GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation
Authors:Xuan Zhao, Zhongyu Zhang, Yuge Huang, Yuxi Mi, Guodong Mu, Shouhong Ding, Jun Wang, Rizen Guo, Shuigeng Zhou
Existing state-of-the-art image tokenization methods leverage diverse semantic features from pre-trained vision models for additional supervision, to expand the distribution of latent representations and thereby improve the quality of image reconstruction and generation. These methods employ a locally supervised approach for semantic supervision, which limits the uniformity of semantic distribution. However, VA-VAE proves that a more uniform feature distribution yields better generation performance. In this work, we introduce a Global Perspective Tokenizer (GloTok), which utilizes global relational information to model a more uniform semantic distribution of tokenized features. Specifically, a codebook-wise histogram relation learning method is proposed to transfer the semantics, which are modeled by pre-trained models on the entire dataset, to the semantic codebook. Then, we design a residual learning module that recovers the fine-grained details to minimize the reconstruction error caused by quantization. Through the above design, GloTok delivers more uniformly distributed semantic latent representations, which facilitates the training of autoregressive (AR) models for generating high-quality images without requiring direct access to pre-trained models during the training process. Experiments on the standard ImageNet-1k benchmark clearly show that our proposed method achieves state-of-the-art reconstruction performance and generation quality.
现有最先进的图像标记化方法利用预训练视觉模型的多种语义特征进行额外的监督,以扩大潜在表示的分布,从而提高图像重建和生成的质量。这些方法采用局部监督方法进行语义监督,这限制了语义分布的均匀性。然而,VA-VAE证明更均匀的分布特征会产生更好的生成性能。在这项工作中,我们引入了一种全局视角标记器(GloTok),它利用全局关系信息来建模更均匀的标记化特征语义分布。具体来说,我们提出了一种基于代码本直方图的关系学习方法,将预训练模型在整个数据集上建模的语义转移到语义代码本中。然后,我们设计了一个残差学习模块,以恢复细微的细节,以最小化量化引起的重建误差。通过以上的设计,GloTok提供了更均匀分布的语义潜在表示,这有助于训练自回归(AR)模型生成高质量图像,且在训练过程中无需直接访问预训练模型。在标准的ImageNet-1k基准测试上的实验清楚地表明,我们提出的方法达到了最先进的重建性能和生成质量。
论文及项目相关链接
PDF Accepted at AAAI’26
Summary
该文介绍了一种全新的全局视角令牌化器(GloTok),它利用全局关系信息来建模更均匀的语义分布特征。该方法通过一种创新的代码本相关直方图关系学习方法,将预训练模型在整个数据集上建模的语义转移到语义代码本中。同时,设计了一个残差学习模块,以恢复细节并最小化量化引起的重建误差。实验证明,GloTok能够在不使用预训练模型的情况下,达到业界领先的重建性能和生成质量。
Key Takeaways
- GloTok利用全局关系信息建模更均匀的语义分布特征。
- 创新地使用了代码本相关直方图关系学习方法,将预训练模型的语义转移到语义代码本中。
- 设计了残差学习模块来恢复细节,并最小化量化引起的重建误差。
- GloTok实现了在没有直接使用预训练模型的情况下,高质的图像生成和重建。
- 该方法在ImageNet-1k标准基准测试上取得了业界领先的重建性能和生成质量。
- GloTok通过全局视角建模改善了之前局部监督方法的局限性。
- GloTok有助于训练自回归模型以生成高质量图像。
点此查看论文截图
Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification
Authors:Yao Qin, Yangyang Yan, YuanChao Yang, Jinhua Pang, Huanyong Bi, Yuan Liu, HaiHua Wang
Deep learning models have achieved remarkable success in medical image analysis but are fundamentally constrained by the requirement for large-scale, meticulously annotated datasets. This dependency on “big data” is a critical bottleneck in the medical domain, where patient data is inherently difficult to acquire and expert annotation is expensive, particularly for rare diseases where samples are scarce by definition. To overcome this fundamental challenge, we propose a novel paradigm: Zero-Training Task-Specific Model Synthesis (ZS-TMS). Instead of adapting a pre-existing model or training a new one, our approach leverages a large-scale, pre-trained generative engine to directly synthesize the entire set of parameters for a task-specific classifier. Our framework, the Semantic-Guided Parameter Synthesizer (SGPS), takes as input minimal, multi-modal task information as little as a single example image (1-shot) and a corresponding clinical text description to directly synthesize the entire set of parameters for a task-specific classifier. The generative engine interprets these inputs to generate the weights for a lightweight, efficient classifier (e.g., an EfficientNet-V2), which can be deployed for inference immediately without any task-specific training or fine-tuning. We conduct extensive evaluations on challenging few-shot classification benchmarks derived from the ISIC 2018 skin lesion dataset and a custom rare disease dataset. Our results demonstrate that SGPS establishes a new state-of-the-art, significantly outperforming advanced few-shot and zero-shot learning methods, especially in the ultra-low data regimes of 1-shot and 5-shot classification. This work paves the way for the rapid development and deployment of AI-powered diagnostic tools, particularly for the long tail of rare diseases where data is critically limited.
深度学习模型在医学图像分析方面取得了显著的成功,但从根本上受到大规模精细标注数据集要求的限制。对“大数据”的依赖是医学领域的一个关键瓶颈,医学领域患者的数据本质上是难以获取的,专家注释也很昂贵,特别是对于定义上样本稀缺的罕见疾病。为了克服这一基本挑战,我们提出了一种新的模式:零训练任务特定模型合成(ZS-TMS)。我们的方法不是适应现有的模型或训练一个新的模型,而是利用大规模预训练的生成引擎直接合成针对特定任务的分类器的整个参数集。我们的框架,语义引导参数合成器(SGPS),以最少的多模式任务信息作为输入,只需要一个示例图像(单次)和相应的临床文本描述,就可以直接合成针对特定任务的分类器的整个参数集。生成引擎解释这些输入以生成轻量级高效分类器的权重(例如EfficientNet-V2),该分类器可以立即部署进行推理,无需任何特定任务的训练或微调。我们在ISIC 2018皮肤病变数据集和自定义罕见疾病数据集上进行了具有挑战性的少量样本分类基准测试。结果表明,SGPS建立了新的最先进的性能,显著优于先进的少量样本和零样本学习方法,特别是在超低数据的1个样本和5个样本分类中。这项工作为快速开发和部署AI驱动的诊断工具铺平了道路,特别是对于数据严重受限的罕见疾病的长尾部分。
论文及项目相关链接
Summary
该文章提出了一种新型医学图像分析模型Zero-Training Task-Specific Model Synthesis(ZS-TMS)。传统深度学习模型需要大规模精细标注数据集,但在医学领域,获取患者数据以及专家标注非常困难且成本高。文章利用大规模预训练生成引擎直接合成任务特定分类器的所有参数,提出了一种新的方法,仅需要少量模态任务信息和单例图像(单次拍摄)及相应的临床文本描述作为输入。通过这种方法,生成引擎能够解释这些输入生成轻量级高效分类器的权重,用于进行推理,无需特定的任务训练或微调。在ISIC 2018皮肤病变数据集和自定义罕见疾病数据集上进行的大量评估表明,该方法在超低数据环境下的单次和五次分类中表现优异。这为AI驱动的快速开发和部署诊断工具铺平了道路,特别是在数据极度受限的罕见疾病领域。
Key Takeaways
- 深度学习模型在医学图像分析上取得显著成功,但仍受限于大规模精细标注数据集的需求。
- 医学领域的数据获取和专家标注非常困难且成本高,特别是对于罕见疾病。
- 提出了一种新的方法Zero-Training Task-Specific Model Synthesis(ZS-TMS),利用预训练生成引擎直接合成任务特定分类器的参数。
- 仅需少量模态任务信息和单例图像(单次拍摄)及相应的临床文本描述作为输入。
- 生成引擎能够解释这些输入生成轻量级高效分类器的权重,无需特定的任务训练或微调。
- 在超低数据环境下的单次和五次分类中表现优异。
点此查看论文截图
H-CNN-ViT: A Hierarchical Gated Attention Multi-Branch Model for Bladder Cancer Recurrence Prediction
Authors:Xueyang Li, Zongren Wang, Yuliang Zhang, Zixuan Pan, Yu-Jen Chen, Nishchal Sapkota, Gelei Xu, Danny Z. Chen, Yiyu Shi
Bladder cancer is one of the most prevalent malignancies worldwide, with a recurrence rate of up to 78%, necessitating accurate post-operative monitoring for effective patient management. Multi-sequence contrast-enhanced MRI is commonly used for recurrence detection; however, interpreting these scans remains challenging, even for experienced radiologists, due to post-surgical alterations such as scarring, swelling, and tissue remodeling. AI-assisted diagnostic tools have shown promise in improving bladder cancer recurrence prediction, yet progress in this field is hindered by the lack of dedicated multi-sequence MRI datasets for recurrence assessment study. In this work, we first introduce a curated multi-sequence, multi-modal MRI dataset specifically designed for bladder cancer recurrence prediction, establishing a valuable benchmark for future research. We then propose H-CNN-ViT, a new Hierarchical Gated Attention Multi-Branch model that enables selective weighting of features from the global (ViT) and local (CNN) paths based on contextual demands, achieving a balanced and targeted feature fusion. Our multi-branch architecture processes each modality independently, ensuring that the unique properties of each imaging channel are optimally captured and integrated. Evaluated on our dataset, H-CNN-ViT achieves an AUC of 78.6%, surpassing state-of-the-art models. Our model is publicly available at https://github.com/XLIAaron/H-CNN-ViT.
膀胱癌是世界上最常见的恶性肿瘤之一,复发率高达78%,因此需要准确的术后监测以实现有效的患者管理。多序列增强MRI通常用于检测复发;然而,由于手术后的改变,如疤痕、肿胀和组织重塑,即使是有经验的放射科医生在解读这些扫描时仍面临挑战。人工智能辅助诊断工具在改善膀胱癌复发预测方面显示出巨大潜力,但该领域的进展受到缺乏专门用于复发评估研究的多序列MRI数据集的阻碍。在这项工作中,我们首先引入了一个专门设计的多序列、多模式MRI数据集,专门用于膀胱癌复发预测,为未来的研究建立了宝贵的基准。然后,我们提出了H-CNN-ViT,这是一种新的分层门控注意力多分支模型,它可以根据上下文需求选择性地加权全局(ViT)和局部(CNN)路径的特征,实现平衡且有针对性的特征融合。我们的多分支架构独立处理每种模态,确保每种成像通道的独特属性得到最佳捕获和集成。在我们的数据集上评估的H-CNN-ViT达到了78.6%的AUC,超过了最先进的模型。我们的模型可在https://github.com/XLIAaron/H-CNN-ViT公开访问。
论文及项目相关链接
Summary
本文介绍了一种针对膀胱癌复发预测的多元MRI数据集和新型分层门控注意力多分支模型H-CNN-ViT。该模型能选择性加权全局(ViT)和局部(CNN)路径的特征,实现平衡且有针对性的特征融合,独立处理每种模态,确保每种成像通道的独特属性得到最佳捕捉和集成。在自定义数据集上,H-CNN-ViT的AUC达到了78.6%,超过了现有模型。
Key Takeaways
- 膀胱癌复发检测对有效患者管理至关重要,术后监测面临挑战。
- AI辅助诊断工具在预测膀胱癌复发方面显示出潜力。
- 缺乏专门用于复发评估的多序列MRI数据集限制了该领域的发展。
- 引入了一个多序列、多模态的MRI数据集,专为膀胱癌复发预测而设计。
- 提出了一种新型的分层门控注意力多分支模型H-CNN-ViT。
- H-CNN-ViT模型能平衡并针对性地融合特征,独立处理各种模态,确保最佳捕捉和集成每种成像通道的独特属性。