⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-12 更新
Multimodal Contrastive Pretraining of CBCT and IOS for Enhanced Tooth Segmentation
Authors:Moo Hyun Son, Juyoung Bae, Zelin Qiu, Jiale Peng, Kai Xin Li, Yifan Lin, Hao Chen
Digital dentistry represents a transformative shift in modern dental practice. The foundational step in this transformation is the accurate digital representation of the patient’s dentition, which is obtained from segmented Cone-Beam Computed Tomography (CBCT) and Intraoral Scans (IOS). Despite the growing interest in digital dental technologies, existing segmentation methodologies frequently lack rigorous validation and demonstrate limited performance and clinical applicability. To the best of our knowledge, this is the first work to introduce a multimodal pretraining framework for tooth segmentation. We present ToothMCL, a Tooth Multimodal Contrastive Learning for pretraining that integrates volumetric (CBCT) and surface-based (IOS) modalities. By capturing modality-invariant representations through multimodal contrastive learning, our approach effectively models fine-grained anatomical features, enabling precise multi-class segmentation and accurate identification of F'ed'eration Dentaire Internationale (FDI) tooth numbering. Along with the framework, we curated CBCT-IOS3.8K, the largest paired CBCT and IOS dataset to date, comprising 3,867 patients. We then evaluated ToothMCL on a comprehensive collection of independent datasets, representing the largest and most diverse evaluation to date. Our method achieves state-of-the-art performance in both internal and external testing, with an increase of 12% for CBCT segmentation and 8% for IOS segmentation in the Dice Similarity Coefficient (DSC). Furthermore, ToothMCL consistently surpasses existing approaches in tooth groups and demonstrates robust generalizability across varying imaging conditions and clinical scenarios.
数字化牙科代表了现代牙科实践的变革性转变。这一转变的基础步骤是通过对患者的牙齿进行准确的数字化表示,这一表示是通过分段锥形束计算机断层扫描(CBCT)和口腔内扫描(IOS)获得的。尽管对数字化牙科技术日益感兴趣,但现有的分割方法在严格验证方面存在不足,性能和临床适用性有限。据我们所知,这是首次引入用于牙齿分割的多模式预训练框架的工作。我们提出了ToothMCL,这是一种牙齿多模式对比学习预训练法,它结合了体积(CBCT)和表面(IOS)模式。通过多模式对比学习捕获模式不变的表示,我们的方法有效地模拟了精细的解剖特征,能够实现精细的多类分割和准确的国际牙科联合会(FDI)牙齿编号的识别。与框架一同,我们整理了CBCT-IOS3.8K数据集,这是迄今为止最大的配对CBCT和IOS数据集,包含3867名患者。然后我们在一系列独立的数据集上评估了ToothMCL的表现,代表了迄今为止最大且最多元的评价。我们的方法在内部和外部测试中均达到了最先进水平,在狄克相似系数(DSC)方面,CBCT分割提高了12%,IOS分割提高了8%。此外,ToothMCL在牙齿分组上始终超越了现有方法,并在不同的成像条件和临床情景下表现出稳健的泛化能力。
论文及项目相关链接
摘要
数字牙科代表了现代牙科实践的变革性转变。这一转变的基础步骤是从分段锥形束计算机断层扫描(CBCT)和口腔内扫描(IOS)获得患者的牙齿数字准确表示。尽管对数字牙科技术日益感兴趣,但现有的分割方法在验证、性能和临床适用性方面存在局限性。据我们所知,这是首次引入用于牙齿分割的多模式预训练框架的工作。我们提出了ToothMCL,这是一种牙齿多模式对比学习预训练法,它融合了体积(CBCT)和表面(IOS)模式。通过多模式对比学习捕捉模式不变的表示,我们的方法有效地模拟了精细的解剖特征,实现了精细的多类分割和准确的国际牙科联合会(FDI)牙齿编号识别。我们伴随着框架一起创建了CBCT-IOS3.8K数据集,这是迄今为止最大的配套CBCT和IOS数据集,包含3,867名患者。随后我们在大量独立数据集上评估了ToothMCL,代表了迄今为止规模最大、最多元的评价。我们的方法在内部和外部测试中均达到了最新性能水平,Dice相似系数(DSC)增加了12%(CBCT分割)和8%(IOS分割)。此外,ToothMCL在牙齿群体上一直超越现有方法,并在不同的成像条件和临床场景下表现出强大的泛化能力。
关键见解
- 数字牙科代表现代牙科实践中的重大转变,侧重于通过先进技术进行牙齿的数字表示。
- 论文介绍了ToothMCL,一种多模式预训练框架,用于牙齿分割,融合了CBCT和IOS两种模式的数据。
- ToothMCL通过多模式对比学习捕捉模式不变的表示,实现了精细的牙齿分割和准确的FDI牙齿编号识别。
- 论文创建了一个大型配套CBCT和IOS数据集CBCT-IOS3.8K,包含数千名患者的数据。
- ToothMCL在独立数据集上的评估表现出卓越的性能,相比现有方法有所改进。
- 该方法在多种成像条件和临床场景下具有强大的泛化能力。
- 数字牙科技术的发展仍面临挑战,需要更多的研究和验证。
点此查看论文截图




Attention Maps in 3D Shape Classification for Dental Stage Estimation with Class Node Graph Attention Networks
Authors:Barkin Buyukcakir, Rocharles Cavalcante Fontenele, Reinhilde Jacobs, Jannick De Tobel, Patrick Thevissen, Dirk Vandermeulen, Peter Claes
Deep learning offers a promising avenue for automating many recognition tasks in fields such as medicine and forensics. However, the black-box nature of these models hinders their adoption in high-stakes applications where trust and accountability are required. For 3D shape recognition tasks in particular, this paper introduces the Class Node Graph Attention Network (CGAT) architecture to address this need. Applied to 3D meshes of third molars derived from CBCT images, for Demirjian stage allocation, CGAT utilizes graph attention convolutions and an inherent attention mechanism, visualized via attention rollout, to explain its decision-making process. We evaluated the local mean curvature and distance to centroid node features, both individually and in combination, as well as model depth, finding that models incorporating directed edges to a global CLS node produced more intuitive attention maps, while also yielding desirable classification performance. We analyzed the attention-based explanations of the models, and their predictive performances to propose optimal settings for the CGAT. The combination of local mean curvature and distance to centroid as node features yielded a slight performance increase with 0.76 weighted F1 score, and more comprehensive attention visualizations. The CGAT architecture’s ability to generate human-understandable attention maps can enhance trust and facilitate expert validation of model decisions. While demonstrated on dental data, CGAT is broadly applicable to graph-based classification and regression tasks, promoting wider adoption of transparent and competitive deep learning models in high-stakes environments.
深度学习在医学和法医学等领域为许多识别任务自动化提供了有前途的途径。然而,这些模型的“黑箱”性质阻碍了它们在信任度和责任要求较高的应用中的采用。本文特别针对三维形状识别任务,引入Class Node Graph Attention Network (CGAT)架构来满足这一需求。应用于从CBCCT图像中获得的第三磨牙的三维网格,用于德米尔吉安阶段分配,CGAT利用图注意力卷积和通过注意力展开可视化的固有注意力机制来解释其决策过程。我们评估了局部平均曲率和到质心节点特征的距离,单独和组合使用,以及模型深度,发现融入有向边到全局CLS节点的模型产生了更直观的注意力图,同时也达到了理想的分类性能。我们分析了模型的基于注意力的解释和预测性能,提出了CGAT的最佳设置。局部平均曲率和到质心距离的组合作为节点特征,稍微提高了性能,加权F1分数为0.76,并提供了更全面的注意力可视化。CGAT架构生成人类可理解的注意力图的能力可以增强信任并促进专家对模型决策的验证。虽然在牙科数据上进行了演示,但CGAT可广泛应用于基于图的分类和回归任务,促进透明度和竞争力强的深度学习模型在高风险环境中的更广泛应用。
论文及项目相关链接
PDF 25 pages, 8 figures, 2nd International Conference on Explainable AI for Neural or Symbolic Methods
Summary
本文介绍了利用深度学习的Class Node Graph Attention Network(CGAT)架构进行3D形状识别任务的方法。该架构应用于从CBCT图像中获取的第三磨牙的3D网格上,用于Demirjian阶段分配。通过利用图注意力卷积和内在注意力机制,CGAT能够解释其决策过程。研究发现,结合局部平均曲率和距离质心的节点特征,以及模型深度,可以产生更直观且分类性能更好的注意力图。此外,CGAT架构能够生成人类可理解的注意力图,增强了信任度并促进了专家对模型决策的验证。虽然此研究在牙科数据上进行了演示,但CGAT架构可广泛应用于基于图的分类和回归任务,促进高风险的透明竞争深度学习模型的广泛应用。
Key Takeaways
- 介绍了深度学习中Class Node Graph Attention Network(CGAT)架构在3D形状识别任务中的应用。
- 该架构利用图注意力卷积和内在注意力机制来解释决策过程。
- 结合局部平均曲率和距离质心的节点特征可以产生更直观且分类性能更好的注意力图。
- CGAT架构可以生成人类可理解的注意力图,增强了信任度并促进了专家验证模型决策的可能性。
- 该架构在牙科数据上的演示证明了其有效性。
- CGAT架构具有广泛的应用性,可应用于基于图的分类和回归任务。
点此查看论文截图


