嘘~ 正在从服务器偷取页面 . . .

检测/分割/跟踪


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-25 更新

Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift

Authors:Björn Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung Vu, Renaud Marlet, Nicolas Courty

Semantic segmentation networks trained under full supervision for one type of lidar fail to generalize to unseen lidars without intervention. To reduce the performance gap under domain shifts, a recent trend is to leverage vision foundation models (VFMs) providing robust features across domains. In this work, we conduct an exhaustive study to identify recipes for exploiting VFMs in unsupervised domain adaptation for semantic segmentation of lidar point clouds. Building upon unsupervised image-to-lidar knowledge distillation, our study reveals that: (1) the architecture of the lidar backbone is key to maximize the generalization performance on a target domain; (2) it is possible to pretrain a single backbone once and for all, and use it to address many domain shifts; (3) best results are obtained by keeping the pretrained backbone frozen and training an MLP head for semantic segmentation. The resulting pipeline achieves state-of-the-art results in four widely-recognized and challenging settings. The code will be available at: https://github.com/valeoai/muddos.

针对激光雷达点云的语义分割,全监督训练的网络对于一种类型的激光雷达无法在未进行干预的情况下推广到未见过的激光雷达。为了减少域转移下的性能差距,最近的趋势是利用视觉基础模型(VFMs),这些模型可以在不同的域之间提供稳健的特征。在这项工作中,我们进行了详尽的研究,以确定在利用视觉基础模型进行无监督域自适应以进行激光雷达点云的语义分割时的方法。建立在无监督图像到激光雷达知识蒸馏的基础上,我们的研究揭示了以下几点:(1)激光雷达主干的架构是最大化目标域上的泛化性能的关键;(2)有可能对单个主干进行一次训练并用于应对多种域转移;(3)通过保持预训练的主干冻结,并训练一个多层感知器头部进行语义分割,可以获得最佳结果。由此产生的管道在四个广泛认可和具有挑战性的环境中达到了最新水平的结果。代码将在以下网址提供:https://github.com/valeoai/muddos

论文及项目相关链接

PDF Accepted at BMVC 2025

Summary

本文研究了如何利用视觉基础模型(VFMs)在语义分割激光雷达点云的无监督域自适应中进行知识迁移。通过无监督的图像到激光雷达知识蒸馏技术,发现:激光雷达背骨架构的选取对目标域的泛化性能至关重要;可预训练单一通用的背骨架构以适应多种域迁移;保持预训练背骨架构不变并训练其MLP头部进行语义分割,效果最佳。该研究实现的管道在四种广泛认可且具有挑战性的场景中达到领先水平。相关代码可在:链接

Key Takeaways

  1. 利用视觉基础模型(VFMs)能够提高语义分割激光雷达点云在无监督域自适应中的性能。
  2. 激光雷达背骨架构的选择对于最大化目标域的泛化性能至关重要。
  3. 预训练单一通用的背骨架构可以适应多种域迁移。
  4. 保持预训练背骨架构不变,并训练其MLP头部进行语义分割,可以获得最佳效果。
  5. 研究实现的管道在多个具有挑战性的场景中达到领先水平。
  6. 代码将公开提供,便于他人查阅和使用。

Cool Papers

点此查看论文截图

Learning to Look Closer: A New Instance-Wise Loss for Small Cerebral Lesion Segmentation

Authors:Luc Bouteille, Alexander Jaus, Jens Kleesiek, Rainer Stiefelhagen, Lukas Heine

Traditional loss functions in medical image segmentation, such as Dice, often under-segment small lesions because their small relative volume contributes negligibly to the overall loss. To address this, instance-wise loss functions and metrics have been proposed to evaluate segmentation quality on a per-lesion basis. We introduce CC-DiceCE, a loss function based on the CC-Metrics framework, and compare it with the existing blob loss. Both are benchmarked against a DiceCE baseline within the nnU-Net framework, which provides a robust and standardized setup. We find that CC-DiceCE loss increases detection (recall) with minimal to no degradation in segmentation performance, albeit at the cost of slightly more false positives. Furthermore, our multi-dataset study shows that CC-DiceCE generally outperforms blob loss.

医学影像分割的传统损失函数(如Dice)通常会对小病灶进行欠分割,这是因为小病灶的相对体积对整体损失贡献甚微。为解决这一问题,已经提出了基于病灶的实例损失函数和评价指标来评估分割质量。我们介绍了基于CC-Metrics框架的CC-DiceCE损失函数,并将其与现有的blob损失进行了比较。两者都在nnU-Net框架内以DiceCE为基准进行了基准测试,该框架提供了稳健且标准化的设置。我们发现,CC-DiceCE损失在几乎不降低分割性能的情况下提高了检测(召回率),尽管会略微增加误报数。此外,我们的多数据集研究表明,CC-DiceCE通常优于blob损失。

论文及项目相关链接

PDF 5 pages, 2 figures, 2 tables

Summary

传统医学图像分割损失函数如Dice等常常对小病灶的分割效果不佳,因为小病灶相对体积对整体损失贡献较小。为解决这一问题,研究者提出了基于每个实例的损失函数和评价指标来评估每个病灶的分割质量。本研究引入基于CC-Metrics框架的CC-DiceCE损失函数,并与现有的blob损失进行比较。在nnU-Net框架内与DiceCE基准进行比较,发现CC-DiceCE损失在检测(召回率)方面有所提高,分割性能略有或无退化,同时产生稍多的误报。此外,本研究的多数据集研究显示,CC-DiceCE通常优于blob损失。

Key Takeaways

  1. 传统医学图像分割损失函数对小病灶的分割效果不佳。
  2. 实例级的损失函数和评价指标能更准确地评估每个病灶的分割质量。
  3. CC-DiceCE损失函数基于CC-Metrics框架被引入。
  4. CC-DiceCE与现有方法相比,能提高检测性能(召回率)。
  5. CC-DiceCE损失在分割性能上略有或无退化,同时有稍多的误报。
  6. CC-DiceCE在多数据集研究上通常表现优于blob损失。

Cool Papers

点此查看论文截图

Shape-preserving Tooth Segmentation from CBCT Images Using Deep Learning with Semantic and Shape Awareness

Authors:Zongrui Ji, Zhiming Cui, Na Li, Qianhan Zheng, Miaojing Shi, Ke Deng, Jingyang Zhang, Chaoyuan Li, Xuepeng Chen, Yi Dong, Lei Ma

Background:Accurate tooth segmentation from cone beam computed tomography (CBCT) images is crucial for digital dentistry but remains challenging in cases of interdental adhesions, which cause severe anatomical shape distortion. Methods: To address this, we propose a deep learning framework that integrates semantic and shape awareness for shape-preserving segmentation. Our method introduces a target-tooth-centroid prompted multi-label learning strategy to model semantic relationships between teeth, reducing shape ambiguity. Additionally, a tooth-shape-aware learning mechanism explicitly enforces morphological constraints to preserve boundary integrity. These components are unified via multi-task learning, jointly optimizing segmentation and shape preservation. Results: Extensive evaluations on internal and external datasets demonstrate that our approach significantly outperforms existing methods. Conclusions: Our approach effectively mitigates shape distortions and providing anatomically faithful tooth boundaries.

背景:从锥形束计算机断层扫描(CBCT)图像中准确分割牙齿对于数字化牙科非常重要,但在牙齿间粘连的情况下仍然具有挑战性,这会导致严重的解剖形状扭曲。方法:针对这一问题,我们提出了一种融合语义和形状感知的深度学习方法来进行保形分割。我们的方法引入了一种以目标牙齿质心引导的多标签学习策略,对牙齿之间的语义关系进行建模,减少形状模糊性。此外,一种牙齿形态感知学习机制明确执行形态学约束,以保持边界完整性。这些组件通过多任务学习进行统一,联合优化分割和形状保持。结果:对内部和外部数据集进行了广泛评估,结果表明我们的方法显著优于现有方法。结论:我们的方法有效地减轻了形状扭曲问题,提供了解剖上准确的牙齿边界。

论文及项目相关链接

PDF

Summary

基于锥束计算机断层扫描(CBCT)图像的牙齿精准分割对数字化牙科至关重要,特别是在牙齿间粘连导致严重解剖形态扭曲的情况下具有挑战性。本研究提出了一种结合语义和形状感知的深度学习方法,用于形状保持分割。该方法引入了一种目标牙中心提示的多标签学习策略,以模拟牙齿之间的语义关系,减少形状模糊性。此外,一种牙齿形态感知学习机制明确执行形态学约束,保持边界完整性。这些组件通过多任务学习统一起来,联合优化分割和形状保持。实验结果表明,该方法显著优于现有方法。

Key Takeaways

  • 准确牙齿分割在数字化牙科中至关重要,尤其在处理CBCT图像时面对严重解剖形态扭曲问题挑战性强。
  • 提出一种集成语义和形状感知的深度学习方法应对上述问题,具备形状保持的分割功能。
  • 目标牙中心提示的多标签学习策略能模拟牙齿间语义关系,降低形状模糊性。
  • 通过牙齿形态感知学习机制明确执行形态学约束,保持边界完整性。
  • 多任务学习统一了上述组件,联合优化分割和形状保持。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
无监督/半监督/对比学习 无监督/半监督/对比学习
无监督/半监督/对比学习 方向最新论文已更新,请持续关注 Update in 2025-11-25 Neighbor GRPO Contrastive ODE Policy Optimization Aligns Flow Models
下一篇 
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-11-25 Sparse Mixture-of-Experts for Multi-Channel Imaging Are All Channel Interactions Required?
  目录