嘘~ 正在从服务器偷取页面 . . .

检测/分割/跟踪


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-22 更新

Expose Camouflage in the Water: Underwater Camouflaged Instance Segmentation and Dataset

Authors:Chuhong Wang, Hua Li, Chongyi Li, Huazhong Liu, Xiongxin Tang, Sam Kwong

With the development of underwater exploration and marine protection, underwater vision tasks are widespread. Due to the degraded underwater environment, characterized by color distortion, low contrast, and blurring, camouflaged instance segmentation (CIS) faces greater challenges in accurately segmenting objects that blend closely with their surroundings. Traditional camouflaged instance segmentation methods, trained on terrestrial-dominated datasets with limited underwater samples, may exhibit inadequate performance in underwater scenes. To address these issues, we introduce the first underwater camouflaged instance segmentation (UCIS) dataset, abbreviated as UCIS4K, which comprises 3,953 images of camouflaged marine organisms with instance-level annotations. In addition, we propose an Underwater Camouflaged Instance Segmentation network based on Segment Anything Model (UCIS-SAM). Our UCIS-SAM includes three key modules. First, the Channel Balance Optimization Module (CBOM) enhances channel characteristics to improve underwater feature learning, effectively addressing the model’s limited understanding of underwater environments. Second, the Frequency Domain True Integration Module (FDTIM) is proposed to emphasize intrinsic object features and reduce interference from camouflage patterns, enhancing the segmentation performance of camouflaged objects blending with their surroundings. Finally, the Multi-scale Feature Frequency Aggregation Module (MFFAM) is designed to strengthen the boundaries of low-contrast camouflaged instances across multiple frequency bands, improving the model’s ability to achieve more precise segmentation of camouflaged objects. Extensive experiments on the proposed UCIS4K and public benchmarks show that our UCIS-SAM outperforms state-of-the-art approaches.

随着水下探测和海洋保护的发展,水下视觉任务应用广泛。由于水下环境的特殊性,如色彩失真、对比度低和模糊,使得隐蔽实例分割(CIS)在准确分割与周围环境紧密混合的物体时面临更大挑战。传统的隐蔽实例分割方法主要基于陆地主导的数据集进行训练,且水下样本有限,因此在水下场景中的表现可能不足。为了解决这些问题,我们首次引入了水下隐蔽实例分割(UCIS)数据集,简称UCIS4K,其中包含3953张具有实例级注释的隐蔽海洋生物图像。此外,我们提出了一种基于Segment Anything Model的水下隐蔽实例分割网络(UCIS-SAM)。我们的UCIS-SAM包括三个关键模块。首先,通道平衡优化模块(CBOM)增强了通道特征,提高了水下特征学习,有效解决模型对水下环境理解有限的问题。其次,提出了频域真实融合模块(FDTIM),旨在强调内在物体特征,减少伪装图案的干扰,提高与周围环境混合的伪装物体的分割性能。最后,设计了多尺度特征频率聚合模块(MFFAM),旨在加强低对比度隐蔽实例的边界信息融合,提高模型在多个频率带内对隐蔽物体的精确分割能力。在提出的UCIS4K和公共基准测试上的实验表明,我们的UCIS-SAM优于最新方法。

论文及项目相关链接

PDF

Summary

在中国水下探测与海洋保护工作的不断发展中,水下视觉任务的应用愈发广泛。由于水下环境存在色彩失真、对比度低和模糊等问题,隐蔽实例分割(CIS)在准确分割与周围环境紧密融合的目标时面临更大挑战。为应对这些挑战,我们首次推出了水下隐蔽实例分割(UCIS)数据集,简称UCIS4K,包含3,953张带有实例级标注的隐蔽海洋生物图像。同时,我们提出了基于Segment Anything Model的水下隐蔽实例分割网络(UCIS-SAM)。UCIS-SAM包含三个关键模块:通道平衡优化模块(CBOM)、频域真实集成模块(FDTIM)和多尺度特征频率聚合模块(MFFAM)。实验证明,在UCIS4K和公共基准测试上,UCIS-SAM的表现均超越了最先进的方法。

Key Takeaways

  1. 水下视觉任务随水下探索与海洋保护的发展而愈发重要。
  2. 水下环境存在色彩失真、对比度低和模糊等问题,使得隐蔽实例分割面临挑战。
  3. 推出首个水下隐蔽实例分割(UCIS)数据集UCIS4K,包含带有实例级标注的隐蔽海洋生物图像。
  4. 提出基于Segment Anything Model的水下隐蔽实例分割网络UCIS-SAM。
  5. UCIS-SAM包含三个关键模块:通道平衡优化模块(CBOM)增强通道特性以提高水下特征学习;频域真实集成模块(FDTIM)强调内在物体特征,减少伪装图案的干扰,提高分割性能;多尺度特征频率聚合模块(MFFAM)强化低对比度隐蔽实例的边界信息,提高精准分割能力。
  6. 在UCIS4K和公共基准测试上,UCIS-SAM的表现超越现有先进方法。

Cool Papers

点此查看论文截图

An Efficient Semantic Segmentation Decoder for In-Car or Distributed Applications

Authors:Danish Nazir, Gowtham Sai Inti, Timo Bartels, Jan Piewek, Thorsten Bagdonat, Tim Fingscheidt

Modern automotive systems leverage deep neural networks (DNNs) for semantic segmentation and operate in two key application areas: (1) In-car, where the DNN solely operates in the vehicle without strict constraints on the data rate. (2) Distributed, where one DNN part operates in the vehicle and the other part typically on a large-scale cloud platform with a particular constraint on transmission bitrate efficiency. Typically, both applications share an image and source encoder, while each uses distinct (joint) source and task decoders. Prior work utilized convolutional neural networks for joint source and task decoding but did not investigate transformer-based alternatives such as SegDeformer, which offer superior performance at the cost of higher computational complexity. In this work, we propose joint feature and task decoding for SegDeformer, thereby enabling lower computational complexity in both in-car and distributed applications, despite SegDeformer’s computational demands. This improves scalability in the cloud while reducing in-car computational complexity. For the in-car application, we increased the frames per second (fps) by up to a factor of $11.7$ ($1.4$ fps to $16.5$ fps) on Cityscapes and by up to a factor of $3.5$ ($43.3$ fps to $154.3$ fps) on ADE20K, while being on-par w.r.t.\ the mean intersection over union (mIoU) of the transformer-based baseline that doesn’t compress by a source codec. For the distributed application, we achieve state-of-the-art (SOTA) over a wide range of bitrates on the mIoU metric, while using only $0.14$% ($0.04$%) of cloud DNN parameters used in previous SOTA, reported on ADE20K (Cityscapes).

现代汽车系统利用深度神经网络(DNNs)进行语义分割,并应用于两个关键领域:(1)车内领域,DNN仅在车内运行,对数据速率没有严格限制;(2)分布式领域,DNN的一部分在车内运行,另一部分通常在大规模云平台上运行,对传输比特率效率有特定限制。通常,两个应用都共享图像和源编码器,而每个应用则使用不同的(联合)源和任务解码器。早期的工作使用卷积神经网络进行联合源和任务解码,但没有研究基于transformer的替代方案,例如SegDeformer,它在计算性能上虽然较高,但表现出卓越的性能。在这项工作中,我们为SegDeformer提出了联合特征和任务解码,从而在车内和分布式应用中降低了计算复杂性,尽管SegDeformer本身计算需求较高。这提高了云端的可扩展性,同时降低了车内的计算复杂性。对于车内应用,我们在Cityscapes上每秒帧数(fps)提高了11.7倍(从1.4fps提高到16.5fps),在ADE20K上提高了3.5倍(从43.3fps提高到154.3fps),同时与基于transformer但不进行源码压缩的基线模型的平均交并比(mIoU)持平。对于分布式应用,我们在mIoU指标上的比特率范围较广的情况下实现了最新技术水平,同时仅使用先前在ADE20K(Cityscapes)上报道的最新技术水平的0.14%(0.04%)的云DNN参数。

论文及项目相关链接

PDF

Summary
本文研究了基于深度神经网络(DNN)的语义分割在汽车系统中的应用,包括车内和分布式应用。提出了一种联合特征和任务解码的方法,使用SegDeformer在车内和分布式应用中实现较低的计算复杂度,同时提高云端的可扩展性。车内应用提高了帧率,分布式应用达到了先进性能指标,降低了云DNN参数的使用。

Key Takeaways

  1. 深度神经网络(DNN)在现代汽车系统中用于语义分割,主要应用在车内和分布式两个领域。
  2. 车内应用中,DNN在车辆内部运行,没有严格的数据传输速率约束。
  3. 分布式应用中,DNN的一部分在车辆内运行,另一部分通常在具有特定传输比特率效率的大型云平台上运行。
  4. 提出了联合特征和任务解码的方法,适用于SegDeformer,能够降低计算复杂度。
  5. 方法提高了云端的可扩展性,同时降低了车内的计算复杂度。
  6. 在车内应用上,该方法提高了帧率(fps),在某些数据集上的提升显著。

Cool Papers

点此查看论文截图

Instance-Aware Pseudo-Labeling and Class-Focused Contrastive Learning for Weakly Supervised Domain Adaptive Segmentation of Electron Microscopy

Authors:Shan Xiong, Jiabao Chen, Ye Wang, Jialin Peng

Annotation-efficient segmentation of the numerous mitochondria instances from various electron microscopy (EM) images is highly valuable for biological and neuroscience research. Although unsupervised domain adaptation (UDA) methods can help mitigate domain shifts and reduce the high costs of annotating each domain, they typically have relatively low performance in practical applications. Thus, we investigate weakly supervised domain adaptation (WDA) that utilizes additional sparse point labels on the target domain, which require minimal annotation effort and minimal expert knowledge. To take full use of the incomplete and imprecise point annotations, we introduce a multitask learning framework that jointly conducts segmentation and center detection with a novel cross-teaching mechanism and class-focused cross-domain contrastive learning. While leveraging unlabeled image regions is essential, we introduce segmentation self-training with a novel instance-aware pseudo-label (IPL) selection strategy. Unlike existing methods that typically rely on pixel-wise pseudo-label filtering, the IPL semantically selects reliable and diverse pseudo-labels with the help of the detection task. Comprehensive validations and comparisons on challenging datasets demonstrate that our method outperforms existing UDA and WDA methods, significantly narrowing the performance gap with the supervised upper bound. Furthermore, under the UDA setting, our method also achieves substantial improvements over other UDA techniques.

对来自各种电子显微镜(EM)图像的多个线粒体实例进行注释高效的分割,对于生物学和神经科学研究具有极高的价值。尽管无监督域自适应(UDA)方法可以帮助减轻域偏移并降低每个域的标注成本,但它们在实际应用中的性能通常较低。因此,我们研究了弱监督域自适应(WDA),它利用目标域的额外稀疏点标签,需要最少的标注工作和专家知识。为了充分利用不完整和不精确的点注释,我们引入了一个多任务学习框架,该框架联合进行分割和中心检测,采用一种新型交叉教学机制和面向类别的跨域对比学习。在利用无标签图像区域方面,我们引入了分割自训练,采用了一种新型实例感知伪标签(IPL)选择策略。与通常依赖像素级伪标签过滤的现有方法不同,IPL借助检测任务语义选择可靠且多样的伪标签。在具有挑战性的数据集上进行的综合验证和比较表明,我们的方法优于现有的UDA和WDA方法,显著缩小了与监督上限的性能差距。此外,在无监督域自适应(UDA)设定下,我们的方法也实现了相较于其他UDA技术的显著改进。

论文及项目相关链接

PDF

Summary

在电子显微镜(EM)图像中,对众多线粒体实例进行标注高效分割对生物和神经科学研究具有重要价值。尽管无监督域自适应(UDA)方法有助于缓解域偏移并降低每个域的标注成本,但在实际应用中通常性能较低。因此,我们研究了弱监督域自适应(WDA),该方法利用目标域的稀疏点标签,需要最少的标注工作和专家知识。为了充分利用不完整和不精确的点注释,我们引入了多任务学习框架,该框架联合进行分割和中心检测,具有新型交叉教学机制和面向类别的跨域对比学习。在利用无标签图像区域方面,我们引入了分割自训练,并采用了新型实例感知伪标签(IPL)选择策略。与现有方法不同,IPL借助检测任务语义选择可靠且多样的伪标签。在具有挑战性的数据集上的综合验证和比较表明,我们的方法优于现有的UDA和WDA方法,显著缩小了与监督上限的性能差距。此外,在UDA设置下,我们的方法还实现了对其他UDA技术的实质性改进。

Key Takeaways

  1. 弱监督域自适应(WDA)在电子显微镜(EM)图像线粒体实例分割中有应用价值,尤其在使用稀疏点标签时。
  2. 多任务学习框架联合进行分割和中心检测,提高性能。
  3. 引入新型交叉教学机制和面向类别的跨域对比学习,以充分利用不完整和不精确的点注释。
  4. 提出了实例感知伪标签(IPL)选择策略,帮助语义选择可靠且多样的伪标签。
  5. 与现有方法相比,该方法在挑战性数据集上的性能优越。
  6. 该方法缩小了与监督学习的性能差距,并在无监督域自适应(UDA)设置下实现了对其他技术的改进。

Cool Papers

点此查看论文截图

Leveraging Vision-Language Models for Open-Vocabulary Instance Segmentation and Tracking

Authors:Bastian Pätzold, Jan Nogga, Sven Behnke

Vision-language models (VLMs) excel in visual understanding but often lack reliable grounding capabilities and actionable inference rates. Integrating them with open-vocabulary object detection (OVD), instance segmentation, and tracking leverages their strengths while mitigating these drawbacks. We utilize VLM-generated structured descriptions to identify visible object instances, collect application-relevant attributes, and inform an open-vocabulary detector to extract corresponding bounding boxes that are passed to a video segmentation model providing segmentation masks and tracking. Once initialized, this model directly extracts segmentation masks, processing image streams in real time with minimal computational overhead. Tracks can be updated online as needed by generating new structured descriptions and detections. This combines the descriptive power of VLMs with the grounding capability of OVD and the pixel-level understanding and speed of video segmentation. Our evaluation across datasets and robotics platforms demonstrates the broad applicability of this approach, showcasing its ability to extract task-specific attributes from non-standard objects in dynamic environments. Code, data, videos, and benchmarks are available at https://vlm-gist.github.io

视觉语言模型(VLM)在视觉理解方面表现出色,但往往缺乏可靠的接地能力和可操作的推理速率。将它们与开放词汇对象检测(OVD)、实例分割和跟踪相结合,可以扬长避短,发挥它们的优势。我们利用VLM生成的结构化描述来识别可见对象实例,收集与应用相关的属性,并通知开放词汇检测器提取相应的边界框,这些边界框将传递给视频分割模型以提供分割掩码和跟踪功能。一旦初始化,该模型可以直接提取分割掩码,以最小的计算开销实时处理图像流。可以根据需要生成新的结构化描述和检测来在线更新轨迹。这种方法结合了VLM的描述能力、OVD的接地能力以及视频分割的像素级理解和速度。我们在多个数据集和机器人平台上的评估证明了该方法广泛的适用性,展示了它从动态环境中的非标准对象提取任务特定属性的能力。相关代码、数据、视频和基准测试可在https://vlm-gist.github.io找到。

论文及项目相关链接

PDF IEEE Robotics and Automation Letters (RA-L), November 2025

Summary

本文介绍了将视觉语言模型(VLMs)与开放词汇对象检测(OVD)、实例分割和跟踪相结合的方法,通过利用VLM生成的结构化描述来识别可见对象实例并收集应用相关属性,再通过开放词汇检测器提取相应的边界框,并将其传递给视频分割模型进行分割和跟踪。该方法结合了VLM的描述能力、OVD的接地能力以及视频分割的像素级理解和速度。评估和实验结果表明,该方法在动态环境中从非标准对象提取任务特定属性方面具有广泛的应用性。

Key Takeaways

  1. 视觉语言模型(VLMs)在视觉理解方面表现出色,但缺乏可靠的接地能力和可操作的推理率。
  2. 通过将VLM与开放词汇对象检测(OVD)、实例分割和跟踪相结合,可以发挥VLM的优势,同时克服其缺点。
  3. VLM生成的结构化描述用于识别可见对象实例并收集应用相关属性。
  4. 利用开放词汇检测器提取边界框,并传递给视频分割模型进行分割和跟踪。
  5. 该方法结合VLM的描述能力、OVD的接地能力以及视频分割的像素级理解和速度。
  6. 方法在动态环境中从非标准对象提取任务特定属性方面表现出广泛的应用性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录