嘘~ 正在从服务器偷取页面 . . .

检测/分割/跟踪


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-22 更新

Beyond Visual Cues: Leveraging General Semantics as Support for Few-Shot Segmentation

Authors:Jin Wang, Bingfeng Zhang, Jian Pang, Mengyu Liu, Honglong Chen, Weifeng Liu

Few-shot segmentation (FSS) aims to segment novel classes under the guidance of limited support samples by a meta-learning paradigm. Existing methods mainly mine references from support images as meta guidance. However, due to intra-class variations among visual representations, the meta information extracted from support images cannot produce accurate guidance to segment untrained classes. In this paper, we argue that the references from support images may not be essential, the key to the support role is to provide unbiased meta guidance for both trained and untrained classes. We then introduce a Language-Driven Attribute Generalization (LDAG) architecture to utilize inherent target property language descriptions to build robust support strategy. Specifically, to obtain an unbiased support representation, we design a Multi-attribute Enhancement (MaE) module, which produces multiple detailed attribute descriptions of the target class through Large Language Models (LLMs), and then builds refined visual-text prior guidance utilizing multi-modal matching. Meanwhile, due to text-vision modal shift, attribute text struggles to promote visual feature representation, we design a Multi-modal Attribute Alignment (MaA) to achieve cross-modal interaction between attribute texts and visual feature. Experiments show that our proposed method outperforms existing approaches by a clear margin and achieves the new state-of-the art performance. The code will be released.

少量样本分割(FSS)旨在通过元学习模式在有限的支撑样本指导下对新型类别进行分割。现有方法主要从支撑图像中挖掘参考信息作为元指导。然而,由于视觉表示中的类内变化,从支撑图像中提取的元信息无法为未训练过的类别提供准确的分割指导。本文认为,支撑图像的参考可能并非必要,关键在于为已训练类和未训练类提供无偏的元指导。为此,我们引入了语言驱动属性泛化(LDAG)架构,利用目标属性语言描述的内在信息来构建稳健的支撑策略。具体来说,为了获得无偏支撑表示,我们设计了一个多属性增强(MaE)模块,通过大型语言模型(LLM)生成目标类的多个详细属性描述,然后利用多模态匹配构建精细的视觉文本先验指导。同时,由于文本视觉模态的转变,属性文本在促进视觉特征表示方面遇到困难,我们设计了多模态属性对齐(MaA)来实现属性文本与视觉特征之间的跨模态交互。实验表明,我们提出的方法明显优于现有方法,达到了新的最高性能。代码将公开发布。

论文及项目相关链接

PDF

Summary

本文探讨了小样本分段(FSS)问题,提出一种利用语言驱动属性泛化(LDAG)架构的方法,利用目标属性的语言描述来构建稳健的支持策略。通过设计多属性增强(MaE)模块和多模态属性对齐(MaA)机制,该方法能够获取无偏的支持表示并强化视觉文本优先指导,同时解决文本视觉模态偏移的问题。实验表明,该方法优于现有方法,达到新的先进水平。

Key Takeaways

  • FSS旨在通过元学习范式在有限的支持样本指导下对新型类别进行分割。
  • 现有方法主要通过从支持图像中提取参考作为元指导,但由于类内视觉表示的变异,这种方法无法为未训练过的类提供准确的指导。
  • 论文提出利用目标属性的语言描述来解决这一问题,并引入LDAG架构。
  • MaE模块通过大型语言模型(LLM)生成目标类的多个详细属性描述,以获取无偏的支持表示,并建立精细的视觉文本优先指导。
  • MaA机制解决文本视觉模态偏移问题,实现属性文本与视觉特征之间的跨模态交互。
  • 实验表明,该方法优于现有方法,达到新的先进水平,并将发布代码。

Cool Papers

点此查看论文截图

InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer

Authors:Muyao Yuan, Yuanhong Zhang, Weizhan Zhang, Lan Ma, Yuan Gao, Jiangyong Ying, Yudeng Xin

Recently, the strong generalization ability of CLIP has facilitated open-vocabulary semantic segmentation, which labels pixels using arbitrary text. However, existing methods that fine-tune CLIP for segmentation on limited seen categories often lead to overfitting and degrade the pretrained vision-language alignment. To stabilize modality alignment during fine-tuning, we propose InfoCLIP, which leverages an information-theoretic perspective to transfer alignment knowledge from pretrained CLIP to the segmentation task. Specifically, this transfer is guided by two novel objectives grounded in mutual information. First, we compress the pixel-text modality alignment from pretrained CLIP to reduce noise arising from its coarse-grained local semantic representations learned under image-text supervision. Second, we maximize the mutual information between the alignment knowledge of pretrained CLIP and the fine-tuned model to transfer compact local semantic relations suited for the segmentation task. Extensive evaluations across various benchmarks validate the effectiveness of InfoCLIP in enhancing CLIP fine-tuning for open-vocabulary semantic segmentation, demonstrating its adaptability and superiority in asymmetric transfer.

最近,CLIP的强大泛化能力促进了开放词汇语义分割的发展,该技术使用任意文本对像素进行标注。然而,现有方法对CLIP进行微调以在有限类别上进行分割通常会导致过拟合并破坏预训练中的视觉语言对齐。为了稳定微调过程中的模态对齐,我们提出了InfoCLIP,它利用信息论的角度,将预训练CLIP的对齐知识转移到分割任务上。具体来说,这种转移是由两个基于互信息的新目标引导的。首先,我们压缩预训练CLIP中的像素文本模态对齐,以减少在图像文本监督下学习的粗粒度局部语义表示所产生的噪声。其次,我们最大化预训练CLIP的对齐知识与微调模型之间的互信息,以转移适合分割任务的紧凑局部语义关系。在多个基准测试上的广泛评估验证了InfoCLIP在增强CLIP的微调以进行开放词汇语义分割方面的有效性,证明了其在不对称转移中的适应性和优越性。

论文及项目相关链接

PDF Accepted by AAAI 2026

摘要

近期CLIP的强大泛化能力推动了开放词汇语义分割技术的发展,该技术可使用任意文本对像素进行标注。然而,现有方法对有限类别进行精细调整的CLIP分割往往会导致过拟合,并降低预训练的视觉语言对齐效果。为了稳定微调过程中的模态对齐,我们提出了InfoCLIP,它利用信息理论的视角,将预训练的CLIP中的对齐知识转移到分割任务上。具体来说,这种转移是由两个基于互信息的新目标引导的。首先,我们压缩预训练CLIP的像素文本模态对齐,以减少在图像文本监督下学习的粗粒度局部语义表示所产生的噪声。其次,我们最大化预训练CLIP的对齐知识和微调模型之间的互信息,以转移适合分割任务的紧凑局部语义关系。在多个基准测试上的广泛评估验证了InfoCLIP在增强CLIP对开放词汇语义分割的微调能力方面的有效性,证明了其在不对称转移中的适应性和优越性。

关键见解

  1. CLIP的强泛化能力促进了使用任意文本进行像素标注的开放词汇语义分割技术的发展。
  2. 现有方法对有限类别的精细调整会导致过拟合,并可能影响预训练的视觉语言对齐。
  3. InfoCLIP利用信息理论视角,将预训练的CLIP中的对齐知识转移到分割任务上。
  4. InfoCLIP通过两个基于互信息的新目标来实现知识转移。
  5. 压缩预训练CLIP的像素文本模态对齐以减少噪声。
  6. 最大化预训练CLIP和微调模型之间的互信息,以实现适合分割任务的紧凑局部语义关系的转移。
  7. 在多个基准测试上的评估表明,InfoCLIP在增强CLIP对开放词汇语义分割的微调能力方面非常有效。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
无监督/半监督/对比学习 无监督/半监督/对比学习
无监督/半监督/对比学习 方向最新论文已更新,请持续关注 Update in 2025-11-22 CD-DPE Dual-Prompt Expert Network based on Convolutional Dictionary Feature Decoupling for Multi-Contrast MRI Super-Resolution
下一篇 
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-11-22 BioBench A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks
  目录