嘘~ 正在从服务器偷取页面 . . .

Vision Transformer


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-13 更新

Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift

Authors:Umaima Rahman, Raza Imam, Mohammad Yaqub, Dwarikanath Mahapatra

Medical vision-language models (VLMs) offer promise for clinical decision support, yet their reliability under distribution shifts remains a major concern for safe deployment. These models often learn task-agnostic correlations due to variability in imaging protocols and free-text reports, limiting their generalizability and increasing the risk of failure in real-world settings. We propose DRiFt, a structured feature decoupling framework that explicitly separates clinically relevant signals from task-agnostic noise using parameter-efficient tuning (LoRA) and learnable prompt tokens. To enhance cross-modal alignment and reduce uncertainty, we curate high-quality, clinically grounded image-text pairs by generating captions for a diverse medical dataset. Our approach improves in-distribution performance by +11.4% Top-1 accuracy and +3.3% Macro-F1 over prior prompt-based methods, while maintaining strong robustness across unseen datasets. Ablation studies reveal that disentangling task-relevant features and careful alignment significantly enhance model generalization and reduce unpredictable behavior under domain shift. These insights contribute toward building safer, more trustworthy VLMs for clinical use. The code is available at https://github.com/rumaima/DRiFt.

医疗视觉语言模型(VLM)在临床决策支持方面展现出巨大潜力,但在分布变化下的可靠性仍是其安全部署的主要关注点。这些模型由于成像协议和文本报告的差异性,经常会学习到与任务无关的相关性,这限制了其泛化能力,并增加了在现实场景中失败的风险。我们提出了DRiFt,这是一个结构化特征解耦框架,它通过参数高效调整(LoRA)和学习提示令牌,明确地将临床相关信号从任务无关噪声中分离出来。为了提高跨模态对齐和减少不确定性,我们通过为多样化的医疗数据集生成标题,整理出高质量、以临床为基础的图文本对。我们的方法在前置提示方法的基础上提高了+11.4%的Top-1准确率和+3.3%的宏观F1分数,同时在未见数据集上保持了强大的稳健性。消融研究结果表明,解耦任务相关特征并进行仔细对齐可以显著增强模型的泛化能力,并减少域偏移下的不可预测行为。这些见解有助于构建更安全、更可信赖的用于临床使用的VLMs。代码可在https://github.com/rumaima/DRiFt找到。

论文及项目相关链接

PDF

Summary

本文关注医疗视觉语言模型(VLMs)在临床决策支持中的应用,提出DRiFt框架以解决模型在部署时因分布变化导致的可靠性问题。通过参数高效调整(LoRA)和可学习提示令牌,DRiFt能够明确分离临床相关信号和任务无关噪声。为提高跨模态对齐和减少不确定性,DRiFt还为多样化的医疗数据集生成图像文本对。实验表明,DRiFt在现有提示方法的基础上,提高了11.4%的Top-1准确率和3.3%的宏观F1分数,同时在未见数据集上保持了强大的稳健性。研究揭示了特征解耦和精细对齐对提升模型在域偏移下的通用性和减少不可预测行为的重要性,为构建更安全、更可信赖的VLMs用于临床实践提供了见解。

Key Takeaways

  1. 医疗视觉语言模型(VLMs)在临床决策支持中具有潜力,但分布变化导致的可靠性问题是其安全部署的主要担忧。
  2. DRiFt框架通过参数高效调整(LoRA)和可学习提示令牌,能够分离临床相关信号和任务无关噪声。
  3. DRiFt提高了跨模态对齐和减少模型的不确定性,通过为多样化的医疗数据集生成图像文本对来实现。
  4. DRiFt在现有提示方法的基础上,提升了模型的性能。
  5. 相比于其他方法,DRiFt在未见数据集上展现了强大的稳健性。
  6. 特征解耦和精细对齐对提升模型在域偏移下的通用性至关重要。
  7. 研究为构建更安全、更可信赖的VLMs用于临床实践提供了重要见解。

Cool Papers

点此查看论文截图

Image Recognition with Vision and Language Embeddings of VLMs

Authors:Illia Volkov, Nikita Kisel, Klara Janouskova, Jiri Matas

Vision-language models (VLMs) have enabled strong zero-shot classification through image-text alignment. Yet, their purely visual inference capabilities remain under-explored. In this work, we conduct a comprehensive evaluation of both language-guided and vision-only image classification with a diverse set of dual-encoder VLMs, including both well-established and recent models such as SigLIP 2 and RADIOv2.5. The performance is compared in a standard setup on the ImageNet-1k validation set and its label-corrected variant. The key factors affecting accuracy are analysed, including prompt design, class diversity, the number of neighbours in k-NN, and reference set size. We show that language and vision offer complementary strengths, with some classes favouring textual prompts and others better handled by visual similarity. To exploit this complementarity, we introduce a simple, learning-free fusion method based on per-class precision that improves classification performance. The code is available at: https://github.com/gonikisgo/bmvc2025-vlm-image-recognition.

视觉语言模型(VLMs)已经通过图像文本对齐实现了强大的零样本分类。然而,它们的纯视觉推理能力仍然未被充分探索。在这项工作中,我们使用一组多样化的双编码器VLMs对语言引导的图像分类和仅使用视觉的图像分类进行了全面评估,其中包括已建立的和最新的模型,如SigLIP 2和RADIOv2.5。我们在ImageNet-1k验证集及其标签校正变体上进行标准设置,比较了性能。分析了影响准确度的关键因素,包括提示设计、类别多样性、k-NN中的邻居数量和参考集大小。我们表明,语言和视觉提供了互补的优势,某些类别倾向于文本提示,而其他类别则更适合通过视觉相似性进行处理。为了利用这种互补性,我们引入了一种基于每类精度的简单、无需学习的融合方法,可以提高分类性能。代码可在以下网址找到:https://github.com/gonikisgo/bmvc2025-vlm-image-recognition。

论文及项目相关链接

PDF

Summary

本文评估了视觉语言模型(VLMs)的零成本视觉推理能力,研究了纯视觉与语言引导的图像分类的互补性。通过一系列双编码器VLMs的基准测试,发现视觉和语言在分类中各有优势。为提高分类性能,提出了一种基于每类精度的无学习融合方法。代码可在指定链接获取。

Key Takeaways

  1. VLMs具备强大的零成本视觉分类能力,通过图像文本对齐实现。
  2. 文中研究了视觉引导与语言引导在图像分类中的差异和优势。
  3. 使用多个VLM模型,包括传统及新模型SigLIP 2与RADIOv2.5进行基准测试。
  4. 在ImageNet-1k验证集上进行性能评估,并探讨了标签校正的影响。
  5. 研究了提示设计、类别多样性、k-NN邻居数量和参考集大小等关键因素。
  6. 发现语言和视觉信息具有互补性,不同类别对文本提示或视觉相似性的需求不同。

Cool Papers

点此查看论文截图

CoSwin: Convolution Enhanced Hierarchical Shifted Window Attention For Small-Scale Vision

Authors:Puskal Khadka, Rodrigue Rizk, Longwei Wang, KC Santosh

Vision Transformers (ViTs) have achieved impressive results in computer vision by leveraging self-attention to model long-range dependencies. However, their emphasis on global context often comes at the expense of local feature extraction in small datasets, particularly due to the lack of key inductive biases such as locality and translation equivariance. To mitigate this, we propose CoSwin, a novel feature-fusion architecture that augments the hierarchical shifted window attention with localized convolutional feature learning. Specifically, CoSwin integrates a learnable local feature enhancement module into each attention block, enabling the model to simultaneously capture fine-grained spatial details and global semantic structure. We evaluate CoSwin on multiple image classification benchmarks including CIFAR-10, CIFAR-100, MNIST, SVHN, and Tiny ImageNet. Our experimental results show consistent performance gains over state-of-the-art convolutional and transformer-based models. Notably, CoSwin achieves improvements of 2.17% on CIFAR-10, 4.92% on CIFAR-100, 0.10% on MNIST, 0.26% on SVHN, and 4.47% on Tiny ImageNet over the baseline Swin Transformer. These improvements underscore the effectiveness of local-global feature fusion in enhancing the generalization and robustness of transformers for small-scale vision. Code and pretrained weights available at https://github.com/puskal-khadka/coswin

视觉Transformer(ViTs)通过利用自注意力来建模长距离依赖关系,在计算机视觉领域取得了令人印象深刻的结果。然而,它们对全局上下文的关注往往以牺牲小数据集的局部特征提取为代价,尤其是因为缺乏关键的归纳偏见,如局部性和平移等变性。为了缓解这一问题,我们提出了CoSwin,这是一种新型的特征融合架构,它通过分层移位窗口注意力与局部卷积特征学习相结合来增强功能。具体来说,CoSwin将可学习的局部特征增强模块集成到每个注意力块中,使模型能够同时捕获精细的空间细节和全局语义结构。我们在多个图像分类基准测试(包括CIFAR-10、CIFAR-100、MNIST、SVHN和Tiny ImageNet)上评估了CoSwin的性能。我们的实验结果表明,与最先进的卷积和基于transformer的模型相比,CoSwin具有持续的性能提升。值得注意的是,CoSwin在CIFAR-10上提高了2.17%,在CIFAR-100上提高了4.92%,在MNIST上提高了0.1%,在SVHN上提高了0.26%,在Tiny ImageNet上相对于基线Swin Transformer提高了4.47%。这些改进突显了局部全局特征融合在提高小规模视觉任务的transformer的通用化和稳健性方面的有效性。代码和预训练权重可在https://github.com/puskal-khadka/coswin找到。

论文及项目相关链接

PDF

Summary

基于自注意力机制的长距离依赖建模,Vision Transformers(ViTs)在计算机视觉领域取得了显著成果。但在小数据集上,由于对全局上下文的重视,往往牺牲了局部特征提取能力。为解决这一问题,我们提出了CoSwin,一种新型特征融合架构,结合了分层移位窗口注意力和局部卷积特征学习。CoSwin在多个图像分类基准测试中表现出卓越性能,包括CIFAR-10、CIFAR-100、MNIST、SVHN和Tiny ImageNet。相较于基线Swin Transformer,CoSwin在CIFAR-10上提高了2.17%,在CIFAR-100上提高了4.92%,在MNIST上提高了0.1%,在SVHN上提高了0.26%,在Tiny ImageNet上提高了4.47%。这表明局部全局特征融合能有效提升Transformer在小规模视觉任务中的通用性和稳健性。

Key Takeaways

  1. Vision Transformers (ViTs) 借助自注意力机制实现长距离依赖建模,在计算机视觉领域取得显著成果。
  2. 在小数据集上,ViTs 因过于强调全局上下文而牺牲局部特征提取能力。
  3. 针对这一问题,提出了CoSwin,结合分层移位窗口注意力和局部卷积特征学习的新型特征融合架构。
  4. CoSwin集成了可学习的局部特征增强模块,能同时捕捉精细的空间细节和全局语义结构。
  5. CoSwin在多个图像分类基准测试中表现优越,包括CIFAR、MNIST、SVHN和Tiny ImageNet等数据集。
  6. CoSwin相较于基线Swin Transformer,在多个数据集上实现了性能提升,证明了局部全局特征融合的有效性。
  7. 代码和预训练权重已公开,可进一步研究和应用。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录