嘘~ 正在从服务器偷取页面 . . .

Vision Transformer


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-07 更新

Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models

Authors:Gahyeon Kim, Sohee Kim, Seokju Lee

Recent advances in large-scale vision and language models have led to significant progress in zero-shot learning tasks. Methods such as CoOp and CoCoOp have shown that replacing handcrafted prompts with learnable vectors, known as prompt learning, can result in improved performance. However, these models often struggle to generalize to entirely unseen categories. While traditional zero-shot learning techniques benefit from various data augmentation strategies, prompt learning has primarily focused on text-based modifications, leaving the potential of image-based augmentation largely unexplored. In this work, we explore how image-level augmentations, particularly those that introduce attribute-specific variations, can support and enhance prompt learning. Our analysis examines the interaction between these augmentations and soft prompt frameworks, revealing their potential to improve generalization. We also identify a limitation in existing methods, such as CoCoOp, which do not provide explicit guidance for learning prompts that focus on semantically meaningful visual features. To address this, we propose Adding Attributes to Prompt Learning, AAPL, a novel method that introduces adversarial token embeddings to decouple superficial visual variations introduced by augmentation from class-relevant semantic representations. This decoupling enables the learned prompts to concentrate on visually discriminative features that align with the target categories. We conduct comprehensive experiments on eleven benchmark datasets, and AAPL consistently outperforms existing methods across few-shot, zero-shot, cross-dataset, and domain generalization settings. Our source code is publicly available at: https://github.com/Gahyeonkim09/AAPL

最近大规模视觉和语言模型的进展推动了零样本学习任务的重要进步。CoOp和CoCoOp等方法表明,用可学习向量替换手工制作的提示,即提示学习,可以提高性能。然而,这些模型在推广到完全未见过的类别时往往遇到困难。虽然传统零样本学习技术受益于各种数据增强策略,但提示学习主要集中在文本修改上,图像基础增强的潜力尚未得到充分探索。在这项工作中,我们探索了图像级别的增强,特别是引入属性特定变化的增强,如何支持和增强提示学习。我们的分析检查了这些增强与软提示框架之间的交互,揭示了它们提高泛化能力的潜力。我们还确定了现有方法的局限性,如CoCoOp等,它们没有为学习专注于语义上有意义的视觉特征的提示提供明确指导。为了解决这一问题,我们提出了添加属性到提示学习(AAPL),这是一种新方法,引入对抗性令牌嵌入,以解除通过增强引入的表面视觉变化与类别相关语义表示之间的耦合。这种解耦使学习到的提示能够集中在与目标类别对齐的视觉鉴别特征上。我们在11个基准数据集上进行了全面的实验,AAPL在少量样本、零样本、跨数据集和域泛化设置方面都优于现有方法。我们的源代码可在:https://github.com/Gahyeonkim09/AAPL找到。

论文及项目相关链接

PDF Accepted in Pattern Recognition

Summary

本文探索了图像级增强,特别是引入属性特定变化的方法,如何支持和增强提示学习在零样本学习任务中的表现。文章分析了这些增强与软提示框架之间的相互作用,揭示了其提高泛化能力的潜力。此外,文章还提出了名为AAPL的新方法,通过引入对抗性令牌嵌入来解决现有方法的问题,如CoCoOp等。AAPL能解耦表面视觉变化,专注于类别相关的语义表示,从而在目标类别上提高学习效果。经过在多个基准数据集上的实验验证,AAPL在各种场景中均表现出超越现有方法的性能。

Key Takeaways

  • 引入图像级增强来支持并增强提示学习在零样本学习任务中的表现。
  • 分析图像级增强与软提示框架的相互作用,揭示其提高泛化能力的潜力。
  • 提出AAPL方法,通过引入对抗性令牌嵌入来解决现有方法的问题。
  • AAPL能够解耦表面视觉变化,专注于类别相关的语义表示。
  • AAPL在各种场景,包括小样、零样、跨数据集和领域泛化设置中都表现优越。

Cool Papers

点此查看论文截图

Morpho-Genomic Deep Learning for Ovarian Cancer Subtype and Gene Mutation Prediction from Histopathology

Authors:Gabriela Fernandes

Ovarian cancer remains one of the most lethal gynecological malignancies, largely due to late diagnosis and extensive heterogeneity across subtypes. Current diagnostic methods are limited in their ability to reveal underlying genomic variations essential for precision oncology. This study introduces a novel hybrid deep learning pipeline that integrates quantitative nuclear morphometry with deep convolutional image features to perform ovarian cancer subtype classification and gene mutation inference directly from Hematoxylin and Eosin (H&E) histopathological images. Using $\sim45,000$ image patches sourced from The Cancer Genome Atlas (TCGA) and public datasets, a fusion model combining a ResNet-50 Convolutional Neural Network (CNN) encoder and a Vision Transformer (ViT) was developed. This model successfully captured both local morphological texture and global tissue context. The pipeline achieved a robust overall subtype classification accuracy of $84.2%$ (Macro AUC of $0.87 \pm 0.03$). Crucially, the model demonstrated the capacity for gene mutation inference with moderate-to-high accuracy: $AUC_{TP53} = 0.82 \pm 0.02$, $AUC_{BRCA1} = 0.76 \pm 0.04$, and $AUC_{ARID1A} = 0.73 \pm 0.05$. Feature importance analysis established direct quantitative links, revealing that nuclear solidity and eccentricity were the dominant predictors for TP53 mutation. These findings validate that quantifiable histological phenotypes encode measurable genomic signals, paving the way for cost-effective, precision histopathology in ovarian cancer triage and diagnosis.

卵巢癌仍然是最致命的妇科恶性肿瘤之一,这主要是因为诊断延迟和亚型之间的广泛异质性。当前的诊断方法在揭示对精准肿瘤学至关重要的潜在基因组变异方面的能力有限。本研究介绍了一种新型的混合深度学习流程,它将定量核形态测量与深度卷积图像特征相结合,直接从苏木精和伊红(H&E)组织病理学图像中执行卵巢癌亚型分类和基因突变推断。使用源自癌症基因组图谱(TCGA)和公共数据集的约45,000个图像补丁,开发了一个结合ResNet-50卷积神经网络(CNN)编码器和视觉转换器(ViT)的融合模型。该模型成功地捕获了局部形态纹理和全局组织上下文。该流程实现了稳健的总体亚型分类准确率84.2%(宏观AUC为0.87±0.03%)。最重要的是,该模型在基因突变推断方面表现出了中等到较高的准确性:$AUC_{TP53} = 0.82±0.02$,$AUC_{BRCA1} = 0.76±0.04$,和$AUC_{ARID1A} = 0.73±0.05$。特征重要性分析建立了直接的定量联系,表明核的坚实度和偏心率是TP53突变的主要预测因子。这些发现证明了可量化的组织学表现型能够编码可测量的基因组信号,为卵巢癌筛查和诊断中的经济高效的精准组织病理学铺平了道路。

论文及项目相关链接

PDF

Summary

本研究提出一种新型深度学习方法,结合定量核形态测量和深度卷积图像特征,直接从苏木精和伊红(H&E)组织病理学图像中进行卵巢癌亚型分类和基因突变推断。通过结合ResNet-50卷积神经网络(CNN)编码器和视觉转换器(ViT),模型成功捕捉局部形态纹理和全局组织上下文,实现稳健的亚型分类准确度84.2%(宏观AUC为0.87±0.03)。此外,该模型还能有效进行基因突变推断,针对TP53、BRCA1和ARID1A的AUC分别为0.82±0.02、0.76±0.04和0.73±0.05。研究发现核坚实度和偏心率是TP53突变的主要预测因素,证明可量化的组织学表型蕴含可测量的基因组信号,为卵巢癌的精准诊断提供了成本效益高的方法。

Key Takeaways

  1. 卵巢癌是当前妇科恶性肿瘤中致死率较高的一种,诊断方法和基因突变的精确推断对其治疗至关重要。
  2. 研究提出了一种融合深度学习方法,整合定量核形态测量与深度卷积图像特征,用于从H&E组织病理学图像中进行卵巢癌亚型分类和基因突变预测。
  3. 利用ResNet-50 CNN与Vision Transformer的融合模型,实现了较高的亚型分类准确度(84.2%)。
  4. 模型能较准确地推断基因突变,尤其是TP53基因的突变预测中表现出较高的准确性。
  5. 核坚实度和偏心率是TP53突变的关键预测因素。
  6. 该研究验证了可量化组织学表型蕴含基因组信号,为精准诊断卵巢癌提供了新的途径。

Cool Papers

点此查看论文截图

Data-Efficient Realized Volatility Forecasting with Vision Transformers

Authors:Emi Soroka, Artem Arzyn

Recent work in financial machine learning has shown the virtue of complexity: the phenomenon by which deep learning methods capable of learning highly nonlinear relationships outperform simpler approaches in financial forecasting. While transformer architectures like Informer have shown promise for financial time series forecasting, the application of transformer models for options data remains largely unexplored. We conduct preliminary studies towards the development of a transformer model for options data by training the Vision Transformer (ViT) architecture, typically used in modern image recognition and classification systems, to predict the realized volatility of an asset over the next 30 days from its implied volatility surface (augmented with date information) for a single day. We show that the ViT can learn seasonal patterns and nonlinear features from the IV surface, suggesting a promising direction for model development.

最近金融机器学习领域的研究展现了复杂性的优势:深度学习方法能够学习高度非线性关系,在金融预测方面表现出优于简单方法的现象。虽然像Informer这样的transformer架构在金融时间序列预测方面已展现出潜力,但将transformer模型应用于期权数据的研究仍鲜有探索。我们通过训练通常用于现代图像识别和分类系统的Vision Transformer(ViT)架构,来开展对期权数据transformer模型发展的初步研究。该模型旨在根据单日的隐含波动率表面(辅以日期信息)预测资产未来30天的实际波动率。我们表明,ViT能够从隐含波动率表面学习到季节性模式和非线性特征,这为模型发展指明了充满希望的方向。

论文及项目相关链接

PDF NeurIPS Generative AI in Finance

Summary
近期金融机器学习研究证明了复杂性优势:深度学习方法能够学习高度非线性关系,在金融预测方面表现出优于简单方法的效果。尽管如Informer等transformer架构在金融时间序列预测方面显示出潜力,但将transformer模型应用于期权数据的研究仍相对较少。本研究通过训练通常用于现代图像识别和分类系统的Vision Transformer (ViT)架构,以预测单一日的隐含波动率数据所对应的资产未来30天的实际波动率,进行了初步研究。研究表明ViT能从隐含波动率数据中学习季节性模式和非线性特征,为模型开发提供了有前景的方向。

Key Takeaways

  1. 深度学习在金融预测中表现出优越性,特别是在学习高度非线性关系方面。
  2. Transformer架构如Informer在金融时间序列预测中有潜力。
  3. Vision Transformer (ViT)在期权数据预测方面的应用尚未得到充分研究。
  4. ViT能够从隐含波动率数据中学习季节性模式和非线性特征。
  5. 通过训练ViT模型,可以预测单一日的隐含波动率数据对应的资产未来30天的实际波动率。
  6. 本研究为开发适用于金融数据的transformer模型提供了有前景的方向。

Cool Papers

点此查看论文截图

Hybrid Convolution and Vision Transformer NAS Search Space for TinyML Image Classification

Authors:Mikhael Djajapermana, Moritz Reiber, Daniel Mueller-Gritschneder, Ulf Schlichtmann

Hybrids of Convolutional Neural Network (CNN) and Vision Transformer (ViT) have outperformed pure CNN or ViT architecture. However, since these architectures require large parameters and incur large computational costs, they are unsuitable for tinyML deployment. This paper introduces a new hybrid CNN-ViT search space for Neural Architecture Search (NAS) to find efficient hybrid architectures for image classification. The search space covers hybrid CNN and ViT blocks to learn local and global information, as well as the novel Pooling block of searchable pooling layers for efficient feature map reduction. Experimental results on the CIFAR10 dataset show that our proposed search space can produce hybrid CNN-ViT architectures with superior accuracy and inference speed to ResNet-based tinyML models under tight model size constraints.

卷积神经网络(CNN)和视觉转换器(ViT)的混合模型已经超越了纯CNN或ViT架构的性能。然而,由于这些架构需要大量参数并产生巨大的计算成本,因此它们不适合用于TinyML部署。本文引入了一个新的混合CNN-ViT神经网络架构搜索(NAS)搜索空间,用于寻找用于图像分类的高效混合架构。搜索空间涵盖了混合CNN和ViT块以学习局部和全局信息,以及用于有效特征图缩减的可搜索池化层的新型池化块。在CIFAR10数据集上的实验结果表明,我们提出的搜索空间能够产生具有优越准确性和推理速度的混合CNN-ViT架构,在严格的模型大小约束下,其性能优于基于ResNet的TinyML模型。

论文及项目相关链接

PDF Presented at ITEM workshop co-located with ECML PKDD 2024, Vilnius LT

Summary

本文介绍了混合卷积神经网络(CNN)和视觉转换器(ViT)的新型搜索空间,用于神经网络架构搜索(NAS),以寻找图像分类的高效混合架构。该搜索空间涵盖了混合CNN和ViT块以学习局部和全局信息,以及可搜索池化层的新型池化块以实现特征图的有效缩减。在CIFAR10数据集上的实验结果表明,所提出的搜索空间能够在严格的模型大小约束下,产生具有优越准确性和推理速度的基于ResNet的tinyML模型的混合CNN-ViT架构。

Key Takeaways

  1. 论文展示了混合CNN和ViT架构的优势,这种架构在图像分类任务上超越了纯CNN或ViT架构。
  2. 考虑到大型参数和计算成本,这些架构不适合用于TinyML部署。
  3. 论文引入了一个新的混合CNN-ViT搜索空间,用于神经网络架构搜索(NAS)。
  4. 该搜索空间涵盖了混合CNN和ViT块,以学习局部和全局信息。
  5. 论文还介绍了一种新型的可搜索池化层,用于高效的特征图缩减。
  6. 在CIFAR10数据集上的实验表明,新提出的搜索空间产生的架构具有优越的准确性和推理速度。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
检测/分割/跟踪 检测/分割/跟踪
检测/分割/跟踪 方向最新论文已更新,请持续关注 Update in 2025-11-07 MSDNet Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping
下一篇 
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-11-07 SurgViVQA Temporally-Grounded Video Question Answering for Surgical Scene Understanding
2025-11-07
  目录