⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-06-04 更新
DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers
Authors:Li Ren, Chen Chen, Liqiang Wang, Kien Hua
Visual Prompt Tuning (VPT) has become a promising solution for Parameter-Efficient Fine-Tuning (PEFT) approach for Vision Transformer (ViT) models by partially fine-tuning learnable tokens while keeping most model parameters frozen. Recent research has explored modifying the connection structures of the prompts. However, the fundamental correlation and distribution between the prompts and image tokens remain unexplored. In this paper, we leverage metric learning techniques to investigate how the distribution of prompts affects fine-tuning performance. Specifically, we propose a novel framework, Distribution Aware Visual Prompt Tuning (DA-VPT), to guide the distributions of the prompts by learning the distance metric from their class-related semantic data. Our method demonstrates that the prompts can serve as an effective bridge to share semantic information between image patches and the class token. We extensively evaluated our approach on popular benchmarks in both recognition and segmentation tasks. The results demonstrate that our approach enables more effective and efficient fine-tuning of ViT models by leveraging semantic information to guide the learning of the prompts, leading to improved performance on various downstream vision tasks.
视觉提示微调(VPT)已成为一种有前景的解决方案,通过部分微调可学习令牌的同时保持大部分模型参数冻结,为视觉转换器(ViT)模型实现了参数高效的微调(PEFT)方法。最近的研究探索了修改提示的连接结构。然而,提示与图像令牌之间的基本关联和分布仍然未被探索。在本文中,我们利用度量学习技术来研究提示分布对微调性能的影响。具体来说,我们提出了一种新型框架——分布感知视觉提示微调(DA-VPT),通过学习其类别相关语义数据的距离度量来引导提示分布。我们的方法表明,提示可以作为图像补丁和类别令牌之间共享语义信息的有效桥梁。我们在识别和分割任务的流行基准测试中广泛评估了我们的方法。结果表明,通过利用语义信息来指导提示的学习,我们的方法能够更有效地微调ViT模型,在各种下游视觉任务上实现性能提升。
论文及项目相关链接
PDF CVPR 2025
Summary
视觉提示微调(VPT)已成为一种有前景的解决方案,通过对学习标记进行部分微调来实现视觉变压器(ViT)模型的参数高效微调(PEFT)。本文通过度量学习技术探究提示分布对微调性能的影响,提出一种新的框架——分布感知视觉提示微调(DA-VPT),通过学习来自类相关语义数据的距离度量来指导提示分布。提示能有效桥接图像补丁和类别标记之间的语义信息。在识别和分割任务的流行基准测试中,该方法的性能有所提升。
Key Takeaways
- VPT成为ViT模型的一种参数高效微调方法,通过部分微调学习标记实现。
- 现有研究已探索了提示连接结构的修改,但提示与图像标记之间的基本关联和分布仍待探索。
- 采用度量学习技术来研究提示分布对微调性能的影响。
- 提出新的框架DA-VPT,通过学习类相关语义数据的距离度量来指导提示分布。
- 提示可作为桥接图像补丁和类别标记之间语义信息的有效工具。
- 在识别和分割任务的流行基准测试中进行了广泛评估。
点此查看论文截图



Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision?
Authors:Zihao Li, Lecheng Zheng, Bowen Jin, Dongqi Fu, Baoyu Jing, Yikun Ban, Jingrui He, Jiawei Han
While great success has been achieved in building vision models with Contrastive Language-Image Pre-training (CLIP) over internet-scale image-text pairs, building transferable Graph Neural Networks (GNNs) with CLIP pipeline is challenging because of the scarcity of labeled data and text supervision, different levels of downstream tasks, and the conceptual gaps between domains. In this work, to address these issues, we propose a multi-modal prompt learning paradigm to effectively adapt pre-trained GNN to downstream tasks and data, given only a few semantically labeled samples, each with extremely weak text supervision. Our new paradigm embeds the graphs directly in the same space as the Large Language Models (LLMs) by learning both graph prompts and text prompts simultaneously. We demonstrate the superior performance of our paradigm in few-shot, multi-task-level, and cross-domain settings. Moreover, we build the first CLIP-style zero-shot classification prototype that can generalize GNNs to unseen classes with extremely weak text supervision. The code is available at https://github.com/Violet24K/Morpher.
虽然使用对比语言图像预训练(CLIP)在互联网规模的图像文本对上构建视觉模型已经取得了巨大成功,但使用CLIP管道构建可迁移的图神经网络(GNN)却面临挑战,这主要是因为缺乏标记数据和文本监督、下游任务的不同级别以及领域间的概念差距。在这项工作中,为了解决这些问题,我们提出了一种多模式提示学习范式,以有效地适应预训练的GNN进行下游任务和数据,仅使用少量语义标记样本,每个样本都具有极弱的文本监督。我们的新范式通过将图直接嵌入与大型语言模型(LLM)相同的空间,通过同时学习图形提示和文本提示来实现。我们在小样本、多任务级别和跨域设置中证明了我们的范式的卓越性能。此外,我们构建了第一个CLIP风格的零样本分类原型,该原型能够利用极其微弱的文本监督将GNN推广到未见类别中。代码可在https://github.com/Violet24K/Morpher获取。
论文及项目相关链接
PDF ACL 2025 Main Conference, 27 pages
Summary
本文介绍了在构建具有对比语言图像预训练(CLIP)的视觉模型时面临的挑战,尤其是在使用CLIP管道构建可迁移的图神经网络(GNN)时面临的挑战。针对这些问题,本文提出了一种多模式提示学习范式,该范式可以有效地适应下游任务和数据的预训练GNN,仅使用少量具有极弱文本监督的语义标记样本。通过将图直接嵌入与大型语言模型(LLM)相同的空间,同时学习图形提示和文本提示,该范式表现出卓越的性能,特别是在小样例、多任务级别和跨域设置中。此外,本文构建了第一个具有弱文本监督的CLIP风格零样本分类原型,能够推广GNN到未见过的类别。
Key Takeaways
- CLIP模型在互联网规模的图像文本对上构建视觉模型取得了巨大成功,但在使用CLIP管道构建可迁移的GNN时面临挑战。
- 缺乏标记数据和文本监督、下游任务的不同层次以及领域间的概念差距是构建可迁移的GNN的主要挑战。
- 提出了一种多模式提示学习范式,该范式可以有效地适应预训练的GNN到下游任务和数据,仅使用少量具有极弱文本监督的语义标记样本。
- 通过同时学习图形提示和文本提示,将图直接嵌入到与大型语言模型相同的空间中。
- 该范式在小样例、多任务级别和跨域设置中表现出卓越的性能。
- 构建了第一个CLIP风格的零样本分类原型,能够使用极弱的文本监督将GNN推广到未见过的类别。
点此查看论文截图




MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection
Authors:Yaning Zhang, Tianyi Wang, Zitong Yu, Zan Gao, Linlin Shen, Shengyong Chen
The rapid development of photo-realistic face generation methods has raised significant concerns in society and academia, highlighting the urgent need for robust and generalizable face forgery detection (FFD) techniques. Although existing approaches mainly capture face forgery patterns using image modality, other modalities like fine-grained noises and texts are not fully explored, which limits the generalization capability of the model. In addition, most FFD methods tend to identify facial images generated by GAN, but struggle to detect unseen diffusion-synthesized ones. To address the limitations, we aim to leverage the cutting-edge foundation model, contrastive language-image pre-training (CLIP), to achieve generalizable diffusion face forgery detection (DFFD). In this paper, we propose a novel multi-modal fine-grained CLIP (MFCLIP) model, which mines comprehensive and fine-grained forgery traces across image-noise modalities via language-guided face forgery representation learning, to facilitate the advancement of DFFD. Specifically, we devise a fine-grained language encoder (FLE) that extracts fine global language features from hierarchical text prompts. We design a multi-modal vision encoder (MVE) to capture global image forgery embeddings as well as fine-grained noise forgery patterns extracted from the richest patch, and integrate them to mine general visual forgery traces. Moreover, we build an innovative plug-and-play sample pair attention (SPA) method to emphasize relevant negative pairs and suppress irrelevant ones, allowing cross-modality sample pairs to conduct more flexible alignment. Extensive experiments and visualizations show that our model outperforms the state of the arts on different settings like cross-generator, cross-forgery, and cross-dataset evaluations.
随着逼真面部生成方法的快速发展,社会和学术界对此产生了重大关切,这突显了对稳健且通用的面部伪造检测(FFD)技术的迫切需求。尽管现有方法主要使用图像模式捕捉面部伪造模式,但其他模式(如细微噪声和文本)尚未得到充分探索,这限制了模型的泛化能力。此外,大多数FFD方法倾向于识别由GAN生成的面部图像,但难以检测未见过的扩散合成图像。为了克服这些限制,我们旨在利用最前沿的基础模型——对比语言图像预训练(CLIP),实现通用的扩散面部伪造检测(DFFD)。在本文中,我们提出了一种新颖的多模态精细CLIP(MFCLIP)模型,它通过语言引导的面部伪造表示学习,挖掘图像噪声模式之间的全面和精细伪造痕迹,以促进DFFD的发展。具体来说,我们设计了一种精细语言编码器(FLE),可以从分层文本提示中提取精细全局语言特征。我们设计了多模态视觉编码器(MVE),以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细微噪声伪造模式,并将它们结合起来以挖掘通用的视觉伪造痕迹。此外,我们建立了一种创新的即插即用样本对注意(SPA)方法,以强调相关的负样本对并抑制不相关的样本对,使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化显示,我们的模型在不同的设置(如跨生成器、跨伪造和跨数据集评估)上均优于现有技术。
论文及项目相关链接
PDF Accepted by IEEE Transactions on Information Forensics and Security 2025
Summary
针对当前社会与学术界对面部图像伪造检测(FFD)的迫切需求,特别是在跨模态融合及对抗新类型面部图像伪造的能力方面存在局限性,本研究提出了一个创新的方案。通过运用前沿的CLIP模型进行跨模态训练,并设计了多模态精细语言编码器和多模态视觉编码器来挖掘图像与噪声模态之间的精细伪造痕迹。同时,引入了创新的样本对注意力机制来强化跨模态样本对的对齐效果。实验证明,该模型在不同场景下均优于现有技术。
Key Takeaways
- 当前社会与学术界对面部伪造检测(FFD)技术有迫切需求。
- 图像模态以外的其他模态(如细微噪声和文本)在面部伪造检测中的潜力尚未被完全发掘。
- 现有方法倾向于识别GAN生成的面部图像,但对扩散合成的面部图像检测效果不佳。
- 研究者提出了一种基于CLIP模型的通用扩散面部伪造检测(DFFD)方法来解决上述问题。
- 引入了多模态精细语言编码器(FLE)和多模态视觉编码器(MVE)来挖掘跨图像和噪声模态的精细伪造痕迹。
- 创新性地引入了样本对注意力(SPA)方法来强化跨模态样本对的对齐效果。
点此查看论文截图





