⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-24 更新
TS-P$^2$CL: Plug-and-Play Dual Contrastive Learning for Vision-Guided Medical Time Series Classification
Authors:Qi’ao Xu, Pengfei Wang, Bo Zhong, Tianwen Qian, Xiaoling Wang, Ye Wang, Hong Yu
Medical time series (MedTS) classification is pivotal for intelligent healthcare, yet its efficacy is severely limited by poor cross-subject generation due to the profound cross-individual heterogeneity. Despite advances in architectural innovations and transfer learning techniques, current methods remain constrained by modality-specific inductive biases that limit their ability to learn universally invariant representations. To overcome this, we propose TS-P$^2$CL, a novel plug-and-play framework that leverages the universal pattern recognition capabilities of pre-trained vision models. We introduce a vision-guided paradigm that transforms 1D physiological signals into 2D pseudo-images, establishing a bridge to the visual domain. This transformation enables implicit access to rich semantic priors learned from natural images. Within this unified space, we employ a dual-contrastive learning strategy: intra-modal consistency enforces temporal coherence, while cross-modal alignment aligns time-series dynamics with visual semantics, thereby mitigating individual-specific biases and learning robust, domain-invariant features. Extensive experiments on six MedTS datasets demonstrate that TS-P$^2$CL consistently outperforms fourteen methods in both subject-dependent and subject-independent settings.
医疗时间序列(MedTS)分类对于智能医疗至关重要,但其效率受到个体间巨大异质性导致的跨主题生成不良的限制。尽管在建筑创新和迁移学习技术方面取得了进展,当前的方法仍然受到特定于模态的归纳偏置的约束,这限制了它们学习普遍不变表示的能力。为了克服这一局限性,我们提出了TS-P$^2$CL,这是一个新型即插即用框架,利用预训练视觉模型的通用模式识别能力。我们引入了一种视觉引导范式,将1D生理信号转换为2D伪图像,建立了与视觉领域的桥梁。这种转换能够隐式地访问从自然图像中学习到的丰富的语义先验。在这个统一的空间中,我们采用了一种双重对比学习策略:模态内一致性加强时间连贯性,而模态间对齐将时间序列动态与视觉语义对齐,从而减轻个体特定偏见并学习稳健的、领域不变的特征。在六个MedTS数据集上的广泛实验表明,TS-P$^2$CL在主体依赖和主体独立的环境中始终优于十四种方法。
论文及项目相关链接
PDF 12 pages, 4 figures
Summary
本文提出了一种名为TS-P$^2$CL的新型即插即用框架,用于解决医疗时间序列分类中的跨主题生成问题。该框架利用预训练视觉模型的通用模式识别能力,通过转换一维生理信号为二维伪图像,建立与视觉领域的桥梁,从而访问从自然图像中学习到的丰富语义先验。在统一的空间内,采用双对比学习策略,即模态内一致性保证时间连贯性,模态间对齐将时间序列动态与视觉语义对齐,从而减轻个体特异性偏见并学习稳健的、领域不变的特征。在六个医疗时间序列数据集上的实验表明,TS-P$^2$CL在主体依赖和主体独立设置中均优于十四种方法。
Key Takeaways
- 医疗时间序列分类在智能医疗中至关重要,但受到跨主题生成不佳的限制,主要原因是跨个体之间存在巨大差异。
- 当前方法受到模态特定归纳偏见的影响,无法学习普遍的不变表示。
- TS-P$^2$CL框架利用预训练的视觉模型的通用模式识别能力来解决这一问题。
- 通过将一维生理信号转换为二维伪图像,建立与视觉领域的桥梁,访问丰富的语义先验。
- 采用双对比学习策略,确保时间连贯性和模态间对齐,从而减轻个体特异性偏见。
- 在多个医疗时间序列数据集上,TS-P$^2$CL表现出优异的性能,优于其他方法。
- TS-P$^2$CL框架具有广泛的应用前景,可推广到其他需要跨模态学习的领域。
点此查看论文截图


VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation
Authors:Feng Han, Chao Gong, Zhipeng Wei, Jingjing Chen, Yu-Gang Jiang
Recently, autoregressive image generation models have wowed audiences with their remarkable capability in creating surprisingly realistic images. Models such as GPT-4o and LlamaGen can not only produce images that faithfully mimic renowned artistic styles like Ghibli, Van Gogh, or Picasso, but also potentially generate Not-Safe-For-Work (NSFW) content, raising significant concerns regarding copyright infringement and ethical use. Despite these concerns, methods to safeguard autoregressive text-to-image models remain underexplored. Previous concept erasure methods, primarily designed for diffusion models that operate in denoising latent space, are not directly applicable to autoregressive models that generate images token by token. To address this critical gap, we propose Visual Contrast Exploitation (VCE), a novel framework comprising: (1) an innovative contrastive image pair construction paradigm that precisely decouples unsafe concepts from their associated content semantics, and (2) a sophisticated DPO-based training approach that enhances the model’s ability to identify and leverage visual contrastive features from image pairs, enabling precise concept erasure. Our comprehensive experiments across three challenging tasks-artist style erasure, explicit content erasure, and object removal-demonstrate that our method effectively secures the model, achieving state-of-the-art results while erasing unsafe concepts and maintaining the integrity of unrelated safe concepts. The code and models are available at https://github.com/Maplebb/VCE.
最近,自回归图像生成模型凭借其创造惊人逼真图像的能力吸引了观众的目光。诸如GPT-4o和LlamaGen等模型不仅能够产生忠实模仿吉卜力、梵高或毕加索等著名艺术风格的图像,而且还可能生成不适合工作场合(NSFW)的内容,这引发了关于版权侵犯和道德使用方面的担忧。尽管存在这些担忧,但保护自回归文本到图像模型的方法仍然未被充分探索。以前的概念消除方法主要设计用于在降噪潜在空间操作的扩散模型,并不直接适用于逐令牌生成图像的自回归模型。为了解决这一关键空白,我们提出了视觉对比利用(VCE),这是一个新的框架,包括:(1)一种创新的对比图像对构建范式,该范式精确地将从不安全概念与其关联的内容语义中分离出来;(2)一种基于DPO的先进训练方法,提高模型从图像对中识别和利用视觉对比特征的能力,从而实现精确的概念消除。我们在三个具有挑战性的任务(艺术家风格消除、明确内容消除和对象移除)上进行的综合实验表明,我们的方法有效地保护了模型,在消除不安全概念的同时保持无关安全概念的完整性,并实现了最先进的结果。相关代码和模型可在https://github.com/Maplebb/VCE上找到。
论文及项目相关链接
Summary
本文介绍了近期出现的基于文本生成图像的自回归模型(如GPT-4o和LlamaGen),这些模型可以生成逼真的图像并模仿不同的艺术风格,但同时也存在生成不适合工作场合(NSFW)内容的隐患,引发版权和伦理问题。为解决此问题,文章提出了一种名为视觉对比利用(VCE)的新框架,该框架包括构建对比图像对和基于DPO的训练方法,可精确地将不安全概念与其相关内容语义分离,实现精确的概念消除。实验证明,该方法在消除不安全概念的同时保持了安全概念的完整性,取得了业界最佳效果。代码和模型已公开在GitHub上。
Key Takeaways
- 自回归图像生成模型具有模仿多种艺术风格的能力,并能生成逼真的图像。
- 这些模型可能生成不适合工作场合(NSFW)的内容,引发版权和伦理问题。
- 当前缺乏针对自回归文本到图像模型的保护措施。
- 提出的视觉对比利用(VCE)框架包括构建对比图像对和基于DPO的训练方法。
- VCE框架可以精确地将不安全概念与其相关内容语义分离。
- 实验证明,VCE框架在消除不安全概念的同时保持了安全概念的完整性。
点此查看论文截图





RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding
Authors:Tianchen Fang, Guiru Liu
Medical image understanding plays a crucial role in enabling automated diagnosis and data-driven clinical decision support. However, its progress is impeded by two primary challenges: the limited availability of high-quality annotated medical data and an overreliance on global image features, which often miss subtle but clinically significant pathological regions. To address these issues, we introduce RegionMed-CLIP, a region-aware multimodal contrastive learning framework that explicitly incorporates localized pathological signals along with holistic semantic representations. The core of our method is an innovative region-of-interest (ROI) processor that adaptively integrates fine-grained regional features with the global context, supported by a progressive training strategy that enhances hierarchical multimodal alignment. To enable large-scale region-level representation learning, we construct MedRegion-500k, a comprehensive medical image-text corpus that features extensive regional annotations and multilevel clinical descriptions. Extensive experiments on image-text retrieval, zero-shot classification, and visual question answering tasks demonstrate that RegionMed-CLIP consistently exceeds state-of-the-art vision language models by a wide margin. Our results highlight the critical importance of region-aware contrastive pre-training and position RegionMed-CLIP as a robust foundation for advancing multimodal medical image understanding.
医学图像理解在促进自动化诊断和治疗决策支持中发挥着至关重要的作用。然而,其进展受到两个主要挑战的限制:高质量标注医学数据的有限可用性,以及对全局图像特征的过度依赖,这往往会导致微妙的但临床上重要的病理区域被遗漏。为了解决这些问题,我们引入了RegionMed-CLIP,这是一个区域感知的多模式对比学习框架,它显式地结合了局部病理信号和整体语义表示。我们的方法的核心是一个创新的兴趣区域(ROI)处理器,它自适应地集成了精细的局部特征与全局上下文,并得到了一种增强层次多模式对齐的渐进训练策略的支持。为了进行大规模的区域级别表示学习,我们构建了MedRegion-500k,这是一个以区域注释和多层次临床描述为特色的医学图像-文本语料库。在图像-文本检索、零样本分类和视觉问答任务上的大量实验表明,RegionMed-CLIP始终大幅超越了最先进的视觉语言模型。我们的研究结果强调了区域感知对比预训练的关键重要性,并将RegionMed-CLIP定位为推动多模式医学图像理解发展的稳健基础。
论文及项目相关链接
PDF Upon further review, we identified that our dataset requires optimization to ensure research reliability and accuracy. Additionally, considering the target journal’s latest submission policies, we believe comprehensive manuscript revisions are necessary
Summary
RegionMed-CLIP是一种针对医疗图像理解的新方法,通过结合局部病理信号和整体语义表示,解决高质量标注医疗数据有限和过度依赖全局图像特征的问题。该方法通过自适应集成细粒度区域特征与全局上下文的核心区域处理器,以及增强层次化多模态对齐的渐进训练策略,实现了有效的学习。为支持大规模区域级别表示学习,构建了MedRegion-500k医疗图像文本语料库,包含丰富的区域标注和多层临床描述。实验表明,RegionMed-CLIP在图像文本检索、零样本分类和视觉问答任务上均大幅超越当前先进的视觉语言模型,凸显了区域感知对比预训练的重要性。
Key Takeaways
- RegionMed-CLIP解决了医疗图像理解中的两大挑战:高质量标注医疗数据有限和过度依赖全局图像特征。
- RegionMed-CLIP通过结合局部病理信号和整体语义表示,提高了医疗图像理解的准确性。
- 该方法通过自适应集成细粒度区域特征与全局上下文的区域处理器实现有效学习。
- 渐进训练策略增强了层次化多模态对齐,提高了模型的性能。
- 为支持大规模区域级别表示学习,构建了MedRegion-500k医疗图像文本语料库。
- RegionMed-CLIP在多个任务上表现优异,证明了其有效性。
点此查看论文截图





CLIPTTA: Robust Contrastive Vision-Language Test-Time Adaptation
Authors:Marc Lafon, Gustavo Adolfo Vargas Hakim, Clément Rambour, Christian Desrosier, Nicolas Thome
Vision-language models (VLMs) like CLIP exhibit strong zero-shot capabilities but often fail to generalize under distribution shifts. Test-time adaptation (TTA) allows models to update at inference time without labeled data, typically via entropy minimization. However, this objective is fundamentally misaligned with the contrastive image-text training of VLMs, limiting adaptation performance and introducing failure modes such as pseudo-label drift and class collapse. We propose CLIPTTA, a new gradient-based TTA method for vision-language models that leverages a soft contrastive loss aligned with CLIP’s pre-training objective. We provide a theoretical analysis of CLIPTTA’s gradients, showing how its batch-aware design mitigates the risk of collapse. We further extend CLIPTTA to the open-set setting, where both in-distribution (ID) and out-of-distribution (OOD) samples are encountered, using an Outlier Contrastive Exposure (OCE) loss to improve OOD detection. Evaluated on 75 datasets spanning diverse distribution shifts, CLIPTTA consistently outperforms entropy-based objectives and is highly competitive with state-of-the-art TTA methods, outperforming them on a large number of datasets and exhibiting more stable performance across diverse shifts.
视觉语言模型(如CLIP)展现出强大的零样本能力,但在分布变化下通常难以推广。测试时间适应(TTA)允许模型在推理时间进行无需标记数据的更新,通常通过熵最小化实现。然而,这一目标根本上与CLIP等视觉语言模型的对比图像文本训练相悖,限制了适应性能并引入了伪标签漂移和类别崩溃等失败模式。我们提出了CLIPTTA,这是一种基于梯度的新TTA方法,适用于视觉语言模型,它利用与CLIP预训练目标对齐的软对比损失。我们对CLIPTTA的梯度进行了理论分析,展示了其批量感知设计如何缓解崩溃风险。我们进一步将CLIPTTA扩展到开放集设置,在此设置中遇到的是分布内(ID)和分布外(OOD)样本,使用异常值对比曝光(OCE)损失来改善OOD检测。在涵盖多种分布变化的7.数据集上评估,CLIPTTA始终优于基于熵的目标,并在最新TTA方法中表现出高度竞争力,在大量数据集上表现优于它们并在各种变化中展现出更稳定的性能。
论文及项目相关链接
Summary:
本文提出一种基于梯度的测试时自适应方法CLIPTTA,用于提高视觉语言模型(如CLIP)在不同分布下的泛化能力。CLIPTTA利用与CLIP预训练目标一致的软对比损失,解决了传统熵最小化目标存在的伪标签漂移和类别崩溃问题。通过理论分析和实验验证,CLIPTTA在多种数据集上的表现均优于基于熵的目标,并与当前先进的测试时自适应方法竞争。此外,它还扩展到开放集设置,使用异常值对比曝光(OCE)损失提高异常值检测性能。
Key Takeaways:
- CLIPTTA是一种针对视觉语言模型的测试时自适应方法,旨在提高模型在不同分布下的泛化能力。
- CLIPTTA利用软对比损失解决伪标签漂移和类别崩溃问题,这与传统的熵最小化目标不同。
- CLIPTTA的理论分析显示其批次感知设计能够降低类别崩溃的风险。
- CLIPTTA扩展到开放集设置,通过引入Outlier Contrastive Exposure(OCE)损失来提高异常值检测性能。
- 在多个数据集上的实验结果表明,CLIPTTA优于基于熵的目标并与其他先进的测试时自适应方法竞争。
- CLIPTTA在多种分布变化下的表现稳定且具有良好的泛化能力。
点此查看论文截图



Test-Time Multimodal Backdoor Detection by Contrastive Prompting
Authors:Yuwei Niu, Shuo He, Qi Wei, Zongyu Wu, Feng Liu, Lei Feng
While multimodal contrastive learning methods (e.g., CLIP) can achieve impressive zero-shot classification performance, recent research has revealed that these methods are vulnerable to backdoor attacks. To defend against backdoor attacks on CLIP, existing defense methods focus on either the pre-training stage or the fine-tuning stage, which would unfortunately cause high computational costs due to numerous parameter updates and are not applicable in black-box settings. In this paper, we provide the first attempt at a computationally efficient backdoor detection method to defend against backdoored CLIP in the \emph{inference} stage. We empirically find that the visual representations of backdoored images are \emph{insensitive} to \emph{benign} and \emph{malignant} changes in class description texts. Motivated by this observation, we propose BDetCLIP, a novel test-time backdoor detection method based on contrastive prompting. Specifically, we first prompt a language model (e.g., GPT-4) to produce class-related description texts (benign) and class-perturbed random texts (malignant) by specially designed instructions. Then, the distribution difference in cosine similarity between images and the two types of class description texts can be used as the criterion to detect backdoor samples. Extensive experiments validate that our proposed BDetCLIP is superior to state-of-the-art backdoor detection methods, in terms of both effectiveness and efficiency. Our codes are publicly available at: https://github.com/Purshow/BDetCLIP.
尽管多模态对比学习方法(例如CLIP)可以实现令人印象深刻的零样本分类性能,但最近的研究表明这些方法容易受到后门攻击的影响。为了防御CLIP的后门攻击,现有的防御方法主要关注预训练阶段或微调阶段,这会导致由于大量参数更新而产生的高计算成本,并且不适用于黑盒设置。在本文中,我们首次尝试了一种计算高效的后门检测方法,在推理阶段防御被后门控制的CLIP。我们实证发现,被后门控制的图像视觉表示对良性(benign)和恶性(malignant)变化的类别描述文本并不敏感。基于这一观察,我们提出了BDetCLIP,这是一种新的测试时间后门检测方法,基于对比提示。具体来说,我们首先通过特定设计的指令提示语言模型(例如GPT-4)生成与类别相关的描述文本(良性)和类别扰动随机文本(恶性)。然后,图像与这两种类别描述文本之间余弦相似性的分布差异可以用作检测后门样本的准则。大量实验验证了我们的BDetCLIP在有效性和效率方面优于当前先进的后门检测方法。我们的代码公开在:https://github.com/Purshow/BDetCLIP。
论文及项目相关链接
PDF Accepted to ICML2025
Summary
本文提出一种针对CLIP模型在推理阶段的抗后门攻击方法BDetCLIP。研究发现,被后门攻击的图像在视觉表示上对良性及恶性文本描述变化不敏感。基于此观察,BDetCLIP利用对比提示在测试时进行后门样本检测。该方法通过语言模型产生与类别相关的良性描述和类别随机扰动下的恶性描述文本,计算图像与这两类描述文本间的余弦相似度分布差异作为检测标准。实验证实,相较于现有技术,BDetCLIP在检测效果和效率上表现优越。相关代码已公开。
Key Takeaways
- 多模态对比学习方法的潜在威胁:近期研究揭示,CLIP等多媒体对比学习方法虽具备出色的零样本分类性能,但仍存在后门攻击风险。
- 现有防御策略的挑战:当前防御策略集中在预训练或微调阶段,涉及大量参数更新和高昂的计算成本,且在黑盒环境中不适用。
- 新颖的反向检测策略:首次提出在计算效率高的推理阶段进行后门检测的方法。
- 图像与文本描述间的敏感性观察:研究发现被后门攻击的图像对良性及恶性文本描述变化视觉上不敏感。
- BDetCLIP方法介绍:基于对比提示和余弦相似度分布差异进行后门样本检测。
- 实验验证:对比实验证明BDetCLIP在检测效果与效率上超越现有技术。
点此查看论文截图




Superpixel Graph Contrastive Clustering with Semantic-Invariant Augmentations for Hyperspectral Images
Authors:Jianhan Qi, Yuheng Jia, Hui Liu, Junhui Hou
Hyperspectral images (HSI) clustering is an important but challenging task. The state-of-the-art (SOTA) methods usually rely on superpixels, however, they do not fully utilize the spatial and spectral information in HSI 3-D structure, and their optimization targets are not clustering-oriented. In this work, we first use 3-D and 2-D hybrid convolutional neural networks to extract the high-order spatial and spectral features of HSI through pre-training, and then design a superpixel graph contrastive clustering (SPGCC) model to learn discriminative superpixel representations. Reasonable augmented views are crucial for contrastive clustering, and conventional contrastive learning may hurt the cluster structure since different samples are pushed away in the embedding space even if they belong to the same class. In SPGCC, we design two semantic-invariant data augmentations for HSI superpixels: pixel sampling augmentation and model weight augmentation. Then sample-level alignment and clustering-center-level contrast are performed for better intra-class similarity and inter-class dissimilarity of superpixel embeddings. We perform clustering and network optimization alternatively. Experimental results on several HSI datasets verify the advantages of the proposed SPGCC compared to SOTA methods. Our code is available at https://github.com/jhqi/spgcc.
高光谱图像(HSI)聚类是一项重要且具有挑战性的任务。目前先进的方法通常依赖于超像素,但它们没有充分利用HSI三维结构中的空间和光谱信息,且其优化目标并非针对聚类。在这项工作中,我们首先使用三维和二维混合卷积神经网络通过预训练提取HSI的高阶空间和光谱特征,然后设计超像素图对比聚类(SPGCC)模型来学习判别超像素表示。合理的增强视图对于对比聚类至关重要,而传统的对比学习可能会损害聚类结构,因为不同样本即使在属于同一类别的情况下也会在嵌入空间中相互推开。在SPGCC中,我们为HSI超像素设计了两种语义不变的数据增强方法:像素采样增强和模型权重增强。然后对超像素嵌入进行样本级对齐和聚类中心级对比,以更好地实现类内相似性和类间差异性。我们交替执行聚类和网络优化。在多个HSI数据集上的实验结果验证了与先进方法相比,所提出SPGCC的优势。我们的代码位于https://github.com/jhqi/spgcc。
论文及项目相关链接
摘要
本文提出了基于三维和二维混合卷积神经网络的高光谱图像聚类方法。通过预训练提取高光谱图像的高阶空间和光谱特征,然后设计超像素图对比聚类模型(SPGCC),学习具有区分性的超像素表示。合理的数据增强对比聚类至关重要,传统的对比学习可能损害聚类结构,因为同一类的不同样本在嵌入空间中会被推开。在SPGCC中,为HSI超像素设计了两种语义不变的数据增强方法:像素采样增强和模型权重增强。然后进行样本级对齐和聚类中心级对比,以改善超像素嵌入的类内相似性和类间差异性。通过交替进行聚类和网络优化,在几个高光谱图像数据集上的实验结果验证了所提出的SPGCC相较于最新方法具有优势。
要点摘要
- 提出了一种基于三维和二维混合卷积神经网络的高光谱图像聚类方法。
- 通过预训练提取高光谱图像的高阶空间和光谱特征。
- 设计了超像素图对比聚类模型(SPGCC)来学习区分性的超像素表示。
- 引入合理的数据增强对比聚类,解决了传统对比学习可能损害聚类结构的问题。
- 针对HSI超像素设计两种语义不变的数据增强方法:像素采样增强和模型权重增强。
- 实现样本级对齐和聚类中心级对比,提高超像素嵌入的类内相似性和类间差异性。
点此查看论文截图



