⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-18 更新
Seeing and Knowing in the Wild: Open-domain Visual Entity Recognition with Large-scale Knowledge Graphs via Contrastive Learning
Authors:Hongkuan Zhou, Lavdim Halilaj, Sebastian Monka, Stefan Schmid, Yuqicheng Zhu, Jingcheng Wu, Nadeem Nazer, Steffen Staab
Open-domain visual entity recognition aims to identify and link entities depicted in images to a vast and evolving set of real-world concepts, such as those found in Wikidata. Unlike conventional classification tasks with fixed label sets, it operates under open-set conditions, where most target entities are unseen during training and exhibit long-tail distributions. This makes the task inherently challenging due to limited supervision, high visual ambiguity, and the need for semantic disambiguation. In this work, we propose a Knowledge-guided Contrastive Learning (KnowCoL) framework that combines both images and text descriptions into a shared semantic space grounded by structured information from Wikidata. By abstracting visual and textual inputs to a conceptual level, the model leverages entity descriptions, type hierarchies, and relational context to support zero-shot entity recognition. We evaluate our approach on the OVEN benchmark, a large-scale open-domain visual recognition dataset with Wikidata IDs as the label space. Our experiments show that using visual, textual, and structured knowledge greatly improves accuracy, especially for rare and unseen entities. Our smallest model improves the accuracy on unseen entities by 10.5% compared to the state-of-the-art, despite being 35 times smaller.
开放域视觉实体识别旨在识别和链接图像中描绘的实体与大量不断变化的现实世界概念,如WikiData中的概念。与具有固定标签集的常规分类任务不同,它在开放集条件下运行,其中大多数目标实体在训练期间是看不见的,并呈现出长尾分布。由于监督有限、视觉歧义度高以及需要进行语义消歧,这使得任务具有固有的挑战性。在这项工作中,我们提出了一个知识引导对比学习(KnowCoL)框架,它将图像和文本描述结合到一个共享语义空间中,该语义空间以WikiData的结构化信息为基础。通过将视觉和文本输入抽象到概念层面,该模型利用实体描述、类型层次结构和关系上下文来支持零击实体识别。我们在OVEN基准上评估了我们的方法,这是一个大规模开放域视觉识别数据集,以WikiData ID作为标签空间。实验表明,使用视觉、文本和结构知识可以大大提高准确性,特别是对于稀有和看不见的实体。与最新技术相比,我们最小的模型在未见过的实体上提高了10.5%的准确率,尽管其规模只有最新的35分之一。
论文及项目相关链接
Summary
本文介绍了开放域视觉实体识别任务,旨在将图像中的实体与WikiData等大型不断变化的概念集进行识别与链接。针对此任务的挑战,提出了一个知识引导对比学习(KnowCoL)框架,结合了图像和文本描述,以WikiData的结构化信息为根基,形成一个共享语义空间。该模型通过抽象视觉和文本输入到概念层面,利用实体描述、类型层次结构和关系上下文来支持零样本实体识别。在OVEN基准测试集上的实验表明,使用视觉、文本和结构化知识大大提高了准确性,特别是对于罕见和未见过的实体。即使是最小的模型,其未见实体的准确率也比最新技术高出10.5%,且模型大小仅为前者的35倍。
Key Takeaways
- 开放域视觉实体识别旨在将图像中的实体与大型不断变化的概念集进行链接。
- 知识引导对比学习(KnowCoL)框架结合了图像和文本描述,形成共享语义空间。
- 该框架以WikiData的结构化信息为根基,有助于解决有限监督、高视觉模糊性和语义歧义的问题。
- 模型通过抽象视觉和文本输入到概念层面,利用实体描述、类型层次结构和关系上下文支持零样本实体识别。
- 在OVEN基准测试集上的实验显示,整合多种知识来源(视觉、文本、结构化)能显著提高准确率。
- 对于罕见和未见过的实体,该模型表现出优异的性能提升。
点此查看论文截图







The 1st Solution for CARE Liver Task Challenge 2025: Contrast-Aware Semi-Supervised Segmentation with Domain Generalization and Test-Time Adaptation
Authors:Jincan Lou, Jingkun Chen, Haoquan Li, Hang Li, Wenjian Huang, Weihua Chen, Fan Wang, Jianguo Zhang
Accurate liver segmentation from contrast-enhanced MRI is essential for diagnosis, treatment planning, and disease monitoring. However, it remains challenging due to limited annotated data, heterogeneous enhancement protocols, and significant domain shifts across scanners and institutions. Traditional image-to-image translation frameworks have made great progress in domain generalization, but their application is not straightforward. For example, Pix2Pix requires image registration, and cycle-GAN cannot be integrated seamlessly into segmentation pipelines. Meanwhile, these methods are originally used to deal with cross-modality scenarios, and often introduce structural distortions and suffer from unstable training, which may pose drawbacks in our single-modality scenario. To address these challenges, we propose CoSSeg-TTA, a compact segmentation framework for the GED4 (Gd-EOB-DTPA enhanced hepatobiliary phase MRI) modality built upon nnU-Netv2 and enhanced with a semi-supervised mean teacher scheme to exploit large amounts of unlabeled volumes. A domain adaptation module, incorporating a randomized histogram-based style appearance transfer function and a trainable contrast-aware network, enriches domain diversity and mitigates cross-center variability. Furthermore, a continual test-time adaptation strategy is employed to improve robustness during inference. Extensive experiments demonstrate that our framework consistently outperforms the nnU-Netv2 baseline, achieving superior Dice score and Hausdorff Distance while exhibiting strong generalization to unseen domains under low-annotation conditions.
从增强MRI进行准确的肝脏分割对于诊断、治疗计划和疾病监测至关重要。然而,由于标注数据有限、增强协议异质以及扫描仪和机构间的领域漂移等问题,这仍然是一个挑战。传统的图像到图像翻译框架在领域通用化方面取得了很大进展,但其应用并不直接。例如,Pix2Pix需要进行图像注册,而cycle-GAN无法无缝集成到分割流水线中。同时,这些方法原本用于处理跨模态场景,往往会引入结构失真并面临训练不稳定的问题,这在我们这种单模态场景中可能会带来弊端。为了解决这些挑战,我们提出了CoSSeg-TTA,这是一个针对GED4(Gd-EOB-DTPA增强肝细胞期MRI)模态的紧凑分割框架,建立在nnU-Netv2之上,并采用半监督均值教师方案来利用大量未标记的体积数据。一个领域适应模块,结合基于随机直方图的风格外观转移函数和可训练的对比感知网络,丰富了领域多样性并减轻了跨中心变异。此外,采用连续测试时适应策略,以提高推理过程中的稳健性。大量实验表明,我们的框架始终优于nnU-Netv2基线,在Dice得分和Hausdorff距离上表现优越,同时在低注释条件下对未见领域表现出强大的泛化能力。
论文及项目相关链接
PDF 11 pages, 3 figures
Summary
本文提出一种针对GED4模态的紧凑分割框架CoSSeg-TTA,基于nnU-Netv2构建,采用半监督教师方案利用大量未标记体积数据。该框架通过结合基于随机直方图风格转换函数和可训练对比度感知网络的域适应模块,丰富了域多样性和减轻了跨中心差异性。此外,采用持续测试时适应策略,以提高推理阶段的稳健性。实验表明,该框架在低注释条件下相对于nnU-Netv2基线表现出优越性能,实现了更高的Dice分数和Hausdorff距离,并在未见领域具有较强的泛化能力。
Key Takeaways
- 准确肝脏分割在对比增强MRI中对诊断、治疗计划和疾病监测至关重要。
- 传统图像到图像翻译框架在域推广方面取得进展,但应用于肝脏分割具有挑战。
- 所提出的CoSSeg-TTA框架针对GED4模态构建,基于nnU-Netv2并增强半监督教师方案。
- 框架包含域适应模块,通过随机直方图风格转换和对比度感知网络应对跨中心差异。
- 采用持续测试时适应策略提高推理稳健性。
- 实验显示,CoSSeg-TTA框架在低注释条件下相对于基线表现出优越性能。
点此查看论文截图



A Survey on Self-supervised Contrastive Learning for Multimodal Text-Image Analysis
Authors:Asifullah Khan, Laiba Asmatullah, Anza Malik, Shahzaib Khan, Hamna Asif
Self-supervised learning is a machine learning approach that generates implicit labels by learning underlined patterns and extracting discriminative features from unlabeled data without manual labelling. Contrastive learning introduces the concept of “positive” and “negative” samples, where positive pairs (e.g., variation of the same image/object) are brought together in the embedding space, and negative pairs (e.g., views from different images/objects) are pushed farther away. This methodology has shown significant improvements in image understanding and image text analysis without much reliance on labeled data. In this paper, we comprehensively discuss the terminologies, recent developments and applications of contrastive learning with respect to text-image models. Specifically, we provide an overview of the approaches of contrastive learning in text-image models in recent years. Secondly, we categorize the approaches based on different model structures. Thirdly, we further introduce and discuss the latest advances of the techniques used in the process such as pretext tasks for both images and text, architectural structures, and key trends. Lastly, we discuss the recent state-of-art applications of self-supervised contrastive learning Text-Image based models.
自监督学习是一种机器学习的方法,它通过学习潜在的模式和从非标记数据中提取判别特征,生成隐含的标签,而无需人工标注。对比学习引入了“正样本”和“负样本”的概念,其中正样本对(例如,同一图像/对象的变体)在嵌入空间中聚集在一起,而负样本对(例如,来自不同图像/对象的视图)则被推开更远。这种方法在图像理解和图像文本分析方面取得了显著的改进,而且不需要依赖大量的标记数据。在本文中,我们全面讨论了与文本图像模型相关的对比学习的术语、最新发展以及应用。具体地,我们概述了近年来文本图像模型中对比学习的方法。其次,我们根据不同的模型结构对这些方法进行了分类。第三,我们进一步介绍并讨论了在此过程中使用的最新技术,如图像和文本的预训练任务、架构结构和关键趋势。最后,我们讨论了基于文本图像的最新最先进的自监督对比学习的应用。
论文及项目相关链接
PDF 38 pages, 8 figures, survey paper
Summary
无监督学习中的一种方法是自我监督学习,它通过学习潜在模式和从非标记数据中提取辨别特征来生成隐性标签,而无需手动标注。对比学习引入了“阳性”和“阴性”样本的概念,将同一图像/对象的变体拉近嵌入空间,将来自不同图像/对象的视图推开。此方法在图像理解和图像文本分析方面取得了显著改进,且对标记数据的依赖度较低。本文全面讨论了对比学习在文本-图像模型中的术语、最新发展和应用,概述了近年来的文本-图像模型对比学习方法,按模型结构分类,并介绍了最新的技术进展,如图像和文本的预训练任务、架构结构和关键趋势等。
Key Takeaways
- 自我监督学习是通过学习潜在模式和从非标记数据中提取特征来生成隐性标签,无需手动标注。
- 对比学习在机器学习中引入了“阳性”和“阴性”样本的概念。
- 对比学习在图像理解和图像文本分析方面取得了显著改进,并且减少对标记数据的依赖。
- 本文讨论了文本-图像模型中对比学习的最新发展和应用。
- 文本-图像模型的对比学习方法按模型结构进行了分类概述。
- 介绍了最新的技术进展,包括图像和文本的预训练任务、模型架构和关键趋势等。
点此查看论文截图


Contrastive Local Manifold Learning for No-Reference Image Quality Assessment
Authors:Zihao Huang, Runze Hu, Timin Gao, Yan Zhang, Yunhang Shen, Ke Li
Image Quality Assessment (IQA) methods typically overlook local manifold structures, leading to compromised discriminative capabilities in perceptual quality evaluation. To address this limitation, we present LML-IQA, an innovative no-reference IQA (NR-IQA) approach that leverages a combination of local manifold learning and contrastive learning. Our approach first extracts multiple patches from each image and identifies the most visually salient region. This salient patch serves as a positive sample for contrastive learning, while other patches from the same image are treated as intra-class negatives to preserve local distinctiveness. Patches from different images also act as inter-class negatives to enhance feature separation. Additionally, we introduce a mutual learning strategy to improve the model’s ability to recognize and prioritize visually important regions. Comprehensive experiments across eight benchmark datasets demonstrate significant performance gains over state-of-the-art methods, achieving a PLCC of 0.942 on TID2013 (compared to 0.908) and 0.977 on CSIQ (compared to 0.965).
图像质量评估(IQA)方法通常忽略了局部流形结构,导致在感知质量评估中的辨别能力受损。为了解决这一局限性,我们提出了LML-IQA,这是一种创新的无参考IQA(NR-IQA)方法,它结合了局部流形学习和对比学习。我们的方法首先从每张图片中提取多个斑块(patches),并识别出视觉上最突出的区域。这个显著的斑块作为对比学习的正样本,而其他来自同一图像的斑块则被当作类内负样本,以保留局部独特性。来自不同图像的斑块也作为类间负样本,以增强特征分离。此外,我们还引入了一种相互学习策略,以提高模型识别和优先处理视觉重要区域的能力。在八个基准数据集上的综合实验表明,与最先进的方法相比,我们的方法在性能上取得了显著的提升,在TID2013上的PLCC达到了0.942(相比之前的0.908),在CSIQ上的PLCC达到了0.977(相比之前的0.965)。
论文及项目相关链接
Summary:
提出了一种新的无参考图像质量评估(NR-IQA)方法LML-IQA,该方法结合局部流形学习和对比学习,以改善感知质量评估中的判别能力。通过对图像的多块区域提取和显著区域的识别,利用对比学习机制进行训练,同时在模型中加入互学习策略。在八个基准数据集上的实验表明,与最新方法相比,性能有了显著的提升。
Key Takeaways:
- LML-IQA方法结合局部流形学习和对比学习,弥补了现有IQA方法在感知质量评估中的判别能力不足的缺陷。
- 通过提取图像的多块区域并识别显著区域,利用对比学习机制进行训练,以提高模型的性能。
- 引入互学习策略以改善模型识别并优先处理视觉重要区域的能力。
- 在八个基准数据集上进行了综合实验,证明了该方法相较于现有方法的显著性能提升。
- 在TID2013数据集上,LML-IQA的PLCC达到0.942,相较于现有最佳方法的0.908有了显著提升。
- 在CSIQ数据集上,LML-IQA的PLCC达到0.977,相较于现有最佳方法的0.965有所改进。
点此查看论文截图





