嘘~ 正在从服务器偷取页面 . . .

Vision Transformer


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-22 更新

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

Authors:Samuel Stevens

ImageNet-1K linear-probe transfer accuracy remains the default proxy for visual representation quality, yet it no longer predicts performance on scientific imagery. Across 46 modern vision model checkpoints, ImageNet top-1 accuracy explains only 34% of variance on ecology tasks and mis-ranks 30% of models above 75% accuracy. We present BioBench, an open ecology vision benchmark that captures what ImageNet misses. BioBench unifies 9 publicly released, application-driven tasks, 4 taxonomic kingdoms, and 6 acquisition modalities (drone RGB, web video, micrographs, in-situ and specimen photos, camera-trap frames), totaling 3.1M images. A single Python API downloads data, fits lightweight classifiers to frozen backbones, and reports class-balanced macro-F1 (plus domain metrics for FishNet and FungiCLEF); ViT-L models evaluate in 6 hours on an A6000 GPU. BioBench provides new signal for computer vision in ecology and a template recipe for building reliable AI-for-science benchmarks in any domain. Code and predictions are available at https://github.com/samuelstevens/biobench and results at https://samuelstevens.me/biobench.

ImageNet-1K线性探针迁移准确度仍然是视觉表示质量默认的代理指标,但它已不再能预测科学图像的性能。在46个现代视觉模型检查点中,ImageNet top-1准确度只能解释生态任务中34%的方差,并且在高于75%准确度的模型中误排了30%。我们推出了BioBench,这是一个开放的生态视觉基准测试,旨在捕捉ImageNet遗漏的内容。BioBench统一了9个公开发布的、以应用为导向的任务、4个分类王国和6种采集方式(无人机RGB、网络视频、显微照片、实地拍摄和标本照片、相机陷阱框架),总计310万张图像。一个Python API可以下载数据,对冻结的骨干网进行轻型分类器适配,并报告类别平衡宏观F1(以及针对FishNet和FungiCLEF的域指标);ViT-L模型在A6000 GPU上可在6小时内进行评估。BioBench为生态计算机视觉提供了新的信号,并为任何领域建立可靠的AI科学基准提供了模板配方。代码和预测结果可在[https://github.com/samuelstevens/biobench查看,结果可在https://samuelstevens.me/biobench浏览。]

论文及项目相关链接

PDF Accepted at the 3rd Imageomics Workshop at NeurIPS 2025

Summary

本文介绍了ImageNet-1K linear-probe转移准确率不再是视觉表示质量的标准代理,特别是在科学图像上。为此,文章提出了BioBench,一个开放的生态视觉基准测试平台。该平台集成了多种应用驱动的生态任务、不同分类物种以及图像采集方式等。BioBench能衡量ImageNet所忽略的部分,为计算机视觉在生态学领域提供新的衡量标准,并为建立可靠的AI-for-science基准测试提供了模板。代码和预测结果已在指定链接公开。

Key Takeaways

  1. ImageNet-1K linear-probe转移准确率不再全面反映模型的性能表现。
  2. ImageNet在生态任务上的预测能力有限,仅能解释方差变化的34%。
  3. BioBench作为新的开放生态视觉基准测试平台推出,弥补了ImageNet的不足。
  4. BioBench集成了多种公开的应用驱动任务、分类物种和图像采集方式等,共计310万张图像。
  5. BioBench采用统一的Python API进行数据下载和分类评估,并能轻松报告类平衡宏观F1值及特定领域的度量指标。
  6. 大型Vision Transformer模型在A6000 GPU上的评估时间约为6小时。

Cool Papers

点此查看论文截图

Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling

Authors:Minseok Seo, Mark Hamilton, Changick Kim

We present \textbf{Upsample Anything}, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only $\approx0.419 \text{s}$ per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling.

我们提出了任意上采样(Upsample Anything),这是一种轻量级的测试时优化(TTO)框架,无需任何训练即可将低分辨率特征恢复为高分辨率的像素级输出。尽管视觉基础模型在多种下游任务中表现出了强大的泛化能力,但它们的表示通常通过14倍或更大的下采样(例如ViT),这限制了它们在像素级应用中的直接使用。现有的特征上采样方法依赖于针对特定数据集的重训练或隐式的复杂优化,这限制了可扩展性和泛化能力。任意上采样通过简单的单图像优化解决了这些问题,该优化学习了一个结合空间线索和范围线索的定向高斯核,有效地结合了高斯贴图和联合双边上采样。学习的核作为一种通用、边缘感知的操作符,在架构和模态之间无缝转换,能够实现特征、深度或概率地图的高精度高分辨率重建。它在大小为224x224的图像上运行时间仅为约0.419秒,并在语义分割、深度估计以及深度和概率地图的上采样方面达到了最先进的性能。

论文及项目相关链接

PDF 15 pages, 12 figures

Summary
文本介绍了名为“Upsample Anything”的测试时优化框架,它可以在不重新训练的情况下将低分辨率特征恢复为高分辨率的像素级输出。尽管视觉基础模型可以在多种下游任务中展现出强大的泛化能力,但它们的表示通常会以高达十六分之一的方式降采样(例如ViT),从而限制了它们在像素级应用中的直接使用。现有的特征上采样方法依赖于特定数据集的重训练或复杂的隐式优化,限制了其可扩展性和泛化能力。“Upsample Anything”通过简单的逐图像优化解决了这些问题,学习了一种结合空间范围和线索的线性高斯核,有效桥接了高斯采样和双边联合上采样。学习的核作为一种通用、边缘感知算子,可以无缝地跨架构和模态传输,能够精确地重建特征、深度或概率图的高分辨率。它以每张约0.419秒的速率运行,并在语义分割、深度估计以及深度和概率图上采样方面达到了最先进的性能。

Key Takeaways

  • “Upsample Anything”是一个轻量级的测试时优化框架,无需训练即可将低分辨率特征转换为高分辨率像素级输出。
  • 该框架解决了现有特征上采样方法依赖特定数据集重训练或复杂隐式优化的问题,提高了可扩展性和泛化能力。
  • 通过学习一个结合空间范围和线索的线性高斯核,该框架有效地结合了高斯采样和双边联合上采样技术。
  • 学习的核作为一种通用、边缘感知算子,可以跨不同架构和模态无缝传输。
  • 该框架能够实现特征、深度或概率图的高精度重建。
  • 它在多种任务上达到了最先进的性能,包括语义分割、深度估计以及深度和概率图上采样。

Cool Papers

点此查看论文截图

T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs

Authors:Shao-Jun Xia, Huixin Zhang, Zhengzhong Tu

In large language models (LLM), in-context learning (ICL) refers to performing new tasks by conditioning on small demonstrations provided in the input context. Recent advances in visual in-context learning (VICL) demonstrate promising capabilities for solving downstream tasks by unified vision-language models (VLMs). When the visual prompt and the target images originate from different visual tasks, can VLMs still enable VICL? In the paper, we propose a fully collaborative pipeline, i.e. T2T-VICL, for VLMs to investigate the potential of cross-task VICL. Fundamentally, we design a mechanism to generate and select text prompts that best implicitly describe the differences between two distinct low-level vision tasks, and construct the first cross-task VICL dataset. Building upon this, we propose a novel inference framework that combines perceptual score-based reasoning with traditional evaluation metrics to perform cross-task VICL. Our approach achieves top-tier results across nine cross-task scenarios and second-tier performance in ten additional scenarios, unlocking the boundaries of cross-task VICL within VLMs.

在大规模语言模型(LLM)中,上下文学习(ICL)是指通过在输入上下文中提供的小演示来执行新任务。视觉上下文学习(VICL)的最新进展表明,通过统一视觉语言模型(VLM),解决下游任务的能力具有巨大潜力。当视觉提示和目标图像来自不同的视觉任务时,VLM是否仍然能够实现VICL?在论文中,我们提出了一种完全协作的管道,即T2T-VICL,用于VLM研究跨任务VICL的潜力。从根本上说,我们设计了一种机制来生成和选择文本提示,这些文本提示最能隐含地描述两个不同低级视觉任务之间的差异,并构建了第一个跨任务VICL数据集。在此基础上,我们提出了一种结合感知评分推理和传统评估指标的新型推理框架,以执行跨任务VICL。我们的方法在九个跨任务场景中取得了顶尖结果,在另外十个场景中取得了第二梯队的表现,在VLM中解锁了跨任务VICL的边界。

论文及项目相关链接

PDF

Summary

在大型语言模型中,上下文学习是通过在输入上下文中提供的小演示来执行新任务的方法。最近的视觉上下文学习进展显示出通过统一视觉语言模型解决下游任务的潜力。当视觉提示和目标图像来自不同的视觉任务时,视觉语言模型是否仍然能够实现视觉上下文学习?本文提出了一个完全协作的管道,即T2T-VICL,以研究跨任务视觉上下文学习的潜力。我们设计了一种机制来生成和选择最能隐含描述两个不同低级视觉任务之间差异的文字提示,并构建了第一个跨任务视觉上下文学习数据集。在此基础上面,我们提出了一种结合感知评分推理和传统评估指标的新型推理框架,以实现跨任务视觉上下文学习。我们的方法在九个跨任务场景中取得了顶尖结果,在另外十个场景中取得了第二梯队的表现,解锁了视觉语言模型中跨任务视觉上下文学习的边界。

Key Takeaways

  1. 文中探讨了大型语言模型中的上下文学习(ICL),特别是通过统一视觉语言模型解决下游任务的能力。
  2. 当视觉提示和目标图像来自不同视觉任务时,文章研究了视觉语言模型是否仍然能够实现视觉上下文学习。
  3. 提出了一种名为T2T-VICL的完全协作管道,旨在研究跨任务视觉上下文学习的潜力。
  4. 设计了一种机制来生成和选择能够隐含描述不同低级视觉任务之间差异的文字提示。
  5. 构建了第一个跨任务视觉上下文学习数据集。
  6. 提出了一种结合感知评分推理和传统评估指标的推理框架,以实现跨任务视觉上下文学习。

Cool Papers

点此查看论文截图

vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs

Authors:Minye Shao, Sihan Guo, Xinrun Li, Xingyu Miao, Haoran Duan, Yang Long

Recent advances in context optimization (CoOp) guided by large language model (LLM)-distilled medical semantic priors offer a scalable alternative to manual prompt engineering and full fine-tuning for adapting biomedical CLIP-based vision-language models (VLMs). However, prompt learning in this context is challenged by semantic misalignment between LLMs and CLIP variants due to divergent training corpora and model architectures; it further lacks scalability across continuously evolving families of foundation models. More critically, pairwise multimodal alignment via conventional Euclidean-space optimization lacks the capacity to model unified representations or apply localized geometric constraints, which tends to amplify modality gaps in complex biomedical imaging and destabilize few-shot adaptation. In this work, we propose vMFCoOp, a framework that inversely estimates von Mises-Fisher (vMF) distributions on a shared Hyperspherical Manifold, aligning semantic biases between arbitrary LLMs and CLIP backbones via Unified Semantic Anchors to achieve robust biomedical prompting and superior few-shot classification. Grounded in three complementary constraints, vMFCoOp demonstrates consistent improvements across 14 medical datasets, 12 medical imaging modalities, and 13 anatomical regions, outperforming state-of-the-art methods in accuracy, generalization, and clinical applicability. This work aims to continuously expand to encompass more downstream applications, and the corresponding resources are intended to be shared through https://github.com/VinyehShaw/UniEqui.

近期,利用大型语言模型(LLM)提炼出的医学语义先验知识来指导上下文优化(CoOp)的方法,为基于CLIP的视语言模型(VLM)的适应提供了可规模化的替代方案,无需手动提示工程和全面微调。然而,在这种情况下,提示学习面临LLM和CLIP变体之间语义不一致的挑战,这是由于训练语料库和模型架构的差异性造成的;它缺乏跨不断发展的基础模型的扩展性。更重要的是,通过传统的欧几里得空间优化进行的一对多模态对齐,缺乏建模统一表示或应用局部几何约束的能力,这往往会放大复杂生物医学成像中的模态差距,并破坏少量数据的适应性。在这项工作中,我们提出了vMFCoOp框架,它通过逆向估计共享超球流形上的冯·米塞斯-费舍尔(vMF)分布,并通过统一语义锚对齐任意LLM和CLIP之间的语义偏差,以实现稳健的生物医学提示和卓越的小样本分类。基于三项互补约束,vMFCoOp在14个医疗数据集、12种医疗成像方式和1 3个解剖区域上实现了持续的改进,在准确性、泛化能力和临床适用性方面均优于最先进的方法。本工作的目标是不断扩大以涵盖更多的下游应用,相关资源将通过https://github.com/VinyehShaw/UniEqui进行共享。

论文及项目相关链接

PDF Accepted as an Oral Presentation at AAAI 2026 Main Technical Track (this version is not peer-reviewed; it is the extended version)

Summary

基于大型语言模型(LLM)蒸馏医学语义先验的上下文优化(CoOp)进展为解决生物医学CLIP基视觉语言模型(VLMs)的适应问题提供了可伸缩的替代方案,如手动提示工程和全精细调整。然而,在此背景下的提示学习面临LLMs和CLIP变体之间语义不一致的挑战,以及训练语料库和模型架构的差异性导致的可扩展性问题。为解决这些问题,本文提出vMFCoOp框架,通过共享超球面流形上反向估计von Mises-Fisher(vMF)分布,通过统一语义锚对齐任意LLMs和CLIP骨架之间的语义偏差,实现稳健的生物医学提示和优越的小样本分类。基于三个互补约束的vMFCoOp在14个医疗数据集、12种医疗成像模态和13个解剖区域上显示出一致的改进,在准确性、通用性和临床适用性方面优于最新方法。

Key Takeaways

  1. LLMs与CLIP-based VLMs之间存在语义不一致问题。
  2. vMFCoOp框架通过共享超球面流形上的vMF分布对齐语义偏差来解决这一问题。
  3. vMFCoOp使用统一语义锚实现稳健的生物医学提示和优越的小样本分类。
  4. 该框架在多个医疗数据集、成像模态和解剖区域上表现出优异性能。
  5. vMFCoOp优于现有方法,在准确性、通用性和临床适用性方面有明显提升。
  6. 该工作的目标是不断扩展以涵盖更多的下游应用,并通过https://github.com/VinyehShaw/UniEqui共享资源。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录