嘘~ 正在从服务器偷取页面 . . .

Few-Shot


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-21 更新

BiomedXPro: Prompt Optimization for Explainable Diagnosis with Biomedical Vision Language Models

Authors:Kaushitha Silva, Mansitha Eashwara, Sanduni Ubayasiri, Ruwan Tennakoon, Damayanthi Herath

The clinical adoption of biomedical vision-language models is hindered by prompt optimization techniques that produce either uninterpretable latent vectors or single textual prompts. This lack of transparency and failure to capture the multi-faceted nature of clinical diagnosis, which relies on integrating diverse observations, limits their trustworthiness in high-stakes settings. To address this, we introduce BiomedXPro, an evolutionary framework that leverages a large language model as both a biomedical knowledge extractor and an adaptive optimizer to automatically generate a diverse ensemble of interpretable, natural-language prompt pairs for disease diagnosis. Experiments on multiple biomedical benchmarks show that BiomedXPro consistently outperforms state-of-the-art prompt-tuning methods, particularly in data-scarce few-shot settings. Furthermore, our analysis demonstrates a strong semantic alignment between the discovered prompts and statistically significant clinical features, grounding the model’s performance in verifiable concepts. By producing a diverse ensemble of interpretable prompts, BiomedXPro provides a verifiable basis for model predictions, representing a critical step toward the development of more trustworthy and clinically-aligned AI systems.

生物医学视觉语言模型在临床应用中的采纳受到了提示优化技术的阻碍,这些技术产生了不可解释的潜在向量或单一文本提示。这种缺乏透明度和无法捕捉临床诊断的多面性(依赖于整合各种观察结果)限制了它们在高风险环境中的可信度。为解决这一问题,我们引入了BioMedXPro,这是一个进化框架,利用大型语言模型作为生物医学知识提取器和自适应优化器,自动生成一系列可解释的自然语言提示对,用于疾病诊断。在多个生物医学基准测试上的实验表明,BioMedXPro持续优于最先进的提示调整方法,特别是在数据稀缺的少数镜头环境中表现尤为出色。此外,我们的分析表明,发现的提示与统计学上重要的临床特征之间存在强烈语义对齐,为模型性能提供了可验证的概念基础。通过生成一系列可解释性的提示组合,BioMedXPro为模型预测提供了可验证的依据,朝着开发更可靠、更符合临床需求的AI系统迈出了关键一步。

论文及项目相关链接

PDF 10 Pages + 15 Supplementary Material Pages, 5 figures

Summary

生物医学视觉语言模型在临床应用中的局限性在于其提示优化技术产生的潜在向量难以解释或仅限于单一文本提示。这导致了模型的透明度不足,并忽略了临床诊断需要整合各种观察的多面性特点,限制了其在高风险环境下的可信度。为解决这一问题,我们推出BiomedXPro框架,利用大型语言模型同时作为生物医学知识提取器和自适应优化器,自动生成一系列可解释的、自然语言提示对,用于疾病诊断。实验证明,在多个生物医学基准测试中,BiomedXPro持续超越先进的提示调整方法,尤其在数据稀缺的少数场景下表现尤为出色。此外,我们的分析显示,发现的提示与临床特征之间存在强烈语义对齐,为模型性能提供了可验证的概念基础。通过生成一系列可解释性的提示组合,BiomedXPro为模型预测提供了可验证的依据,标志着开发更可靠、更符合临床需求的AI系统的关键步骤。

Key Takeaways

  1. 生物医学视觉语言模型在临床应用面临挑战,主要包括缺乏透明度和不能全面反映临床诊断的多面性。
  2. 提出了一种新型的框架BiomedXPro,该框架结合了大型语言模型进行生物医学知识提取和自适应优化。
  3. BiomedXPro能够自动生成一系列可解释的自然语言提示对,用于疾病诊断。
  4. 实验证明BiomedXPro在多个生物医学基准测试中表现优异,特别是在少数数据场景下。
  5. 发现提示与临床特征之间存在强烈的语义对齐,为模型性能提供了可验证的基础。
  6. BiomedXPro生成的提示组合具有多样性,为模型预测提供了可验证的依据。

Cool Papers

点此查看论文截图

Few-Shot Demonstration-Driven Task Coordination and Trajectory Execution for Multi-Robot Systems

Authors:Taehyeon Kim, Vishnunandan L. N. Venkatesh, Byung-Cheol Min

In this paper, we propose a novel few-shot learning framework for multi-robot systems that integrate both spatial and temporal elements: Few-Shot Demonstration-Driven Task Coordination and Trajectory Execution (DDACE). Our approach leverages temporal graph networks for learning task-agnostic temporal sequencing and Gaussian Processes for spatial trajectory modeling, ensuring modularity and generalization across various tasks. By decoupling temporal and spatial aspects, DDACE requires only a small number of demonstrations, significantly reducing data requirements compared to traditional learning from demonstration approaches. To validate our proposed framework, we conducted extensive experiments in task environments designed to assess various aspects of multi-robot coordination-such as multi-sequence execution, multi-action dynamics, complex trajectory generation, and heterogeneous configurations. The experimental results demonstrate that our approach successfully achieves task execution under few-shot learning conditions and generalizes effectively across dynamic and diverse settings. This work underscores the potential of modular architectures in enhancing the practicality and scalability of multi-robot systems in real-world applications. Additional materials are available at https://sites.google.com/view/ddace.

在这篇论文中,我们提出了一种用于多机器人系统的新型小样本学习框架,该框架结合了空间和时间元素:小样本次任务协调与轨迹执行(DDACE)。我们的方法利用时间图网络进行任务无关的时间序列学习,并利用高斯过程进行空间轨迹建模,确保在各种任务中的模块化和通用性。通过解耦时间和空间的方面,DDACE仅需要少量的演示,与传统的从演示中学习的方法相比,显著减少了数据需求。为了验证我们提出的框架,我们在设计用于评估多机器人协调各个方面的任务环境中进行了广泛实验,例如多序列执行、多动作动力学、复杂轨迹生成和异构配置等。实验结果表明,我们的方法在小样本学习条件下成功实现了任务执行,并在动态和多样化的环境中有效地实现了通用化。这项工作强调了模块化架构在增强多机器人系统在现实世界应用中的实用性和可扩展性方面的潜力。更多材料请访问:https://sites.google.com/view/ddace。

论文及项目相关链接

PDF

Summary

本文提出了一种用于多机器人系统的新型少样本学习框架,该框架结合了时空元素:少样本演示驱动的任务协调与轨迹执行(DDACE)。该方法利用时序图网络进行任务无关的时序序列学习,高斯过程进行空间轨迹建模,确保模块化和跨任务的泛化能力。DDACE通过解耦时空方面,仅需要少量演示数据,与传统从演示中学习的方法相比,显著减少了数据需求。为验证所提框架,我们在设计用于评估多机器人协调各方面任务的环境中进行了大量实验,如多序列执行、多动作动力学、复杂轨迹生成和异构配置等。实验结果表明,该方法在少样本学习条件下成功实现了任务执行,并在动态和多样化设置中有效泛化。这项工作突出了模块化架构在增强多机器人系统在现实应用中的实用性和可扩展性方面的潜力。

Key Takeaways

  1. 提出了名为DDACE的少样本学习框架,用于多机器人系统的任务协调和轨迹执行。
  2. 结合了时空元素,利用时序图网络进行任务时序学习,高斯过程进行空间轨迹建模。
  3. 解耦了时空方面,使得仅需要少量演示数据,减少了数据需求。
  4. 通过广泛实验验证了框架的有效性,包括多序列执行、多动作动力学、复杂轨迹生成和异构配置等方面。
  5. 实验结果表明,DDACE在少样本学习条件下成功实现任务执行,并能在动态和多样化设置中有效泛化。
  6. DDACE框架有助于增强多机器人系统在现实应用中的实用性和可扩展性。

Cool Papers

点此查看论文截图

ClapperText: A Benchmark for Text Recognition in Low-Resource Archival Documents

Authors:Tingyu Lin, Marco Peer, Florian Kleber, Robert Sablatnig

This paper presents ClapperText, a benchmark dataset for handwritten and printed text recognition in visually degraded and low-resource settings. The dataset is derived from 127 World War II-era archival video segments containing clapperboards that record structured production metadata such as date, location, and camera-operator identity. ClapperText includes 9,813 annotated frames and 94,573 word-level text instances, 67% of which are handwritten and 1,566 are partially occluded. Each instance includes transcription, semantic category, text type, and occlusion status, with annotations available as rotated bounding boxes represented as 4-point polygons to support spatially precise OCR applications. Recognizing clapperboard text poses significant challenges, including motion blur, handwriting variation, exposure fluctuations, and cluttered backgrounds, mirroring broader challenges in historical document analysis where structured content appears in degraded, non-standard forms. We provide both full-frame annotations and cropped word images to support downstream tasks. Using a consistent per-video evaluation protocol, we benchmark six representative recognition and seven detection models under zero-shot and fine-tuned conditions. Despite the small training set (18 videos), fine-tuning leads to substantial performance gains, highlighting ClapperText’s suitability for few-shot learning scenarios. The dataset offers a realistic and culturally grounded resource for advancing robust OCR and document understanding in low-resource archival contexts. The dataset and evaluation code are available at https://github.com/linty5/ClapperText.

本文介绍了ClapperText数据集,这是一套用于视觉退化、资源匮乏环境下手写和打印文本识别的基准数据集。该数据集来源于二战时期的档案视频片段,包含带有结构化的生产元数据(如日期、地点和摄影师身份)的拍板信息。ClapperText包含了9,813个注释帧和94,573个单词级别的文本实例,其中67%是手写文本,还有1,566个部分遮挡的文本实例。每个实例都包含转录、语义类别、文本类型和遮挡状态,注释以旋转的边界框的形式呈现,表示为四点多边形,以支持空间精确的OCR应用程序。识别拍板文本存在重大挑战,包括运动模糊、手写差异、曝光波动和杂乱背景等,这反映了历史文档分析中面临的更广泛挑战,即结构化内容出现在退化、非标准形式中。我们提供了全帧注释和裁剪的单词图像来支持下游任务。通过使用一致的按视频评估协议,我们在零样本和微调条件下对六个代表性识别模型和七个检测模型进行了基准测试。尽管训练集较小(仅包含18个视频),但微调带来了巨大的性能提升,突显了ClapperText在少样本学习场景中的适用性。该数据集为低资源档案环境中稳健的OCR和文档理解提供了现实且文化基础丰富的资源。数据集和评估代码可在https://github.com/linty5/ClapperText获取。

论文及项目相关链接

PDF 18 pages, accepted at ICDAR2025 DALL

Summary

该论文介绍了ClapperText数据集,该数据集专为手写和打印文本的识别而生,特别适用于视觉退化以及资源有限的环境中。数据集取材自二战时期的档案视频片段,包含用于记录结构化生产元数据的拍板(如日期、地点和摄影师身份)。ClapperText包含9,813个已标注的帧和94,573个单词级别的文本实例,其中67%是手写文本,还包括部分遮挡文本。每个实例包含转录内容、语义类别、文本类型和遮挡状态等标注信息,以旋转的边界框形式呈现为四点多边形,支持空间精确的光学字符识别(OCR)应用。识别拍板文本面临诸多挑战,包括运动模糊、书写差异、曝光波动和杂乱背景等,反映了历史文档分析中的广泛挑战,其中结构化内容出现在退化且非标准的形式中。该论文提供了全帧标注和裁剪后的单词图像来支持下游任务。使用统一的视频评估协议,我们对六个代表性识别模型和七个检测模型进行了零样本和微调条件下的评估。尽管训练集很小(仅包含18个视频),但微调带来了显著的性能提升,凸显了ClapperText在少样本学习场景中的适用性。该数据集为资源有限的档案环境中的稳健OCR和文档理解提供了现实且文化基础丰富的资源。

Key Takeaways

  1. ClapperText是一个用于手写和打印文本识别的数据集,适用于视觉退化及资源有限的环境。
  2. 数据集取材自二战时期的档案视频片段,包含结构化生产元数据。
  3. 数据集包含标注的帧和单词级别的文本实例,涵盖手写和遮挡文本。
  4. 识别拍板文本面临诸多挑战,包括运动模糊、书写差异等。
  5. 使用统一的视频评估协议进行了模型和性能评估。
  6. 即便训练集小,微调也能显著提升模型性能,凸显其在少样本学习中的价值。

Cool Papers

点此查看论文截图

CMaP-SAM: Contraction Mapping Prior for SAM-driven Few-shot Segmentation

Authors:Shuai Chen, Fanman Meng, Liming Lei, Haoran Wei, Chenhao Wu, Qingbo Wu, Linfeng Xu, Hongliang Li

Few-shot segmentation (FSS) aims to segment new classes using few annotated images. While recent FSS methods have shown considerable improvements by leveraging Segment Anything Model (SAM), they face two critical limitations: insufficient utilization of structural correlations in query images, and significant information loss when converting continuous position priors to discrete point prompts. To address these challenges, we propose CMaP-SAM, a novel framework that introduces contraction mapping theory to optimize position priors for SAM-driven few-shot segmentation. CMaP-SAM consists of three key components: (1) a contraction mapping module that formulates position prior optimization as a Banach contraction mapping with convergence guarantees. This module iteratively refines position priors through pixel-wise structural similarity, generating a converged prior that preserves both semantic guidance from reference images and structural correlations in query images; (2) an adaptive distribution alignment module bridging continuous priors with SAM’s binary mask prompt encoder; and (3) a foreground-background decoupled refinement architecture producing accurate final segmentation masks. Extensive experiments demonstrate CMaP-SAM’s effectiveness, achieving state-of-the-art performance with 71.1 mIoU on PASCAL-$5^i$ and 56.1 on COCO-$20^i$ datasets. Code is available at https://github.com/Chenfan0206/CMaP-SAM.

少量样本分割(FSS)旨在利用少量标注图像对新类别进行分割。虽然最近的FSS方法通过利用任意分割模型(SAM)取得了显著的改进,但它们面临两个关键局限性:未能充分利用查询图像中的结构关联,以及在将连续位置先验转换为离散点提示时丢失了大量信息。为了解决这些挑战,我们提出了CMaP-SAM,这是一个引入收缩映射理论来优化SAM驱动的少量样本分割的位置先验值的新框架。CMaP-SAM由三个关键组件构成:(1)收缩映射模块,它将位置先验值优化公式化为具有收敛保证的巴拿赫收缩映射。该模块通过像素级结构相似性迭代优化位置先验值,生成一个收敛的先验值,该先验值既保留了参考图像的语义指导,又保留了查询图像中的结构关联;(2)一个自适应分布对齐模块,桥接连续先验值与SAM的二进制蒙版提示编码器;(3)一个前景-背景解耦细化架构,生成精确的最终分割蒙版。大量实验证明了CMaP-SAM的有效性,在PASCAL-5i数据集上达到71.1 mIoU的领先水平,在COCO-20i数据集上达到56.1的领先水平。代码可访问https://github.com/Chenfan0206/CMaP-SAM。

论文及项目相关链接

PDF 7 figures

Summary

本文提出一种基于收缩映射理论的新框架CMaP-SAM,用于优化面向少量标注图像的分割任务中的位置先验。通过引入收缩映射模块、自适应分布对齐模块和前景背景解耦细化架构,解决了现有方法在处理查询图像时结构关联利用不足和信息损失严重的问题。在PASCAL-5i和COCO-20i数据集上取得了最先进的性能,分别达到71.1 mIoU和56.1的准确度。

Key Takeaways

  1. FSS的目标是使用少量标注图像对新类别进行分割。
  2. 现有FSS方法主要面临两个挑战:未能充分利用查询图像的结构关联,以及在将连续位置先验转换为离散点提示时信息损失严重。
  3. CMaP-SAM框架通过引入收缩映射模块来解决这些问题,该模块将位置先验优化公式化为具有收敛保证的巴拿赫收缩映射。
  4. CMaP-SAM包含三个关键组件:收缩映射模块、自适应分布对齐模块和前景背景解耦细化架构。
  5. 收缩映射模块通过像素级的结构相似性来迭代优化位置先验,生成既保留参考图像语义指导又保留查询图像结构关联的收敛先验。
  6. 自适应分布对齐模块将连续先验与SAM的二元掩膜提示编码器相连接。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录