嘘~ 正在从服务器偷取页面 . . .

Few-Shot


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-08 更新

MedSapiens: Taking a Pose to Rethink Medical Imaging Landmark Detection

Authors:Marawan Elbatel, Anbang Wang, Keyuan Liu, Kaouther Mouheb, Enrique Almar-Munoz, Lizhuo Lin, Yanqi Yang, Karim Lekadir, Xiaomeng Li

This paper does not introduce a novel architecture; instead, it revisits a fundamental yet overlooked baseline: adapting human-centric foundation models for anatomical landmark detection in medical imaging. While landmark detection has traditionally relied on domain-specific models, the emergence of large-scale pre-trained vision models presents new opportunities. In this study, we investigate the adaptation of Sapiens, a human-centric foundation model designed for pose estimation, to medical imaging through multi-dataset pretraining, establishing a new state of the art across multiple datasets. Our proposed model, MedSapiens, demonstrates that human-centric foundation models, inherently optimized for spatial pose localization, provide strong priors for anatomical landmark detection, yet this potential has remained largely untapped. We benchmark MedSapiens against existing state-of-the-art models, achieving up to 5.26% improvement over generalist models and up to 21.81% improvement over specialist models in the average success detection rate (SDR). To further assess MedSapiens adaptability to novel downstream tasks with few annotations, we evaluate its performance in limited-data settings, achieving 2.69% improvement over the few-shot state of the art in SDR. Code and model weights are available at https://github.com/xmed-lab/MedSapiens .

本文并未介绍新型架构,而是重新关注一个基础却被忽视的基本线:适应以人为中心的基础模型,用于医学影像中的解剖地标检测。虽然地标检测一直依赖于特定领域的模型,但大规模预训练视觉模型的出现带来了新的机遇。在这项研究中,我们调查了以人为中心的基础模型(用于姿态估计的Sapiens模型)通过多数据集进行预训练,以适应医学影像,并在多个数据集上建立了新的最先进的水平。我们提出的MedSapiens模型证明,以人为中心的基础模型,本身就针对空间姿态定位进行了优化,为解剖地标检测提供了强有力的先验知识,但这个潜力却一直被忽视。我们将MedSapiens与现有的最先进模型进行了基准测试,在平均成功检测率(SDR)方面,与专业通用模型相比提高了高达5.26%,与特定领域模型相比提高了高达21.81%。为了进一步评估MedSapiens对具有少量注释的新下游任务的适应性,我们在有限数据设置下评估了其性能,在SDR方面比少数镜头最先进的水平提高了2.69%。代码和模型权重可在https://github.com/xmed-lab/MedSapiens找到。

论文及项目相关链接

PDF

Summary

本文未引入新型架构,而是重新审视了一个基本却被忽视的基线:适应以人为中心的基础模型,用于医学影像中的解剖标志点检测。该研究探讨了人类中心基础模型在医学影像中的适用性,并通过多数据集预训练实现了医学成像的新技术前沿。所提出的模型MedSapiens展示了人类中心基础模型在空间姿态定位方面的强大优势,为解剖标志点检测提供了强有力的先验知识。相较于现有技术前沿模型,MedSapiens在平均成功率检测率上提高了高达5.26%和高达21.81%,并且能适应具有较少注释的新下游任务。该模型的代码和权重已发布在GitHub上。

Key Takeaways

  1. 该研究未引入新型架构,而是关注于适应以人为中心的基础模型进行医学影像中的解剖标志点检测。
  2. 研究者通过多数据集预训练,将基础模型适应于医学成像领域,并建立了新的技术前沿。
  3. 所提出的模型MedSapiens在解剖标志点检测方面表现出强大的性能,具有强大的空间姿态定位能力。
  4. MedSapiens相较于现有技术前沿模型,在平均成功率检测率上实现了显著的提升。
  5. 该模型具有良好的适应性,能够在具有较少注释的新下游任务中表现良好。
  6. MedSapiens的代码和权重已公开发布在GitHub上。

Cool Papers

点此查看论文截图

Context informs pragmatic interpretation in vision-language models

Authors:Alvin Wei Ming Tan, Ben Prystawski, Veronica Boyce, Michael C. Frank

Iterated reference games - in which players repeatedly pick out novel referents using language - present a test case for agents’ ability to perform context-sensitive pragmatic reasoning in multi-turn linguistic environments. We tested humans and vision-language models on trials from iterated reference games, varying the given context in terms of amount, order, and relevance. Without relevant context, models were above chance but substantially worse than humans. However, with relevant context, model performance increased dramatically over trials. Few-shot reference games with abstract referents remain a difficult task for machine learning models.

重复引用游戏——玩家在游戏中反复使用语言选择新的引用物——为代理在多轮语言环境中进行语境敏感的语用推理能力提供了测试案例。我们在重复引用游戏的试验中测试了人类和视觉语言模型,通过数量、顺序和相关性来变化给定的语境。在没有相关语境的情况下,模型的准确率高于随机猜测,但远远落后于人类。然而,在有相关语境的情况下,模型的表现随着试验次数的增加而显著提高。在抽象引用物的迭代引用游戏中,仍然是一项对机器学习模型的艰巨任务。

论文及项目相关链接

PDF Accepted at CogInterp Workshop, NeurIPS 2025

Summary

在迭代参考游戏中,玩家需要反复使用语言来选择新的参照物,这对代理在多轮语言环境中进行上下文相关的语用推理能力提出了挑战。我们对人类和视觉语言模型进行了测试,结果显示在缺乏相关上下文的情况下,模型的表现虽然超过随机水平,但仍远远落后于人类。然而,当有相关上下文时,随着试玩的进行,模型的表现显著提高。在具有抽象参照物的少镜头参考游戏中,机器学习模型仍然面临巨大挑战。

Key Takeaways

  1. 迭代参考游戏用于测试上下文的语用推理能力。
  2. 在无相关上下文的情况下,视觉语言模型的表现虽优于随机水平,但远逊于人类。
  3. 当提供相关的上下文时,模型性能会随着试验次数而显著提高。
  4. 在涉及抽象参照物的少镜头参考游戏中,机器学习模型仍面临挑战。
  5. 模型需要在多轮对话的环境中理解和生成语境相关的语言。
  6. 上下文信息对于理解和生成自然语言至关重要。

Cool Papers

点此查看论文截图

Laugh, Relate, Engage: Stylized Comment Generation for Short Videos

Authors:Xuan Ouyang, Senan Wang, Bouzhou Wang, Siyuan Xiahou, Jinrong Zhou, Yuekang Li

Short-video platforms have become a central medium in the modern Internet landscape, where efficient information delivery and strong interactivity are reshaping user engagement and cultural dissemination. Among the various forms of user interaction, comments play a vital role in fostering community participation and enabling content re-creation. However, generating comments that are both compliant with platform guidelines and capable of exhibiting stylistic diversity and contextual awareness remains a significant challenge. We introduce LOLGORITHM, a modular multi-agent system (MAS) designed for controllable short-video comment generation. The system integrates video segmentation, contextual and affective analysis, and style-aware prompt construction. It supports six distinct comment styles: puns (homophones), rhyming, meme application, sarcasm (irony), plain humor, and content extraction. Powered by a multimodal large language model (MLLM), LOLGORITHM directly processes video inputs and achieves fine-grained style control through explicit prompt markers and few-shot examples. To support development and evaluation, we construct a bilingual dataset using official APIs from Douyin (Chinese) and YouTube (English), covering five popular video genres: comedy skits, daily life jokes, funny animal clips, humorous commentary, and talk shows. Evaluation combines automated metrics originality, relevance, and style conformity with a large-scale human preference study involving 40 videos and 105 participants. Results show that LOLGORITHM significantly outperforms baseline models, achieving preference rates of over 90% on Douyin and 87.55% on YouTube. This work presents a scalable and culturally adaptive framework for stylized comment generation on short-video platforms, offering a promising path to enhance user engagement and creative interaction.

短视频平台已成为现代互联网景观中的核心媒介,高效的信息传递和强大的互动性正在重塑用户参与和文化传播。在多种形式的用户互动中,评论对于促进社区参与和推动内容再创作起到了至关重要的作用。然而,生成既符合平台指南又能够展现风格多样性和语境意识的评论仍然是一个巨大的挑战。我们推出了LOLGORITHM,这是一个专为可控短视频评论生成设计的模块化多智能体系统(MAS)。该系统结合了视频分段、上下文和情感分析以及风格感知提示构建。它支持六种不同的评论风格:双关语(同音词)、押韵、模因应用、讽刺(反语)、普通幽默和内容提取。LOLGORITHM由多模态大型语言模型(MLLM)驱动,直接处理视频输入,并通过明确的提示标记和少量示例实现精细的风格控制。为了支持和评估,我们使用抖音(中文)和YouTube(英文)的官方API构建了一个双语数据集,涵盖了五种受欢迎的视频类型:喜剧短片、日常生活笑话、有趣的动物剪辑、幽默评论和脱口秀。评估结合了自动化度量指标如原创性、相关性和风格一致性,以及涉及40个视频和1; 05名参与者的大规模人类偏好研究。结果表明,LOLGORITHM显著优于基准模型,在抖音上的偏好率超过90%,YouTube上的偏好率为87.55%。这项工作为短视频平台上的风格化评论生成提供了一个可扩展且文化适应的框架,为增强用户参与度和创造性互动提供了有希望的途径。

论文及项目相关链接

PDF

摘要

短视频平台已成为现代互联网景观中的核心媒介,高效的信息传递和强大的互动性正在重塑用户参与和文化传播。评论在促进社区参与和内容再创作方面发挥着至关重要的作用。然而,生成既符合平台指南又展现风格多样性和语境意识的评论仍是一项挑战。我们推出了LOLGORITHM,这是一个为可控短视频评论生成设计的模块化多智能体系统。该系统结合了视频分割、上下文和情感分析以及风格感知提示构建。它支持六种不同的评论风格:双关语、押韵、模仿网络热梗、讽刺、普通幽默和内容提取。由多模态大型语言模型(MLLM)驱动,LOLGORITHM直接处理视频输入,并通过明确的提示标记和少量示例实现精细风格控制。为了支持和评估,我们使用抖音(中文)和YouTube(英文)的官方API构建了一个双语数据集,涵盖五种受欢迎的视频类型:喜剧短片、日常生活笑话、有趣的动物剪辑、幽默评论和脱口秀。评估结合了自动化指标原创性、相关性和风格一致性以及涉及40个视频和105名参与者的大规模人类偏好研究。结果表明,LOLGORITHM显著优于基准模型,在抖音上的偏好率达到90%以上,YouTube上的偏好率为87.55%。这项工作为短视频平台上的风格化评论生成提供了一个可扩展和文化适应的框架,为增强用户参与度和创造性互动提供了有前途的路径。

关键见解

  1. 短视频平台已成为现代互联网的核心,高效信息传达和强互动正在重塑用户参与和文化传播。
  2. 评论在促进社区参与和内容再创作方面发挥关键作用。
  3. 生成符合平台指南且风格多样、具有语境意识的评论是一大挑战。
  4. LOLGORITHM是一个模块化多智能体系统,为可控短视频评论生成而设计。
  5. 系统结合视频分割、上下文及情感分析、风格感知提示构建,支持多种评论风格。
  6. 多模态大型语言模型(MLLM)驱动LOLGORITHM,能直接处理视频输入并实现精细风格控制。

Cool Papers

点此查看论文截图

Assessing the value of Geo-Foundational Models for Flood Inundation Mapping: Benchmarking models for Sentinel-1, Sentinel-2, and Planetscope for end-users

Authors:Saurabh Kaushik, Lalit Maurya, Elizabeth Tellman, ZhiJie Zhang

Geo-Foundational Models (GFMs) enable fast and reliable extraction of spatiotemporal information from satellite imagery, improving flood inundation mapping by leveraging location and time embeddings. Despite their potential, it remains unclear whether GFMs outperform traditional models like U-Net. A systematic comparison across sensors and data availability scenarios is still lacking, which is an essential step to guide end-users in model selection. To address this, we evaluate three GFMs, Prithvi 2.0, Clay V1.5, DOFA, and UViT (a Prithvi variant), against TransNorm, U-Net, and Attention U-Net using PlanetScope, Sentinel-1, and Sentinel-2. We observe competitive performance among all GFMs, with only 2-5% variation between the best and worst models across sensors. Clay outperforms others on PlanetScope (0.79 mIoU) and Sentinel-2 (0.70), while Prithvi leads on Sentinel-1 (0.57). In leave-one-region-out cross-validation across five regions, Clay shows slightly better performance across all sensors (mIoU: 0.72(0.04), 0.66(0.07), 0.51(0.08)) compared to Prithvi (0.70(0.05), 0.64(0.09), 0.49(0.13)) and DOFA (0.67(0.07), 0.64(0.04), 0.49(0.09)) for PlanetScope, Sentinel-2, and Sentinel-1, respectively. Across all 19 sites, leave-one-region-out cross-validation reveals a 4% improvement by Clay compared to U-Net. Visual inspection highlights Clay’s superior ability to retain fine details. Few-shot experiments show Clay achieves 0.64 mIoU on PlanetScope with just five training images, outperforming Prithvi (0.24) and DOFA (0.35). In terms of computational time, Clay is a better choice due to its smaller model size (26M parameters), making it ~3x faster than Prithvi (650M) and 2x faster than DOFA (410M). Contrary to previous findings, our results suggest GFMs offer small to moderate improvements in flood mapping accuracy at lower computational cost and labeling effort compared to traditional U-Net.

地理基础模型(GFMs)能够从卫星图像中快速可靠地提取时空信息,利用位置和时间嵌入技术改进洪水淹没地图的绘制。尽管其潜力巨大,但尚不清楚GFMs是否优于传统模型(如U-Net)。在传感器和数据可用性的各种情况下,尚未进行系统性的比较,而这对于最终用户选择模型至关重要。针对这一问题,我们评估了三种GFMs(Prithvi 2.0、Clay V1.5、DOFA和UViT(Prithvi的一个变体))与TransNorm、U-Net和Attention U-Net在PlanetScope、Sentinel-1和Sentinel-2上的表现。我们观察到所有GFMs都具有竞争力,传感器间最佳和最差模型之间的变化只有2-5%。Clay在PlanetScope(mIoU 0.79)和Sentinel-2(mIoU 0.70)上表现优于其他模型,而Prithvi在Sentinel-1上表现最佳(mIoU 0.57)。在五地区的留一法跨验证中,Clay在所有传感器上的性能略有提高(mIoU: 0.72(0.04), 0.66(0.07), 0.51(0.08)),相较于Prithvi(分别为 0.70(0.05), 0.64(0.09), 0.49(0.13))和DOFA(分别为 0.67(0.07), 0.64(0.04), 0.49(0.09))。在所有19个站点中,留一法跨验证显示Clay相较于U-Net有4%的提升。视觉检查突显了Clay在保留细节方面的卓越能力。小样本实验表明,Clay仅使用五张训练图像就能在PlanetScope上达到0.64的mIoU,优于Prithvi(0.24)和DOFA(0.35)。在计算时间方面,由于模型较小(仅26M参数),Clay是一个更好的选择,其速度大约是Prithvi的3倍(650M参数)和DOFA的2倍(410M参数)。与之前的研究结果相反,我们的结果表明,与传统的U-Net相比,GFMs在洪水映射精度方面提供了小到中等程度的改进,同时降低了计算成本和标注工作量。

论文及项目相关链接

PDF

Summary

Geo-Foundational Models(GFMs)在卫星图像的时空信息提取方面表现出优越性能,提升了洪水淹没地图的绘制精度。本文对比了多种GFM模型(包括Prithvi 2.0、Clay V1.5、DOFA和UViT)与传统模型U-Net在多种传感器和数据可用场景下的表现。结果显示GFMs竞争力强,在不同传感器间仅有2-5%的性能差异。Clay在PlanetScope和Sentinel-2数据上表现最佳,而Prithvi在Sentinel-1上领先。Cross-validation结果显示Clay在所有传感器上的表现略优于其他GFMs和U-Net。此外,Clay在少样本情况下仍表现出强性能,并且计算时间更短,模型体积更小。

Key Takeaways

  1. GFMs在洪水淹没地图绘制中表现出良好的性能,具有快速可靠地提取时空信息的能力。
  2. 多种GFM模型(Prithvi 2.0、Clay V1.5、DOFA和UViT)与传统模型U-Net的对比显示,GFMs竞争力强,性能差异小。
  3. Clay在多种传感器(PlanetScope、Sentinel-2)上表现最佳,而Prithvi在Sentinel-1数据上领先。
  4. 通过跨区域验证,Clay在所有传感器上的表现略优于其他GFMs和U-Net。
  5. Clay在少样本情况下仍表现出强大的性能,并且具有较小的模型体积和较快的计算时间。
  6. GFMs在洪水映射精度上小幅至中度提升,同时降低了计算成本和标注工作量。

Cool Papers

点此查看论文截图

CFReID: Continual Few-shot Person Re-Identification

Authors:Hao Ni, Lianli Gao, Pengpeng Zeng, Heng Tao Shen, Jingkuan Song

Real-world surveillance systems are dynamically evolving, requiring a person Re-identification model to continuously handle newly incoming data from various domains. To cope with these dynamics, Lifelong ReID (LReID) has been proposed to learn and accumulate knowledge across multiple domains incrementally. However, LReID models need to be trained on large-scale labeled data for each unseen domain, which are typically inaccessible due to privacy and cost concerns. In this paper, we propose a new paradigm called Continual Few-shot ReID (CFReID), which requires models to be incrementally trained using few-shot data and tested on all seen domains. Under few-shot conditions, CFREID faces two core challenges: 1) learning knowledge from few-shot data of unseen domain, and 2) avoiding catastrophic forgetting of seen domains. To tackle these two challenges, we propose a Stable Distribution Alignment (SDA) framework from feature distribution perspective. Specifically, our SDA is composed of two modules, i.e., Meta Distribution Alignment (MDA) and Prototype-based Few-shot Adaptation (PFA). To support the study of CFReID, we establish an evaluation benchmark for CFReID on five publicly available ReID datasets. Extensive experiments demonstrate that our SDA can enhance the few-shot learning and anti-forgetting capabilities under few-shot conditions. Notably, our approach, using only 5% of the data, i.e., 32 IDs, significantly outperforms LReID’s state-of-the-art performance, which requires 700 to 1,000 IDs.

现实世界监控系统正在动态演变,需要行人重识别模型持续处理来自不同领域的新数据。为了应对这些动态变化,提出了终身ReID(LReID)以增量方式学习并积累跨多个领域的知识。然而,LReID模型需要对每个未见领域的大规模标签数据进行训练,由于隐私和成本方面的担忧,这些数据通常无法获取。在本文中,我们提出了一种新的范式,称为持续小样本ReID(CFReID),要求模型使用少量数据进行增量训练,并在所有已见领域上进行测试。在小样本条件下,CFReID面临两个核心挑战:1)从未见领域的小样本数据中学习知识,2)避免对已见领域的灾难性遗忘。为了解决这两个挑战,我们从特征分布的角度出发,提出了稳定分布对齐(SDA)框架。具体来说,我们的SDA由两个模块组成,即元分布对齐(MDA)和基于原型的小样本适应(PFA)。为了支持对CFReID的研究,我们在五个公开的ReID数据集上建立了CFReID的评估基准。大量实验表明,我们的SDA可以提高小样本学习能力和抗遗忘能力。值得注意的是,我们的方法仅使用5%的数据,即32个ID,就显著优于LReID的最先进性能,后者需要700到1000个ID。

论文及项目相关链接

PDF This manuscript has been withdrawn due to significant restructuring of its contents. The extended sections are being developed into a standalone paper

Summary

本文提出了一个名为CFReID的新范式,用于解决现实世界中动态变化的监控系统中行人再识别(ReID)的问题。针对少样本数据情况下,CFReID面临两大挑战:从少量数据中学习未知领域的知识和避免对已知领域的灾难性遗忘。为此,本文提出了一个名为SDA的稳定分布对齐框架,它由Meta分布对齐(MDA)和基于原型的少样本适应(PFA)两个模块组成。通过多项实验验证,SDA在少样本条件下提升了少样本学习和抗遗忘能力,仅使用5%的数据量(即32个ID)就显著超越了现有LReID的顶尖性能,后者通常需要700至1000个ID。

Key Takeaways

  1. CFReID范式被提出以解决动态变化的监控系统中行人再识别(ReID)的问题。
  2. CFReID面临两大挑战:从少量数据中学习未知领域的知识和避免对已知领域的灾难性遗忘。
  3. 为应对这两大挑战,提出了SDA稳定分布对齐框架,包括MDA和PFA两个模块。
  4. SDA框架通过多项实验验证,在少样本条件下表现出优秀的少样本学习和抗遗忘能力。
  5. 与现有LReID顶尖性能相比,SDA仅使用极少量的数据(5%)就能实现显著超越。
  6. 文章建立了CFReID的评价基准,并在五个公开可用的ReID数据集上进行研究。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-11-08 Building Trust in Virtual Immunohistochemistry Automated Assessment of Image Quality
下一篇 
Agent Agent
Agent 方向最新论文已更新,请持续关注 Update in 2025-11-08 Regret Lower Bounds for Decentralized Multi-Agent Stochastic Shortest Path Problems
2025-11-08
  目录