⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-20 更新
Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification
Authors:Xiang Tuo, Xu Xuemiao, Liu Bangzhen, Li Jinyi, Li Yong, He Shengfeng
The rapid growth of 3D digital content necessitates expandable recognition systems for open-world scenarios. However, existing 3D class-incremental learning methods struggle under extreme data scarcity due to geometric misalignment and texture bias. While recent approaches integrate 3D data with 2D foundation models (e.g., CLIP), they suffer from semantic blurring caused by texture-biased projections and indiscriminate fusion of geometric-textural cues, leading to unstable decision prototypes and catastrophic forgetting. To address these issues, we propose Cross-Modal Geometric Rectification (CMGR), a framework that enhances 3D geometric fidelity by leveraging CLIP’s hierarchical spatial semantics. Specifically, we introduce a Structure-Aware Geometric Rectification module that hierarchically aligns 3D part structures with CLIP’s intermediate spatial priors through attention-driven geometric fusion. Additionally, a Texture Amplification Module synthesizes minimal yet discriminative textures to suppress noise and reinforce cross-modal consistency. To further stabilize incremental prototypes, we employ a Base-Novel Discriminator that isolates geometric variations. Extensive experiments demonstrate that our method significantly improves 3D few-shot class-incremental learning, achieving superior geometric coherence and robustness to texture bias across cross-domain and within-domain settings.
随着三维数字内容的快速增长,开放世界场景需要可扩展的识别系统。然而,现有的三维类增量学习方法在极端数据稀缺的情况下,由于几何失配和纹理偏见,表现挣扎。虽然最近的方法将三维数据与二维基础模型(例如CLIP)相结合,但它们受到纹理偏向投影和几何纹理线索的散漫融合导致的语义模糊的影响,导致决策原型不稳定和灾难性遗忘。为了解决这些问题,我们提出了跨模态几何校正(CMGR)框架,该框架利用CLIP的分层空间语义增强三维几何保真度。具体来说,我们引入了一个结构感知几何校正模块,该模块通过注意力驱动的几何融合层次地与CLIP的中间空间先验对齐三维部分结构。此外,纹理放大模块合成最小但具有区分力的纹理,以抑制噪声并增强跨模态一致性。为了进一步稳定增量原型,我们采用了基础-新颖鉴别器,以隔离几何变化。大量实验表明,我们的方法在三维小样本类增量学习上显著改进,实现了跨域和域内设置中的出色几何连贯性和对纹理偏见的稳健性。
论文及项目相关链接
PDF ICCV2025
Summary
本文探讨了三维数字内容的快速增长对开放世界场景下的识别系统提出了更高的要求。现有的三维类增量学习方法在极端数据稀缺的情况下存在几何失配和纹理偏见的问题。为解决这些问题,本文提出一种名为Cross-Modal Geometric Rectification(CMGR)的框架,利用CLIP的层次空间语义提高三维几何保真度。通过引入结构感知几何校正模块和纹理放大模块,实现了对三维部分结构与CLIP中间空间先验的层次对齐,并合成最小但具有鉴别力的纹理以抑制噪声并增强跨模态一致性。此外,通过采用基础-新型判别器进一步稳定增量原型,隔离几何变化。实验证明,该方法在三维小样本类增量学习上表现出显著的改进,提高了几何一致性和对纹理偏见的鲁棒性。
Key Takeaways
以下是关于该文本的关键见解:
- 三维数字内容的增长推动了开放世界场景下识别系统的需求。
- 现有三维类增量学习方法面临极端数据稀缺时的几何失配和纹理偏见问题。
- Cross-Modal Geometric Rectification(CMGR)框架利用CLIP的层次空间语义提高三维几何保真度。
- 结构感知几何校正模块实现了三维部分结构与CLIP中间空间先验的层次对齐。
- 纹理放大模块合成最小但具有鉴别力的纹理,以抑制噪声并增强跨模态一致性。
- 基础-新型判别器用于进一步稳定增量原型,隔离几何变化。
点此查看论文截图




Trade-offs in Cross-Domain Generalization of Foundation Model Fine-Tuned for Biometric Applications
Authors:Tahar Chettaoui, Naser Damer, Fadi Boutros
Foundation models such as CLIP have demonstrated exceptional zero- and few-shot transfer capabilities across diverse vision tasks. However, when fine-tuned for highly specialized biometric tasks, face recognition (FR), morphing attack detection (MAD), and presentation attack detection (PAD), these models may suffer from over-specialization. Thus, they may lose one of their foundational strengths, cross-domain generalization. In this work, we systematically quantify these trade-offs by evaluating three instances of CLIP fine-tuned for FR, MAD, and PAD. We evaluate each adapted model as well as the original CLIP baseline on 14 general vision datasets under zero-shot and linear-probe protocols, alongside common FR, MAD, and PAD benchmarks. Our results indicate that fine-tuned models suffer from over-specialization, especially when fine-tuned for complex tasks of FR. Also, our results pointed out that task complexity and classification head design, multi-class (FR) vs. binary (MAD and PAD), correlate with the degree of catastrophic forgetting. The FRoundation model with the ViT-L backbone outperforms other approaches on the large-scale FR benchmark IJB-C, achieving an improvement of up to 58.52%. However, it experiences a substantial performance drop on ImageNetV2, reaching only 51.63% compared to 69.84% achieved by the baseline CLIP model. Moreover, the larger CLIP architecture consistently preserves more of the model’s original generalization ability than the smaller variant, indicating that increased model capacity may help mitigate over-specialization.
诸如CLIP等基础模型在多种视觉任务中表现出了出色的零样本和少样本迁移能力。然而,当针对高度专业化的生物识别任务(如人脸识别(FR)、形态攻击检测(MAD)和呈现攻击检测(PAD))进行微调时,这些模型可能会过度专业化。因此,它们可能会丧失其基础优势之一,即跨域泛化。在这项工作中,我们通过评估针对FR、MAD和PAD微调的三例CLIP来系统地量化这些权衡。我们评估每个适配模型以及原始CLIP基准线在零样本和线性探针协议下的14个通用视觉数据集上的表现,同时还有人脸识别、形态攻击检测和呈现攻击检测的常见基准测试。我们的结果表明,微调模型存在过度专业化的问题,特别是在针对复杂的人脸识别任务进行微调时。此外,我们的结果还指出,任务复杂性和分类头部设计(多类(人脸识别)与二元(形态攻击检测和呈现攻击检测))与灾难性遗忘的程度有关。具有ViT-L主干的基础模型在大规模人脸识别基准测试IJB-C上优于其他方法,提高了高达58.52%。然而,它在ImageNetV2上的性能大幅下降,仅达到51.63%,而基线CLIP模型则达到了69.84%。此外,较大的CLIP架构始终保留了模型更多的原始泛化能力,这暗示着增加模型容量可能有助于缓解过度专业化的问题。
论文及项目相关链接
PDF Accepted at the IEEE International Joint Conference on Biometrics 2025 (IJCB 2025)
Summary
本研究探讨了CLIP等基础模型在人脸识别(FR)、形态攻击检测(MAD)和呈现攻击检测(PAD)等高度专业化生物识别任务上的微调表现,发现这些模型可能因过度专业化而丧失跨域泛化能力。在多种通用视觉数据集上的评估表明,微调模型在零样本和线性探测协议下出现过度专业化现象,特别是面对复杂的人脸识别任务时。同时,任务复杂度和分类头部设计(多类人脸识别与二元攻击检测)与灾难性遗忘程度相关。此外,具有ViT-L主干的基础模型在大型人脸识别基准测试IJB-C上表现优异,但在ImageNetV2上的性能大幅下降。更大规模的CLIP架构更能保持模型的原始泛化能力,表明增加模型容量可能有助于缓解过度专业化问题。
Key Takeaways
- 基础模型如CLIP在高度专业化的生物识别任务(如人脸识别、形态攻击检测、呈现攻击检测)上经过微调后可能面临过度专业化的问题,导致丧失跨域泛化能力。
- 在通用视觉数据集上的评估显示,微调模型在零样本和线性探测协议下出现过度专业化现象。
- 任务复杂度和分类头部设计(多类与二元)与灾难性遗忘程度有关。
- 具有ViT-L主干的基础模型在人脸识别基准测试上表现良好,但在其他大型图像数据集上的性能可能下降。
- 更大规模的CLIP架构能够更好地保持模型的原始泛化能力。
- 增加模型容量可能有助于缓解过度专业化问题。
点此查看论文截图



Exploring Data and Parameter Efficient Strategies for Arabic Dialect Identifications
Authors:Vani Kanjirangat, Ljiljana Dolamic, Fabio Rinaldi
This paper discusses our exploration of different data-efficient and parameter-efficient approaches to Arabic Dialect Identification (ADI). In particular, we investigate various soft-prompting strategies, including prefix-tuning, prompt-tuning, P-tuning, and P-tuning V2, as well as LoRA reparameterizations. For the data-efficient strategy, we analyze hard prompting with zero-shot and few-shot inferences to analyze the dialect identification capabilities of Large Language Models (LLMs). For the parameter-efficient PEFT approaches, we conducted our experiments using Arabic-specific encoder models on several major datasets. We also analyzed the n-shot inferences on open-source decoder-only models, a general multilingual model (Phi-3.5), and an Arabic-specific one(SILMA). We observed that the LLMs generally struggle to differentiate the dialectal nuances in the few-shot or zero-shot setups. The soft-prompted encoder variants perform better, while the LoRA-based fine-tuned models perform best, even surpassing full fine-tuning.
本文讨论了我们在阿拉伯语方言识别(ADI)方面对不同数据高效和参数高效方法的探索。具体来说,我们研究了各种软提示策略,包括前缀调整、提示调整、P-tuning和P-tuning V2,以及LoRA重新参数化。对于数据高效策略,我们分析了零样本和少样本推断中的硬提示,以分析大型语言模型(LLM)的方言识别能力。对于参数高效的PEFT方法,我们在几个主要数据集上使用了阿拉伯语言特定编码器模型进行实验。我们还分析了开源解码器模型、通用多语言模型(Phi-3.5)和阿拉伯语言特定模型(SILMA)的n次射击推断。我们发现,大型语言模型通常在少样本或零样本设置中难以区分方言细微差别。软提示编码器变体表现更好,而基于LoRA的微调模型表现最佳,甚至超过了全量微调。
论文及项目相关链接
PDF 4 main pages, 4 additional, 5 figures
Summary
本文探讨了数据高效和参数高效的阿拉伯语方言识别(ADI)方法。研究了多种软提示策略,如前缀调整、提示调整、P-tuning和P-tuning V2,以及LoRA重新参数化。对于数据高效策略,我们分析了零样本和少样本推断下的硬提示方法,以评估大型语言模型(LLM)的方言识别能力。对于参数高效的PEFT方法,我们在多个主要数据集上进行了阿拉伯语特定编码器模型的实验,并分析了开源解码器模型、通用多语言模型(Phi-3.5)和阿拉伯语特定模型(SILMA)的n-shot推断结果。观察到大型语言模型在少样本或零样本设置中难以区分方言细微差别。软提示编码器变体表现较好,而基于LoRA的精细调整模型表现最佳,甚至超越全精细调整。
Key Takeaways
- 论文探讨了数据高效和参数高效的阿拉伯语方言识别方法。
- 研究了多种软提示策略,包括前缀调整、提示调整等。
- 在数据高效策略方面,硬提示方法用于评估大型语言模型的方言识别能力。
- 在参数高效的实验中,使用了阿拉伯语特定编码器模型并进行了实验验证。
- LLM在少样本或零样本设置中方言识别能力受限。
- 软提示编码器变体在方言识别中表现较好。
点此查看论文截图



ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
Authors:Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
Vision-language-action (VLA) reasoning tasks require agents to interpret multimodal instructions, perform long-horizon planning, and act adaptively in dynamic environments. Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations. In this paper, we propose ThinkAct, a dual-system framework that bridges high-level reasoning with low-level action execution via reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency. These reasoning plans are compressed into a visual plan latent that conditions a downstream action model for robust action execution on target environments. Extensive experiments on embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct enables few-shot adaptation, long-horizon planning, and self-correction behaviors in complex embodied AI tasks.
视觉-语言-行动(VLA)推理任务要求智能体解释多模式指令,进行长期规划,并在动态环境中进行自适应行动。现有方法通常以端到端的方式训练VLA模型,直接将输入映射到行动,而没有明确的推理,这阻碍了它们在多个步骤上进行规划或适应复杂任务变化的能力。在本文中,我们提出了ThinkAct,这是一个双系统框架,它通过强化视觉潜在规划,将高级推理与低级行动执行联系起来。ThinkAct训练了一个多模式大型语言模型,根据目标完成和轨迹一致性生成强化行动对齐的视觉奖励来指导具象化推理计划。这些推理计划被压缩成视觉计划潜在状态,以在目标环境中对下游行动模型进行稳健的行动执行。在具象推理和机器人操作基准测试上的大量实验表明,ThinkAct能够在复杂的嵌入式AI任务中实现少量适应、长期规划和自我修正行为。
论文及项目相关链接
PDF NeurIPS 2025. Project page: https://jasper0314-huang.github.io/thinkact-vla/
Summary
本论文提出了一种名为ThinkAct的双向系统框架,用于实现视觉语言动作(VLA)推理任务中的高级推理与低级动作执行的桥梁。该框架通过强化视觉潜在规划,生成以行动对齐的视觉奖励为指导的实体推理计划。这些推理计划被压缩成视觉计划潜在状态,以在目标环境中进行稳健的动作执行。ThinkAct能够在复杂的实体AI任务中实现少量适应、长期规划和自我校正行为。
Key Takeaways
- ThinkAct是一个双系统框架,结合了高级推理和低级动作执行。
- 通过强化视觉潜在规划来实现VLA任务。
- 生成以行动对齐的视觉奖励为指导的实体推理计划。
- 推理计划被压缩成视觉计划潜在状态以指导动作执行。
- ThinkAct能够在复杂的实体AI任务中实现少量适应。
- 具备长期规划能力。
点此查看论文截图



Self-Adapting Language Models
Authors:Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim, Pulkit Agrawal
Large language models (LLMs) are powerful but static; they lack mechanisms to adapt their weights in response to new tasks, knowledge, or examples. We introduce Self-Adapting LLMs (SEAL), a framework that enables LLMs to self-adapt by generating their own finetuning data and update directives. Given a new input, the model produces a self-edit-a generation that may restructure the information in different ways, specify optimization hyperparameters, or invoke tools for data augmentation and gradient-based updates. Through supervised finetuning (SFT), these self-edits result in persistent weight updates, enabling lasting adaptation. To train the model to produce effective self-edits, we use a reinforcement learning loop with the downstream performance of the updated model as the reward signal. Unlike prior approaches that rely on separate adaptation modules or auxiliary networks, SEAL directly uses the model’s own generation to control its adaptation process. Experiments on knowledge incorporation and few-shot generalization show that SEAL is a promising step toward language models capable of self-directed adaptation. Our website and code is available at https://jyopari.github.io/posts/seal.
大型语言模型(LLM)虽然强大但静态,缺乏根据新任务、知识或示例调整其权重的机制。我们引入了自适应语言模型(SEAL),这是一个框架,允许LLM通过生成自己的微调数据和更新指令进行自我适应。对于新的输入,模型会产生自我编辑的版本,这个版本可能会以不同的方式重新组织信息,指定优化超参数,或调用数据增强工具和基于梯度的更新工具。通过监督微调(SFT),这些自我编辑会导致持久的权重更新,从而实现持久的适应。为了训练模型产生有效的自我编辑,我们使用强化学习循环,以更新模型的下游性能作为奖励信号。不同于依赖单独适应模块或辅助网络的先前方法,SEAL直接使用模型自身的生成来控制其适应过程。在知识整合和少量样本泛化方面的实验表明,SEAL是朝着能够自我指导适应的语言模型迈出的有前景的一步。我们的网站和代码可通过https://jyopari.github.io/posts/seal访问。
论文及项目相关链接
Summary
大型语言模型(LLMs)功能强大但静态不变,无法根据新任务、知识或示例调整自身权重。我们提出Self-Adapting LLMs(SEAL)框架,使LLMs能够通过生成自身的微调数据和更新指令来实现自我适应。对于新输入的信息,模型会产生自我编辑,通过监督微调(SFT)产生持久性的权重更新,实现长期适应。我们通过强化学习循环训练模型产生有效的自我编辑,以更新模型的下游性能作为奖励信号。不同于以往依赖额外适应模块或辅助网络的方法,SEAL直接利用模型自身的生成来控制其适应过程。实验表明,SEAL在知识融合和少量样本泛化方面展现出巨大潜力,是向能够自我定向适应的语言模型迈进的重要一步。
Key Takeaways
- LLMs虽然强大,但缺乏根据新任务、知识或示例自我调整的能力。
- SEAL框架使LLMs能够通过生成自我编辑数据和指令来实现自我适应。
- 模型产生的自我编辑可以通过监督微调(SFT)导致持久的权重更新。
- 强化学习循环用于训练模型产生有效的自我编辑。
- 模型下游性能作为奖励信号来评估自我编辑的效果。
- 与其他适应模块或辅助网络不同,SEAL利用模型自身的生成来控制适应过程。
点此查看论文截图




MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs
Authors:Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
Metadata extraction is essential for cataloging and preserving datasets, enabling effective research discovery and reproducibility, especially given the current exponential growth in scientific research. While Masader (Alyafeai et al.,2021) laid the groundwork for extracting a wide range of metadata attributes from Arabic NLP datasets’ scholarly articles, it relies heavily on manual annotation. In this paper, we present MOLE, a framework that leverages Large Language Models (LLMs) to automatically extract metadata attributes from scientific papers covering datasets of languages other than Arabic. Our schema-driven methodology processes entire documents across multiple input formats and incorporates robust validation mechanisms for consistent output. Additionally, we introduce a new benchmark to evaluate the research progress on this task. Through systematic analysis of context length, few-shot learning, and web browsing integration, we demonstrate that modern LLMs show promising results in automating this task, highlighting the need for further future work improvements to ensure consistent and reliable performance. We release the code: https://github.com/IVUL-KAUST/MOLE and dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.
元数据提取对于数据集编目和保存至关重要,它促进了有效的研究发现和可重复性,尤其是在当前科学研究呈指数级增长的情况下。虽然Masader(Alyafeai等人,2021年)奠定了从阿拉伯语NLP数据集学术论文中提取广泛元数据属性的基础,但它主要依赖于人工标注。在本文中,我们介绍了MOLE框架,该框架利用大型语言模型(LLM)自动从涉及非阿拉伯语数据集的科学论文中提取元数据属性。我们的基于模式的方法处理多种输入格式的整个文档,并包含用于一致输出的稳健验证机制。此外,我们还引入了一个新的基准测试来评估此任务的研究进展。通过系统分析上下文长度、小样本学习和网页浏览集成,我们证明了现代LLM在该任务的自动化方面显示出有前途的结果,并强调了未来需要进一步改进工作以确保性能和可靠性的一致性。我们向研究社区发布代码:https://github.com/IVUL-KAUST/MOLE和数据集:https://huggingface.co/datasets/IVUL-KAUST/MOLE。
论文及项目相关链接
Summary
本文介绍了MOLE框架,该框架利用大型语言模型(LLMs)自动从非阿拉伯语的科学论文中提取元数据属性。此框架是自动的,可以在多种输入格式下处理整个文档,并包含稳健的验证机制以确保一致输出。该研究还引入了一个新的基准测试来评估此任务的研究进展,并通过上下文长度、小样本学习和网页浏览整合的系统性分析,证明了现代大型语言模型在该任务自动化方面的前景。该研究的代码和数据集已公开发布,供研究社区使用。
Key Takeaways
- MOLE框架能自动从非阿拉伯语的科学论文中提取元数据属性,极大地减少了手动标注的需求。
- MOLE采用了基于schema的方法来处理不同格式的文档。
- 它包含了稳健的验证机制以确保输出的准确性及一致性。
- 研究人员引入了一个新的基准测试来评估自动提取元数据属性的研究进展。
- 通过上下文长度、小样本学习等方面的系统性分析,验证了大型语言模型在自动化提取元数据方面的潜力。
- 该研究发布了MOLE框架的代码和基准数据集以供研究社区使用。
点此查看论文截图








SNaRe: Domain-aware Data Generation for Low-Resource Event Detection
Authors:Tanmay Parekh, Yuxuan Dong, Lucas Bandarkar, Artin Kim, I-Hung Hsu, Kai-Wei Chang, Nanyun Peng
Event Detection (ED) – the task of identifying event mentions from natural language text – is critical for enabling reasoning in highly specialized domains such as biomedicine, law, and epidemiology. Data generation has proven to be effective in broadening its utility to wider applications without requiring expensive expert annotations. However, when existing generation approaches are applied to specialized domains, they struggle with label noise, where annotations are incorrect, and domain drift, characterized by a distributional mismatch between generated sentences and the target domain. To address these issues, we introduce SNaRe, a domain-aware synthetic data generation framework composed of three components: Scout, Narrator, and Refiner. Scout extracts triggers from unlabeled target domain data and curates a high-quality domain-specific trigger list using corpus-level statistics to mitigate domain drift. Narrator, conditioned on these triggers, generates high-quality domain-aligned sentences, and Refiner identifies additional event mentions, ensuring high annotation quality. Experimentation on three diverse domain ED datasets reveals how SNaRe outperforms the best baseline, achieving average F1 gains of 3-7% in the zero-shot/few-shot settings and 4-20% F1 improvement for multilingual generation. Analyzing the generated trigger hit rate and human evaluation substantiates SNaRe’s stronger annotation quality and reduced domain drift.
事件检测(ED)——从自然语言文本中识别事件提及的任务——对于在生物医学、法律和流行病学等高度专业化领域进行推理至关重要。数据生成已证明在扩大其在更广泛应用中的效用方面非常有效,而无需昂贵的专家注释。然而,当将现有的生成方法应用于专业领域时,它们会面临标签噪声的问题,即注释不正确,以及领域漂移,表现为生成句子与目标领域之间的分布不匹配。为了解决这些问题,我们引入了SNaRe,这是一个领域感知的合成数据生成框架,由三个组件组成:侦察兵、叙述者和精炼者。侦察兵从目标领域的无标签数据中提取触发器,并使用语料库级别的统计信息来创建高质量的专业特定触发器列表,以减轻领域漂移的问题。叙述者根据这些触发器生成高质量、符合领域要求的句子,而精炼者则负责识别其他事件提及,确保高质量的注释。在三个不同领域的ED数据集上进行实验表明,SNaRe的表现超过了最佳基线,在零样本/少样本设置中平均F1得分提高了3-7%,在多语言生成中F1得分提高了4-20%。对生成的触发器命中率和人类评估的分析证实了SNaRe具有更高的注释质量和减少的领域漂移问题。
论文及项目相关链接
PDF Accepted at EMNLP 2025 Main
Summary
事件检测(ED)是从自然语言文本中识别事件提及的任务,对于生物医药、法律和流行病学等高度专业化领域中的推理至关重要。数据生成已证明在扩大其应用范围而无需昂贵的专家注释方面非常有效。然而,当现有生成方法应用于专业领域时,它们面临标签噪声(注释不正确)和领域漂移(生成句子与目标领域的分布不匹配)的问题。为解决这些问题,我们引入了SNaRe,这是一个领域感知的合成数据生成框架,由Scout、Narrator和Refiner三个组件组成。通过从目标领域无标签数据中提取触发器并使用语料库级统计来创建高质量特定领域的触发器列表,从而减轻领域漂移。Narrator根据这些触发器生成高质量的领域对齐句子,而Refiner则识别其他事件提及,确保高注释质量。在三个不同的领域ED数据集上的实验表明,SNaRe优于最佳基线,在零样本/少样本设置中平均F1得分提高了3-7%,在多语言生成中提高了4-20%。对生成的触发器命中率和人类评估的分析证实了SNaRe更强的注释质量和减少的领域漂移。
Key Takeaways
- 事件检测(ED)在高度专业化领域中至关重要,如生物医药、法律和流行病学。
- 数据生成方法已被证明对于扩大事件检测的应用范围非常有效。
- 当前数据生成方法面临标签噪声和领域漂移的挑战。
- SNaRe是一个领域感知的合成数据生成框架,由Scout、Narrator和Refiner三个组件组成。
- SNaRe通过从目标领域无标签数据中提取触发器来减轻领域漂移问题。
- SNaRe在多个领域数据集上的实验表现优于最佳基线,具有显著的效果提升。
点此查看论文截图






ReMoBot: Retrieval-Based Few-Shot Imitation Learning for Mobile Manipulation with Vision Foundation Models
Authors:Yuying Zhang, Wenyan Yang, Francesco Verdoja, Ville Kyrki, Joni Pajarinen
Imitation learning (IL) algorithms typically distill experience into parametric behavior policies to mimic expert demonstrations. However, with limited demonstrations, existing methods often struggle to generate accurate actions, particularly under partial observability. To address this problem, we introduce a few-shot IL approach, ReMoBot, which directly retrieves information from demonstrations to solve Mobile manipulation tasks with ego-centric visual observations. Given the current observation, ReMoBot utilizes vision foundation models to identify relevant demonstrations, considering visual similarity w.r.t. both individual observations and history trajectories. A motion selection policy then selects the proper command for the robot until the task is successfully completed. The performance of ReMoBot is evaluated on three mobile manipulation tasks with a Boston Dynamics Spot robot in both simulation and the real world. After benchmarking five approaches in simulation, we compare our method with two baselines in the real world, training directly on the real-world dataset without sim-to-real transfer. With only 20 demonstrations, ReMoBot outperforms the baselines, achieving high success rates in Table Uncover (70%) and Gap Cover (80%), while also showing promising performance on the more challenging Curtain Open task in the real-world setting. Furthermore, ReMoBot demonstrates generalization across varying robot positions, object sizes, and material types. Additional details are available at: https://sites.google.com/view/remobot/home
模仿学习(IL)算法通常会将经验转化为参数化的行为策略,以模仿专家演示。然而,在演示有限的情况下,现有方法往往难以生成准确的行为,特别是在部分可观察的情况下。为了解决这个问题,我们引入了一种few-shot IL方法ReMoBot,它直接从演示中检索信息,以解决使用自我中心视觉观察的移动操作任务。给定当前观察,ReMoBot利用视觉基础模型来识别与演示相关的内容,同时考虑个体观察和历史轨迹的视觉相似性。然后,运动选择策略会为机器人选择适当的命令,直到任务成功完成。ReMoBot在模拟和真实环境中对三项移动操作任务进行了评估,使用的是波士顿动力公司的Spot机器人。在模拟环境中对五种方法进行了基准测试后,我们在真实环境中将我们的方法与两个基准方法进行了比较,直接对真实世界数据集进行训练,无需模拟到真实的转移。仅凭20个演示,ReMoBot就超越了基准方法,在“表面揭开”(70%)和“缝隙覆盖”(80%)任务中取得了较高的成功率,同时在更具挑战性的“窗帘打开”任务中也表现出了有前景的性能。此外,ReMoBot展示了在不同机器人位置、物体大小和材质类型上的泛化能力。更多详细信息请访问:https://sites.google.com/view/remobot/home(链接地址为ReMoBot官网)
论文及项目相关链接
Summary
模仿学习(IL)算法通常将经验转化为参数化的行为策略以模仿专家演示。但在演示有限的情况下,现有方法往往难以生成准确动作,尤其在部分可观测条件下。为解决这一问题,我们提出了一种少样本IL方法ReMoBot,它直接从演示中获取信息,解决移动操作任务时的自我中心视觉观察问题。给定当前观察结果,ReMoBot利用视觉基础模型识别与演示相关的内容,考虑个体观察和历史轨迹的视觉相似性。运动选择策略则为机器人选择适当的命令,直至任务完成。ReMoBot在波士顿动力斑点机器人上的三项移动操作任务中的性能,在模拟和真实世界环境中都得到了评估。在模拟环境中对比五种方法后,我们的方法在真实世界环境中与两个基线进行了比较,直接在真实世界数据集上进行训练,无需模拟到现实的迁移。凭借仅有的20个演示,ReMoBot超越了基线方法,在表覆盖(70%)和间隙覆盖(80%)任务上取得了高成功率,同时在更具挑战性的窗帘打开任务上也表现出了有前景的性能,展现了在不同机器人位置、物体大小和材质类型上的泛化能力。
Key Takeaways
- ReMoBot是一种少样本模仿学习(IL)方法,直接从演示中获取信息以解决移动操作任务。
- ReMoBot利用视觉基础模型来识别与当前观察结果相关的演示内容。
- 该方法考虑视觉相似性,既针对个体观察也关注历史轨迹。
- 通过运动选择策略,ReMoBot为机器人选择适当命令以完成任务。
- 在模拟和真实环境中,ReMoBot在三项移动操作任务上表现出色。
- 仅凭20个演示,ReMoBot在表覆盖和间隙覆盖任务上取得了高成功率。
点此查看论文截图





VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
Authors:Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot learning but require high-quality demonstrations. We propose In-Context Abstraction Learning (ICAL), enabling VLM agents to transform suboptimal trajectories into high-quality training data through self-reflection and human feedback. Given imperfect task demonstrations, a VLM abstracts trajectories into generalized strategies and action annotations by correcting inefficiencies and annotating cognitive abstractions: causal relationships, object state changes, temporal subgoals, and task-relevant visual elements. These annotations are iteratively refined through human feedback during execution in similar environments. The resulting examples significantly improve decision-making when used for retrieval-augmented generation or fine-tuning. As the agent’s example library grows, it becomes more efficient at abstracting new examples, requiring less human feedback and fewer environment interactions. ICAL achieves state-of-the-art results across multiple benchmarks. In TEACh dialogue-based instruction following, combining fine-tuning and retrieval on ICAL examples outperforms raw human demonstrations and expert examples by 17.5% in goal-condition success. In VisualWebArena, retrieval-augmented GPT-4V with ICAL improves task success 1.6x, while fine-tuned Qwen2-VL achieves 2.8x improvement over the base model. In Ego4D action forecasting, we surpass few-shot GPT-4V and remain competitive with supervised models. Our approach scales 2x better than raw demonstrations and significantly reduces manual prompt engineering requirements.
大规模生成式语言和视觉语言模型(LLM和VLM)在少量样本学习方面表现出色,但需要高质量示范。我们提出上下文抽象学习(ICAL)方法,使VLM代理能够通过自我反思和人类反馈将次优轨迹转化为高质量训练数据。面对不完美的任务示范,VLM通过纠正无效行为并标注认知抽象(包括因果关系、对象状态变化、临时子目标和任务相关视觉元素),将轨迹转化为通用策略和行动注释。这些注释在执行类似环境的过程中通过人类反馈进行迭代优化。当用于增强生成或微调时,这些示例能显著改善决策效果。随着代理示例库的增长,它在抽象新示例方面变得更加高效,需要更少的人类反馈和环境交互。ICAL在多基准测试中实现了最先进的成果。在TEACh对话式指令遵循任务中,以ICAL示例进行微调与检索的结合,在目标条件成功率方面超越了原始人类示范和专业示例17.5%。在VisualWebArena任务中,结合ICAL的GPT-4V增强检索任务成功率提升1.6倍,而经过微调的Qwen2-VL较基础模型实现了2.8倍的提升。在Ego4D动作预测任务中,我们超越了少量样本的GPT-4V,并在监督模型保持竞争力。我们的方法比原始演示扩展了2倍,并显著减少了手动提示工程需求。
论文及项目相关链接
PDF Project website: https://ical-learning.github.io/
Summary
大规模生成式语言和视觉语言模型(LLMs和VLMs)在少样本学习中表现出色,但需要高质量示范。本文提出一种名为In-Context Abstraction Learning(ICAL)的方法,使VLM代理能够通过自我反思和人类反馈将次优轨迹转化为高质量训练数据。ICAL通过纠正效率不足并注释因果关系、对象状态变化、临时子目标和任务相关视觉元素等认知抽象来抽象化轨迹为通用策略和行动注释。这些注释在执行类似环境的过程中通过人类反馈进行迭代优化。使用ICAL生成的示例在检索增强生成或微调时,显著提高了决策能力。随着代理示例库的增长,它更有效地抽象出新的示例,需要更少的人类反馈和环境交互。ICAL在多个基准测试中实现了最佳结果。在TEACh对话式指令遵循任务中,结合ICAL示例的微调与检索超越了原始人类示范和专业示例的目标条件成功率,达到17.5%。在VisualWebArena中,使用ICAL的检索增强GPT-4V任务成功率提高了1.6倍,而经过调校的Qwen2-VL模型相对于基础模型提高了2.8倍。在Ego4D动作预测任务中,我们超越了少样本GPT-4V并保持与监督模型的竞争力。我们的方法比原始示范更好地扩展了2倍并大大减少了手动提示工程要求。
Key Takeaways
- 大规模生成式语言和视觉语言模型(LLMs和VLMs)在少样本学习中表现出色,但需要高质量示范来提升性能。
- 提出了一种新的方法In-Context Abstraction Learning(ICAL),使VLM代理能够通过自我反思和人类反馈将次优轨迹转化为高质量训练数据。
- ICAL通过抽象化轨迹为通用策略和行动注释,包括因果关系、对象状态变化、临时子目标和任务相关视觉元素等。
- ICAL生成的示例在多个基准测试中实现了最佳结果,显著提高了决策能力。
- 随着代理示例库的增长,ICAL方法更有效地抽象出新的示例,并减少了人类反馈和环境交互的需求。
- 在TEACh对话式指令遵循任务中,结合ICAL的示例的微调与检索超越了原始人类示范和专业示例的性能。
点此查看论文截图


