嘘~ 正在从服务器偷取页面 . . .

Few-Shot


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-18 更新

The Few-shot Dilemma: Over-prompting Large Language Models

Authors:Yongjian Tang, Doruk Tuncel, Christian Koerner, Thomas Runkler

Over-prompting, a phenomenon where excessive examples in prompts lead to diminished performance in Large Language Models (LLMs), challenges the conventional wisdom about in-context few-shot learning. To investigate this few-shot dilemma, we outline a prompting framework that leverages three standard few-shot selection methods - random sampling, semantic embedding, and TF-IDF vectors - and evaluate these methods across multiple LLMs, including GPT-4o, GPT-3.5-turbo, DeepSeek-V3, Gemma-3, LLaMA-3.1, LLaMA-3.2, and Mistral. Our experimental results reveal that incorporating excessive domain-specific examples into prompts can paradoxically degrade performance in certain LLMs, which contradicts the prior empirical conclusion that more relevant few-shot examples universally benefit LLMs. Given the trend of LLM-assisted software engineering and requirement analysis, we experiment with two real-world software requirement classification datasets. By gradually increasing the number of TF-IDF-selected and stratified few-shot examples, we identify their optimal quantity for each LLM. This combined approach achieves superior performance with fewer examples, avoiding the over-prompting problem, thus surpassing the state-of-the-art by 1% in classifying functional and non-functional requirements.

过度提示现象是指,在提示中过多的示例会导致大型语言模型(LLM)性能下降,这一现象挑战了关于上下文中的少量样本学习的传统智慧。为了研究这一少量的难题,我们概述了一个提示框架,该框架利用三种标准的少量样本选择方法:随机抽样、语义嵌入和TF-IDF向量,并在多个LLM上评估这些方法,包括GPT-4o、GPT-3.5-turbo、DeepSeek-V3、Gemma-3、LLaMA-3.1、LLaMA-3.2和Mistral。我们的实验结果表明,在提示中融入过多的特定领域示例可能会反常地导致某些LLM的性能下降,这与之前的经验性结论相悖,即更相关的少量示例普遍有益于LLM。考虑到大型语言模型辅助的软件工程和需求分析的趋势,我们在两个真实世界的软件需求分类数据集上进行实验。通过逐渐增加TF-IDF选择和分层选择的少量示例的数量,我们确定了每个LLM的最佳数量。这种结合方法使用较少的例子就能实现卓越的性能,避免了过度提示问题,从而在分类功能和非功能需求方面超越了最新技术状态1%。

论文及项目相关链接

PDF accepted for the main track of FLLM

Summary

该文探讨了大型语言模型(LLM)中过度提示现象,即过多的示例提示会导致性能下降。研究团队提出了一个基于三种标准少样本选择方法的提示框架,并在多个LLM上进行了实验验证,包括GPT-4o、GPT-3.5-turbo等。实验结果显示,在特定LLM中,过度融入领域特定示例可能会意外导致性能下降,这与先前认为更多相关少样本示例普遍有利于LLM的经验结论相悖。针对软件工程和需求分析的LLM辅助趋势,研究团队使用两个真实软件需求分类数据集进行实验,通过逐渐增加TF-IDF精选的少样本示例数量,确定每个LLM的最佳示例数量。这种结合方法实现了使用更少示例的卓越性能,避免了过度提示问题,在分类功能和非功能需求方面超过了现有技术1%。

Key Takeaways

  1. 过度的示例提示可能会导致大型语言模型的性能下降,这种现象被称为“过度提示”。
  2. 研究提出了一个基于三种少样本选择方法的提示框架来应对这一挑战。
  3. 实验结果显示,在某些LLM中,过多的领域特定示例可能降低性能。
  4. 在软件需求和功能分类方面,使用逐渐增加的少样本示例数量进行实验,确定了每个LLM的最佳示例数量。
  5. 结合多种方法可实现使用更少示例的卓越性能,避免了过度提示问题。
  6. 该研究在真实软件需求分类数据集上的表现超过了现有技术。

Cool Papers

点此查看论文截图

Is Meta-Learning Out? Rethinking Unsupervised Few-Shot Classification with Limited Entropy

Authors:Yunchuan Guan, Yu Liu, Ke Zhou, Zhiqi Shen, Jenq-Neng Hwang, Serge Belongie, Lei Li

Meta-learning is a powerful paradigm for tackling few-shot tasks. However, recent studies indicate that models trained with the whole-class training strategy can achieve comparable performance to those trained with meta-learning in few-shot classification tasks. To demonstrate the value of meta-learning, we establish an entropy-limited supervised setting for fair comparisons. Through both theoretical analysis and experimental validation, we establish that meta-learning has a tighter generalization bound compared to whole-class training. We unravel that meta-learning is more efficient with limited entropy and is more robust to label noise and heterogeneous tasks, making it well-suited for unsupervised tasks. Based on these insights, We propose MINO, a meta-learning framework designed to enhance unsupervised performance. MINO utilizes the adaptive clustering algorithm DBSCAN with a dynamic head for unsupervised task construction and a stability-based meta-scaler for robustness against label noise. Extensive experiments confirm its effectiveness in multiple unsupervised few-shot and zero-shot tasks.

元学习是解决小样本任务的一种强大范式。然而,最近的研究表明,采用整体类训练策略训练的模型在小样分类任务上的性能可以与元学习训练的模型相媲美。为了证明元学习的价值,我们建立了熵限制监督环境,以便进行公平比较。通过理论分析和实验验证,我们得出元学习具有比整体类训练更严格的一般化边界。我们发现元学习在受限的熵下更高效,并且对于标签噪声和异类任务更具鲁棒性,因此非常适合用于无监督任务。基于这些见解,我们提出了MINO,这是一个旨在提高无监督性能的元学习框架。MINO利用自适应聚类算法DBSCAN和动态头进行无监督任务构建,以及基于稳定性的元标度因子来提高对标签噪声的鲁棒性。大量实验证明,它在多个无监督和零样本小样本任务中均有效。

论文及项目相关链接

PDF Accepted by ICCV 2025

Summary

在解决小样本任务时,元学习是一种强大的范式。但近期研究表明,采用全类训练策略的模型在少样本分类任务中的表现与元学习相当。为了证明元学习的价值,研究者在熵受限的监督环境中进行公平比较。通过理论分析和实验验证,发现元学习的泛化界限更紧密,且在有限熵下更高效,对标签噪声和异质任务更具鲁棒性,因此非常适合无监督任务。基于此,提出了MINO元学习框架,旨在提高无监督性能。MINO利用自适应聚类算法DBSCAN和动态头进行无监督任务构建,并采用基于稳定性的元缩放器增强对标签噪声的鲁棒性。实验证明,该框架在多类无监督小样本和零样本任务中均表现有效。

Key Takeaways

  1. 元学习是处理小样本任务的有力工具。
  2. 全类训练策略在某些少样本分类任务中的表现与元学习相当。
  3. 在熵受限的监督环境中,元学习展现出更紧密的泛化界限。
  4. 元学习在有限熵条件下更高效,对标签噪声和异质任务更具鲁棒性,适合无监督任务。
  5. 提出了MINO元学习框架,结合了自适应聚类算法DBSCAN和动态头进行无监督任务构建。
  6. MINO采用稳定性基础上的元缩放器,以增强对标签噪声的抵抗能力。

Cool Papers

点此查看论文截图

Empowering LLMs with Parameterized Skills for Adversarial Long-Horizon Planning

Authors:Sijia Cui, Shuai Xu, Aiyao He, Yanna Wang, Bo Xu

Recent advancements in Large Language Models(LLMs) have led to the development of LLM-based AI agents. A key challenge is the creation of agents that can effectively ground themselves in complex, adversarial long-horizon environments. Existing methods mainly focus on (1) using LLMs as policies to interact with the environment through generating low-level feasible actions, and (2) utilizing LLMs to generate high-level tasks or language guides to stimulate action generation. However, the former struggles to generate reliable actions, while the latter relies heavily on expert experience to translate high-level tasks into specific action sequences. To address these challenges, we introduce the Plan with Language, Act with Parameter (PLAP) planning framework that facilitates the grounding of LLM-based agents in long-horizon environments. The PLAP method comprises three key components: (1) a skill library containing environment-specific parameterized skills, (2) a skill planner powered by LLMs, and (3) a skill executor converting the parameterized skills into executable action sequences. We implement PLAP in MicroRTS, a long-horizon real-time strategy game that provides an unfamiliar and challenging environment for LLMs. The experimental results demonstrate the effectiveness of PLAP. In particular, GPT-4o-driven PLAP in a zero-shot setting outperforms 80% of baseline agents, and Qwen2-72B-driven PLAP, with carefully crafted few-shot examples, surpasses the top-tier scripted agent, CoacAI. Additionally, we design comprehensive evaluation metrics and test 6 closed-source and 2 open-source LLMs within the PLAP framework, ultimately releasing an LLM leaderboard ranking long-horizon skill planning ability. Our code is available at https://github.com/AI-Research-TeamX/PLAP.

近期大型语言模型(LLM)的进步推动了基于LLM的AI代理的发展。一个关键挑战是创建能够在复杂、对抗性的长期环境中有效立足的代理。现有方法主要集中在:(1)将LLM用作策略,通过与环境生成低级可行动作进行交互;(2)利用LLM生成高级任务或语言指南来刺激动作生成。然而,前者在生成可靠动作方面存在困难,而后者则严重依赖于专家经验将高级任务翻译成特定的动作序列。为了解决这些挑战,我们引入了“用语言规划,用参数执行”(PLAP)规划框架,该框架有助于基于LLM的代理在长期环境中立足。PLAP方法包含三个关键组件:(1)包含环境特定参数化技能的技能库;(2)由LLM驱动的技能规划器;(3)将参数化技能转换为可执行动作序列的技能执行器。我们在MicroRTS中实现了PLAP,这是一款长期实时策略游戏,为LLM提供了一个不熟悉且具有挑战性的环境。实验结果表明PLAP的有效性。特别是,GPT-4o在零射击设置下驱动的PLAP优于80%的基线代理,而经过精心设计的Qwen2-72B少数示例驱动的PLAP则超越了顶级脚本代理CoacAI。此外,我们设计了全面的评估指标,并在PLAP框架内测试了6个闭源和2个开源LLM,最终发布了一个长期技能规划能力的LLM排行榜。我们的代码可在https://github.com/AI-Research-TeamX/PLAP上找到。

论文及项目相关链接

PDF Accepted to IJCNN 2025

Summary

基于最新大型语言模型(LLM)技术的AI代理正在逐步发展,然而如何在复杂且对立的长期环境中使这些代理落地仍然是一个挑战。为了解决现有方法的局限性,研究者提出了一种名为PLAP的规划框架,它包含三个关键组件,如技能库、技能规划器和技能执行器。该框架在MicroRTS游戏中取得了良好效果,实现了在复杂的长期环境下的AI代理规划能力。Key Takeaways

  • LLMs已经发展到应用于AI代理,但在复杂的长期环境中还存在落地难题。
  • 当前的主要方法包括使用LLM作为策略生成低级行动和使用LLM生成高级任务或语言指南来刺激行动生成,但存在缺陷。
  • PLAP规划框架包括三个关键组件:环境特定参数化技能的技能库、由LLM驱动的技能规划器和将参数化技能转换为可执行行动序列的技能执行器。
  • PLAP在MicroRTS游戏中的实施证明了其有效性,不同LLM的表现通过新设计的评估指标进行了测试和排名。

Cool Papers

点此查看论文截图

Automated Generation of Research Workflows from Academic Papers: A Full-text Mining Framework

Authors:Heng Zhang, Chengzhi Zhang

The automated generation of research workflows is essential for improving the reproducibility of research and accelerating the paradigm of “AI for Science”. However, existing methods typically extract merely fragmented procedural components and thus fail to capture complete research workflows. To address this gap, we propose an end-to-end framework that generates comprehensive, structured research workflows by mining full-text academic papers. As a case study in the Natural Language Processing (NLP) domain, our paragraph-centric approach first employs Positive-Unlabeled (PU) Learning with SciBERT to identify workflow-descriptive paragraphs, achieving an F1-score of 0.9772. Subsequently, we utilize Flan-T5 with prompt learning to generate workflow phrases from these paragraphs, yielding ROUGE-1, ROUGE-2, and ROUGE-L scores of 0.4543, 0.2877, and 0.4427, respectively. These phrases are then systematically categorized into data preparation, data processing, and data analysis stages using ChatGPT with few-shot learning, achieving a classification precision of 0.958. By mapping categorized phrases to their document locations in the documents, we finally generate readable visual flowcharts of the entire research workflows. This approach facilitates the analysis of workflows derived from an NLP corpus and reveals key methodological shifts over the past two decades, including the increasing emphasis on data analysis and the transition from feature engineering to ablation studies. Our work offers a validated technical framework for automated workflow generation, along with a novel, process-oriented perspective for the empirical investigation of evolving scientific paradigms. Source code and data are available at: https://github.com/ZH-heng/research_workflow.

研究工作流程的自动化生成对于提高研究的可重复性和加速“人工智能科学”范式至关重要。然而,现有方法通常仅提取零碎的流程组件,因此无法捕获完整的研究工作流程。为了弥补这一差距,我们提出了一种端到端的框架,通过挖掘全文学术论文来生成全面、结构化的研究工作流程。作为自然语言处理(NLP)领域的案例研究,我们采用以段落为中心的方法,首先使用带有SciBERT的PU(Positive-Unlabeled)学习来识别描述工作流程的段落,F1分数达到0.9772。随后,我们使用带有提示学习的Flan-T5从这些段落中生成工作流程短语,得到ROUGE-1、ROUGE-2和ROUGE-L的分数分别为0.4543、0.2877和0.4427。这些短语随后使用ChatGPT进行少量学习,系统地分类为数据准备、数据处理和数据分析三个阶段,分类精度达到0.958。通过将分类后的短语映射到文档中的位置,我们最终生成了可读的研究工作流图表。这种方法便于分析从NLP语料库中派生出的工作流程,并揭示了过去二十年中关键方法论的变化,包括数据分析越来越受到重视以及从特征工程到消融研究的转变。我们的工作提供了一个经过验证的自动化工作流程生成技术框架,以及一个用于实证调查科学范式演变的新颖、面向流程的视角。源代码和数据可在https://github.com/ZH-heng/research_workflow找到。

论文及项目相关链接

PDF

Summary
该研究提出了一个端到端的框架,通过挖掘全文学术论文来生成全面、结构化的研究工作流程。采用自然语言处理技术,如Positive-Unlabeled Learning与Flan-T5模型,结合SciBERT与ChatGPT进行流程描述段落识别、工作流短语生成及阶段分类。最终生成可视化的研究工作流程图,为自动化生成工作流程提供技术框架与面向过程的视角。

Key Takeaways

 * 自动化生成研究工作流程是提高研究可重复性与加速“人工智能科学”范式转变的关键。
 
 * 现有方法主要提取碎片化的流程组件,无法捕捉完整的研究工作流程。
 
 * 提出一种端到端的框架,通过挖掘全文学术论文生成全面、结构化的研究工作流程。
 
 * 采用SciBERT与Positive-Unlabeled Learning识别流程描述段落,Flan-T5模型与prompt学习从段落中生成工作流短语。
 
 * 使用ChatGPT进行阶段分类,将短语分类为数据准备、数据处理与数据分析三个阶段,并实现高分类精度。
 
 * 将分类的短语映射到文档位置,生成可视化的整个研究工作流程图。
 
 * 分析显示,过去二十年中方法论上的关键转变包括数据分析的加强以及从特征工程到消融研究的过渡。

Cool Papers

点此查看论文截图

Few to Big: Prototype Expansion Network via Diffusion Learner for Point Cloud Few-shot Semantic Segmentation

Authors:Qianguang Zhao, Dongli Wang, Yan Zhou, Jianxun Li, Richard Irampa

Few-shot 3D point cloud semantic segmentation aims to segment novel categories using a minimal number of annotated support samples. While existing prototype-based methods have shown promise, they are constrained by two critical challenges: (1) Intra-class Diversity, where a prototype’s limited representational capacity fails to cover a class’s full variations, and (2) Inter-set Inconsistency, where prototypes derived from the support set are misaligned with the query feature space. Motivated by the powerful generative capability of diffusion model, we re-purpose its pre-trained conditional encoder to provide a novel source of generalizable features for expanding the prototype’s representational range. Under this setup, we introduce the Prototype Expansion Network (PENet), a framework that constructs big-capacity prototypes from two complementary feature sources. PENet employs a dual-stream learner architecture: it retains a conventional fully supervised Intrinsic Learner (IL) to distill representative features, while introducing a novel Diffusion Learner (DL) to provide rich generalizable features. The resulting dual prototypes are then processed by a Prototype Assimilation Module (PAM), which adopts a novel push-pull cross-guidance attention block to iteratively align the prototypes with the query space. Furthermore, a Prototype Calibration Mechanism (PCM) regularizes the final big capacity prototype to prevent semantic drift. Extensive experiments on the S3DIS and ScanNet datasets demonstrate that PENet significantly outperforms state-of-the-art methods across various few-shot settings.

少量标注样本支持下的三维点云语义分割旨在使用最少的标注样本对新型类别进行分割。虽然现有的基于原型的方法已经显示出潜力,但它们受到两个关键挑战的限制:(1)类内多样性,其中原型的有限表示能力无法覆盖类的全部变化;(2)集合间的不一致性,其中从支持集中得出的原型与查询特征空间不一致。受扩散模型强大生成能力的启发,我们重新使用其预训练的条件编码器,为扩展原型的表示范围提供一种新的可泛化特征来源。在这个设定下,我们引入了原型扩展网络(PENet),这是一个从两个互补特征源构建大容量原型的框架。PENet采用双流学习者架构:它保留传统的全监督内在学习者(IL)以提炼代表性特征,同时引入新型扩散学习者(DL)以提供丰富的可泛化特征。然后,得到的双原型经过原型融合模块(PAM)处理,该模块采用新型推拉交叉引导注意力块,以迭代方式将原型与查询空间对齐。此外,原型校准机制(PCM)对最终的大容量原型进行正则化,以防止语义漂移。在S3DIS和ScanNet数据集上的大量实验表明,PENet在各种小样本设置下显著优于现有最新方法。

论文及项目相关链接

PDF

Summary

本文介绍了基于扩散模型的Few-Shot 3D点云语义分割研究。针对现有原型方法存在的类内多样性不足和跨集不一致性问题,提出一种新型原型扩展网络(PENet)。利用扩散模型的预训练条件编码器提供可泛化的特征,通过双流学习器架构构建大容量原型,并引入原型融合模块和校准机制,实现原型与查询空间的迭代对齐。在S3DIS和ScanNet数据集上的实验表明,PENet在多种少样本设置下显著优于现有方法。

Key Takeaways

  1. Few-shot 3D点云语义分割旨在使用少量标注的支持样本对新型类别进行分割。
  2. 现有原型方法面临两个挑战:类内多样性不足和跨集不一致性。
  3. 扩散模型具有强大的生成能力,其预训练条件编码器可提供可泛化的特征。
  4. PENet采用双流学习器架构,结合传统内在学习器和新型扩散学习者构建大容量原型。
  5. PENet引入原型融合模块和校准机制,实现原型与查询空间的迭代对齐。
  6. 在S3DIS和ScanNet数据集上的实验表明PENet显著优于现有方法。

Cool Papers

点此查看论文截图

Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

Authors:Kento Murata, Shoichi Hasegawa, Tomochika Ishikawa, Yoshinobu Hagiwara, Akira Taniguchi, Lotfi El Hafi, Tadahiro Taniguchi

It is crucial to efficiently execute instructions such as “Find an apple and a banana” or “Get ready for a field trip,” which require searching for multiple objects or understanding context-dependent commands. This study addresses the challenging problem of determining which robot should be assigned to which part of a task when each robot possesses different situational on-site knowledge-specifically, spatial concepts learned from the area designated to it by the user. We propose a task planning framework that leverages large language models (LLMs) and spatial concepts to decompose natural language instructions into subtasks and allocate them to multiple robots. We designed a novel few-shot prompting strategy that enables LLMs to infer required objects from ambiguous commands and decompose them into appropriate subtasks. In our experiments, the proposed method achieved 47/50 successful assignments, outperforming random (28/50) and commonsense-based assignment (26/50). Furthermore, we conducted qualitative evaluations using two actual mobile manipulators. The results demonstrated that our framework could handle instructions, including those involving ad hoc categories such as “Get ready for a field trip,” by successfully performing task decomposition, assignment, sequential planning, and execution.

执行诸如“找一个苹果和一个香蕉”或“为实地考察做好准备”等指令至关重要,这些指令需要搜索多个物体或理解上下文相关的命令。本研究解决了这样一个挑战性问题:当每个机器人拥有不同的现场情境知识——特别是用户为其指定的区域所学的空间概念时,应确定将任务中的哪部分分配给哪个机器人。我们提出了一种任务规划框架,该框架利用大型语言模型(LLM)和空间概念将自然语言指令分解为子任务并分配给多个机器人。我们设计了一种新型少提示策略,使LLM能够从模糊的命令中推断出所需物体,并将其分解为适当的子任务。在我们的实验中,该方法实现了47/50的成功分配任务,优于随机分配(28/50)和基于常识的分配(26/50)。此外,我们还使用两个实际的移动操纵器进行了定性评估。结果表明,我们的框架能够处理指令,包括涉及临时性类别的指令(如“为实地考察做好准备”),通过成功进行任务分解、分配、序列规划和执行。

论文及项目相关链接

PDF Submitted to AROB-ISBC 2026 (Journal Track option)

Summary

本文研究了在执行自然语言指令时,如何根据每个机器人所掌握的不同现场情境知识来分配任务。文章提出了一种任务规划框架,利用大型语言模型和空间概念将指令分解为子任务并分配给多个机器人。通过设计一种新颖的提示策略,使语言模型能够从模糊指令中推断所需对象,并将其分解为适当的子任务。实验结果显示,该方法在任务分配上的成功率达到了47/50,优于随机分配和常识分配的方法。此外,在实地使用两种移动操作机器人进行的定性评估也验证了该方法的有效性。它能够处理包括临时分类在内的指令,并通过任务分解、分配、顺序规划和执行来成功完成任务。

Key Takeaways

  1. 自然语言指令在机器人任务执行中的重要性,特别是在涉及搜索多个对象或理解上下文相关指令时。
  2. 当每个机器人具备不同的现场情境知识时,如何为任务分配机器人成为了一个挑战。
  3. 提出了一种任务规划框架,结合大型语言模型和空间概念来处理自然语言指令。
  4. 设计了新颖的提示策略,使语言模型能够从模糊指令中推断所需对象并分解子任务。
  5. 实验结果显示,该框架在任务分配上的成功率较高。
  6. 定性评估证明该框架能够处理各种指令,包括涉及临时分类的指令。
  7. 通过任务分解、分配、顺序规划和执行,该框架能够成功完成任务。

Cool Papers

点此查看论文截图

Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML

Authors:Yash Mundhra, Max Valk, Maliheh Izadi

Large language models have shown impressive performance in various domains, including code generation across diverse open-source domains. However, their applicability in proprietary industrial settings, where domain-specific constraints and code interdependencies are prevalent, remains largely unexplored. We present a case study conducted in collaboration with the leveling department at ASML to investigate the performance of LLMs in generating functional, maintainable code within a closed, highly specialized software environment. We developed an evaluation framework tailored to ASML’s proprietary codebase and introduced a new benchmark. Additionally, we proposed a new evaluation metric, build@k, to assess whether LLM-generated code successfully compiles and integrates within real industrial repositories. We investigate various prompting techniques, compare the performance of generic and code-specific LLMs, and examine the impact of model size on code generation capabilities, using both match-based and execution-based metrics. The findings reveal that prompting techniques and model size have a significant impact on output quality, with few-shot and chain-of-thought prompting yielding the highest build success rates. The difference in performance between the code-specific LLMs and generic LLMs was less pronounced and varied substantially across different model families.

大型语言模型在包括跨不同开源领域的代码生成在内的各种领域中都表现出了令人印象深刻的性能。然而,它们在专有工业环境中的适用性,即存在特定领域约束和代码依赖关系的环境,仍被大大忽视。我们与ASML公司的平铺部门合作进行了一项案例研究,以调查大型语言模型在封闭的、高度专业化的软件环境中生成功能性、可维护性代码的性能。我们针对ASML的专有代码库开发了一个评估框架,并引入了一个新的基准测试。此外,我们提出了一种新的评估指标build@k,以评估大型语言模型生成的代码是否能够成功编译并集成到真实的工业存储库中。我们调查了各种提示技术,比较了通用和针对代码的大型语言模型的性能,并研究了模型大小对代码生成能力的影响,使用基于匹配和基于执行的指标进行评估。研究结果表明,提示技术和模型大小对输出质量有重大影响,其中少样本和链式思维提示技术获得了最高的构建成功率。针对代码的大型语言模型和通用大型语言模型之间的性能差异并不明显,并且在不同的模型家族之间存在很大差异。

论文及项目相关链接

PDF Accepted in the 40th IEEE/ACM International Conference on Automated Software Engineering, ASE 2025 (Industry track)

Summary

大型语言模型在多个领域表现出强大的性能,包括跨不同开源领域的代码生成。然而,它们在专有工业环境中的适用性,尤其是存在领域特定约束和代码依赖性的情况,仍被大量探索。本研究与ASML的分级部门合作,调查了大型语言模型在封闭、高度专业化的软件环境中生成功能性强、可维护的代码的性能。研究开发了针对ASML专有代码库的评价框架,并引入了新的基准测试。此外,还提出了一种新的评估指标build@k,以评估大型语言模型生成的代码是否能在真实的工业存储库中成功编译和集成。本研究调查了各种提示技术,比较了通用和特定代码大型语言模型的性能,并探讨了模型大小对代码生成能力的影响,使用基于匹配和基于执行的指标进行评估。研究发现,提示技术和模型大小对输出质量有重大影响,其中少样本和思维链提示获得了最高的构建成功率。特定代码大型语言模型和通用大型语言模型之间的性能差异不太明显,并且在不同的模型家族中差异很大。

Key Takeaways

  1. 大型语言模型在专有工业环境中的代码生成性能仍待探索。
  2. 研究与ASML合作,评估了大型语言模型在特定软件环境中的代码生成能力。
  3. 开发了针对ASML专有代码库的评价框架和新的基准测试。
  4. 引入了新的评估指标build@k,以评估代码在实际工业存储库中的集成能力。
  5. 调查了各种提示技术,发现少样本和思维链提示能提高代码生成的构建成功率。
  6. 模型大小对代码生成能力有影响。

Cool Papers

点此查看论文截图

Causal-Symbolic Meta-Learning (CSML): Inducing Causal World Models for Few-Shot Generalization

Authors:Mohamed Zayaan S

Modern deep learning models excel at pattern recognition but remain fundamentally limited by their reliance on spurious correlations, leading to poor generalization and a demand for massive datasets. We argue that a key ingredient for human-like intelligence-robust, sample-efficient learning-stems from an understanding of causal mechanisms. In this work, we introduce Causal-Symbolic Meta-Learning (CSML), a novel framework that learns to infer the latent causal structure of a task distribution. CSML comprises three key modules: a perception module that maps raw inputs to disentangled symbolic representations; a differentiable causal induction module that discovers the underlying causal graph governing these symbols and a graph-based reasoning module that leverages this graph to make predictions. By meta-learning a shared causal world model across a distribution of tasks, CSML can rapidly adapt to novel tasks, including those requiring reasoning about interventions and counterfactuals, from only a handful of examples. We introduce CausalWorld, a new physics-based benchmark designed to test these capabilities. Our experiments show that CSML dramatically outperforms state-of-the-art meta-learning and neuro-symbolic baselines, particularly on tasks demanding true causal inference.

现代深度学习模型在模式识别方面表现出色,但从根本上仍然受限于对偶然性关联的依赖,导致泛化能力较差和对大量数据集的需求。我们认为,人类智能的关键要素——稳健、高效的样本学习,源于对因果机制的理解。在这项工作中,我们引入了因果符号元学习(CSML),这是一种新型框架,能够推断任务分布的潜在因果结构。CSML包含三个关键模块:感知模块,将原始输入映射到解耦的符号表示;可微分的因果归纳模块,发现控制这些符号的潜在因果图;以及基于图的推理模块,利用该图进行预测。通过元学习任务分布中的共享因果世界模型,CSML可以快速适应新任务,包括那些只需要少量样本就能进行干预和假设检验的任务。我们引入了CausalWorld,这是一个新的基于物理的基准测试,旨在测试这些能力。我们的实验表明,CSML在需要真正因果推理的任务上显著优于最新的元学习和神经符号基线。

论文及项目相关链接

PDF 10 pages, 4 figures

Summary
深度学习方法在模式识别上表现出色,但仍受限于表面相关性的依赖,导致泛化能力不佳并依赖大规模数据集。本文提出Causal-Symbolic Meta-Learning(CSML)框架,旨在学习推断任务分布的潜在因果结构。CSML包括三个关键模块:感知模块将原始输入映射到符号表示;可分化因果归纳模块发现控制这些符号的潜在因果图;基于图的推理模块利用此图进行预测。通过元学习任务分布中的共享因果世界模型,CSML可以快速适应新任务,包括需要干预和假设的任务。本文还介绍了用于测试这些能力的全新物理基准测试CausalWorld。实验表明,CSML在需要真正因果推断的任务上显著优于最新的元学习和神经符号基线。

Key Takeaways

  1. 现代深度学习方法受限于依赖表面相关性,导致泛化能力不佳。
  2. CSML框架旨在学习推断任务分布的潜在因果结构,由三个关键模块组成。
  3. CSML能够迅速适应新任务,包括需要理解和应对干预与假设的任务。
  4. 引入了一个新的物理基准测试CausalWorld,用于测试模型的因果推理能力。
  5. 实验表明,CSML在需要真正因果推断的任务上表现优异。
  6. CSML通过元学习共享因果世界模型来优化模型性能。

Cool Papers

点此查看论文截图

Random Rule Forest (RRF): Interpretable Ensembles of LLM-Generated Questions for Predicting Startup Success

Authors:Ben Griffin, Diego Vidaurre, Ugur Koyluoglu, Joseph Ternasky, Fuat Alican, Yigit Ihlamur

Predicting rare outcomes such as startup success is central to venture capital, demanding models that are both accurate and interpretable. We introduce Random Rule Forest (RRF), a lightweight ensemble method that uses a large language model (LLM) to generate simple YES/NO questions in natural language. Each question functions as a weak learner, and their responses are combined using a threshold-based voting rule to form a strong, interpretable predictor. Applied to a dataset of 9,892 founders, RRF achieves a 6.9x improvement over a random baseline on held-out data; adding expert-crafted questions lifts this to 8x and highlights the value of human-LLM collaboration. Compared with zero- and few-shot baselines across three LLM architectures, RRF attains an F0.5 of 0.121, versus 0.086 for the best baseline (+0.035 absolute, +41% relative). By combining the creativity of LLMs with the rigor of ensemble learning, RRF delivers interpretable, high-precision predictions suitable for decision-making in high-stakes domains.

预测创业成功等稀有结果是对风险投资至关重要的,这要求模型既要准确又要可解释。我们引入了随机规则森林(RRF),这是一种轻量级的集成方法,它使用大型语言模型(LLM)生成简单的自然语言中的是非问题。每个问题都作为一个弱学习者发挥作用,它们的回答通过基于阈值的投票规则进行组合,形成一个强大且可解释的预测器。在应用于包含9892位创始人的数据集时,RRF在保留数据上实现了相对随机基准线的6.9倍改进;添加专家设计的问题将此提升到8倍,突显了人类与LLM合作的价值。与三种LLM架构的零样本和少样本基线相比,RRF的F0.5分数为0.121,而最佳基线的分数为0.086(绝对提高0.035,相对提高41%)。通过将LLM的创造力和集成学习的严谨性相结合,RRF能够做出可解释、高精确度的预测,适合用于高风险领域的决策制定。

论文及项目相关链接

PDF 13 pages including appendix, 4 figures

Summary

随机规则森林(RRF)是一种轻量级的集成方法,它利用大型语言模型(LLM)生成简单的自然语言中的是非问题。每个问题都作为一个弱学习者,其回答通过基于阈值的投票规则组合成一个强大、可解释的预测器。应用于9892名创始人的数据集,RRF在保留数据上实现了对随机基准线的6.9倍改进;添加专家制作的问题将这个比率提高到8倍,突显了人类与LLM协作的价值。与三种LLM架构的零和少镜头基线相比,RRF的F0.5值为0.121,而最佳基线的F0.5值为0.086(绝对提升0.035,相对提升41%)。通过将LLM的创造性和集成学习的严谨性相结合,RRF提供了可解释性高、精确度高的预测,适合在高风险领域进行决策。

Key Takeaways

  1. RRF是一种集成方法,结合LLM生成的是非问题作为弱学习者。
  2. RRF通过基于阈值的投票规则组合弱学习者,形成强大且可解释的预测器。
  3. 在创始人数据集上的实验显示,RRF相对于随机基准有显著改善。
  4. 添加专家制作的问题提高了预测性能,突显了人类与LLM协作的重要性。
  5. RRF相比其他零和少镜头基线有显著优势,F0.5值更高。
  6. RRF结合了LLM的创造性和集成学习的严谨性,提供高精确度预测。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-09-18 AREPAS Anomaly Detection in Fine-Grained Anatomy with Reconstruction-Based Semantic Patch-Scoring
下一篇 
Agent Agent
Agent 方向最新论文已更新,请持续关注 Update in 2025-09-18 Scaling Agents via Continual Pre-training
2025-09-18
  目录