嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-11 更新

MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning

Authors:Tajamul Ashraf, Umair Nawaz, Abdelrahman M. Shaker, Rao Anwer, Philip Torr, Fahad Shahbaz Khan, Salman Khan

Vision language models (VLMs) are increasingly deployed as controllers with access to external tools for complex reasoning and decision-making, yet their effectiveness remains limited by the scarcity of high-quality multimodal trajectories and the cost of manual annotation. We address this challenge with a vision-centric agent tuning framework that automatically synthesizes multimodal trajectories, generates step-wise preference pairs, and trains a VLM controller for robust tool-use reasoning. Our pipeline first constructs M-TRACE, a large-scale dataset of 28.5K multimodal tasks with 177K verified trajectories, enabling imitation-based trajectory tuning. Building on this, we develop MATRIX Agent, a controller finetuned on M-TRACE for step-wise tool reasoning. To achieve finer alignment, we further introduce Pref-X, a set of 11K automatically generated preference pairs, and optimize MATRIX on it via step-wise preference learning. Across three benchmarks, Agent-X, GTA, and GAIA, MATRIX consistently surpasses both open- and closed-source VLMs, demonstrating scalable and effective multimodal tool use. Our data and code is avaliable at https://github.com/mbzuai-oryx/MATRIX.

视觉语言模型(VLMs)越来越多地被部署为控制器,通过访问外部工具进行复杂的推理和决策。然而,它们的有效性仍然受到高质量多模式轨迹稀缺和手动注释成本高昂的限制。我们通过以视觉为中心的代理调整框架来解决这一挑战,该框架可自动合成多模式轨迹,生成分步偏好对,并训练用于稳健工具使用推理的VLM控制器。我们的管道首先构建M-TRACE,这是一个包含28.5K个多模式任务的大规模数据集,其中包含17.7万条验证过的轨迹,以实现基于模仿的轨迹调整。在此基础上,我们开发了MATRIX Agent,这是一个在M-TRACE上进行微调以进行分步工具推理的控制器。为了实现更精细的对齐,我们进一步引入了Pref-X,这是一组自动生成的包含偏好对的共计一万一千个数据集样本集并对矩阵进行优化以获得每个步骤的最佳选择。在Agent-X、GTA和GAIA三个基准测试中,MATRIX的表现始终超过了开源和闭源的VLMs,证明了其可扩展性和有效的多模式工具使用能力。我们的数据和代码可在https://github.com/mbzuai-oryx/MATRIX上获取。

论文及项目相关链接

PDF

Summary

本文介绍了一个以视觉为中心的代理调整框架,该框架能够自动合成多模式轨迹,生成步骤式偏好对,并训练用于稳健工具使用推理的VLM控制器。该研究构建了一个大规模数据集M-TRACE,并开发了MATRIX Agent控制器,在M-TRACE上进行微调以实现逐步工具推理。此外,为了更精细的对齐,研究还引入了自动生成的偏好对Pref-X,并通过逐步偏好学习优化MATRIX。在三个基准测试上,MATRIX均超过了开源和闭源的VLMs,证明了其多模式工具使用的可扩展性和有效性。

Key Takeaways

  1. VLMs作为控制器在复杂推理和决策制定中的应用越来越广泛,但高质量的多模式轨迹的稀缺性和手动标注的成本限制了其有效性。
  2. 研究提出了一种以视觉为中心的代理调整框架,该框架能够自动合成多模式轨迹,有助于解决VLMs面临的上述挑战。
  3. 构建了一个大规模数据集M-TRACE,包含28.5K多模式任务和177K验证轨迹,为基于模仿的轨迹调整提供了可能。
  4. 开发了MATRIX Agent控制器,在M-TRACE上进行微调,实现逐步工具推理。
  5. 引入了自动生成的偏好对Pref-X,实现更精细的对齐,并通过逐步偏好学习优化MATRIX。
  6. MATRIX在三个基准测试上的表现均超过了开源和闭源的VLMs,证明了其多模式工具使用的有效性。

Cool Papers

点此查看论文截图

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

Authors:Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai

Self-evolution is a central research topic in enabling large language model (LLM)-based agents to continually improve their capabilities after pretraining. Recent research has witnessed a transition from reinforcement learning (RL)-free to RL-based methods. Current RL-based methods either rely on dense external reward signals or extract intrinsic reward signals from LLMs themselves. However, these approaches diverge from the self-evolution mechanisms observed in human intelligence, where individuals learn and improve through mutual discussion and collaboration. In this work, we introduce Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents to improve autonomously by learning from inter-agent interactions without external supervision. CoMAS generates intrinsic rewards from rich discussion dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and optimizes each agent’s policy through RL, thereby enabling decentralized and scalable co-evolution. Experimental results demonstrate that CoMAS consistently outperforms untrained agents and achieves state-of-the-art performance across most evaluation settings. Ablation studies confirm the necessity of interaction-based reward signals and reveal promising scalability as the number and diversity of agents increase. These findings establish CoMAS as a novel and effective paradigm for self-evolution in LLM-based agents.

自我进化是使基于大型语言模型的智能体在预训练后能够持续提高其能力的一个核心研究课题。最近的研究见证了从非强化学习向基于强化学习的方法的转变。当前的基于强化学习的方法要么依赖于密集的外部奖励信号,要么从大型语言模型本身提取内在奖励信号。然而,这些方法与人类智能中的自我进化机制背道而驰,人类通过相互讨论和协作来学习和提高。在这项工作中,我们引入了协同进化多智能体系统(CoMAS),这是一个新型框架,使智能体能够通过从智能体之间的交互中学习来自主提高,无需外部监督。CoMAS从丰富的讨论动态中产生内在奖励,采用大型语言模型作为评判机制来制定这些奖励,并通过强化学习优化每个智能体的策略,从而实现分布式和可扩展的协同进化。实验结果表明,CoMAS在大多数情况下都优于未经训练的智能体,并在大多数评估环境中达到了最新技术水平。消融研究证实了基于交互的奖励信号的必要性,并显示出随着智能体数量和多样性的增加,其可扩展性前景广阔。这些发现确立了CoMAS在大型语言模型智能体自我进化领域作为一种新型有效范式。

论文及项目相关链接

PDF

Summary
自我进化是使基于大型语言模型(LLM)的代理在预训练后能够持续改进其能力的研究核心。近期研究经历了从无强化学习(RL)到RL方法的过程转变。当前RL方法依赖于密集的外界奖励信号或从LLM本身提取的内在奖励信号。然而,这些方法与人类智能中的自我进化机制相悖离,个人通过相互讨论和协作学习和提高。在此研究中,我们引入了协同进化多智能体系统(CoMAS),这是一种新型框架,通过从智能体间互动学习实现无需外部监督的自主进化改进。CoMAS通过丰富的讨论动态生成内在奖励,利用LLM作为评判机制来制定这些奖励,并通过RL优化每个智能体的策略,实现分散和可扩展的协同进化。实验结果显示,CoMAS在各种评估设置中表现最佳。删除研究证实基于互动奖励信号的必要性,随着智能体数量和多样性的增加显示出有前景的可扩展性。这些发现确立了CoMAS在LLM智能体自我进化领域的新颖性和有效性。

Key Takeaways

  1. CoMAS是一个新型框架,允许基于LLM的代理通过智能体间的互动学习实现自主进化改进。
  2. 该框架通过丰富的讨论动态生成内在奖励,不同于依赖外部奖励信号或仅从LLM中提取内在奖励信号的方法。
  3. CoMAS利用LLM作为评判机制来制定奖励,优化每个智能体的策略,实现分散和可扩展的协同进化。
  4. 实验结果显示CoMAS在各种评估设置中表现最佳,显示出其有效性和新颖性。
  5. 删除研究证实了互动奖励信号的必要性,这是CoMAS框架成功的关键因素之一。
  6. 随着智能体数量和多样性的增加,CoMAS显示出有前景的可扩展性。
  7. 该研究为基于LLM的代理的自我进化提供了一种新的和有效的途径。

Cool Papers

点此查看论文截图

AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents

Authors:Shangheng Du, Xiangchao Yan, Dengyang Jiang, Jiakang Yuan, Yusong Hu, Xin Li, Liang He, Bo Zhang, Lei Bai

Large language models (LLMs) have shown impressive performance in general programming tasks. However, in Machine Learning Engineering (MLE) scenarios such as AutoML and Kaggle competitions, achieving high performance depends heavily on expert intervention and repeated adjustments rather than simply generating correct code. When applied directly to these tasks, LLMs often lack fine-grained domain priors, and existing MLE approaches that use linear or tree-structured searches limit knowledge transfer to adjacent hierarchical links. As a result, they cannot leverage past full trajectories or share information across branches, limiting self-evolving ability and search space diversity. To address these limitations, we introduce AutoMLGen, an LLM-based coding agent that integrates a domain knowledge base for high-quality prior guidance and Monte Carlo Graph Search (MCGS) for efficient exploration. MCGS retains the tree-guided exploration of MCTS while embedding a graph structure into the expansion stage to enable dynamic path reorganization, historical trajectory reuse, and multi-solution fusion to support both self-evolution and collaborative learning. Combined with fine-grained operator sets, this design improves stability and accelerates convergence. Evaluation on the MLE-Bench shows that AutoMLGen achieves state-of-the-art performance in numerous dimensions, such as the average medal rate and the valid submission rate, under a 12-hour budget (half the standard runtime). The code is available at https://github.com/Alpha-Innovator/InternAgent.

大规模语言模型(LLM)在一般编程任务中表现出了令人印象深刻的性能。然而,在机器学习工程(MLE)场景,如AutoML和Kaggle竞赛中,实现高性能很大程度上依赖于专家干预和重复调整,而不是简单地生成正确代码。当直接应用于这些任务时,LLM往往缺乏精细的域先验知识,而现有的MLE方法使用线性或树状搜索,将知识转移限制在相邻的层次链接上。因此,它们无法利用过去的完整轨迹或在各分支之间共享信息,限制了自我进化能力和搜索空间的多样性。为了解决这些限制,我们引入了AutoMLGen,这是一个基于LLM的编码代理,它整合了领域知识库进行高质量的前期指导,并采用蒙特卡罗图搜索(MCGS)进行有效探索。MCGS保留了MCTS的树状引导探索,同时在扩展阶段嵌入图结构,以实现动态路径重组、历史轨迹重用和多解决方案融合,以支持自我进化和协作学习。结合精细的操作集合,这种设计提高了稳定性并加速了收敛。在MLE-Bench上的评估表明,AutoMLGen在平均奖牌率和有效提交率等多个维度上实现了卓越的性能,在12小时预算(标准运行时的一半)内达到业界领先水平。代码可在https://github.com/Alpha-Innovator/InternAgent上找到。

论文及项目相关链接

PDF

Summary

大型语言模型(LLMs)在通用编程任务中表现出色,但在机器学习工程(MLE)场景如AutoML和Kaggle竞赛中,实现高性能更多依赖于专家干预和重复调整,而非仅生成正确代码。针对LLMs在这些任务中的局限性,如缺乏精细领域先验知识和现有MLE方法的知识转移限制,我们提出了AutoMLGen,一个基于LLM的编码代理,集成了领域知识库以提供高质量先验指导,并采用蒙特卡洛图搜索(MCGS)进行高效探索。MCGS保留了树引导探索的同时,在扩展阶段嵌入图结构,实现动态路径重组、历史轨迹重用和多解决方案融合,支持自我进化和协作学习。结合精细操作集,这种设计提高了稳定性并加速了收敛。在MLE-Bench上的评估显示,AutoMLGen在平均奖牌率和有效提交率等多个维度上实现了卓越性能,并在12小时预算内(为标准运行时的一半)达到了领先水平。

Key Takeaways

  1. 大型语言模型(LLMs)在编程任务中表现出色,但在机器学习工程(MLE)场景中实现高性能需依赖专家干预。
  2. LLMs在MLE任务中缺乏精细领域先验知识。
  3. 现有MLE方法的知识转移仅限于相邻层次链接,无法利用过去的全轨迹或跨分支分享信息。
  4. 引入AutoMLGen,一个基于LLM的编码代理,集成了领域知识库和蒙特卡洛图搜索(MCGS)。
  5. MCGS结合树引导探索和图结构,实现动态路径重组、历史轨迹重用和多解决方案融合。
  6. AutoMLGen设计提高了稳定性并加速了收敛,支持自我进化和协作学习。
  7. 在MLE-Bench上的评估显示,AutoMLGen实现了卓越性能,并在多个维度上达到领先水平。

Cool Papers

点此查看论文截图

Iterated Agent for Symbolic Regression

Authors:Zhuo-Yang Song, Zeyu Cai, Shutao Zhang, Jiashen Wei, Jichen Pan, Shi Qiu, Qing-Hong Cao, Tie-Jiun Hou, Xiaohui Liu, Ming-xing Luo, Hua Xing Zhu

Symbolic regression (SR), the automated discovery of mathematical expressions from data, is a cornerstone of scientific inquiry. However, it is often hindered by the combinatorial explosion of the search space and a tendency to overfit. Popular methods, rooted in genetic programming, explore this space syntactically, often yielding overly complex, uninterpretable models. This paper introduces IdeaSearchFitter, a framework that employs Large Language Models (LLMs) as semantic operators within an evolutionary search. By generating candidate expressions guided by natural-language rationales, our method biases discovery towards models that are not only accurate but also conceptually coherent and interpretable. We demonstrate IdeaSearchFitter’s efficacy across diverse challenges: it achieves competitive, noise-robust performance on the Feynman Symbolic Regression Database (FSReD), outperforming several strong baselines; discovers mechanistically aligned models with good accuracy-complexity trade-offs on real-world data; and derives compact, physically-motivated parametrizations for Parton Distribution Functions in a frontier high-energy physics application. IdeaSearchFitter is a specialized module within our broader iterated agent framework, IdeaSearch, which is publicly available at https://www.ideasearch.cn/.

符号回归(SR)是从数据中自动发现数学表达式的过程,是科学研究的基石。然而,它常常受到搜索空间组合爆炸和过度拟合的阻碍。基于遗传编程的流行方法从语法角度探索这个空间,通常会产生过于复杂且不可解释的模型。本文介绍了IdeaSearchFitter框架,它采用大型语言模型(LLM)作为进化搜索中的语义运算符。通过以自然语言理由为指导生成候选表达式,我们的方法使发现偏向于既准确又概念连贯和可解释的模型。我们展示了IdeaSearchFitter在不同挑战中的有效性:它在Feynman符号回归数据库(FSReD)上实现了具有竞争力的噪声鲁棒性能,超越了多个强大的基线;在真实世界数据上发现了具有良好精度复杂性权衡的机械对齐模型;并在前沿高能物理应用中推导出了紧凑的物理驱动参数化粒子分布函数。IdeaSearchFitter是我们更广泛的迭代代理框架IdeaSearch中的专用模块,公开可访问网址为:https://www.ideasearch.cn/.

论文及项目相关链接

PDF 45 pages, 22 figures, 8 tables

Summary
数据驱动的数学表达式自动发现方法——符号回归(SR)是科学探索的重要工具,但面临搜索空间组合爆炸和过度拟合等问题。本文提出IdeaSearchFitter框架,利用大型语言模型(LLMs)在进化搜索中作为语义操作符,生成受自然语言启发候选表达式,使发现模型既准确又概念连贯、可解释性强。IdeaSearchFitter在不同挑战中表现优异,包括在Feynman符号回归数据库(FSReD)上实现与强大基线相当的稳健性能;在现实世界数据上发现具有良好精度复杂度的机械对齐模型;并在高能物理应用的前沿领域推导出紧凑的物理参数化函数。

Key Takeaways

  1. IdeaSearchFitter框架结合了符号回归(SR)和大型语言模型(LLM),提高了自动化发现数学表达式的效率。
  2. 该框架通过生成受自然语言启发的候选表达式,解决了搜索空间的组合爆炸问题。
  3. IdeaSearchFitter强调模型的准确性、概念连贯性和可解释性,避免过度拟合。
  4. 在多个挑战中验证了IdeaSearchFitter的有效性,包括在Feynman符号回归数据库上的性能表现。
  5. 该框架能够发现与现实世界数据具有良好精度复杂度的机械对齐模型。
  6. IdeaSearchFitter成功应用于高能物理领域,推导出紧凑的物理参数化函数。

Cool Papers

点此查看论文截图

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

Authors:Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin

While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.

虽然最近的推理模型进步已经通过强化学习展示了认知行为,但现有方法很难在多轮交互代理中激发深度推理能力,特别是具有长期视野的交互。我们提出了DeepMiner,这是一个通过引入高难度训练任务和动态上下文窗口来激发此类能力的新型框架。DeepMiner采用反向构建方法,从真实网络来源生成复杂但可验证的问题答案对,这确保了训练数据的挑战性和可靠性,同时将认知能力注入多轮推理场景中。我们进一步为训练和推理设计了一个优雅而有效的动态上下文管理策略,利用滑动窗口机制,消除对外部摘要模型的依赖,从而有效地增强模型处理不断扩展的长期视野上下文的能力。通过Qwen3-32B上的强化学习,我们开发了DeepMiner-32B,在多个搜索代理基准测试中实现了显著的性能提升。DeepMiner在BrowseComp-en上达到了33.5%的准确率,超过了之前最好的开源代理近20个百分点,并且在BrowseComp-zh、XBench-DeepSearch和GAIA上表现出持续的一致性改进。值得注意的是,我们的动态上下文管理使在标准32k上下文长度内实现了近100轮的持续交互,有效地解决了限制现有多轮交互系统的上下文限制问题。

论文及项目相关链接

PDF

Summary

近期强化学习模型展现出认知行为能力,但在多轮交互的长周期环境中难以激发深度推理能力。为此,本文提出DeepMiner框架,通过引入高难度训练任务和动态语境窗口来激发深度推理能力。DeepMiner采用反向构建法生成复杂但可验证的问答对,确保训练数据的挑战性和可靠性,并注入多轮推理场景的认知能力。此外,DeepMiner设计动态语境管理策略,用于训练和推理,利用滑动窗口机制,无需依赖外部摘要模型,从而有效处理不断扩展的长周期语境。在Qwen3-32B上进行强化学习,开发出DeepMiner-32B,在多个搜索代理基准测试中实现显著性能提升。

Key Takeaways

  1. DeepMiner框架通过引入高难度训练任务和动态语境窗口,能够在多轮交互环境中激发深度推理能力。
  2. DeepMiner采用反向构建法生成问答对,确保训练数据的挑战性和可靠性。
  3. DeepMiner注入认知能力到多轮推理场景中。
  4. 动态语境管理策略用于训练和推理,能够处理不断扩展的长周期语境。
  5. 通过强化学习,DeepMiner在多个搜索代理基准测试中实现显著性能提升。
  6. 在BrowseComp-en上,DeepMiner的准确率达到了33.5%,超越了之前最好的开源代理近20个百分点。

Cool Papers

点此查看论文截图

Multi-Agent Analysis of Off-Exchange Public Information for Cryptocurrency Market Trend Prediction

Authors:Kairan Hong, Jinling Gan, Qiushi Tian, Yanglinxuan Guo, Rui Guo, Runnan Li

Cryptocurrency markets present unique prediction challenges due to their extreme volatility, 24/7 operation, and hypersensitivity to news events, with existing approaches suffering from key information extraction and poor sideways market detection critical for risk management. We introduce a theoretically-grounded multi-agent cryptocurrency trend prediction framework that advances the state-of-the-art through three key innovations: (1) an information-preserving news analysis system with formal theoretical guarantees that systematically quantifies market impact, regulatory implications, volume dynamics, risk assessment, technical correlation, and temporal effects using large language models; (2) an adaptive volatility-conditional fusion mechanism with proven optimal properties that dynamically combines news sentiment and technical indicators based on market regime detection; (3) a distributed multi-agent coordination architecture with low communication complexity enabling real-time processing of heterogeneous data streams. Comprehensive experimental evaluation on Bitcoin across three prediction horizons demonstrates statistically significant improvements over state-of-the-art natural language processing baseline, establishing a new paradigm for financial machine learning with broad implications for quantitative trading and risk management systems.

加密货币市场的独特预测挑战体现在其极端波动性、全天候运营以及对新闻事件的极度敏感性上。现有方法面临关键信息提取和横向市场检测不足的问题,这对风险管理至关重要。我们引入了一个有理论支撑的多智能体加密货币趋势预测框架,通过三个关键创新点来推动前沿技术:(1)一个信息保留的新闻分析系统,具有形式化的理论保证,能够系统地量化市场影响、监管影响、交易量动态、风险评估、技术相关性以及时间效应,使用大型语言模型;(2)一种自适应的波动性条件融合机制,具有经过验证的最优属性,能够根据市场状态检测动态地结合新闻情感和基于技术指标的预测;(3)一种具有低通信复杂性的分布式多智能体协调架构,能够实现实时处理异构数据流。在比特币上的三个预测时间点的综合实验评估表明,与传统的自然语言处理基线相比,具有统计学上的显著改进,为金融机器学习建立了新的范式,对定量交易和风险管理系统具有广泛的影响。

论文及项目相关链接

PDF

Summary

这篇文本主要介绍了针对加密货币市场的独特预测挑战,提出了一种基于多智能体的加密货币趋势预测框架。该框架具有三个关键创新点:一是信息保留的新闻分析系统,二是自适应波动条件融合机制,三是分布式多智能体协调架构。这些创新点旨在解决现有方法在信息提取和横向市场检测方面的不足,为风险管理提供新的解决方案。实验评估表明,该框架在比特币预测方面显著优于现有自然语言处理基线,为金融机器学习和量化交易风险管理提供了重要的启示。

Key Takeaways

以下是七个关键见解:

  • 加密货币市场具有独特的预测挑战,如极端波动性、全天候操作和新闻事件的敏感性。
  • 现存方法在关键信息提取和横向市场检测方面存在不足。
  • 提出了一种多智能体加密货币趋势预测框架,包括信息保留的新闻分析系统、自适应波动条件融合机制和分布式多智能体协调架构。
  • 信息保留的新闻分析系统使用大型语言模型量化市场影响、监管影响、交易量动态、风险评估、技术关联和时间效应。
  • 自适应波动条件融合机制结合新闻情感和基于市场状态检测的技术指标。
  • 分布式多智能体协调架构具有低通信复杂性,可实时处理异构数据流。

Cool Papers

点此查看论文截图

Opponent Shaping in LLM Agents

Authors:Marta Emili Garcia Segura, Stephen Hailes, Mirco Musolesi

Large Language Models (LLMs) are increasingly being deployed as autonomous agents in real-world environments. As these deployments scale, multi-agent interactions become inevitable, making it essential to understand strategic behavior in such systems. A central open question is whether LLM agents, like reinforcement learning agents, can shape the learning dynamics and influence the behavior of others through interaction alone. In this paper, we present the first investigation of opponent shaping (OS) with LLM-based agents. Existing OS algorithms cannot be directly applied to LLMs, as they require higher-order derivatives, face scalability constraints, or depend on architectural components that are absent in transformers. To address this gap, we introduce ShapeLLM, an adaptation of model-free OS methods tailored for transformer-based agents. Using ShapeLLM, we examine whether LLM agents can influence co-players’ learning dynamics across diverse game-theoretic environments. We demonstrate that LLM agents can successfully guide opponents toward exploitable equilibria in competitive games (Iterated Prisoner’s Dilemma, Matching Pennies, and Chicken) and promote coordination and improve collective welfare in cooperative games (Iterated Stag Hunt and a cooperative version of the Prisoner’s Dilemma). Our findings show that LLM agents can both shape and be shaped through interaction, establishing opponent shaping as a key dimension of multi-agent LLM research.

大型语言模型(LLM)越来越被部署在真实世界环境中作为自主代理。随着这些部署规模的扩大,多智能体交互变得不可避免,因此了解此类系统中的战略行为变得至关重要。一个核心开放的问题是,LLM智能体是否能够像强化学习智能体一样,仅通过交互来塑造学习动态并影响他人的行为。在本文中,我们首次对基于LLM的对手塑造(OS)进行了调查。现有的OS算法不能直接在LLM上应用,因为它们需要高阶导数、面临可扩展性约束或依赖于LLM模型中不存在的架构组件。为了弥补这一空白,我们引入了ShapeLLM,这是一个针对基于转换器的智能体的无模型OS方法的改编。使用ShapeLLM,我们研究了LLM智能体是否能在多种博弈论环境中影响对手的学习动态。我们证明,LLM智能体可以成功引导对手走向竞争游戏中的可剥削平衡(如反复囚徒困境、匹配硬币和鸡肉游戏),并在合作游戏中促进协调和提高集体福利(如反复狩猎阶段和合作版本的囚徒困境)。我们的研究结果表明,LLM智能体既可以通过交互来塑造对手,也可以被对手塑造,从而确立了对手塑造在多智能体LLM研究中的关键维度。

论文及项目相关链接

PDF 29 pages, 15 figures, 15 tables

Summary

大型语言模型(LLM)作为自主代理在现实环境中的部署日益增多,多代理交互不可避免。本文首次研究了与LLM代理的对手塑造(OS)问题。针对LLM,我们引入了ShapeLLM,这是一种针对基于变压器的代理的无模型OS方法的改编。研究表明,LLM代理可以在游戏理论环境中影响对手的学习动态。在竞争游戏中,LLM代理可以引导对手走向可剥削的均衡状态,并在合作游戏中促进协调和提高集体福利。因此,对手塑造是LLM多代理研究的关键维度。

Key Takeaways

  • 大型语言模型(LLM)正在被越来越多地部署为自主代理,在多代理交互中,对手塑造(OS)成为关键议题。
  • 现有OS算法不能直接应用于LLM,需要针对基于变压器的代理进行改编。
  • 引入ShapeLLM,一种针对LLM的无模型OS方法。
  • LLM代理可以在不同的游戏理论环境中影响对手的学习动态。
  • 在竞争游戏中,LLM代理可引导对手至可剥削的均衡状态。
  • 在合作游戏中,LLM代理能促进协调和提高集体福利。
  • LLM代理既能够塑造对手,也能通过交互被对手塑造。

Cool Papers

点此查看论文截图

Two Agents, One Prompt, and Your Weight

Authors:Elchanan Mossel, Amnon Schrieber

We investigate a quantitative variant of the classic Two Doors logic puzzle, in which the answer space is no longer binary, for example when the goal is to recover a numerical fact (such as one’s true weight) rather than choose between two doors. The puzzle retains the original structure: one agent always tells the truth, the other always lies. Our central contribution is to identify a class of self-referential prompts that successfully extract the correct quantitative answer under minimal assumptions. We also explore how well does \texttt{ChatGPT} does in reasoning for this problem which is just a little bit out of distribution.

我们研究了经典的两门逻辑难题的定量变体,在这个变体中,答案空间不再是二元的,例如目标是从两个门中选择一个数字事实(如真实的体重)而不是简单地选择其中一个门。谜题保留了原始结构:一个代理人总是说实话,另一个代理人总是说谎。我们的主要贡献在于识别出一类自指提示,这些提示能够在最少的假设下成功提取正确的定量答案。我们还探讨了ChatGPT在处理这种稍微超出常规范围的问题时的推理能力。

论文及项目相关链接

PDF

Summary

本文探讨了经典的两门逻辑难题的定量变体。当目标不再是二元选择(如选择两扇门中的一扇门),而是恢复数值事实(如真实体重)时,该难题如何保持原有的结构特点:一个代理人总是说实话,另一个总是说谎。本文的核心贡献是识别出一类自我参考的提示,这些提示能在最小的假设下成功提取出正确的定量答案。此外,本文还探讨了ChatGPT在这种稍微超出其常规处理范围的问题上的推理能力。

Key Takeaways

  1. 本文研究了经典两门逻辑难题的定量变体,其中答案不再是简单的二元选择,而是涉及到数值事实的提取。
  2. 问题保持原有的结构特点:一个代理人始终说实话,另一个代理人始终说谎。
  3. 论文主要贡献在于找到一种自我参考的提示方法,可以在最少假设下成功提取出正确的定量答案。
  4. 论文还探讨了ChatGPT在处理稍微超出其常规范围的问题时的推理能力。
  5. 该研究展示了如何通过逻辑推理来解决问题,即使这些问题涉及到数值数据和自我参考的复杂性。
  6. 研究结果对于人工智能理解和处理复杂逻辑问题有一定的启示作用。

Cool Papers

点此查看论文截图

Authors:Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong

Instruction-following navigation is a key step toward embodied intelligence. Prior benchmarks mainly focus on semantic understanding but overlook systematically evaluating navigation agents’ spatial perception and reasoning capabilities. In this work, we introduce the NavSpace benchmark, which contains six task categories and 1,228 trajectory-instruction pairs designed to probe the spatial intelligence of navigation agents. On this benchmark, we comprehensively evaluate 22 navigation agents, including state-of-the-art navigation models and multimodal large language models. The evaluation results lift the veil on spatial intelligence in embodied navigation. Furthermore, we propose SNav, a new spatially intelligent navigation model. SNav outperforms existing navigation agents on NavSpace and real robot tests, establishing a strong baseline for future work.

指令跟随导航是实现实体智能的关键步骤。此前的基准测试主要关注语义理解,但忽视了系统地评估导航代理的空间感知和推理能力。在这项工作中,我们引入了NavSpace基准测试,其中包含六个任务类别和1228个轨迹指令对,旨在探测导航代理的空间智能。在此基准测试上,我们全面评估了22个导航代理,包括最先进的导航模型和多模态大型语言模型。评估结果揭示了实体导航中的空间智能。此外,我们提出了一个新的空间智能导航模型SNav。SNav在NavSpace和真实机器人测试中都超越了现有导航代理,为未来的工作建立了强大的基准。

论文及项目相关链接

PDF

Summary

该文介绍了导航智能研究中的一个关键步骤——指令遵循导航。现有基准测试主要关注语义理解,但忽略了系统地评估导航系统的空间感知和推理能力。本研究引入了NavSpace基准测试,包含六个任务类别和1228组轨迹指令对,旨在测试导航系统的空间智能水平。该研究全面评估了包括最新导航模型和跨模态大型语言模型在内的22个导航系统。同时,提出了一种新型的空间智能导航模型SNav,该模型在NavSpace和真实机器人测试中表现出超越现有导航系统的性能,为未来研究奠定了坚实的基准。

Key Takeaways

  1. 指令遵循导航是智能研究的关键步骤之一。
  2. 当前基准测试主要关注语义理解,忽视了导航系统的空间感知和推理能力评估。
  3. NavSpace基准测试旨在全面测试导航系统的空间智能水平,包含六个任务类别和大量轨迹指令对。
  4. 研究人员对22个导航系统进行了全面评估,包括最新导航模型和跨模态大型语言模型。
  5. 新型空间智能导航模型SNav在NavSpace基准测试和真实机器人测试中表现优异。
  6. SNav模型为未来的导航智能研究提供了坚实的基准。

Cool Papers

点此查看论文截图

AI Knowledge Assist: An Automated Approach for the Creation of Knowledge Bases for Conversational AI Agents

Authors:Md Tahmid Rahman Laskar, Julien Bouvier Tremblay, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN

The utilization of conversational AI systems by leveraging Retrieval Augmented Generation (RAG) techniques to solve customer problems has been on the rise with the rapid progress of Large Language Models (LLMs). However, the absence of a company-specific dedicated knowledge base is a major barrier to the integration of conversational AI systems in contact centers. To this end, we introduce AI Knowledge Assist, a system that extracts knowledge in the form of question-answer (QA) pairs from historical customer-agent conversations to automatically build a knowledge base. Fine-tuning a lightweight LLM on internal data demonstrates state-of-the-art performance, outperforming larger closed-source LLMs. More specifically, empirical evaluation on 20 companies demonstrates that the proposed AI Knowledge Assist system that leverages the LLaMA-3.1-8B model eliminates the cold-start gap in contact centers by achieving above 90% accuracy in answering information-seeking questions. This enables immediate deployment of RAG-powered chatbots.

随着大型语言模型(LLM)的快速发展,利用检索增强生成(RAG)技术解决客户问题的对话式人工智能系统的应用正在增加。然而,缺乏针对公司的专用知识库是阻碍对话式人工智能系统在呼叫中心中整合的主要障碍。为此,我们引入了AI知识助手系统,该系统从历史和客服对话中提取以问答对的形式的知识来自动构建知识库。在内部数据上对轻量级LLM进行微调,表现出卓越的性能,超过了较大的闭源LLM。更具体地说,对20家公司的实证评估表明,所提出的利用LLaMA-3.1-8B模型的AI知识助手系统通过实现高达90%的信息查询问题回答准确率,消除了呼叫中心中的冷启动差距。这能够实现RAG驱动的聊天机器人的即时部署。

论文及项目相关链接

PDF Accepted to the EMNLP 2025 Industry Track

Summary

基于大型语言模型(LLM)技术的快速发展,利用检索增强生成(RAG)技术解决客户问题的对话AI系统应用日益广泛。然而,缺乏公司特定的专用知识库是集成对话AI系统的主要障碍。为此,我们推出了AI知识助手系统,它可以从历史客户与代理之间的对话中提取问题答案(QA)对来自动构建知识库。在内部数据上微调轻量级LLM,展现出最佳性能,甚至超越了一些大型闭源LLMs。针对二十家公司的实证评估显示,利用LLaMA-3.1-8B模型的AI知识助手系统通过实现高达90%的信息查询问题答案准确性,消除了呼叫中心中的冷启动差距,使得RAG驱动的聊天机器人得以立即部署。

Key Takeaways

  1. 对话AI系统利用RAG技术解决客户问题正逐渐普及。
  2. 公司特定知识库的缺乏是集成对话AI系统的障碍。
  3. AI知识助手系统通过提取QA对自动构建知识库。
  4. 轻量级LLM在内部数据上的微调表现出最佳性能。
  5. AI知识助手系统消除了呼叫中心的冷启动差距。
  6. AI知识助手系统的准确性高达90%,适合立即部署RAG驱动的聊天机器人。
  7. 实证研究证明了AI知识助手系统的有效性。

Cool Papers

点此查看论文截图

L2M-AID: Autonomous Cyber-Physical Defense by Fusing Semantic Reasoning of Large Language Models with Multi-Agent Reinforcement Learning (Preprint)

Authors:Tianxiang Xu, Zhichao Wen, Xinyu Zhao, Jun Wang, Yan Li, Chang Liu

The increasing integration of Industrial IoT (IIoT) exposes critical cyber-physical systems to sophisticated, multi-stage attacks that elude traditional defenses lacking contextual awareness. This paper introduces L2M-AID, a novel framework for Autonomous Industrial Defense using LLM-empowered, Multi-agent reinforcement learning. L2M-AID orchestrates a team of collaborative agents, each driven by a Large Language Model (LLM), to achieve adaptive and resilient security. The core innovation lies in the deep fusion of two AI paradigms: we leverage an LLM as a semantic bridge to translate vast, unstructured telemetry into a rich, contextual state representation, enabling agents to reason about adversary intent rather than merely matching patterns. This semantically-aware state empowers a Multi-Agent Reinforcement Learning (MARL) algorithm, MAPPO, to learn complex cooperative strategies. The MARL reward function is uniquely engineered to balance security objectives (threat neutralization) with operational imperatives, explicitly penalizing actions that disrupt physical process stability. To validate our approach, we conduct extensive experiments on the benchmark SWaT dataset and a novel synthetic dataset generated based on the MITRE ATT&CK for ICS framework. Results demonstrate that L2M-AID significantly outperforms traditional IDS, deep learning anomaly detectors, and single-agent RL baselines across key metrics, achieving a 97.2% detection rate while reducing false positives by over 80% and improving response times by a factor of four. Crucially, it demonstrates superior performance in maintaining physical process stability, presenting a robust new paradigm for securing critical national infrastructure.

随着工业物联网(IIoT)的日益融合,关键的网络物理系统面临高级的多阶段攻击,这些攻击能够躲避缺乏上下文意识的传统防御手段。本文介绍了L2M-AID,这是一个使用大型语言模型赋能的多智能体强化学习的新型自主工业防御框架。L2M-AID协同一组协作的智能体,每个智能体都由大型语言模型(LLM)驱动,以实现自适应和弹性安全。核心创新之处在于两种人工智能范式的深度融合:我们利用大型语言模型作为语义桥梁,将大量非结构化遥测信息转换为丰富的上下文状态表示,使智能体能够推理对手的意图,而不仅仅是匹配模式。这种语义感知状态使得多智能体强化学习(MARL)算法MAPPO能够学习复杂的合作策略。MARL奖励函数是独特设计的,旨在平衡安全目标(威胁中立)与操作要求,明确惩罚破坏物理过程稳定性的行动。为了验证我们的方法,我们在SWaT数据集的标准基准测试以及基于MITRE ATT&CK for ICS框架生成的新型合成数据集上进行了广泛的实验。结果表明,L2M-AID在关键指标上显著优于传统入侵检测系统、深度学习异常检测器和单智能体强化学习基准线,检测率达到97.2%,同时减少了超过80%的误报,并将响应时间提高了四倍。最重要的是,它在保持物理过程稳定性方面表现出卓越的性能,为关键国家基础设施的安全提供了稳健的新范式。

论文及项目相关链接

PDF This preprint was submitted to IEEE TrustCom 2025. The accepted version will be published under copyright 2025 IEEE

Summary:随着工业物联网(IIoT)的集成度不断提高,关键的网络物理系统面临复杂的多阶段攻击威胁,传统缺乏上下文意识的防御手段已不足以应对。本文提出了基于大型语言模型赋能的多智能体强化学习的自主工业防御框架L2M-AID。L2M-AID协调智能体团队进行自适应和弹性安全防御。其核心创新在于两种人工智能范式的深度融合:利用大型语言模型作为语义桥梁,将大量非结构化遥测信息转化为丰富的上下文状态表示,使智能体能够推断敌方意图而不仅仅是匹配模式。基于这种语义感知状态,我们利用多智能体强化学习算法MAPPO学习复杂的合作策略。实验结果表明,在关键指标上,L2M-AID显著优于传统入侵检测系统、深度学习异常检测器和单智能体强化学习基线,实现了高达97.2%的检测率,同时减少了超过80%的误报并加快了四倍的响应时间。在维护物理过程稳定性方面表现优异,为关键国家基础设施的安全保护提供了稳健的新范式。

Key Takeaways:

  1. IIoT的集成增加了关键网络物理系统面临的多阶段攻击风险。
  2. L2M-AID是一个利用大型语言模型赋能的多智能体强化学习框架进行自适应和弹性安全防御。
  3. LLM用于将非结构化遥测转化为上下文状态表示,帮助智能体理解敌方意图。
  4. 多智能体强化学习算法MAPPO用于学习复杂的合作策略以应对攻击。
  5. L2M-AID在检测率、误报率和响应时间方面表现优于传统安全系统。
  6. L2M-AID在保持物理过程稳定性方面具有出色的性能。

Cool Papers

点此查看论文截图

Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents

Authors:Zonghan Yang, Shengjie Wang, Kelin Fu, Wenyang He, Weimin Xiong, Yibo Liu, Yibo Miao, Bofei Gao, Yejie Wang, Yingwei Ma, Yanhao Li, Yue Liu, Zhenxing Hu, Kaitai Zhang, Shuyi Wang, Huarong Chen, Flood Sung, Yang Liu, Yang Gao, Zhilin Yang, Tianyu Liu

Large Language Models (LLMs) are increasingly applied to software engineering (SWE), with SWE-bench as a key benchmark. Solutions are split into SWE-Agent frameworks with multi-turn interactions and workflow-based Agentless methods with single-turn verifiable steps. We argue these paradigms are not mutually exclusive: reasoning-intensive Agentless training induces skill priors, including localization, code edit, and self-reflection that enable efficient and effective SWE-Agent adaptation. In this work, we first curate the Agentless training recipe and present Kimi-Dev, an open-source SWE LLM achieving 60.4% on SWE-bench Verified, the best among workflow approaches. With additional SFT adaptation on 5k publicly-available trajectories, Kimi-Dev powers SWE-Agents to 48.6% pass@1, on par with that of Claude 3.5 Sonnet (241022 version). These results show that structured skill priors from Agentless training can bridge workflow and agentic frameworks for transferable coding agents.

大型语言模型(LLMs)越来越多地应用于软件工程(SWE),而SWE-bench是其中的一项关键基准测试。解决方案分为SWE-Agent框架和多轮交互的Agentless方法以及基于工作流的单轮可验证步骤。我们认为这两种范式并不是相互排斥的:注重推理的Agentless训练会引入技能先验,包括定位、代码编辑和自我反思,这些都能实现高效且有效的SWE-Agent适应。在这项工作中,我们首先制定了Agentless训练配方,并推出了Kimi-Dev,这是一个开源的SWE LLM,在SWE-bench Verified上达到了60.4%,是工作流程方法中的最佳成绩。在5k个公开可用的轨迹上进行额外的SFT适应后,Kimi-Dev使SWE-Agents达到48.6%的pass@1,与Claude 3.5 Sonnet(241022版本)持平。这些结果表明,来自Agentless训练的结构化技能先验可以弥合工作流程和智能框架之间的差距,从而打造可迁移的编码代理。

论文及项目相关链接

PDF 58 pages

Summary

大型语言模型在软件工程领域的应用日益广泛,其中SWE-bench是重要的基准测试之一。文章介绍了两种解决方案:基于多回合交互的SWE-Agent框架和基于工作流的Agentless方法。文章认为这两种范式并非相互排斥,而是可以通过无代理训练中的推理密集型技能优先事项(如本地化、代码编辑和自我反思)来实现高效的SWE-Agent适应。在此工作中,作者首先制定了无代理训练方案,并推出了Kimi-Dev这一开源软件工程师大型语言模型,在SWE-bench Verified上的表现达到60.4%,在基于工作流的方法中表现最佳。通过对5,000个公开轨迹进行附加的SFT适应,Kimi-Dev使SWE-Agents达到48.6%的pass@1率,与Claude 3.5 Sonnet(241022版本)相当。这些结果表明,来自无代理训练的结构化技能优先级可以弥合工作流和智能代理框架之间的差距,为可迁移编码代理提供可能。

Key Takeaways

  1. 大型语言模型在软件工程领域的应用正在增长,其中SWE-bench是重要的性能基准。
  2. 文章介绍了两种主要的解决方案:基于多回合交互的SWE-Agent框架和基于工作流的Agentless方法。
  3. 文章指出这两种解决方案并非相互排斥,而是可以通过无代理训练中的技能优先事项来实现高效适应。
  4. 文章提出了无代理训练的方法,并介绍了Kimi-Dev这一开源软件工程师大型语言模型的表现和优势。
  5. Kimi-Dev通过额外的SFT适应提高了性能,与最新的方法表现相当。
  6. 结构化的技能优先级可以帮助弥合工作流和智能代理框架之间的差距。

Cool Papers

点此查看论文截图

Hierarchical Reinforcement Learning with Low-Level MPC for Multi-Agent Control

Authors:Max Studt, Georg Schildbach

Achieving safe and coordinated behavior in dynamic, constraint-rich environments remains a major challenge for learning-based control. Pure end-to-end learning often suffers from poor sample efficiency and limited reliability, while model-based methods depend on predefined references and struggle to generalize. We propose a hierarchical framework that combines tactical decision-making via reinforcement learning (RL) with low-level execution through Model Predictive Control (MPC). For the case of multi-agent systems this means that high-level policies select abstract targets from structured regions of interest (ROIs), while MPC ensures dynamically feasible and safe motion. Tested on a predator-prey benchmark, our approach outperforms end-to-end and shielding-based RL baselines in terms of reward, safety, and consistency, underscoring the benefits of combining structured learning with model-based control.

在动态、约束丰富的环境中实现安全和协调的行为仍然是基于学习的控制面临的一个主要挑战。纯端到端学习经常面临样本效率低和可靠性有限的问题,而基于模型的方法依赖于预先定义的参考,并且在泛化方面遇到困难。我们提出了一种层次框架,它通过强化学习(RL)进行战术决策,并通过模型预测控制(MPC)进行低级执行。在多智能体系统的情况下,这意味着高级策略从结构化感兴趣区域(ROI)中选择抽象目标,而MPC确保动态可行和安全运动。在捕食者-猎物基准测试上进行的测试表明,我们的方法在奖励、安全性和一致性方面优于端到端和基于屏蔽的RL基准测试,这突出了将结构化学习与基于模型的控制相结合的好处。

论文及项目相关链接

PDF

Summary

在动态、约束丰富的环境中实现安全和协调的行为仍然是基于学习的控制面临的一个主要挑战。纯端到端学习往往存在样本效率低和可靠性有限的问题,而基于模型的方法依赖于预先定义的参考,难以推广。我们提出了一种层次框架,通过强化学习(RL)进行战术决策,通过模型预测控制(MPC)进行低级执行。在多智能体系统中,这意味着高级策略从结构化感兴趣区域(ROI)中选择抽象目标,而MPC确保动态可行和安全运动。在捕食者-猎物基准测试中,我们的方法优于端到端和基于屏蔽的RL基准测试,在奖励、安全性和一致性方面表现出色,突出了结合结构化学习与基于模型的控制的优势。

Key Takeaways

  1. 实现安全和协调的行为在动态、约束丰富的环境中仍是主要挑战。
  2. 纯端到端学习存在样本效率低和可靠性有限的缺陷。
  3. 基于模型的方法依赖于预设参考,难以推广。
  4. 提出的层次框架结合了强化学习与模型预测控制。
  5. 多智能体系统中,高级策略从结构化感兴趣区域选择抽象目标。
  6. 模型预测控制确保动态可行和安全运动。

Cool Papers

点此查看论文截图

Neuro-Symbolic Agents with Modal Logic for Autonomous Diagnostics

Authors:Antonin Sulc, Thorsten Hellert

The development of intelligent agents, particularly those powered by language models (LMs), has shown the critical role in various environments that require intelligent and autonomous decision. Environments are not passive testing grounds and they represent the data required for agents to learn and exhibit very challenging conditions that require adaptive, complex and autonomous capacity to make decisions. While the paradigm of scaling models and datasets has led to remarkable emergent capabilities, we argue that scaling the structure, fidelity, and logical consistency of agent reasoning within these environments is a crucial, yet underexplored, dimension of AI research. This paper introduces a neuro-symbolic multi-agent architecture where the belief states of individual agents are formally represented as Kripke models. This foundational choice enables them to reason about known concepts of \emph{possibility} and \emph{necessity} using the formal language of modal logic. In this work, we use of immutable, domain-specific knowledge to make infere information, which is encoded as logical constraints essential for proper diagnosis. In the proposed model, we show constraints that actively guide the hypothesis generation of LMs, effectively preventing them from reaching physically or logically untenable conclusions. In a high-fidelity simulated particle accelerator environment, our system successfully diagnoses complex, cascading failures by combining the powerful semantic intuition of LMs with the rigorous, verifiable validation of modal logic and a factual world model and showcasing a viable path toward more robust, reliable, and verifiable autonomous agents.

智能体,特别是那些由语言模型(LMs)驱动的智能体的发展,已经显示出在各种需要智能和自主决策的环境中发挥着关键作用。环境并不是被动的测试场,它们代表着智能体所需要的数据,并且展示出各种具有挑战性的条件,这些条件需要智能体具备适应性强、复杂和自主的决策能力。尽管扩大模型和数据集的模式已经带来了显著的新兴能力,但我们认为扩大这些环境中智能体的结构、保真度和逻辑一致性是一个关键但尚未被充分研究的AI研究领域维度。本文介绍了一种神经符号多智能体架构,其中单个智能体的信念状态被形式化表示为Kripke模型。这一基本选择使他们能够利用模态逻辑的自然语言来推理“可能性”和“必要性”等已知概念。在这项工作中,我们使用不可变的领域特定知识来进行信息推断,这些信息被编码为逻辑约束,对于适当的诊断至关重要。在提出的模型中,我们展示了能够主动引导LMs假设生成的约束,有效地防止它们得出物理或逻辑上不可持续的结论。在一个高保真模拟粒子加速器环境中,我们的系统成功地结合了LMs的强大语义直觉、模态逻辑的严格可验证验证和一个事实世界模型,对复杂的连锁故障进行了诊断,并展示了一条朝着更稳健、可靠和可验证的自主智能体的可行道路。

论文及项目相关链接

PDF 10 pages, 1 figure, Scaling Environments for Agents (SEA) Workshop at NeuralIPS

Summary

本文探讨了智能代理的发展,特别是在需要智能和自主决策的环境中,如语言模型驱动的智能代理。文章提出了一个神经符号多代理架构,利用模态逻辑的形式语言对可能性和必要性进行推理。该架构利用领域特定知识来推断信息,并展示了指导假设生成的逻辑约束,有效防止了语言模型得出物理或逻辑上不可行的结论。在模拟粒子加速器环境中,该系统成功结合了语言模型的强大语义直觉、模态逻辑的严格验证和现实世界模型,展示了实现更稳健、可靠和可验证的自主代理的可行途径。

Key Takeaways

  1. 智能代理在需要智能和自主决策的环境中扮演关键角色,特别是在复杂多变的环境中。
  2. 语言模型(LMs)是智能代理的重要组成部分,其能力需要在各种环境中进行适应和调整。
  3. 神经符号多代理架构利用模态逻辑的形式语言进行推理,实现对可能性和必要性的理解。
  4. 该架构利用领域特定知识来推断信息,这是进行适当诊断的逻辑约束的关键。
  5. 提出的模型展示了如何指导语言模型的假设生成,防止其得出物理或逻辑上不可行的结论。
  6. 在模拟粒子加速器环境中,结合语言模型的语义直觉、模态逻辑的验证和现实世界模型,实现了对复杂级联故障的稳健诊断。

Cool Papers

点此查看论文截图

Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers

Authors:Ran Xin, Zeyu Zheng, Yanchen Nie, Kun Yuan, Xia Xiao

The integration of Large Language Models (LLMs) into automated theorem proving has shown immense promise, yet is fundamentally constrained by challenges in scaling up both training-time reinforcement learning (RL) and inference-time compute. This paper introduces \texttt{BFS-Prover-V2}, a system designed to address this dual scaling problem. We present two primary innovations. The first is a novel multi-turn off-policy RL framework for continually improving the performance of LLM step-prover at training time. This framework, inspired by the principles of AlphaZero, utilizes a multi-stage expert iteration pipeline featuring adaptive tactic-level data filtering and periodic retraining to surmount the performance plateaus that typically curtail long-term RL in LLM-based agents. The second innovation is a planner-enhanced multi-agent search architecture that scales reasoning capabilities at inference time. This architecture employs a general reasoning model as a high-level planner to iteratively decompose complex theorems into a sequence of simpler subgoals. This hierarchical approach substantially reduces the search space, enabling a team of parallel prover agents to collaborate efficiently by leveraging a shared proof cache. We demonstrate that this dual approach to scaling yields state-of-the-art results on established formal mathematics benchmarks. \texttt{BFS-Prover-V2} achieves 95.08% and 41.4% on the MiniF2F and ProofNet test sets respectively. While demonstrated in the domain of formal mathematics, the RL and inference techniques presented in this work are of broader interest and may be applied to other domains requiring long-horizon multi-turn reasoning and complex search.

将大型语言模型(LLM)集成到自动化定理证明中显示出巨大的潜力,但从根本上受到训练时强化学习(RL)和推理时计算扩展挑战的限制。本文介绍了BFS-Prover-V2系统,该系统旨在解决这一双重扩展问题。我们提出了两个主要的创新点。第一个是新型的多轮离线策略强化学习框架,旨在不断提高训练时LLM逐步证明的性能。该框架受到AlphaZero原则的启发,采用多阶段专家迭代管道,具有自适应战术级数据过滤和定期重新训练的功能,以克服性能瓶颈,这些瓶颈通常会限制基于LLM的代理的长期强化学习。第二个创新点是一个增强规划的多代理搜索架构,该架构在推理时间扩展了推理能力。该架构采用通用推理模型作为高级规划器,将复杂的定理迭代地分解为一系列更简单的子目标。这种分层方法大大减少了搜索空间,使一组并行证明代理能够高效地协作,利用共享证明缓存。我们证明了这种双重扩展方法在一系列正式的数学基准测试上达到了最新水平的结果。BFS-Prover-V2在MiniF2F和ProofNet测试集上分别达到了95.08%和41.4%的准确率。虽然本工作在形式数学领域得到了验证,但本工作中提出的强化学习和推理技术具有更广泛的兴趣,并可应用于需要长周期多轮推理和复杂搜索的其他领域。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)在自动化定理证明中的应用展现出巨大的潜力,但面临着训练时强化学习(RL)和推理时计算扩展的双重挑战。本文介绍了\texttt{BFS-Prover-V2},一个旨在解决这一双重扩展问题的系统。主要创新包括训练时的新型多轮离线RL框架和推理时的规划增强多智能体搜索架构。训练时的RL框架灵感来源于AlphaZero,利用多阶段专家迭代管道、自适应战术级数据过滤和定期再训练,克服了性能瓶颈,提高了LLM步骤证明的性能。推理时的架构采用通用推理模型作为高级规划器,将复杂定理分解为一系列简单子目标。通过采用分层方法,显著减少了搜索空间,使一组并行证明智能体能够通过共享证明缓存进行有效协作。在形式数学基准测试中取得了最新结果。\texttt{BFS-Prover-V2}在MiniF2F和ProofNet测试集上的准确率分别达到95.08%和41.4%。虽然此工作展示的是在形式数学领域的应用,但提出的RL和推理技术具有更广泛的应用前景,可应用于需要长周期多轮推理和复杂搜索的其他领域。

Key Takeaways

  1. LLM在自动化定理证明中的潜力与挑战:大型语言模型在自动化定理证明中展现出巨大潜力,但面临训练强化学习和推理计算扩展的双重挑战。
  2. 训练时间的新型多轮离线RL框架:引入了一种新型的多轮离线强化学习框架,以提高LLM的性能,通过多阶段专家迭代管道等方法克服性能瓶颈。
  3. 推理时间的规划增强多智能体搜索架构:采用通用推理模型作为高级规划器,将复杂定理分解为简单子目标,减少搜索空间,提高推理效率。
  4. BFS-Prover-V2系统的创新应用:系统\texttt{BFS-Prover-V2}通过结合上述两项创新,实现了在形式数学领域的先进结果。
  5. 在MiniF2F和ProofNet测试集上的表现:\texttt{BFS-Prover-V2}在MiniF2F测试集上达到95.08%的准确率,在ProofNet测试集上达到41.4%的准确率。
  6. RL和推理技术的应用广泛性:虽然工作集中在形式数学领域,但提出的RL和推理技术可应用于需要长周期多轮推理和复杂搜索的其他领域。

Cool Papers

点此查看论文截图

CoCoA: Collaborative Chain-of-Agents for Parametric-Retrieved Knowledge Synergy

Authors:Yi Jiang, Sendong Zhao, Jianbo Li, Haochun Wang, Lizhe Zhang, Yan Liu, Bing Qin

Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs), especially for knowledge-intensive tasks. Despite its advantages, current RAG methods often struggle to fully exploit knowledge during generation. In particular, the synergy between the model’s internal parametric knowledge and external retrieved knowledge remains limited. Retrieved contents may sometimes mislead generation, while certain generated content can guide the model toward more accurate outputs. In this work, we propose Collaborative Chain-of-Agents, a framework designed to enhance explicitly synergy over both parametric and retrieved knowledge. Specifically, we first introduce CoCoA-zero, a multi-agent RAG framework that first performs conditional knowledge induction and then reasons answers. Building on this, we develop CoCoA, a long-chain training strategy that synthesizes extended multi-agent reasoning trajectories from CoCoA-zero to fine-tune the LLM. This strategy enhances the model’s capability to explicitly integrate and jointly leverage parametric and retrieved knowledge. Experimental results demonstrate the superiority of CoCoA in open-domain QA and multi-hop QA.

检索增强生成(RAG)技术提高了大型语言模型(LLM)的性能,特别是对于知识密集型任务。尽管具有优势,但当前的RAG方法往往难以在生成过程中充分利用知识。特别是,模型内部的参数知识与外部检索知识之间的协同作用仍然有限。检索的内容有时会误导生成,而某些生成的内容可以引导模型走向更准确的输出。在这项工作中,我们提出了协作代理链(Collaborative Chain-of-Agents)框架,该框架旨在增强参数知识和检索知识之间的明确协同。具体来说,我们首先引入了CoCoA-zero多代理RAG框架,先进行条件知识归纳,然后推理答案。在此基础上,我们开发了CoCoA长期训练策略,该策略通过合成来自CoCoA-zero的扩展多代理推理轨迹来微调LLM。这一策略提高了模型显式集成和联合利用参数知识和检索知识的能力。实验结果表明,CoCoA在开放域问答和多跳问答方面的优越性。

论文及项目相关链接

PDF code available at https://github.com/liunian-Jay/CoCoA

Summary

RAG(Retrieval-Augmented Generation)模型提高了大型语言模型(LLM)在处理知识密集型任务时的性能。然而,当前RAG方法难以充分利用知识生成过程中的知识。本文提出了Collaborative Chain-of-Agents框架,旨在增强模型内部参数知识和外部检索知识的协同作用。通过引入CoCoA-zero进行条件知识归纳,并结合CoCoA进行长期训练策略,合成多智能体推理轨迹以微调LLM。实验结果表明,CoCoA在开放域问答和多跳问答中表现优异。

Key Takeaways

  • RAG模型增强了大型语言模型在知识密集型任务上的性能。
  • 当前RAG方法难以充分利用生成过程中的知识。
  • Collaborative Chain-of-Agents框架旨在增强模型内部参数知识和外部检索知识的协同作用。
  • CoCoA-zero通过条件知识归纳进行推理答案。
  • CoCoA是一种长期训练策略,合成多智能体推理轨迹以微调LLM。
  • CoCoA在开放域问答和多跳问答任务中表现优越。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-10-11 The Visual Iconicity Challenge Evaluating Vision-Language Models on Sign Language Form-Meaning Mapping
2025-10-11
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-10-11 NaViL Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
2025-10-11
  目录