嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-18 更新

Scaling Agents via Continual Pre-training

Authors:Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.

大型语言模型(LLM)已经进化成能够进行自主工具使用和多步骤推理以解决复杂问题的代理系统。然而,基于通用基础模型的后续训练方法在代理任务上的表现一直不佳,特别是在开源实现中。我们找到了根本原因:缺乏稳健的代理基础模型迫使模型在后续训练过程中同时学习多种代理行为,同时将它们与专家演示对齐,从而产生了基本的优化张力。为此,我们首次提出将代理持续预训练(Agentic CPT)纳入深度研究代理训练管道,以构建强大的代理基础模型。基于这种方法,我们开发了一个名为AgentFounder的深度研究代理模型。我们在10个基准测试上对AgentFounder-30B进行了评估,实现了卓越的性能,同时保持了强大的工具使用能力,特别是在BrowseComp-en上达到39.9%,BrowseComp-zh上达到43.3%,HLE上Pass@1达到31.5%。

论文及项目相关链接

PDF https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Summary

大型语言模型进化为具有自主工具使用和复杂问题多步推理能力的代理系统。然而,基于通用基础模型的后续训练方法,在代理任务中的表现一直不尽人意,特别是在开源实现中。问题的根源在于缺乏稳健的代理基础模型,这使得模型在后续训练时需要同时学习多种代理行为并使其与专家演示对齐,从而产生基本的优化紧张。为此,我们首次提出在深度研究代理训练管道中融入代理持续预训练(Agentic CPT),以构建强大的代理基础模型。基于此方法,我们开发了一款名为AgentFounder的深度研究代理模型。我们在10个基准测试上对AgentFounder-30B进行了评估,取得了卓越的性能,同时保持了强大的工具使用能力,特别是在BrowseComp-en上达到39.9%,BrowseComp-zh上达到43.3%,HLE上Pass@1达到31.5%。

Key Takeaways

  1. 大型语言模型(LLMs)已进化为具有自主工具使用和复杂问题多步推理能力的代理系统。
  2. 基于通用基础模型的后续训练方法,在代理任务中的表现欠佳,其根本原因在于缺乏稳健的代理基础模型。
  3. 代理持续预训练(Agentic CPT)被首次融入深度研究代理训练,以构建强大的代理基础模型。
  4. 提出的AgentFounder模型在多个基准测试上表现出卓越性能。
  5. AgentFounder模型在工具使用能力方面表现突出。
  6. AgentFounder在BrowseComp-en、BrowseComp-zh和HLE等任务上的性能分别达到39.9%、43.3%和31.5%的优异表现。
  7. 这些进展表明,通过结合代理持续预训练,可以在代理任务中显著提高模型的性能。

Cool Papers

点此查看论文截图

WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

Authors:Zile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Recent advances in deep-research systems have demonstrated the potential for AI agents to autonomously discover and synthesize knowledge from external sources. In this paper, we introduce WebResearcher, a novel framework for building such agents through two key components: (1) WebResearcher, an iterative deep-research paradigm that reformulates deep research as a Markov Decision Process, where agents periodically consolidate findings into evolving reports while maintaining focused workspaces, overcoming the context suffocation and noise contamination that plague existing mono-contextual approaches; and (2) WebFrontier, a scalable data synthesis engine that generates high-quality training data through tool-augmented complexity escalation, enabling systematic creation of research tasks that bridge the gap between passive knowledge recall and active knowledge construction. Notably, we find that the training data from our paradigm significantly enhances tool-use capabilities even for traditional mono-contextual methods. Furthermore, our paradigm naturally scales through parallel thinking, enabling concurrent multi-agent exploration for more comprehensive conclusions. Extensive experiments across 6 challenging benchmarks demonstrate that WebResearcher achieves state-of-the-art performance, even surpassing frontier proprietary systems.

近期深度研究系统的进展已经证明了AI代理能够自主地从外部来源发现并合成知识的潜力。在本文中,我们介绍了WebResearcher,这是一个构建此类代理的新型框架,主要包括两个关键组成部分:(1)WebResearcher,一种迭代式深度研究范式,将深度研究重新定义为马尔可夫决策过程,在此过程中,代理会定期将发现整合为不断演变的报告,同时保持专注的工作空间,克服困扰现有单语境方法的上下文窒息和噪声污染;(2)WebFrontier,一个可扩展的数据合成引擎,通过工具增强的复杂性升级生成高质量的训练数据,能够系统地创建研究任务,以弥合被动知识回忆和主动知识构建之间的鸿沟。值得注意的是,我们发现我们的范式训练数据甚至能提升传统单语境方法的工具使用能力。此外,我们的范式能够通过平行思考自然扩展,以实现多代理并发探索,得出更全面的结论。在6个具有挑战性的基准测试上的广泛实验表明,WebResearcher达到了最新技术水平,甚至超越了前沿专有系统。

论文及项目相关链接

PDF https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Summary
深度研究系统的最新进展展现了AI自主发现并融合外部知识的潜力。本文介绍了一种新型框架WebResearcher,包含两大关键组件:一是WebResearcher迭代深度研究范式,它将深度研究转化为马尔可夫决策过程,使AI代理能够定期整合研究成果并生成报告,克服单一语境方法的局限;二是WebFrontier可伸缩数据融合引擎,它通过工具辅助的复杂性升级生成高质量的训练数据,缩小被动知识回忆与主动知识构建之间的差距。实验证明WebResearcher的卓越性能,即使在最具挑战性的基准测试中也能达到业界前沿水平。

Key Takeaways

  • WebResearcher框架引入了一种新型的AI自主研究方式,结合了迭代深度研究范式和数据融合引擎。
  • WebResearcher将深度研究转化为马尔可夫决策过程,允许AI代理定期整合研究成果并生成报告。
  • WebFrontier数据融合引擎生成高质量训练数据,提升工具使用能力并缩小被动与主动知识构建间的差距。
  • WebResearcher能够克服单一语境方法的局限,如上下文缺失和噪声污染。
  • 该框架通过并行思考自然扩展,实现多代理并发探索,得出更全面结论。
  • 实验证明WebResearcher在多个基准测试中表现卓越,达到业界前沿水平。

Cool Papers

点此查看论文截图

WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

Authors:Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all open-source agents in complex information-seeking tasks, matching proprietary agents’ performance and closing the capability gap.

突破人类认知局限是大型语言模型训练的重要前沿领域。DeepResearch等专有代理系统已在BrowseComp等极为复杂的信息检索基准测试上展现出超人的能力,这是以前无法实现的。我们认为,它们的成功关键在于一种开源模型所缺少的复杂推理模式:在浏览巨大信息景观时,系统性降低极端不确定性的能力。基于此见解,我们推出了WebSailor,这是一种完整的后训练方法论,旨在培养这种关键能力。我们的方法包括通过结构化采样和信息模糊、RFT冷启动以及高效的代理强化学习训练算法Duplicating Sampling Policy Optimization(DUPO)来生成新型高不确定性任务。通过这一集成流程,WebSailor在复杂的信息检索任务中大大超越了所有开源代理,匹配了专有代理的性能,并缩小了能力差距。

论文及项目相关链接

PDF https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Summary
超越人类认知局限是大型语言模型训练的重要前沿领域。DeepResearch等专有代理系统已在极端复杂的信息检索基准测试(如BrowseComp)中展现出超人类能力,这在过去是无法实现的。其成功关键在于一种复杂推理模式,这是开源模型所缺乏的:在浏览巨大信息景观时系统减少极端不确定性的能力。基于此,我们引入了WebSailor,这是一种设计用于培养这种关键能力的全面后训练方法论。通过结构化采样和信息模糊生成新型高不确定性任务,结合RFT冷启动和高效的代理强化学习训练算法DUPO,WebSailor在复杂信息检索任务中显著优于所有开源代理,达到专有代理的性能水平,缩小了能力差距。

Key Takeaways

  1. 专有代理系统如DeepResearch已超越人类在某些复杂信息检索任务上的能力。
  2. 这种成功的关键在于处理极端不确定性,这是开源模型所缺乏的推理模式。
  3. WebSailor是一种全面的后训练方法论,旨在培养这种关键能力。
  4. WebSailor通过结构化采样和信息模糊生成新型高不确定性任务。
  5. RFT冷启动和高效的代理强化学习训练算法DUPO是WebSailor的重要组成部分。
  6. WebSailor在复杂信息检索任务中显著优于开源代理,并缩小了与专有代理的性能差距。

Cool Papers

点此查看论文截图

xOffense: An AI-driven autonomous penetration testing framework with offensive knowledge-enhanced LLMs and multi agent systems

Authors:Phung Duc Luong, Le Tran Gia Bao, Nguyen Vu Khai Tam, Dong Huu Nguyen Khoa, Nguyen Huu Quyen, Van-Hau Pham, Phan The Duy

This work introduces xOffense, an AI-driven, multi-agent penetration testing framework that shifts the process from labor-intensive, expert-driven manual efforts to fully automated, machine-executable workflows capable of scaling seamlessly with computational infrastructure. At its core, xOffense leverages a fine-tuned, mid-scale open-source LLM (Qwen3-32B) to drive reasoning and decision-making in penetration testing. The framework assigns specialized agents to reconnaissance, vulnerability scanning, and exploitation, with an orchestration layer ensuring seamless coordination across phases. Fine-tuning on Chain-of-Thought penetration testing data further enables the model to generate precise tool commands and perform consistent multi-step reasoning. We evaluate xOffense on two rigorous benchmarks: AutoPenBench and AI-Pentest-Benchmark. The results demonstrate that xOffense consistently outperforms contemporary methods, achieving a sub-task completion rate of 79.17%, decisively surpassing leading systems such as VulnBot and PentestGPT. These findings highlight the potential of domain-adapted mid-scale LLMs, when embedded within structured multi-agent orchestration, to deliver superior, cost-efficient, and reproducible solutions for autonomous penetration testing.

本文介绍了xOffense,这是一个AI驱动的多代理渗透测试框架,它将流程从劳动密集型的专家驱动的手工努力转变为全自动的机器可执行工作流程,能够随着计算基础设施无缝扩展。其核心是利用经过精细调整的中型开源LLM(Qwen3-32B)来驱动渗透测试中的推理和决策。该框架将专业代理分配给侦察、漏洞扫描和利用等环节,通过协同层确保各阶段之间的无缝协作。在Chain-of-Thought渗透测试数据上进行微调,进一步使模型能够生成精确的工具命令并执行一致的多步推理。我们在两个严格的基准测试(AutoPenBench和AI-Pentest-Benchmark)上评估了xOffense的性能。结果表明,xOffense的性能始终优于当代方法,其完成任务率为79.17%,显著超越了领先的VulnBot和PentestGPT系统。这些发现突显了当嵌入结构化多代理协同工作时,领域适应的中型LLMs在提供卓越、高效且可重复使用的自主渗透测试解决方案方面的潜力。

论文及项目相关链接

PDF 17 pages, 4 figures

Summary
这是一项关于xOffense的研究,这是一个AI驱动的、多代理渗透测试框架。它改变了渗透测试的过程,使其从依赖劳动力和专家知识的复杂手动过程转变为全自动化和可扩展的计算过程。框架核心采用一个微调过的中规模开源LLM模型进行决策推理。经过针对多步思维和跨阶段的协作的专门设计后,评估发现xOffense优于现有的系统。它不仅具有卓越的性能表现,而且在自主渗透测试领域展现出独特的优势。我们相信它有望成为渗透测试的新标杆。它不仅通过简化自动化降低了人力成本,也大大提高了测试的准确性和一致性。这显示出中等规模LLM的潜力。更重要的是,该框架的自动化特性使它在面临大规模网络攻击时能够迅速响应和应对威胁。同时,该框架的灵活性和可扩展性使其成为应对未来网络威胁的理想选择。因此,它不仅能够提高渗透测试的效率,还能推动AI技术在网络安全领域的进一步发展。总之,xOffense具有巨大的潜力,将成为网络安全领域的重要突破。

Key Takeaways

Cool Papers

点此查看论文截图

HLSMAC: A New StarCraft Multi-Agent Challenge for High-Level Strategic Decision-Making

Authors:Xingxing Hong, Yungong Wang, Dexin Jin, Ye Yuan, Ximing Huang, Zijian Wu, Wenxin Li

Benchmarks are crucial for assessing multi-agent reinforcement learning (MARL) algorithms. While StarCraft II-related environments have driven significant advances in MARL, existing benchmarks like SMAC focus primarily on micromanagement, limiting comprehensive evaluation of high-level strategic intelligence. To address this, we introduce HLSMAC, a new cooperative MARL benchmark with 12 carefully designed StarCraft II scenarios based on classical stratagems from the Thirty-Six Stratagems. Each scenario corresponds to a specific stratagem and is designed to challenge agents with diverse strategic elements, including tactical maneuvering, timing coordination, and deception, thereby opening up avenues for evaluating high-level strategic decision-making capabilities. We also propose novel metrics across multiple dimensions beyond conventional win rate, such as ability utilization and advancement efficiency, to assess agents’ overall performance within the HLSMAC environment. We integrate state-of-the-art MARL algorithms and LLM-based agents with our benchmark and conduct comprehensive experiments. The results demonstrate that HLSMAC serves as a robust testbed for advancing multi-agent strategic decision-making.

基准测试对于评估多智能体强化学习(MARL)算法至关重要。虽然与《星际争霸II》相关的环境已经推动了MARL的重大进展,但现有的基准测试(如SMAC)主要侧重于微观管理,限制了高级战略情报的全面评估。为了解决这个问题,我们引入了HLSMAC,这是一个新的合作式MARL基准测试,包含12个基于《星际争霸II》的经典战略精心设计的场景。每个场景都对应一个特定的战略,旨在挑战包含战术机动、时间协调和欺骗等多种战略元素,从而为评估高级战略决策能力打开途径。除了传统的胜率外,我们还提出了新型的多维度评估指标,如能力利用和进展效率,以评估智能体在HLSMAC环境中的整体表现。我们将最先进的MARL算法和基于LLM的代理与我们的基准测试集成在一起,并进行了全面的实验。结果表明,HLSMAC是推进多智能体战略决策的一个稳健的测试平台。

论文及项目相关链接

PDF 30 pages, 13 figures with appendix

Summary

StarCraft II环境下的多智能体强化学习(MARL)算法评估至关重要。现有基准测试如SMAC主要关注微观管理,无法全面评估高级战略智能。为此,引入HLSMAC基准测试,包含基于古典兵法《三十六计》设计的十二种StarCraft II场景。每个场景对应一种策略,设计挑战涉及战术机动、时间协调与欺骗等多样化战略元素,以评估高级战略决策能力。提出超越传统胜率的新评价指标,如能力利用和进展效率等,以全面评估代理在HLSMAC环境中的表现。整合最新MARL算法与基于LLM的代理,实验结果显示HLSMAC为推进多智能体战略决策提供了稳健的测试平台。

Key Takeaways

  1. 现有MARL基准测试如SMAC主要关注微观管理,限制了高级战略智能的全面评估。
  2. HLSMAC基准测试引入十二种基于《三十六计》设计的StarCraft II场景。
  3. HLSMAC设计旨在挑战多样化的战略元素,包括战术机动、时间协调与欺骗等。
  4. HLSMAC为评估高级战略决策能力提供了测试平台。
  5. 提出超越传统胜率的新评价指标,如能力利用和进展效率等。
  6. 整合了最新的MARL算法与基于LLM的代理进行实验验证。

Cool Papers

点此查看论文截图

Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use

Authors:Yabo Zhang, Yihan Zeng, Qingyun Li, Zhen Hu, Kavin Han, Wangmeng Zuo

Large language models (LLMs) have demonstrated strong capabilities in language understanding and reasoning, yet they remain limited when tackling real-world tasks that require up-to-date knowledge, precise operations, or specialized tool use. To address this, we propose Tool-R1, a reinforcement learning framework that enables LLMs to perform general, compositional, and multi-step tool use by generating executable Python code. Tool-R1 supports integration of user-defined tools and standard libraries, with variable sharing across steps to construct coherent workflows. An outcome-based reward function, combining LLM-based answer judgment and code execution success, guides policy optimization. To improve training efficiency, we maintain a dynamic sample queue to cache and reuse high-quality trajectories, reducing the overhead of costly online sampling. Experiments on the GAIA benchmark show that Tool-R1 substantially improves both accuracy and robustness, achieving about 10% gain over strong baselines, with larger improvements on complex multi-step tasks. These results highlight the potential of Tool-R1 for enabling reliable and efficient tool-augmented reasoning in real-world applications. Our code will be available at https://github.com/YBYBZhang/Tool-R1.

大型语言模型(LLM)在理解和推理方面表现出了强大的能力,但在处理需要最新知识、精确操作或专业工具使用的现实世界任务时仍存在局限。为了解决这一问题,我们提出了Tool-R1,这是一个强化学习框架,能够通过生成可执行Python代码,使LLM执行通用、组合和多步骤的工具使用。Tool-R1支持用户定义的工具和标准库的集成,步骤间变量共享以构建连贯的工作流。结合LLM的答案判断和代码执行成功的基于结果奖励函数,引导策略优化。为提高训练效率,我们维护了一个动态样本队列来缓存和重用高质量轨迹,减少昂贵的在线采样开销。在GAIA基准测试上的实验表明,Tool-R1在准确率和稳健性方面都有显著提高,相较于强基线有约10%的增益,在复杂的多步骤任务上表现更为明显。这些结果突出了Tool-R1在现实世界应用中实现可靠和高效工具增强推理的潜力。我们的代码将在https://github.com/YBYBZhang/Tool-R1上提供。

论文及项目相关链接

PDF

Summary
强化学习框架Tool-R1,支持大型语言模型进行通用、组合和多步骤的工具使用,通过生成Python代码实现。框架支持用户定义的工具和标准库集成,通过步骤间的变量共享构建连贯的工作流程。采用基于结果的奖励函数,结合语言模型的答案判断和代码执行成功来指导策略优化。实验表明,Tool-R1在GAIA基准测试中提高了准确性和鲁棒性,相比基线方法获得了约10%的提升,特别是在复杂多步骤任务上表现更优异。

Key Takeaways

  1. Tool-R1是一个强化学习框架,用于增强大型语言模型(LLMs)的工具使用能力。
  2. LLMs可通过生成Python代码进行通用、组合和多步骤的操作。
  3. 支持用户自定义工具和标准库的集成。
  4. 框架通过步骤间的变量共享构建连贯的工作流程。
  5. 采用基于结果的奖励函数,结合LLM答案判断和代码执行成功来优化策略。
  6. 动态样本队列用于缓存和重用高质量轨迹,提高训练效率。

Cool Papers

点此查看论文截图

DeltaHedge: A Multi-Agent Framework for Portfolio Options Optimization

Authors:Feliks Bańka, Jarosław A. Chudziak

In volatile financial markets, balancing risk and return remains a significant challenge. Traditional approaches often focus solely on equity allocation, overlooking the strategic advantages of options trading for dynamic risk hedging. This work presents DeltaHedge, a multi-agent framework that integrates options trading with AI-driven portfolio management. By combining advanced reinforcement learning techniques with an ensembled options-based hedging strategy, DeltaHedge enhances risk-adjusted returns and stabilizes portfolio performance across varying market conditions. Experimental results demonstrate that DeltaHedge outperforms traditional strategies and standalone models, underscoring its potential to transform practical portfolio management in complex financial environments. Building on these findings, this paper contributes to the fields of quantitative finance and AI-driven portfolio optimization by introducing a novel multi-agent system for integrating options trading strategies, addressing a gap in the existing literature.

在波动较大的金融市场中,平衡风险与收益仍然是一项巨大挑战。传统方法通常只专注于股权分配,忽视了期权交易在动态风险对冲中的战略优势。本文介绍了DeltaHedge,这是一个将期权交易与AI驱动的组合管理相结合的多智能体框架。通过将先进的强化学习技术与基于期权的对冲策略相结合,DeltaHedge提高了风险调整后的收益,并在各种市场条件下稳定了投资组合的表现。实验结果表明,DeltaHedge优于传统策略和独立模型,突显其在复杂金融环境中改变实际投资组合管理的潜力。基于这些发现,本文通过引入一个用于整合期权交易策略的新型多智能体系统,为量化金融和AI驱动的组合优化领域做出贡献,填补了现有文献的空白。

论文及项目相关链接

PDF Presented at Pacific Asia Conference on Information Systems (PACIS 2025), Kuala Lumpur. Official proceedings available at https://aisel.aisnet.org/pacis2025/aiandml/aiandml/25/. 16 pages, 7 figures, 3 tables

总结

在金融市场波动性增强的背景下,如何在风险与回报之间取得平衡依然是一个重大挑战。传统方法往往只关注股权分配,忽略了期权交易在动态风险管理中的战略优势。本研究提出了DeltaHedge,这是一个将期权交易与人工智能驱动的资产管理相结合的多智能体框架。通过结合先进的强化学习技术和基于期权的对冲策略,DeltaHedge增强了风险调整后的回报并稳定了在不同市场条件下的投资组合表现。实验结果表明,DeltaHedge的表现优于传统策略和独立模型,突显其在复杂金融环境中实际应用投资组合管理的潜力。本研究为量化金融和人工智能驱动的投资组合优化领域引入了一种新型的多智能体系统,填补了现有文献中的空白。

关键见解

  1. 传统方法主要关注股权分配,忽略了期权交易在风险管理中的优势。
  2. DeltaHedge是一个多智能体框架,结合了期权交易与人工智能驱动的资产管理。
  3. DeltaHedge通过强化学习技术和基于期权的对冲策略来实现优化的投资组合管理。
  4. DeltaHedge可以增强风险调整后的回报并稳定投资组合在不同市场条件下的表现。
  5. 实验结果表明,DeltaHedge的表现优于传统策略和独立模型。
  6. DeltaHedge有潜力在复杂金融环境中实现实际投资组合管理。

Cool Papers

点此查看论文截图

EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer

Authors:Pukun Zhao, Longxiang Wang, Miaowei Wang, Chen Chen, Fanqing Zhou, Haojian Huang

Most existing spatial reasoning benchmarks focus on static or globally observable environments, failing to capture the challenges of long-horizon reasoning and memory utilization under partial observability and dynamic changes. We introduce two dynamic spatial benchmarks, locally observable maze navigation and match-2 elimination that systematically evaluate models’ abilities in spatial understanding and adaptive planning when local perception, environment feedback, and global objectives are tightly coupled. Each action triggers structural changes in the environment, requiring continuous update of cognition and strategy. We further propose a subjective experience-based memory mechanism for cross-task experience transfer and validation. Experiments show that our benchmarks reveal key limitations of mainstream models in dynamic spatial reasoning and long-term memory, providing a comprehensive platform for future methodological advances. Our code and data are available at https://anonymous.4open.science/r/EvoEmpirBench-143C/.

现有的大多数空间推理基准测试主要集中在静态或全局可观察的环境上,未能捕捉到部分可观察性和动态变化下长期推理和记忆利用的挑战。我们引入了两个动态空间基准测试,即局部可观察的迷宫导航和匹配-2消除,以系统地评估模型在局部感知、环境反馈和全局目标紧密耦合时的空间理解和自适应规划能力。每个动作都会引发环境结构的变化,需要不断更新认知策略。我们还提出了一种基于主观经验的记忆机制,用于跨任务经验转移和验证。实验表明,我们的基准测试揭示了主流模型在动态空间推理和长期记忆方面的关键局限性,为未来方法的发展提供了一个综合平台。我们的代码和数据可在[https://anonymous.4open.science/r/EvoEmpirBench-143C/]上找到。

论文及项目相关链接

PDF Ongoing Work, 29 pages, 3 figures, 7 tables

Summary

该文介绍了两个动态空间基准测试:局部可观测迷宫导航和匹配-2消除。这些测试旨在评估模型在紧密耦合局部感知、环境反馈和全局目标时的空间理解和自适应规划能力。每项行动都会引起环境变化,需要不断更新认知和调整策略。文章还提出了一种基于主观经验的记忆机制,用于跨任务经验迁移和验证。实验表明,这些基准测试揭示了主流模型在动态空间推理和长期记忆方面的关键局限性,为未来的方法论进步提供了一个综合平台。

Key Takeaways

  1. 现有空间推理基准测试主要集中在静态或全局可观测环境,无法捕捉长周期推理和记忆利用在局部可观测性和动态变化下的挑战。
  2. 引入两个动态空间基准测试:局部可观测迷宫导航和匹配-2消除,以评估模型在紧密耦合局部感知、环境反馈和全局目标时的能力。
  3. 环境结构随每个行动而改变,需要不断更新认知和策略。
  4. 提出一种基于主观经验的记忆机制,用于跨任务经验迁移和验证。
  5. 实验显示,这些基准测试揭示了主流模型在动态空间推理和长期记忆方面的局限性。
  6. 这些基准测试为未来的方法论进步提供了一个综合平台。

Cool Papers

点此查看论文截图

Learning to Generate Pointing Gestures in Situated Embodied Conversational Agents

Authors:Anna Deichler, Siyang Wang, Simon Alexanderson, Jonas Beskow

One of the main goals of robotics and intelligent agent research is to enable natural communication with humans in physically situated settings. While recent work has focused on verbal modes such as language and speech, non-verbal communication is crucial for flexible interaction. We present a framework for generating pointing gestures in embodied agents by combining imitation and reinforcement learning. Using a small motion capture dataset, our method learns a motor control policy that produces physically valid, naturalistic gestures with high referential accuracy. We evaluate the approach against supervised learning and retrieval baselines in both objective metrics and a virtual reality referential game with human users. Results show that our system achieves higher naturalness and accuracy than state-of-the-art supervised models, highlighting the promise of imitation-RL for communicative gesture generation and its potential application to robots.

机器人和智能体研究的主要目标之一是实现在物理环境中与人类的自然交流。虽然最近的研究主要集中在语言和语音等言语模式上,但非言语交流对于灵活的互动至关重要。我们提出了一种结合模仿和强化学习在实体生成指向手势的框架。使用小型动作捕捉数据集,我们的方法学习了一种电机控制策略,能够产生物理上有效、具有表现力的手势,并且具有较高的指代准确性。我们在客观指标和虚拟现实指代游戏中对人类用户进行了评估,并将我们的方法与监督学习和检索基线进行了比较。结果表明,我们的系统在自然性和准确性方面优于最新的监督模型,突显了模仿强化学习在交际手势生成方面的前景及其应用于机器人的潜力。

论文及项目相关链接

PDF DOI: 10.3389/frobt.2023.1110534. This is the author’s LaTeX version

Summary
本研究旨在实现智能机器人与人类的自然沟通。除了语言和言语等语言模式外,非语言沟通对于灵活的互动至关重要。本研究提出了一种结合模仿和强化学习的方法,为智能机器人生成指向性手势。使用小型动作捕捉数据集的方法可以产生物理上有效且高度指代准确的自然手势。在虚拟现实参照游戏中与人类用户进行的评估显示,该系统在客观指标上表现出比目前最先进的有监督模型更高的自然性和准确性,展现出模仿强化学习在交际手势生成方面的前景及其在未来机器人的潜在应用。

Key Takeaways

  1. 智能机器人与人类沟通是研究的重点,而非语言沟通对灵活互动至关重要。
  2. 提出了一种结合模仿和强化学习的方法生成智能机器人的指向性手势。
  3. 使用小型动作捕捉数据集的方法学习生成物理上有效且高度指代准确的自然手势。
  4. 该系统产生的手势自然性和准确性高于目前最先进的有监督模型。
  5. 评估结果表明模仿强化学习在交际手势生成方面的潜力。
  6. 本研究不仅限于机器人技术,还可能对人工智能、智能代理和人机交互等领域产生重要影响。

Cool Papers

点此查看论文截图

Finite-Agent Stochastic Differential Games on Large Graphs: II. Graph-Based Architectures

Authors:Ruimeng Hu, Jihao Long, Haosheng Zhou

We propose a novel neural network architecture, called Non-Trainable Modification (NTM), for computing Nash equilibria in stochastic differential games (SDGs) on graphs. These games model a broad class of graph-structured multi-agent systems arising in finance, robotics, energy, and social dynamics, where agents interact locally under uncertainty. The NTM architecture imposes a graph-guided sparsification on feedforward neural networks, embedding fixed, non-trainable components aligned with the underlying graph topology. This design enhances interpretability and stability, while significantly reducing the number of trainable parameters in large-scale, sparse settings. We theoretically establish a universal approximation property for NTM in static games on graphs and numerically validate its expressivity and robustness through supervised learning tasks. Building on this foundation, we incorporate NTM into two state-of-the-art game solvers, Direct Parameterization and Deep BSDE, yielding their sparse variants (NTM-DP and NTM-DBSDE). Numerical experiments on three SDGs across various graph structures demonstrate that NTM-based methods achieve performance comparable to their fully trainable counterparts, while offering improved computational efficiency.

我们提出了一种新的神经网络架构,名为非训练修改(NTM),用于计算图上随机微分博弈(SDG)的纳什均衡。这些游戏对金融、机器人、能源和社会动态中出现的图结构多智能体系统进行了广泛建模,在这些系统中,智能体在不确定性条件下进行局部交互。NTM架构对前馈神经网络实施了图引导稀疏化,嵌入固定、不可训练组件,与底层图拓扑结构相匹配。这种设计提高了可解释性和稳定性,同时在大规模稀疏环境中显著减少了可训练参数的数量。我们在理论上为静态博弈中的NTM建立了通用近似属性,并通过监督学习任务对其表达性和稳健性进行了数值验证。在此基础上,我们将NTM融入两种最先进的博弈求解器——直接参数化和深度BSDE,得到它们的稀疏变体(NTM-DP和NTM-DBSDE)。在三种不同图结构上的SDG数值实验表明,基于NTM的方法实现了与完全可训练方法相当的性能,同时提高了计算效率。

论文及项目相关链接

PDF

Summary

本文提出了一种新型的神经网络架构——非训练性修改(NTM),用于计算图上随机微分博弈(SDG)的纳什均衡。该架构对前馈神经网络实施了图引导稀疏化,嵌入固定、不可训练组件,与底层图拓扑结构对齐。该设计提高了可解释性和稳定性,同时在大型稀疏设置中显著减少了可训练参数的数量。文章从理论上建立了NTM在静态图博弈中的通用逼近属性,并通过监督学习任务对其表达性和稳健性进行了数值验证。在此基础上,将NTM融入两种先进博弈求解器——直接参数化和深度BSDE中,形成其稀疏变体NTM-DP和NTM-DBSDE。在不同图结构上的三个SDG数值实验表明,基于NTM的方法在性能上与其完全可训练的对应方法相当,同时提高了计算效率。

Key Takeaways

  1. 提出了新型神经网络架构Non-Trainable Modification(NTM),用于计算图上随机微分博弈的纳什均衡。
  2. NTM架构通过图引导稀疏化前馈神经网络,嵌入固定、不可训练的组件,以增强可解释性和稳定性,并减少大型稀疏设置中的可训练参数数量。
  3. NTM在静态图博弈中具有通用逼近属性。
  4. 通过监督学习任务验证了NTM的表达性和稳健性。
  5. 将NTM融入Direct Parameterization和Deep BSDE两种先进博弈求解器,形成其稀疏变体NTM-DP和NTM-DBSDE。
  6. 基于NTM的方法在性能上与传统方法相当。

Cool Papers

点此查看论文截图

Agentic Lybic: Multi-Agent Execution System with Tiered Reasoning and Orchestration

Authors:Liangxuan Guo, Bin Zhu, Qingqian Tao, Kangning Liu, Xun Zhao, Xianzhe Qin, Jin Gao, Guangfu Hao

Autonomous agents for desktop automation struggle with complex multi-step tasks due to poor coordination and inadequate quality control. We introduce Agentic Lybic, a novel multi-agent system where the entire architecture operates as a finite-state machine (FSM). This core innovation enables dynamic orchestration. Our system comprises four components: a Controller, a Manager, three Workers (Technician for code-based operations, Operator for GUI interactions, and Analyst for decision support), and an Evaluator. The critical mechanism is the FSM-based routing between these components, which provides flexibility and generalization by dynamically selecting the optimal execution strategy for each subtask. This principled orchestration, combined with robust quality gating, enables adaptive replanning and error recovery. Evaluated officially on the OSWorld benchmark, Agentic Lybic achieves a state-of-the-art 57.07% success rate in 50 steps, substantially outperforming existing methods. Results demonstrate that principled multi-agent orchestration with continuous quality control provides superior reliability for generalized desktop automation in complex computing environments.

桌面自动化中的自主代理在处理复杂的多步骤任务时,由于协调不佳和质量控制不足而面临困难。我们引入了Agentic Lybic,这是一种新型的多代理系统,整个架构作为有限状态机(FSM)运行。这一核心创新实现了动态协同。我们的系统由四个组件组成:控制器、管理器、三个工作者(技术工人负责基于代码的操作、操作员负责GUI交互、分析师负责决策支持),以及评估器。关键机制是这些组件之间的FSM基于路由,它通过动态选择每个子任务的最佳执行策略来提供灵活性和通用性。这种有原则性的协同,结合强大的质量门控,能够实现自适应的重新规划和错误恢复。在OSWorld基准测试上进行官方评估,Agentic Lybic在50步内达到了最先进的57.07%的成功率,大幅超越了现有方法。结果表明,在复杂的计算环境中,有原则的多代理协同配合以及持续的质量控制能为通用的桌面自动化提供更高的可靠性。

论文及项目相关链接

PDF

Summary

文章介绍了一种名为Agentic Lybic的新型多智能体系统,该系统通过有限状态机(FSM)对整个架构进行动态编排。包括控制器、管理器、技术工人、操作工人、分析师和评估器在内的系统组件之间通过FSM进行状态路由选择最优执行策略以实现自动化任务的高可靠性。评价结果表明,基于原则的多智能体编排与持续的质量控制为复杂的桌面自动化提供了卓越的可靠性。

Key Takeaways

  1. Agentic Lybic是一种新型的多智能体系统,用于解决桌面自动化中的复杂多任务问题。
  2. 该系统采用有限状态机(FSM)进行智能体间的协调和任务执行策略的选择。
  3. Agentic Lybic包括控制器、管理器、技术工人、操作工人、分析师和评估器等组件。
  4. FSM为基础的状态路由选择能够实现动态编排,提供系统的灵活性和通用性。
  5. 通过连续的质量控制,Agentic Lybic能够在复杂计算环境中实现高质量的桌面自动化。
  6. 在OSWorld基准测试中,Agentic Lybic达到了57.07%的成功率,显著优于现有方法。

Cool Papers

点此查看论文截图

Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP

Authors:Shivam Akhauri

We address when a best-first router for tool-use agents can stop exploring without missing a better leaf, while preserving local differential privacy (LDP) and leaving an audit trail. We introduce a run-wise certificate that couples each node’s key to the same exponential race that realizes leaf perturbations; the usual halting rule (stop when the maximum over $v$ in $F$ of Key$(v) \le B^*$) then certifies the realized run. We give two certified modes on context-indexed prefix DAGs with child partition: (i) Exact (known counts), using lazy offset propagation with winner reuse; and (ii) Surrogate (upper bounds only), which anchors keys to a parent-level surrogate race and allows validator tightening via $\kappa = \log(N / N_{ub}$). A small compiler enforces the partition property, and an admissible, race-independent M(tau) keeps keys sound. The ledger logs uniforms, counts, and tie handling; privacy follows by post-processing. Experiments on synthetic graphs and a small real pipeline show tight stopping, deterministic replay, and low overhead.

我们探讨了在工具使用代理中使用最佳优先路由器时,如何能在不遗漏更好节点的情况下停止探索,同时保留本地差分隐私(LDP)并留下审计跟踪。我们引入了一种运行证书,它将每个节点的密钥与实现叶节点扰动的相同指数竞赛相结合;通常的停止规则(当F中的v的最大值Key(v)≤B*时停止)验证了已实现运行的有效性。我们在具有子分区的上下文索引前缀DAG上给出了两种认证模式:(i)精确模式(已知计数),使用懒惰偏移传播和重用赢家;(ii)替代模式(仅上限),将密钥锚定到父级替代竞赛,并通过κ=log(N/Nub)允许验证器收紧。一个小型编译器强制执行分区属性,一个可接受的、与比赛无关的M(tau)保持密钥声音清晰。账簿记录统一信息、计数和平局处理;隐私通过后期处理实现。在合成图和一个小型真实管道上的实验表明,停止紧密、确定性重播和开销低。

论文及项目相关链接

PDF

Summary:我们设计了一种用于工具使用代理的最佳首路由器,可在停止探索时不会错过更好的叶子节点,同时保留本地差分隐私(LDP)并留下审计跟踪。我们引入了运行证书,将每个节点的密钥与实现叶子扰动的相同指数竞赛相结合。通常的停止规则是当在F中的v的最大值满足Key(v)≤B*时停止运行。我们在具有子分区的上下文索引前缀DAG上提供了两种认证模式:(i)精确模式(已知计数),使用懒惰偏移传播和重用获胜者;(ii)替代模式(仅上限),将密钥锚定到父级替代竞赛,并通过κ=log(N / Nub)允许验证器收紧。小型编译器强制执行分区属性,不受竞赛影响的M(tau)使密钥保持有效性。分类帐记录统一信息、计数和捆绑处理情况;隐私通过后期处理实现。合成图和实际管道的实验显示停止紧密、确定性回放和开销低。

Key Takeaways:

  1. 最佳首路由器允许工具使用代理在探索过程中停止,同时确保不会错过更优的叶子节点。
  2. 通过引入运行证书,结合节点密钥与叶子扰动的指数竞赛,实现了停止探索的认证。
  3. 提供了两种认证模式:精确模式和替代模式,分别适用于不同的使用场景和需求。
  4. 懒惰偏移传播和重用获胜者的策略提高了效率和准确性。
  5. 通过将密钥锚定到父级替代竞赛和验证器收紧机制,增强了系统的稳定性和可靠性。
  6. 小型编译器负责强制执行分区属性,确保系统的分区特性得到遵守。

Cool Papers

点此查看论文截图

PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

Authors:Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang, Guohua Liu

Critic-free reinforcement learning methods, particularly group policies, have attracted considerable attention for their efficiency in complex tasks. However, these methods rely heavily on multiple sampling and comparisons within the policy to estimate advantage, which may cause the policy to fall into local optimum and increase computational cost. To address these issues, we propose PVPO, an efficient reinforcement learning method enhanced by an advantage reference anchor and data pre-sampling. Specifically, we use the reference model to rollout in advance and employ the calculated reward score as a reference anchor. Our approach effectively corrects the cumulative bias introduced by intra-group comparisons and significantly reduces reliance on the number of rollouts during training. Meanwhile, the reference model can assess sample difficulty during data pre-sampling, enabling effective selection of high-gain data to improve training efficiency. Moreover, PVPO is orthogonal to other advanced critic-free RL algorithms, making it compatible with and complementary to these methods. Experiments conducted on nine datasets across two domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our approach not only demonstrates robust generalization across multiple tasks, but also exhibits scalable performance across models of varying scales.

无评论家强化学习方法,特别是小组策略,因其在处理复杂任务时的效率而备受关注。然而,这些方法严重依赖于策略内的多次采样和比较来估算优势,这可能导致策略陷入局部最优并增加计算成本。为了解决这些问题,我们提出了PVPO,这是一种通过优势参考锚点和数据预采样增强效率的无评论家强化学习方法。具体来说,我们提前使用参考模型进行推演,并将计算出的奖励分数作为参考锚点。我们的方法有效地纠正了组内比较引起的累积偏差,并显著减少了训练过程中对手游次数的依赖。同时,参考模型可以在数据预采样时评估样本难度,从而实现高收益数据的有效选择,提高训练效率。此外,PVPO与其他先进的无评论家强化学习算法正交,使其能够与其他方法兼容并互补。在两个领域的九个数据集上进行的实验表明,PVPO达到了最新技术水平。我们的方法不仅表现出跨多个任务的稳健泛化能力,而且在不同规模的模型上表现出可扩展的性能。

论文及项目相关链接

PDF 17 pages, 9 figures

Summary
强化学习中的无评论家方法,特别是群组策略,因其在复杂任务中的高效率而受到关注。但此方法依赖于策略内的多次采样和比较来估算优势,可能导致策略陷入局部最优并增加计算成本。为解决这些问题,我们提出PVPO方法,通过优势参考锚点和数据预采样增强效率。使用参考模型提前预测,并将计算得到的奖励分数作为参考锚点,有效纠正由组内比较引起的累积偏差,并显著降低训练过程中对多次预测滚动的依赖。同时,参考模型可在数据预采样时评估样本难度,有效选择高收益数据提高训练效率。PVPO与其他先进无评论家强化学习算法正交,可与之兼容并互补。在多个数据集上的实验表明,PVPO达到最佳性能,不仅表现稳健且适用于各种任务规模。

Key Takeaways

  1. 批评家强化学习方法在处理复杂任务时具有很高的效率。
  2. 该方法依赖于多次采样和比较来估算优势,可能导致局部最优和计算成本增加。
  3. PVPO方法通过优势参考锚点和数据预采样提高了强化学习的效率。
  4. 参考模型用于提前预测并计算奖励分数作为参考锚点,纠正了累积偏差并减少了训练中对多次预测滚动的依赖。
  5. 参考模型可以评估样本难度,选择高收益数据提高训练效率。
  6. PVPO与其他先进强化学习算法兼容并可以与之互补。

Cool Papers

点此查看论文截图

AMAZe: A Multi-Agent Zero-shot Index Advisor for Relational Databases

Authors:Zhaodonghui Li, Haitao Yuan, Jiachen Shi, Hao Zhang, Yu Rong, Gao Cong

Index recommendation is one of the most important problems in database management system (DBMS) optimization. Given queries and certain index-related constraints, traditional methods rely on heuristic optimization or learning-based models to select effective indexes and improve query performance. However, heuristic optimization suffers from high computation time, and learning-based models lose generalisability due to training for different workloads and database schemas. With the recent rapid development of large language models (LLMs), methods using prompt tuning have been proposed to enhance the efficiency of index selection. However, such methods still can not achieve the state-of-the-art (SOTA) results, and preparing the index selection demonstrations is also resource-intensive. To address these issues, we propose AMAZe, a zero-shot LLM-based index advisor with a multi-agent framework. We decompose the index recommendation problem into sub-steps, including planning, selection, combination, revision, and reflection. A set of LLM-embedded agents is designed to handle each one of the different sub-steps. Our method utilizes high-level agents to control the index selection process and low-level agents to select and revise indexes. Through extensive experiments, we show that our proposed AMAZe not only achieves the SOTA performance compared to the heuristic methods, but also outperforms learning-based and prompt-based methods with higher efficiency and better zero-shot inference ability.

数据库管理系统(DBMS)优化中最重要的问题之一是索引推荐。给定查询和某些与索引相关的约束,传统方法依赖于启发式优化或基于学习模型的策略来选择有效索引并提高查询性能。然而,启发式优化存在计算时间长的问题,而基于学习模型的策略由于针对不同工作负载和数据库模式进行训练,其泛化能力受到限制。随着大型语言模型(LLM)的快速发展,提出了基于提示调整的方法来提高索引选择的效率。然而,这些方法仍无法达到最新水平的结果,并且准备索引选择演示也是资源密集型的。为了解决这些问题,我们提出了AMAZe,这是一个基于多智能体框架的零样本LLM索引顾问。我们将索引推荐问题分解为规划、选择、组合、修订和反思等子步骤。设计了一组嵌入LLM的智能体来处理不同的子步骤。我们的方法利用高级智能体来控制索引选择过程,而低级智能体则负责选择和修订索引。通过广泛的实验,我们证明了所提出的AMAZe不仅与启发式方法相比达到了最新水平的表现,而且与基于学习和基于提示的方法相比,具有更高的效率和更好的零样本推理能力。

论文及项目相关链接

PDF

Summary
数据库优化中最重要的挑战之一是索引推荐。传统方法通常依赖启发式优化或基于学习模型的策略来选择有效索引以提高查询性能,但存在计算时间长和泛化能力不足的问题。随着大型语言模型(LLM)的发展,已有通过提示调整提高索引选择效率的方法,但仍未达到最佳效果。为解决这些问题,我们提出了AMAZe,这是一个基于多智能体的零样本LLM索引顾问。它将索引推荐问题分解为规划、选择、组合、修订和反思等子步骤,并设计了一组LLM嵌入的智能体来处理每个子步骤。我们的方法利用高级智能体控制索引选择过程,低级智能体进行索引的选择和修订。实验表明,相比启发式方法和其他LLM相关方法,AMAZe性能更优。它不仅达到当前状态的最佳水平,且更具效率且有良好的零样本推理能力。

Key Takeaways

  • 数据库管理系统优化的关键问题是索引推荐。
  • 传统方法依赖启发式优化和基于学习模型的策略,存在计算时间长和泛化能力不足的问题。
  • 大型语言模型(LLM)在索引选择中展现出潜力。
  • 提出AMAZe方法,基于多智能体框架进行索引推荐,包括规划、选择等子步骤。
  • 高级和低级智能体分别控制索引选择过程和进行具体选择修订。
  • AMAZe达到了最佳性能水平,并具有更高的效率和零样本推理能力。

Cool Papers

点此查看论文截图

Breaking Single-Tester Limits: Multi-Agent LLMs for Multi-User Feature Testing

Authors:Sidong Feng, Changhao Du, Huaxiao Liu, Qingnan Wang, Zhengwei Lv, Mengfei Wang, Chunyang Chen

The growing dependence on mobile phones and their apps has made multi-user interactive features, like chat calls, live streaming, and video conferencing, indispensable for bridging the gaps in social connectivity caused by physical and situational barriers. However, automating these interactive features for testing is fraught with challenges, owing to their inherent need for timely, dynamic, and collaborative user interactions, which current automated testing methods inadequately address. Inspired by the concept of agents designed to autonomously and collaboratively tackle problems, we propose MAdroid, a novel multi-agent approach powered by the Large Language Models (LLMs) to automate the multi-user interactive task for app feature testing. Specifically, MAdroid employs two functional types of multi-agents: user agents (Operator) and supervisor agents (Coordinator and Observer). Each agent takes a specific role: the Coordinator directs the interactive task; the Operator mimics user interactions on the device; and the Observer monitors and reviews the task automation process. Our evaluation, which included 41 multi-user interactive tasks, demonstrates the effectiveness of our approach, achieving 82.9% of the tasks with 96.8% action similarity, outperforming the ablation studies and state-of-the-art baselines. Additionally, a preliminary investigation underscores MAdroid’s practicality by helping identify 11 multi-user interactive bugs during regression app testing, confirming its potential value in real-world software development contexts.

随着对手机和应用程序的依赖日益增强,多用户交互功能(如语音通话、直播和视频会议)已成为弥合因物理和情境障碍造成的社交连接间隙不可或缺的工具。然而,自动化测试这些交互功能充满挑战,因为它们需要及时、动态和协作性的用户交互,而当前自动化测试方法在这方面并不充分。受自主协作解决问题的代理概念启发,我们提出了MAdroid,这是一种新型的多代理方法,借助大型语言模型(LLM)的力量,为应用程序功能测试中的多用户交互任务提供自动化支持。具体来说,MAdroid采用两种功能型多代理:用户代理(操作者)和监管代理(协调者和观察者)。每个代理都扮演着特定的角色:协调者负责指导交互任务;操作者模仿设备上的用户交互;观察者则监控和审查任务自动化过程。我们的评估包括41个多用户交互任务,证明了我们的方法的有效性,在82.9%的任务中实现了96.8%的动作相似性,超过了消融研究和最先进的基线技术。此外,初步调查强调了MAdroid的实际应用价值,在回归应用测试中帮助识别了11个多用户交互缺陷,证实了其在现实软件开发环境中的潜在价值。

论文及项目相关链接

PDF Accepted to International Conference on Software Engineering (ICSE 2026). arXiv admin note: substantial text overlap with arXiv:2504.15474

Summary
移动设备和应用程序的日益依赖使得多用户交互功能(如聊天通话、直播和视频会议)变得至关重要,它们弥补了社交连接中的差距。然而,自动化这些交互功能的测试充满挑战,因为需要及时的动态协作交互,现有的自动化测试方法难以满足需求。本文提出了基于大型语言模型(LLMs)的MAdroid多代理方法,该方法采用用户代理和监管代理共同执行任务,为应用功能测试中的多用户交互任务提供自动化解决方案。评估结果表明,该方法在任务完成率和动作相似性方面均优于基准模型,具有实用价值。

Key Takeaways

  1. 移动设备和应用程序的依赖推动了多用户交互功能的重要性。
  2. 多用户交互功能的自动化测试面临挑战,需要及时的动态协作交互。
  3. MAdroid是一种基于大型语言模型的多代理方法,用于自动化多用户交互任务的测试。
  4. MAdroid包含三种代理:协调者、操作者和观察者。
  5. 评估结果表明MAdroid在任务完成率和动作相似性方面表现出色。
  6. MAdroid有助于识别多用户交互中的回归测试错误,具有实用价值。

Cool Papers

点此查看论文截图

Small Language Models are the Future of Agentic AI

Authors:Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov

Large language models (LLMs) are often praised for exhibiting near-human performance on a wide range of tasks and valued for their ability to hold a general conversation. The rise of agentic AI systems is, however, ushering in a mass of applications in which language models perform a small number of specialized tasks repetitively and with little variation. Here we lay out the position that small language models (SLMs) are sufficiently powerful, inherently more suitable, and necessarily more economical for many invocations in agentic systems, and are therefore the future of agentic AI. Our argumentation is grounded in the current level of capabilities exhibited by SLMs, the common architectures of agentic systems, and the economy of LM deployment. We further argue that in situations where general-purpose conversational abilities are essential, heterogeneous agentic systems (i.e., agents invoking multiple different models) are the natural choice. We discuss the potential barriers for the adoption of SLMs in agentic systems and outline a general LLM-to-SLM agent conversion algorithm. Our position, formulated as a value statement, highlights the significance of the operational and economic impact even a partial shift from LLMs to SLMs is to have on the AI agent industry. We aim to stimulate the discussion on the effective use of AI resources and hope to advance the efforts to lower the costs of AI of the present day. Calling for both contributions to and critique of our position, we commit to publishing all such correspondence at https://research.nvidia.com/labs/lpr/slm-agents.

大型语言模型(LLM)通常因在广泛的任务中展现出接近人类的性能而受到赞誉,并因其能够进行一般对话的能力而备受重视。然而,代理人工智能系统的兴起正迎来大量应用,在这些应用中,语言模型反复执行少量专门任务,且变化甚微。在这里,我们提出观点,小型语言模型(SLM)足够强大,内在地更适合,并且在代理系统中的多次调用中更加经济,因此是代理人工智能的未来。我们的论证依据是小型语言模型当前所展现的能力水平、代理系统的常见架构,以及语言模型部署的经济性。我们进一步认为,在需要通用对话能力的情况下,异质代理系统(即调用多个不同模型的代理)是自然而然的选择。我们讨论了小型语言模型在代理系统中采用可能遇到的潜在障碍,并概述了从大型语言模型到小型语言模型代理的转换算法。我们的立场作为价值陈述而制定,突显了从大型语言模型部分转向小型语言模型对人工智能代理行业操作和经济的重大影响。我们旨在激发关于人工智能资源有效利用的讨论,并希望推动降低当前人工智能成本的努力。我们呼吁对我们的立场做出贡献和批评,并承诺将在https://research.nvidia.com/labs/lpr/slm-agents上公布所有往来通信。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)虽被誉为能在多种任务上展现出接近人类的性能,并具备通用对话能力,但在智能代理系统的新浪潮中,小型语言模型(SLM)因其强大的专业能力、内在的优势和经济的成本而备受关注。本文主张SLM是智能代理系统的未来,并在适当的情况下提倡使用异构智能代理系统(即调用多个不同模型的代理)。文章讨论了采用SLM的潜在障碍,并概述了从大型语言模型转向小型语言模型的智能代理转换算法。本文旨在激发关于AI资源有效利用的讨论,并希望推动降低当前AI成本的努力。

Key Takeaways

  1. 大型语言模型(LLM)和小型语言模型(SLM)在智能代理系统中的应用差异。
  2. SLM的专业能力、内在优势和经济效益在智能代理系统中的体现。
  3. 在需要通用对话能力的情况下,提倡使用异构智能代理系统。
  4. 采用SLM的潜在障碍分析。
  5. 从LLM到SLM的智能代理转换算法的概述。
  6. SLM对智能代理行业运营和经济影响的重要性。

Cool Papers

点此查看论文截图

HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation

Authors:Shijie Zhang, Renhao Li, Songsheng Wang, Philipp Koehn, Min Yang, Derek F. Wong

The advancement of Large Language Models (LLMs) enables flexible and interpretable automatic evaluations. In the field of machine translation evaluation, utilizing LLMs with translation error annotations based on Multidimensional Quality Metrics (MQM) yields more human-aligned judgments. However, current LLM-based evaluation methods still face challenges in accurately identifying error spans and assessing their severity. In this paper, we propose HiMATE, a Hierarchical Multi-Agent Framework for Machine Translation Evaluation. We argue that existing approaches inadequately exploit the fine-grained structural and semantic information within the MQM hierarchy. To address this, we develop a hierarchical multi-agent system grounded in the MQM error typology, enabling granular evaluation of subtype errors. Two key strategies are incorporated to further mitigate systemic hallucinations within the framework: the utilization of the model’s self-reflection capability and the facilitation of agent discussion involving asymmetric information. Empirically, HiMATE outperforms competitive baselines across different datasets in conducting human-aligned evaluations. Further analyses underscore its significant advantage in error span detection and severity assessment, achieving an average F1-score improvement of 89% over the best-performing baseline. We make our code and data publicly available at https://github.com/nlp2ct-shijie/HiMATE.

随着大型语言模型(LLMs)的不断发展,灵活的自动评估与可解释性评估得以实现。在机器翻译评估领域,基于多维质量指标(MQM)的翻译错误标注与LLMs的应用相结合,使得判断更加符合人类标准。然而,当前基于LLM的评估方法仍面临准确识别错误跨度及评估其严重性的挑战。本文提出了一种用于机器翻译评估的分层多智能体框架HiMATE。我们认为现有方法未能充分利用MQM层次结构中的精细结构化和语义信息。为解决这一问题,我们开发了一个基于MQM错误分类的分层多智能体系统,实现对子类型错误的精细评估。此外,我们通过两种方法进一步缓解系统内的虚构现象:利用模型的自我反思能力和促进涉及不对称信息的智能体讨论。经验表明,HiMATE在不同数据集上进行符合人类标准的评估时表现优于竞争基线。进一步的分析强调了其在错误跨度检测和严重性评估方面的显著优势,平均F1分数较最佳基线提高了89%。我们的代码和数据将在https://github.com/nlp2ct-shijie/HiMATE公开可用。

论文及项目相关链接

PDF

Summary
LLMs结合多维质量度量MQM对机器翻译进行评估越来越接近人类判断。但现有方法难以准确识别错误范围和评估其严重性。本文提出HiMATE,一种基于MQM错误分类的分层多智能体机器翻译评估框架。框架融合了两种策略应对系统偏见现象。分析显示,HiMATE相比其它方案有更好的性能。通过开放源码数据展示了优越性。欢迎访问https://github.com/nlp2ct-shijie/HiMATE了解更多信息。

Key Takeaways

  • LLMs与MQM结合的机器翻译评估更接近人类判断。
  • 当前方法难以准确识别错误范围和评估其严重性。
  • 提出HiMATE框架,基于MQM错误分类进行分层多智能体评估。
  • 融合两种策略应对系统偏见现象。
  • HiMATE在多个数据集上超越其他方案,特别是在错误识别和评估方面表现显著。

Cool Papers

点此查看论文截图

TRANSAGENT: An LLM-Based Multi-Agent System for Code Translation

Authors:Zhiqiang Yuan, Weitong Chen, Hanlin Wang, Kai Yu, Xin Peng, Yiling Lou

Code translation converts code from one programming language to another while maintaining its original functionality, which is crucial for software migration, system refactoring, and cross-platform development. Traditional rule-based methods rely on manually-written rules, which can be time-consuming and often result in less readable code. To overcome this, learning-based methods have been developed, leveraging parallel data to train models for automated code translation. More recently, the advance of Large Language Models (LLMs) further boosts learning-based code translation. Although promising, LLM-translated program still suffers from diverse quality issues (e.g., syntax errors and semantic errors). In particular, it can be challenging for LLMs to self-debug these errors when simply provided with the corresponding error messages. In this work, we propose a novel LLM-based multi-agent system TRANSAGENT, which enhances LLM-based code translation by fixing the syntax errors and semantic errors with the synergy between four LLM-based agents, including Initial Code Translator, Syntax Error Fixer, Code Aligner, and Semantic Error Fixer. The main insight of TRANSAGENT is to first localize the error code block in the target program based on the execution alignment between the target and source program, which can narrow down the fixing space and thus lower down the fixing difficulties. To evaluate TRANSAGENT, we first construct a new benchmark from recent programming tasks to mitigate the potential data leakage issue. On our benchmark, TRANSAGENT outperforms the latest LLM-based code translation technique UniTrans in both translation effectiveness and efficiency; additionally, our evaluation on different LLMs show the generalization of TRANSAGENT and our ablation study shows the contribution of each agent.

代码翻译是将代码从一个编程语言转换为另一个语言,同时保持其原始功能,这在软件迁移、系统重构和跨平台开发中是至关重要的。传统的基于规则的方法依赖于手动编写的规则,这既耗时又常常导致生成的代码可读性较差。为了克服这一问题,已经开发了基于学习的方法,利用并行数据来训练模型以实现自动化代码翻译。最近,大型语言模型(LLM)的进展进一步推动了基于学习的代码翻译。尽管前景看好,但LLM翻译的程序仍然存在多种质量问题(例如,语法错误和语义错误)。特别是,当仅提供相应的错误消息时,LLM自我调试这些错误可能会面临挑战。

在这项工作中,我们提出了一种基于LLM的多智能体系统TRANSAGENT,它通过四个基于LLM的智能体之间的协同作用,提高了基于LLM的代码翻译,包括初始代码翻译器、语法错误修复器、代码对齐器和语义错误修复器。TRANSAGENT的主要见解是基于目标程序与源程序的执行对齐来首先定位错误代码块,这样可以缩小修复空间,从而降低修复难度。为了评估TRANSAGENT,我们首先构建了新的基准测试,以缓解潜在的数据泄露问题。在我们的基准测试中,TRANSAGENT在翻译效果和效率上都超越了最新的LLM-based代码翻译技术UniTrans;此外,我们对不同LLM的评估显示了TRANSAGENT的通用性,我们的消融研究显示了每个智能体的贡献。

论文及项目相关链接

PDF

Summary

本文介绍了代码翻译的重要性,其可将代码从一种编程语言转换为另一种语言,同时保持原始功能。传统的方法依赖于手动编写的规则,但这种方法耗时且生成的代码可读性较差。为了解决这个问题,研究者开发了基于学习的方法,利用平行数据训练模型进行自动化代码翻译。最近,大型语言模型(LLM)的进步进一步推动了基于学习的代码翻译的发展。然而,LLM翻译的程序仍存在各种质量问题,如语法和语义错误。针对这些问题,本文提出了一种基于LLM的多代理系统TRANSAGENT,它通过四个LLM代理的协同工作,包括初始代码翻译器、语法错误修复器、代码对齐器和语义错误修复器,提高了LLM基于的代码翻译的质量。TRANSAGENT的主要见解是通过执行目标程序与源程序的对比来定位错误代码块,从而缩小修复范围并降低修复难度。

Key Takeaways

  1. 代码翻译是将代码从一种编程语言转换为另一种语言的过程,对于软件迁移、系统重构和跨平台开发至关重要。
  2. 传统规则方法耗时且生成的代码可读性较差,因此研究者开发了基于学习的方法以提高效率。
  3. 大型语言模型(LLM)在代码翻译领域具有广泛的应用前景,但仍存在语法和语义错误等问题。
  4. TRANSAGENT是一种基于LLM的多代理系统,通过协同工作提高了LLM在代码翻译方面的性能,包括初始代码翻译、语法错误修复、代码对齐和语义错误修复。
  5. TRANSAGENT能够定位错误代码块,缩小修复范围,降低修复难度。
  6. TRANSAGENT在翻译有效性和效率方面都优于最新的LLM-based代码翻译技术UniTrans。
  7. TRANSAGENT具有泛化能力,并且在不同的LLM上的评价表现良好。

Cool Papers

点此查看论文截图

Crafting Customisable Characters with LLMs: A Persona-Driven Role-Playing Agent Framework

Authors:Bohao Yang, Dong Liu, Chenghao Xiao, Kun Zhao, Chen Tang, Chao Li, Lin Yuan, Guang Yang, Chenghua Lin

Large Language Models (LLMs) demonstrate remarkable ability to comprehend instructions and generate human-like text, enabling sophisticated agent simulation beyond basic behavior replication. However, the potential for creating freely customisable characters remains underexplored. We introduce the Customisable Conversation Agent Framework, which employs LLMs to simulate real-world characters through personalised characteristic feature injection, enabling diverse character creation according to user preferences. We propose the SimsConv dataset, comprising 68 customised characters and 13,971 multi-turn role-playing dialogues across 1,360 real-world scenes. Characters are initially customised using pre-defined elements (career, aspiration, traits, skills), then expanded through personal and social profiles. Building on this, we present SimsChat, a freely customisable role-playing agent incorporating various realistic settings and topic-specified character interactions. Experimental results on both SimsConv and WikiRoleEval datasets demonstrate SimsChat’s superior performance in maintaining character consistency, knowledge accuracy, and appropriate question rejection compared to existing models. Our framework provides valuable insights for developing more accurate and customisable human simulacra. Our data and code are publicly available at https://github.com/Bernard-Yang/SimsChat.

大型语言模型(LLMs)表现出令人瞩目的理解和执行指令的能力,以及生成类似人类的文本,使得复杂的代理模拟超越了基本行为复制。然而,创建可自由定制角色的潜力仍未被充分探索。我们引入了可定制对话代理框架,该框架利用LLMs通过个性化特征注入来模拟现实角色,并根据用户偏好实现多样化的角色创建。我们提出了SimsConv数据集,包含68个自定义角色和13971个跨1360个现实场景的多轮角色扮演对话。角色最初使用预定义元素(职业、抱负、特质、技能)进行定制,然后通过个人和社会档案进行扩展。在此基础上,我们推出了SimsChat,这是一个可自由定制的角色扮演代理,包含各种现实场景和特定话题的角色互动。在SimsConv和WikiRoleEval数据集上的实验结果证明了SimsChat在保持角色一致性、知识准确性和适当问题拒绝方面的优越性能。我们的框架为开发更准确、可定制的人类模拟物提供了有价值的见解。我们的数据和代码可在https://github.com/Bernard-Yang/SimsChat公开访问。

论文及项目相关链接

PDF EMNLP 2025 Findings

Summary

大型语言模型(LLMs)能够理解和执行指令,生成人类文本,实现超越基本行为复制的复杂代理模拟。然而,创建可自由定制角色的潜力尚未得到充分探索。我们引入了可定制对话代理框架,利用LLMs模拟现实世界角色,通过个性化特征注入实现根据用户偏好创建多样化角色。我们提出SimsConv数据集,包含68个自定义角色和13971个跨1360个现实场景的多轮角色扮演对话。角色首先使用预定义元素(职业、抱负、特质、技能)进行定制,然后通过个人和社会概况进行扩展。在此基础上,我们推出了SimsChat,一个可自由定制的角色扮演代理,融入各种现实场景和主题特定的角色交互。在SimsConv和WikiRoleEval数据集上的实验结果证明了SimsChat在保持角色一致性、知识准确性和适当问题拒绝方面的优势。我们的框架为开发更准确、可定制的人类模拟物提供了有价值的见解。

Key Takeaways

  1. 大型语言模型(LLMs)能模拟复杂行为,但创建自由定制角色的潜力尚未充分探索。
  2. 提出了可定制对话代理框架,利用LLMs模拟现实角色,实现用户偏好下的多样化角色创建。
  3. SimsConv数据集包含自定义角色和多轮角色扮演对话,用于训练和评估对话代理。
  4. 角色通过预定义元素(如职业、特质)进行定制,并通过个人和社会概况进一步扩展。
  5. SimsChat能融入现实场景和主题特定的角色交互,并在实验上展示了其性能优势。
  6. SimsChat在保持角色一致性、知识准确性和问题拒绝方面表现优越。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-09-18 The Few-shot Dilemma Over-prompting Large Language Models
2025-09-18
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-09-18 Scaling Agents via Continual Pre-training
2025-09-18
  目录