嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-25 更新

REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing

Authors:Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir

Foundation Models (FMs) are increasingly used in remote sensing (RS) for tasks such as environmental monitoring, disaster assessment, and land-use mapping. These models include unimodal vision encoders trained on a single data modality and multimodal architectures trained on combinations of SAR, multispectral, hyperspectral, and image-text data. They support diverse RS tasks including semantic segmentation, image classification, change detection, and visual question answering. However, selecting an appropriate remote sensing foundation model (RSFM) remains difficult due to scattered documentation, heterogeneous formats, and varied deployment constraints. We introduce the RSFM Database (RS-FMD), a structured resource covering over 150 RSFMs spanning multiple data modalities, resolutions, and learning paradigms. Built on RS-FMD, we present REMSA, the first LLM-based agent for automated RSFM selection from natural language queries. REMSA interprets user requirements, resolves missing constraints, ranks candidate models using in-context learning, and provides transparent justifications. We also propose a benchmark of 75 expert-verified RS query scenarios, producing 900 configurations under an expert-centered evaluation protocol. REMSA outperforms several baselines, including naive agents, dense retrieval, and unstructured RAG-based LLMs. It operates entirely on publicly available metadata and does not access private or sensitive data.

遥感领域正越来越多地使用基础模型(FMs)来完成环境监控、灾害评估和土地用途映射等任务。这些模型包括使用单一数据模态训练的单一视觉编码器以及经过SAR、多光谱、超光谱和图像文本数据组合训练的跨模态架构。它们支持多种遥感任务,包括语义分割、图像分类、变化检测和视觉问答等。然而,由于文档分散、格式多样以及部署环境差异等问题,选择合适的遥感基础模型(RSFM)仍然十分困难。我们引入了遥感基础模型数据库(RS-FMD),这是一个结构化资源,涵盖了超过150种跨越多种数据模态、分辨率和学习方法的遥感基础模型。基于RS-FMD数据库,我们推出了REMSA,这是首个基于大型语言模型的代理,可从自然语言查询中自动选择遥感基础模型。REMSA能够解释用户需求,解决缺失的约束条件,使用上下文学习对候选模型进行排名,并提供透明的理由支持。我们还提出了由专家验证的75个遥感查询场景组成的基准测试,根据专家为中心的评估协议生成了900种配置。REMSA的表现优于多个基线模型,包括朴素代理、密集检索和非结构化基于RAG的大型语言模型。它完全基于公开元数据运行,无需访问私有或敏感数据。

论文及项目相关链接

PDF Code and data available at https://github.com/be-chen/REMSA

Summary

远程感知领域正越来越多地使用基础模型(FMs),用于环境监控、灾害评估和土地用途映射等任务。为帮助选择适合的任务模型,本文推出了远程感知基础模型数据库(RS-FMD),并基于该数据库构建了REMSA智能代理,可根据自然语言查询自动选择模型。REMSA能理解用户需求,解决模型约束问题,使用上下文学习为候选模型排名,并提供透明解释。通过专家验证的基准测试,REMSA表现出优异的性能。其操作完全基于公开元数据,不涉及私有或敏感数据。

Key Takeaways

  1. 基础模型(FMs)在远程感知(RS)领域应用广泛,涵盖环境监控、灾害评估和土地用途映射等任务。
  2. 选择适合的远程感知基础模型(RSFM)具有挑战性,因为存在文档零散、格式多样和部署约束等问题。
  3. 推出远程感知基础模型数据库(RS-FMD),覆盖超过150种RSFM,跨越多种数据模态、分辨率和学习范式。
  4. 基于RS-FMD构建REMSA智能代理,能自动根据自然语言查询选择模型,理解用户需求,解决约束问题,排名候选模型并提供透明解释。
  5. REMSA通过专家验证的基准测试表现出优异性能,包括相对于基线模型的改进。
  6. REMSA操作完全基于公开元数据,不涉及私有或敏感数据。这一特点使其在隐私保护和数据安全方面具有重要优势。

Cool Papers

点此查看论文截图

Multi-Agent Pointer Transformer: Seq-to-Seq Reinforcement Learning for Multi-Vehicle Dynamic Pickup-Delivery Problems

Authors:Zengyu Zou, Jingyuan Wang, Yixuan Huang, Junjie Wu

This paper addresses the cooperative Multi-Vehicle Dynamic Pickup and Delivery Problem with Stochastic Requests (MVDPDPSR) and proposes an end-to-end centralized decision-making framework based on sequence-to-sequence, named Multi-Agent Pointer Transformer (MAPT). MVDPDPSR is an extension of the vehicle routing problem and a spatio-temporal system optimization problem, widely applied in scenarios such as on-demand delivery. Classical operations research methods face bottlenecks in computational complexity and time efficiency when handling large-scale dynamic problems. Although existing reinforcement learning methods have achieved some progress, they still encounter several challenges: 1) Independent decoding across multiple vehicles fails to model joint action distributions; 2) The feature extraction network struggles to capture inter-entity relationships; 3) The joint action space is exponentially large. To address these issues, we designed the MAPT framework, which employs a Transformer Encoder to extract entity representations, combines a Transformer Decoder with a Pointer Network to generate joint action sequences in an AutoRegressive manner, and introduces a Relation-Aware Attention module to capture inter-entity relationships. Additionally, we guide the model’s decision-making using informative priors to facilitate effective exploration. Experiments on 8 datasets demonstrate that MAPT significantly outperforms existing baseline methods in terms of performance and exhibits substantial computational time advantages compared to classical operations research methods.

本文研究了带有随机请求的协同多车辆动态接送问题(MVDPDPSR),并提出了一种基于序列到序列的端到端集中决策框架,名为多代理指针转换器(MAPT)。MVDPDPSR是车辆路由问题的扩展,也是时空系统优化问题,广泛应用于按需配送等场景。当处理大规模动态问题时,经典运筹学方法在计算复杂度和时间效率方面面临瓶颈。尽管现有的强化学习方法已经取得了一些进展,但它们仍然面临几个挑战:1)多辆车之间的独立解码无法建模联合行动分布;2)特征提取网络难以捕捉实体之间的关系;3)联合行动空间呈指数级增长。为了解决这些问题,我们设计了MAPT框架,它采用Transformer编码器提取实体表示,结合Transformer解码器和指针网络以自回归的方式生成联合行动序列,并引入关系感知注意力模块来捕捉实体之间的关系。此外,我们使用信息先验来指导模型的决策制定,以促进有效探索。在8个数据集上的实验表明,MAPT在性能上显著优于现有基线方法,并且在计算时间方面与经典运筹学方法相比具有显著优势。

论文及项目相关链接

PDF 15 pages

Summary
该论文针对带有随机请求的协同多车辆动态接送问题(MVDPDPSR)进行研究,并提出了一种基于序列到序列的端到端集中决策框架,名为Multi-Agent Pointer Transformer(MAPT)。MAPT框架采用Transformer编码器提取实体表示,结合Transformer解码器和指针网络以自回归方式生成联合行动序列,并引入关系感知注意力模块来捕捉实体之间的关系。实验在8个数据集上表明,MAPT在性能和计算时间方面显著优于现有基线方法。

Key Takeaways

  1. 该论文解决了协同多车辆动态接送问题(MVDPDPSR),这是一个车辆路由问题的扩展,广泛应用于按需配送等场景。
  2. 论文提出了一种新的端到端集中决策框架Multi-Agent Pointer Transformer(MAPT),基于序列到序列。
  3. MAPT框架采用Transformer编码器提取实体表示,并结合Transformer解码器和指针网络生成联合行动序列。
  4. 关系感知注意力模块的引入,旨在捕捉实体之间的关系。
  5. MAPT框架在多个数据集上进行了实验验证,结果显示其在性能和计算时间方面均显著优于现有方法。
  6. 相比经典运筹学方法,MAPT在处理大规模动态问题时具有更高的计算效率和时间优势。

Cool Papers

点此查看论文截图

IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation

Authors:Yifan Li, Lichi Li, Anh Dao, Xinyu Zhou, Yicheng Qiao, Zheda Mai, Daeun Lee, Zichen Chen, Zhen Tan, Mohit Bansal, Yu Kong

While Visual Large Language Models (VLLMs) show great promise as embodied agents, they continue to face substantial challenges in spatial reasoning. Existing embodied benchmarks largely focus on passive, static household environments and evaluate only isolated capabilities, failing to capture holistic performance in dynamic, real-world complexity. To fill this gap, we present IndustryNav, the first dynamic industrial navigation benchmark for active spatial reasoning. IndustryNav leverages 12 manually created, high-fidelity Unity warehouse scenarios featuring dynamic objects and human movement. Our evaluation employs a PointGoal navigation pipeline that effectively combines egocentric vision with global odometry to assess holistic local-global planning. Crucially, we introduce the “collision rate” and “warning rate” metrics to measure safety-oriented behaviors and distance estimation. A comprehensive study of nine state-of-the-art VLLMs (including models such as GPT-5-mini, Claude-4.5, and Gemini-2.5) reveals that closed-source models maintain a consistent advantage; however, all agents exhibit notable deficiencies in robust path planning, collision avoidance and active exploration. This highlights a critical need for embodied research to move beyond passive perception and toward tasks that demand stable planning, active exploration, and safe behavior in dynamic, real-world environment.

视觉大型语言模型(VLLMs)作为实体代理展现出巨大的潜力,但它们在空间推理方面仍面临重大挑战。现有的实体基准测试主要关注被动、静态的家庭环境,仅评估孤立的能力,无法捕捉动态、真实世界复杂环境中的整体表现。为了填补这一空白,我们推出了IndustryNav,这是针对主动空间推理的第一个动态工业导航基准测试。IndustryNav利用12个手动创建的高保真Unity仓库场景,这些场景具有动态物体和人类活动。我们的评估采用PointGoal导航管道,有效结合以自我为中心的观点和全局里程计,以评估整体的地方-全局规划。关键的是,我们引入了“碰撞率”和“警告率”指标来衡量以安全为导向的行为和距离估计。对九种最新VLLMs的全面研究(包括GPT-5-mini、Claude-4.5和Gemini-2.5等模型)显示,封闭源代码模型具有持续的优势;然而,所有代理在稳健的路径规划、避障和主动探索方面都表现出明显的不足。这强调了实体研究需要从被动感知转向需要稳定规划、主动探索和动态真实世界环境中的安全行为的任务的必要性。

论文及项目相关链接

PDF

Summary

视觉大型语言模型(VLLMs)作为实体代理展现出巨大潜力,但在空间推理方面仍面临重大挑战。现有的实体代理基准测试主要集中在被动、静态的家庭环境,并仅评估孤立的能力,无法捕捉动态、现实世界中复杂情况的整体表现。为填补这一空白,我们推出了IndustryNav,首个针对主动空间推理的动态工业导航基准测试。IndustryNav利用12个手动创建的高保真Unity仓库场景,包含动态物体和人为移动。我们的评估采用PointGoal导航管道,有效结合以自我为中心的视觉与全局测距,以评估整体的地方-全球规划。我们引入了“碰撞率”和“警告率”指标来衡量安全导向的行为和距离估计。对九种最新VLLMs的全面研究(包括GPT-5-mini、Claude-4.5和Gemini-2.5等模型)显示,封闭源模型具有持续优势;然而,所有代理在稳健的路径规划、碰撞避免和主动探索方面均表现出明显不足。这强调了实体代理研究需要从被动感知转向需要稳定规划、主动探索以及在动态、现实世界中安全行为的任务。

Key Takeaways

  1. VLLMs作为实体代理展现出潜力,但在空间推理方面存在挑战。
  2. 现有的实体代理基准测试主要集中在被动、静态的环境,无法真实反映VLLMs在动态、复杂环境中的表现。
  3. IndustryNav基准测试的推出,填补了针对主动空间推理的动态工业导航评估的空白。
  4. IndustryNav包含12个高保真度的仓库场景,强调动态物体和人为移动的重要性。
  5. PointGoal导航管道结合自我为中心的视觉与全局测距,评估地方和全球规划。
  6. 引入“碰撞率”和“警告率”指标来衡量代理在动态环境中的安全性和距离估计能力。

Cool Papers

点此查看论文截图

A Simple Yet Strong Baseline for Long-Term Conversational Memory of LLM Agents

Authors:Sizhe Zhou

LLM-based conversational agents still struggle to maintain coherent, personalized interaction over many sessions: fixed context windows limit how much history can be kept in view, and most external memory approaches trade off between coarse retrieval over large chunks and fine-grained but fragmented views of the dialogue. Motivated by neo-Davidsonian event semantics, we propose an event-centric alternative that represents conversational history as short, event-like propositions which bundle together participants, temporal cues, and minimal local context, rather than as independent relation triples or opaque summaries. In contrast to work that aggressively compresses or forgets past content, our design aims to preserve information in a non-compressive form and make it more accessible, rather than more lossy. Concretely, we instruct an LLM to decompose each session into enriched elementary discourse units (EDUs) – self-contained statements with normalized entities and source turn attributions – and organize sessions, EDUs, and their arguments in a heterogeneous graph that supports associative recall. On top of this representation we build two simple retrieval-based variants that use dense similarity search and LLM filtering, with an optional graph-based propagation step to connect and aggregate evidence across related EDUs. Experiments on the LoCoMo and LongMemEval$_S$ benchmarks show that these event-centric memories match or surpass strong baselines, while operating with much shorter QA contexts. Our results suggest that structurally simple, event-level memory provides a principled and practical foundation for long-horizon conversational agents. Our code and data will be released at https://github.com/KevinSRR/EMem.

基于LLM的对话代理人在维持多会话连贯性和个性化互动方面仍存在困难:固定的上下文窗口限制了可以保留的会话历史信息,而大多数外部记忆方法都在大块的粗略检索和精细但分散的会话观点之间进行了权衡。受新戴维森事件语义的启发,我们提出了一种以事件为中心的方法,它将对话历史表示为短小的、类似事件的命题,这些命题将参与者、时间线索和最小的局部上下文捆绑在一起,而不是作为独立的关系三元组或模糊的摘要。与那些极力压缩或遗忘过去内容的工作不同,我们的设计旨在以非压缩的形式保留信息,使其更加易于访问,而不是损失更大。具体来说,我们指导LLM将每个会话分解成丰富的基本话语单元(EDUs)——具有规范化实体和来源转折归属性的自我包含陈述——并在异质图中组织会话、EDUs及其参数,该图支持关联回忆。在这个表示的基础上,我们构建了两种简单的基于检索的变体,它们使用密集相似性搜索和LLM过滤,并可选择一个基于图的传播步骤来连接和聚合相关EDUs的证据。在LoCoMo和LongMemEval$_S$基准测试上的实验表明,这些以事件为中心的记忆匹配或超越了强大的基线,同时在较短的QA语境中运行。我们的结果表明,结构简单的以事件为基础的内存为长期对话代理提供了有原则和实践的基础。我们的代码和数据将在https://github.com/KevinSRR/EMem上发布。

论文及项目相关链接

PDF Work in progress

Summary

该文提出一种基于事件中心的对话历史表示方法,旨在解决LLM基础对话系统在维持多会话连贯性和个性化互动方面的困难。该研究采用事件导向方式重塑对话历史表示,聚焦于事件单元的提取和组织。对话历史被分解为丰富的基础对话单元(EDUs),并采用异质图进行结构化表示。该研究在长对话基准测试(LoCoMo)和长期记忆评估(LongMemEval$_S$)中验证了所提出方法的效能。此代码和数据集将公开于KevinSRR/EMem。

Key Takeaways

  1. LLM基础对话系统在维持连贯性和个性化互动方面存在挑战。
  2. 对话历史表示方法被重新定义为基于事件中心的表示方式,聚焦事件单元的提取和组织。
  3. 提出一种将对话历史分解为丰富的基础对话单元(EDUs)的方法,每个EDU包含参与者、时间线索和最少局部上下文。
  4. 使用异质图组织并结构化会话、EDUs及其参数,支持关联回忆。
  5. 提出了两种基于检索的对话记忆方法,包括密集相似性搜索和LLM过滤,以及可选的基于图的传播步骤来连接和聚合相关EDUs的证据。
  6. 在长对话基准测试和长期记忆评估中验证了所提出方法的效能。

Cool Papers

点此查看论文截图

Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism

Authors:Kaiyu Li, Jiayu Wang, Zhi Wang, Hui Qiao, Weizhan Zhang, Deyu Meng, Xiangyong Cao

LLM-driven agents, particularly those using general frameworks like ReAct or human-inspired role-playing, often struggle in specialized domains that necessitate rigorously structured workflows. Fields such as remote sensing, requiring specialized tools (e.g., correction, spectral indices calculation), and multi-step procedures (e.g., numerous intermediate products and optional steps), significantly challenge generalized approaches. To address this gap, we introduce a novel agent design framework centered on a Hierarchical Task Abstraction Mechanism (HTAM). Specifically, HTAM moves beyond emulating social roles, instead structuring multi-agent systems into a logical hierarchy that mirrors the intrinsic task-dependency graph of a given domain. This task-centric architecture thus enforces procedural correctness and decomposes complex problems into sequential layers, where each layer’s sub-agents operate on the outputs of the preceding layers. We instantiate this framework as EarthAgent, a multi-agent system tailored for complex geospatial analysis. To evaluate such complex planning capabilities, we build GeoPlan-bench, a comprehensive benchmark of realistic, multi-step geospatial planning tasks. It is accompanied by a suite of carefully designed metrics to evaluate tool selection, path similarity, and logical completeness. Experiments show that EarthAgent substantially outperforms a range of established single- and multi-agent systems. Our work demonstrates that aligning agent architecture with a domain’s intrinsic task structure is a critical step toward building robust and reliable specialized autonomous systems.

LLM驱动的代理,特别是使用ReAct等通用框架或人类启发式的角色扮演的代理,在需要严格结构化工作流程的特定领域往往表现不佳。遥感等领域需要专业工具(如校正、光谱指数计算)和多步骤程序(如众多中间产品和可选步骤),这给通用方法带来了巨大挑战。为了解决这一差距,我们引入了一种以分层任务抽象机制(HTAM)为中心的新型代理设计框架。具体来说,HTAM超越了模仿社会角色的范围,而是将多代理系统结构化为逻辑层次,这反映了给定领域的内在任务依赖图。这种任务中心的结构因此强制实施过程正确性,并将复杂问题分解为顺序层,其中每一层的子代理都操作前一层的输出。我们将此框架实例化为EarthAgent,这是一个用于复杂地理空间分析的多代理系统。为了评估这种复杂的规划能力,我们建立了GeoPlan-bench,这是一套现实的、多步骤地理空间规划任务的全面基准测试。它附带了一套精心设计的指标,以评估工具选择、路径相似性和逻辑完整性。实验表明,EarthAgent显著优于一系列已建立的单代理和多代理系统。我们的工作证明,将代理架构与领域的内在任务结构对齐是构建稳健可靠的专用自主系统的关键步骤。

论文及项目相关链接

PDF Page: https://earth-insights.github.io/EarthAgent

Summary

基于LLM驱动的大型模型在特定领域,如遥感领域,存在工作流程结构化的挑战。针对这一问题,我们提出了一种新型代理设计框架,即基于层次任务抽象机制(HTAM)。该框架实现了多代理系统的逻辑层次结构,以反映给定领域的任务依赖关系图。因此,我们引入了地球代理这一专为复杂地理空间分析量身定制的多代理系统。实验表明,地球代理显著优于一系列已建立的单代理和多代理系统。我们的工作表明,将代理架构与特定领域的任务结构相匹配是构建健壮可靠的自主系统的关键步骤。简而言之,我们在解决遥感等复杂任务方面取得了进展。我们的系统在实际多步骤地理空间规划任务上表现出优异性能。该系统设计精巧,显著提升了工具选择、路径相似性和逻辑完整性等方面的评价。此设计旨在提升复杂地理任务的自动化处理效率。

Key Takeaways

  • LLM驱动的代理在特定领域如遥感中面临挑战,需要专门工具和多步骤程序。
  • 提出了一种新型代理设计框架HTAM,以逻辑层次结构反映任务的内在依赖关系。
  • HTAM实现的地球代理系统对复杂地理空间分析有优势,实验表现超越其他系统。
  • 构建了一个评估复杂地理空间规划任务的基准测试GeoPlan-bench。
  • HTAM框架通过工具选择、路径相似性和逻辑完整性等评价指标展现了其有效性。

Cool Papers

点此查看论文截图

MIR: Efficient Exploration in Episodic Multi-Agent Reinforcement Learning via Mutual Intrinsic Reward

Authors:Kesheng Chen, Wenjian Luo, Bang Zhang, Zeping Yin, Zipeng Ye

Episodic rewards present a significant challenge in reinforcement learning. While intrinsic reward methods have demonstrated effectiveness in single-agent rein-forcement learning scenarios, their application to multi-agent reinforcement learn-ing (MARL) remains problematic. The primary difficulties stem from two fac-tors: (1) the exponential sparsity of joint action trajectories that lead to rewards as the exploration space expands, and (2) existing methods often fail to account for joint actions that can influence team states. To address these challenges, this paper introduces Mutual Intrinsic Reward (MIR), a simple yet effective enhancement strategy for MARL with extremely sparse rewards like episodic rewards. MIR incentivizes individual agents to explore actions that affect their teammates, and when combined with original strategies, effectively stimulates team exploration and improves algorithm performance. For comprehensive experimental valida-tion, we extend the representative single-agent MiniGrid environment to create MiniGrid-MA, a series of MARL environments with sparse rewards. Our evalu-ation compares the proposed method against state-of-the-art approaches in the MiniGrid-MA setting, with experimental results demonstrating superior perfor-mance.

间歇性奖励在强化学习中构成了一个重大挑战。虽然内在奖励方法在单智能体强化学习场景中已经展现出其有效性,但将其应用于多智能体强化学习(MARL)仍存在难题。主要困难源于两个因素:(1)随着探索空间的扩大,导致奖励的联合行动轨迹呈指数级稀疏;(2)现有方法往往未能考虑到能够影响团队状态的联合行动。为了应对这些挑战,本文引入了互内在奖励(MIR)作为解决具有类似于间歇性奖励的极稀疏奖励的多智能体强化学习的一种简单有效的增强策略。MIR激励个体智能体去探索影响队友的行动,并与原始策略相结合,有效地刺激了团队的探索并提高了算法的性能。为了进行全面的实验验证,我们将代表性的单智能体Minigrid环境扩展为创建Minigrid-MA,这是一系列具有稀疏奖励的MARL环境。我们的评估将提出的方法与Minigrid-MA设置中的最新先进方法进行了比较,实验结果表明其性能优越。

论文及项目相关链接

PDF

Summary

该论文针对多智能体强化学习(MARL)中的稀疏奖励问题,特别是当奖励呈现为周期性的奖励时,提出了一个名为Mutual Intrinic Reward(MIR)的解决方案。MIR旨在激励个体智能体探索影响队友的行动,并在结合了原有策略后有效地提高了团队探索效率和算法性能。该论文还对代表单一智能体的MiniGrid环境进行了扩展,创建了一系列的MARL环境MiniGrid-MA进行实证研究,实验结果表明该方法相较于其他前沿方法具有更好的性能。

Key Takeaways

  1. 周期性的奖励在多智能体强化学习中存在重大挑战。挑战主要来自两方面:随着探索空间的扩大,奖励引导下的联合行动轨迹呈现指数级稀疏性;现有方法往往忽视联合行动对团队状态的影响。
  2. Mutual Intrinic Reward(MIR)是一种针对多智能体强化学习中稀疏奖励问题的有效增强策略。它通过激励个体智能体探索影响队友的行动来改善团队探索和算法性能。
  3. MIR在与原有策略结合后能够提高算法性能,这对于处理周期性奖励尤为有效。这一方法在增强团队协同作用和提高学习效率方面展现出了潜力。
  4. 为全面验证新方法的有效性,论文将单智能体的MiniGrid环境扩展为多智能体的MiniGrid-MA环境,创建了一系列用于多智能体强化学习的实验环境。
  5. 实验结果表明,相较于其他前沿方法,MIR在MiniGrid-MA环境中的性能表现更为优越。这一发现为多智能体强化学习在复杂环境中的实际应用提供了支持。
  6. MIR提供了一种新型的奖励机制,鼓励智能体间的协作而非竞争,从而促进了整个团队的协同学习和决策过程。这为未来多智能体强化学习的研究提供了新思路。

Cool Papers

点此查看论文截图

UI-CUBE: Enterprise-Grade Computer Use Agent Benchmarking Beyond Task Accuracy to Operational Reliability

Authors:Horia Cristescu, Charles Park, Trong Canh Nguyen, Sergiu Talmacel, Alexandru-Gabriel Ilie, Stefan Adam

While current Computer Use Agent (CUA) benchmarks measure task completion effectively, they provide limited assessment of enterprise deployment readiness, emphasizing functional correctness over the operational reliability required for production systems. We present UI-CUBE (UiPath Computer Use BEnchmark), a systematic benchmark comprising 226 tasks across two difficulty tiers designed to expose fundamental architectural limitations in current CUAs. Our evaluation covers simple UI interactions (136 tasks) and complex workflows including copy-paste tasks (50 tasks) and enterprise application scenarios (40 tasks), with systematic interface variation coverage, multi-resolution testing and automated validation of task success through the application state. Evaluation of five state-of-the-art models reveals a sharp capability cliff rather than gradual performance degradation. Simple UI interactions achieve 67-85% success rates (compared to 97.9% human performance), but complex workflows drop precipitously to 9-19%. Human evaluators with no prior application experience achieve only 61.2% on complex tasks despite near-perfect performance on simple tasks, establishing realistic performance ceilings. This discontinuous performance pattern – where agents achieve 68-87% of human performance on simple tasks but only 15-32% on complex workflows – indicates fundamental architectural limitations in memory management, hierarchical planning, and state coordination rather than incremental capability gaps addressable through better training or prompting. UI-CUBE functions as an enterprise-readiness diagnostic, revealing that while current CUAs can manipulate individual interface elements, they cannot yet function as reliable workflow automation tools. These findings provide architectural insights essential for developing production-ready CUAs capable of managing complex, multi-step enterprise processes.

当前计算机使用代理(CUA)基准测试虽然可以有效地衡量任务完成效率,但它们对于企业部署就绪的评估却相对有限,更侧重于功能正确性而非生产系统所需的操作可靠性。我们推出了UI-CUBE(UiPath计算机使用基准测试),这是一个系统的基准测试,包含两个难度层次的226个任务,旨在暴露当前CUA的基本架构限制。我们的评估涵盖了简单的UI交互(136项任务)和复杂的工作流程,包括复制粘贴任务(50项任务)和企业应用场景(40项任务),具有系统的界面变化覆盖、多分辨率测试和通过应用程序状态自动验证任务成功的机制。对五种最新模型的评价显示,存在明显的性能断层,而非逐步性能下降。简单UI交互的成功率达到了67-85%(与人类性能的97.9%相比),但复杂的工作流程急剧下降到9-19%。没有先前应用经验的人类评估者在简单任务上表现近乎完美,但在复杂任务上仅达到61.2%的成功率,这确定了现实性能的上限。这种不连续的性能模式——代理在简单任务上达到人类性能的68-87%,但在复杂工作流程上只有15-32%——表明在记忆管理、层次规划、状态协调等基本架构方面存在限制,而不是通过更好的培训或提示就可以解决的增量能力差距。UI-CUBE作为企业就绪性诊断工具,揭示出虽然当前的CUA可以操作单个界面元素,但它们还无法作为可靠的工作流自动化工具发挥作用。这些发现对于开发能够管理复杂、多步骤企业流程的生产就绪CUA至关重要。

论文及项目相关链接

PDF 18 pages, 8 figures, 5 tables. Benchmark comprising 226 tasks across two difficulty tiers. Code and benchmark available at https://github.com/UiPath/uipath_enterprise_benchmark

摘要

UI-CUBE(UiPath计算机使用基准测试)是一项系统性的基准测试,包含两个难度级别的226项任务,旨在揭示当前计算机使用代理(CUA)的根本架构局限性。它评估了简单UI交互、复杂工作流程和企业应用场景,揭示了CUA在简单任务上达到67-85%的成功率,但在复杂任务上表现急剧下降的现象。此现象显示出CUA在记忆管理、层次化规划和状态协调方面的架构缺陷,而非可通过更好训练或提示解决的增量能力差距。UI-CUBE可作为企业就绪性诊断工具,揭示当前CUA的局限性。

关键见解

  1. 当前计算机使用代理(CUA)基准测试主要衡量任务完成的效率,但对生产系统所需的操作可靠性评估有限。
  2. UI-CUBE系统基准测试包含两个难度级别的226项任务,旨在揭示CUA的根本架构局限性。
  3. 在简单UI交互任务上,CUA成功率达到67-85%,但与人类性能(97.9%)仍有差距。
  4. 在复杂工作流程任务上,CUA性能急剧下降,成功率仅为9-19%。
  5. 无应用经验的人类评估者在复杂任务上仅达到61.2%的成功率,说明存在现实性能上限。
  6. CUA在简单任务和复杂工作流程之间的性能差异表明,其在记忆管理、层次化规划和状态协调方面存在架构缺陷。
  7. UI-CUBE可作为企业就绪性诊断工具,当前CUAs虽能操作单个界面元素,但尚不能作为可靠的工作流自动化工具。

Cool Papers

点此查看论文截图

ToC: Tree-of-Claims Search with Multi-Agent Language Models

Authors:Shuyang Yu, Jianan Liang, Hui Hu

Optimizing patent claims is a critical yet challenging task, demanding careful balance between maximizing novelty and preserving legal scope. Manual claim drafting is labor-intensive, costly, and inherently inconsistent, while conventional Large Language Models (LLMs) often lack the structured, iterative reasoning essential for precise claim refinement. To address these challenges, we introduce Tree of Claims (ToC), an innovative framework that redefines claim editing as a guided search problem. ToC synergistically integrates Monte Carlo Tree Search (MCTS) with a collaborative multi-agent system, comprising an LLM-based EditorAgent that proposes contextually grounded edits, and an ExaminerAgent that mimics patent examiner critiques through structured, chain-of-thought analyses of novelty and prior art disclosure. Driven by a carefully designed multi-objective reward function, ToC jointly optimizes novelty, scope retention, and semantic coherence. Experimental evaluation on a benchmark of 1145 claims demonstrates that ToC significantly outperforms standard LLMs in zero-shot and few-shot scenarios, achieving an average composite score improvement of 8%, and up to 9% in certain cases. Extensive experiments, including detailed ablation studies, validate ToC’s efficacy in generating superior, legally robust claim revisions. Overall, ToC establishes a transparent, controllable, and interpretable methodology that effectively bridges advanced LLM reasoning capabilities with strategic MCTS planning for structured patent claim optimization.The source code is available at https://github.com/ysy2003/ToC.

优化专利索赔是一项至关重要且充满挑战的任务,需要在最大化新颖性与保持法律范围之间取得谨慎平衡。手动起草索赔工作量大、成本高且内在不一致,而传统的大型语言模型(LLM)往往缺乏精确索赔改进所需的结构化迭代推理。为解决这些挑战,我们引入了索赔树(ToC)这一创新框架,将索赔编辑重新定义为引导搜索问题。ToC协同整合了蒙特卡洛树搜索(MCTS)与协作多智能体系统,该系统包括一个基于LLM的EditorAgent,能够提出与上下文相结合的编辑,以及一个模拟专利审查员评审的ExaminerAgent,通过结构化、链式思维分析新颖性和现有技术披露。ToC由精心设计的多目标奖励函数驱动,联合优化新颖性、范围保留和语义连贯性。在1145项索赔的基准测试上的实验评估表明,ToC在零样本和少样本场景下显著优于标准LLM,平均综合得分提高8%,在某些情况下甚至提高9%。大量实验,包括详细的消融研究,验证了ToC在产生优质、法律稳健的索赔修订方面的有效性。总体而言,ToC建立了一种透明、可控、可解释的方法,有效地将先进的LLM推理能力与战略MCTS规划相结合,用于结构化专利索赔优化。源代码可在https://github.com/ysy2003/ToC获取。

论文及项目相关链接

PDF Accepted by AAAI 2026 (Oral)

摘要

专利索赔优化是一项重要且具挑战性的任务,需要在最大化新颖性与保留法律范围之间取得谨慎平衡。手动起草索赔工作量大、成本高且存在内在不一致性,而传统的大型语言模型(LLM)往往缺乏精确索赔修订所需的结构性迭代推理。为解决这些挑战,我们引入了索赔树(ToC)这一创新框架,将索赔编辑重新定义为一项指导性的搜索问题。ToC协同整合了蒙特卡洛树搜索(MCTS)和一个协作的多智能体系统,该系统包括一个基于LLM的EditorAgent,能够提出基于上下文编辑的建议,以及一个模仿专利审查员批判的ExaminerAgent,通过结构化、连贯性的思维分析新颖性和现有技术披露情况。ToC由精心设计的多目标奖励函数驱动,可联合优化新颖性、范围保留和语义连贯性。在包含1145项索赔的基准测试上的实验表明,ToC在零样本和少样本场景中显著优于标准LLM,平均综合得分提高了8%,在某些情况下甚至提高了9%。包括详细消融研究在内的广泛实验验证了ToC在生成优质、法律稳健的索赔修订方面的有效性。总体而言,ToC建立了一种透明、可控且可解释的方法,有效地将先进的LLM推理能力与战略性的MCTS规划相结合,以优化结构化的专利索赔。

关键见解

  1. 专利索赔优化需平衡新颖性与法律范围的保留。
  2. 现有方法如手动索赔起草和常规LLM存在局限性。
  3. 引入ToC框架,整合MCTS和多智能体系统以优化专利索赔。
  4. ToC通过协同EditorAgent和ExaminerAgent实现结构化迭代推理。
  5. ToC采用多目标奖励函数,优化新颖性、范围保留和语义连贯性。
  6. 实验表明,ToC在基准测试中显著优于标准LLM。
  7. ToC为专利索赔优化提供了透明、可控、可解释的方法。

Cool Papers

点此查看论文截图

Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems

Authors:Kirill Nagaitsev, Luka Grbcic, Samuel Williams, Costin Iancu

Maximizing performance on available GPU hardware is an ongoing challenge for modern AI inference systems. Traditional approaches include writing custom GPU kernels and using specialized model compilers to tune high-level code for specific GPU targets. Recent work shows that LLM-based multi-agent systems can effectively perform such tuning, often outperforming existing compilers and eliminating the need for manual kernel development. However, the dynamics of multi-agent systems for this task remain unexplored. In this work, we present a logical framework for comparing multi-agent PyTorch optimization systems. Our evaluation shows that exploit-heavy strategies perform best when paired with error-fixing agents, and that performance correlates with the granularity of optimization steps. The best implementation achieves an average 2.88x speedup on an H100 GPU across diverse tasks in KernelBench, a benchmark suite covering a range of machine learning architectures in PyTorch.

在现代人工智能推理系统中,最大化现有GPU硬件的性能是一个持续面临的挑战。传统方法包括编写自定义GPU内核和使用专业模型编译器来调整针对特定GPU目标的高级代码。最近的研究表明,基于大型语言模型(LLM)的多智能体系统可以有效地执行此类调整,通常可以超越现有编译器,并消除对手动内核开发的需求。然而,对于此任务的多智能体系统的动态性尚未被探索。在这项工作中,我们提出了一个逻辑框架,用于比较多智能体PyTorch优化系统。我们的评估表明,当与错误修复智能体配对时,利用重型策略表现最佳,并且性能与优化步骤的粒度相关。最好的实现在H100 GPU上实现了KernelBench基准测试中不同任务的平均2.88倍加速,该基准测试套件涵盖了PyTorch中一系列机器学习架构。

论文及项目相关链接

PDF

Summary
最新研究表明,基于LLM的多智能体系统可有效优化GPU性能,常优于现有编译器,且无需手动开发内核。此研究通过逻辑框架比较PyTorch优化的多智能体系统,发现重度利用策略与纠错智能体结合表现最佳,性能与优化步骤粒度有关。最佳方案在KernelBench上的速度提升平均达2.88倍,涵盖多种任务。

Key Takeaways

  1. 基于LLM的多智能体系统能有效优化GPU性能,表现优于传统编译器及手动内核开发。
  2. 研究的逻辑框架有助于对比PyTorch优化的多智能体系统性能。
  3. 在结合重度利用策略与纠错智能体后效果最佳。
  4. 性能提升与优化步骤的粒度有关。
  5. 最佳方案在涵盖多种任务的KernelBench上实现平均2.88倍的速度提升。
  6. 此研究为未来的GPU性能优化提供了新的视角和方法论。

Cool Papers

点此查看论文截图

NALA_MAINZ at BLP-2025 Task 2: A Multi-agent Approach for Bangla Instruction to Python Code Generation

Authors:Hossain Shaikh Saadi, Faria Alam, Mario Sanz-Guerrero, Minh Duc Bui, Manuel Mager, Katharina von der Wense

This paper presents JGU Mainz’s winning system for the BLP-2025 Shared Task on Code Generation from Bangla Instructions. We propose a multi-agent-based pipeline. First, a code-generation agent produces an initial solution from the input instruction. The candidate program is then executed against the provided unit tests (pytest-style, assert-based). Only the failing cases are forwarded to a debugger agent, which reruns the tests, extracts error traces, and, conditioning on the error messages, the current program, and the relevant test cases, generates a revised solution. Using this approach, our submission achieved first place in the shared task with a $Pass@1$ score of 95.4. We also make our code public.

本文介绍了JGU Mainz在BLP-2025从孟加拉指令生成代码的共享任务中的获胜系统。我们提出了一种基于多代理的管道。首先,代码生成代理根据输入指令生成初步解决方案。然后,针对提供的单元测试(以pytest风格、基于断言)执行候选程序。只有失败的案例才会被转发到调试器代理,调试器代理重新运行测试,提取错误跟踪,并根据错误消息、当前程序和相关的测试用例生成修订后的解决方案。通过使用这种方法,我们的提交在共享任务中获得了第一名,Pass@1得分为95.4。我们还公开了我们的代码。

论文及项目相关链接

PDF BLP 2025 Shared Task 2 - Code Generation in Bangla

Summary

本文介绍了JGU Mainz在BLP-2025孟加拉指令代码生成共享任务中所获胜的基于多代理的管道系统。首先,代码生成代理根据输入指令生成初步解决方案。候选程序会执行提供的单元测试(采用pytest风格的断言测试)。只有失败的测试用例会被转发到调试器代理,该代理重新运行测试,提取错误跟踪,并根据错误消息、当前程序和相关的测试用例生成修订后的解决方案。通过这种方式,我们的提交在共享任务中获得了第一名,Pass@1分数为95.4。我们的代码已经公开。

Key Takeaways

  1. JGU Mainz使用多代理管道系统在BLP-2025孟加拉指令代码生成共享任务中取得第一名。
  2. 该系统包括一个代码生成代理,可以基于输入指令生成初步解决方案。
  3. 候选程序会执行单元测试,仅失败的测试用例会被传递给调试器代理。
  4. 调试器代理能重新运行测试,提取错误跟踪并根据相关信息生成修订后的解决方案。
  5. 此系统的Pass@1分数为95.4%。
  6. JGU Mainz公开了其代码供其他人使用。
  7. 该系统的成功基于精细的多代理协作和高效的错误处理机制。

Cool Papers

点此查看论文截图

Area-Optimal Control Strategies for Heterogeneous Multi-Agent Pursuit

Authors:Kamal Mammadov, Damith C. Ranasinghe

This paper presents a novel strategy for a multi-agent pursuit-evasion game involving multiple faster pursuers with heterogenous speeds and a single slower evader. We define a geometric region, the evader’s safe-reachable set, as the intersection of Apollonius circles derived from each pursuer-evader pair. The capture strategy is formulated as a zero-sum game where the pursuers cooperatively minimize the area of this set, while the evader seeks to maximize it, effectively playing a game of spatial containment. By deriving the analytical gradients of the safe-reachable set’s area with respect to agent positions, we obtain closed-form, instantaneous optimal control laws for the heading of each agent. These strategies are computationally efficient, allowing for real-time implementation. Simulations demonstrate that the gradient-based controls effectively steer the pursuers to systematically shrink the evader’s safe region, leading to guaranteed capture. This area-minimization approach provides a clear geometric objective for cooperative capture.

本文提出了一种多智能体追逃游戏的新型策略,涉及多个速度更快、具有不同速度的追踪者和一个速度较慢的逃避者。我们定义了一个几何区域,即逃避者的安全可达集,这是由每个追踪者-逃避者对得出的阿波罗尼斯圈的交集。捕获策略被制定为一个零和游戏,其中追踪者合作最小化该集合的区域,而逃避者则试图最大化它,有效地进行空间容纳游戏。通过推导安全可达集区域关于智能体位置的解析梯度,我们获得了关于每个智能体航向的即时最优控制规律的封闭形式。这些策略计算效率高,可实时实施。模拟结果表明,基于梯度的控制有效地引导追踪者系统地缩小逃避者的安全区域,从而确保捕获。这种面积最小化方法为合作捕获提供了明确的目标。

论文及项目相关链接

PDF Published as a conference paper at the Fortieth AAAI Conference on Artificial Intelligence (AAAI-26)

Summary

本文介绍了一种新型多智能体追击逃避游戏策略,涉及多个速度不同的智能体追捕单个速度较慢的逃逸者。定义逃逸者的安全可达集为从每个智能体追踪者与逃逸者对之间得出的阿波罗尼斯圆圈的交集。捕获策略被制定为零和游戏,智能体合作最小化该集合区域,而逃逸者则试图最大化它,进行空间包围游戏。通过解析安全可达集区域相对于智能体位置的梯度,我们获得了即时最优控制法则的封闭形式解,用于确定每个智能体的行进方向。这些策略计算效率高,可实时实施。模拟表明,基于梯度的控制策略有效地引导智能体缩小逃逸者的安全区域,确保捕获。这种面积最小化方法提供了合作捕获的明确几何目标。

Key Takeaways

  1. 定义了逃逸者的安全可达集为阿波罗尼斯圆圈的交集,反映了智能体追捕与逃逸者速度差异的空间关系。
  2. 将捕获策略表述为零和游戏,其中智能体合作追求最小安全区域,而逃逸者试图扩大之。
  3. 通过解析安全可达集区域相对于智能体位置的梯度,得到了即时最优控制法则。
  4. 策略计算效率高,适合实时实施。
  5. 模拟验证了梯度控制策略在缩小逃逸者安全区域方面的有效性。
  6. 该策略确保了对逃逸者的捕获。

Cool Papers

点此查看论文截图

Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

Authors:Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang

Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that LIVE-SWE-AGENT can achieve an impressive solve rate of 77.4% without test-time scaling, outperforming all existing software agents, including the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.

大型语言模型(LLM)正在重塑几乎所有行业,包括软件工程。近年来,已经提出了许多LLM代理来解决现实世界中的软件问题。此类软件代理通常配备了一套编码工具,并能够自主决定下一步行动,以形成完整的轨迹来解决端到端的软件任务。尽管前景广阔,但它们通常需要专门的设计,并且可能仍然不够理想,因为穷尽整个代理架构的设计空间可能极具挑战性和成本高昂。研究人员认识到软件代理本身就是软件,可以进一步进行改进/修改,因此最近已经提出了一些自我改进的软件代理,包括达尔文-哥德尔机器(DGM)。同时,这样的自我改进代理需要在特定基准测试上进行昂贵的离线训练,并且可能无法在不同的大型语言模型或基准测试之间很好地推广。在本文中,我们提出了Live-SWE-agent,这是第一个可以在解决现实世界软件问题时实时自主持续进化的软件代理。更具体地说,Live-SWE-agent从最基础的代理架构开始,仅使用bash工具(例如mini-SWE-agent),并在解决现实世界软件问题时自主进化自己的架构实现。我们在广泛研究的SWE-bench验证基准测试中的评估表明,LIVE-SWE-AGENT的解决率高达77.4%,无需测试时间缩放,超越了所有现有软件代理,包括最佳专有解决方案。此外,Live-SWE-agent在最新的SWE-Bench Pro基准测试中超越了最新的手工定制软件代理,实现了已知的最佳解决率45.8%。

论文及项目相关链接

PDF

Summary

大型语言模型(LLMs)正在重塑包括软件工程在内的几乎所有行业。近年来,提出了一系列LLM代理来解决现实世界中的软件问题。这些软件代理通常配备了一套编程工具,能够自主决定下一步行动,以形成完整的轨迹来解决端到端的软件任务。尽管具有潜力,但它们通常需要专门设计,并且可能仍然不够理想,因为穷尽整个代理架构的设计空间极具挑战性和成本。研究者们已经提出了许多自我改进的软件代理,包括达尔文-歌德机器(DGM)。然而,这些自我改进的软件代理需要在特定基准测试上进行昂贵的离线训练,并且可能无法很好地泛化到不同的LLM或基准测试。本文提出了首个能够在解决现实世界软件问题时实时自主连续进化的软件代理——Live-SWE-agent。它在最基本的代理架构上开始,仅使用bash工具,并在解决现实世界软件问题时自主进化其架构实现。评估表明,Live-SWE-agent在不进行测试时缩放的情况下,解决率高达77.4%,超过了所有现有的软件代理,包括最佳专有解决方案。此外,Live-SWE-agent在最近的SWE-Bench Pro基准测试上的表现也优于最新的手动定制软件代理,达到了已知的最佳解决率45.8%。

Key Takeaways

  1. 大型语言模型(LLMs)正在重塑软件工程行业,通过解决现实世界的软件问题。
  2. 软件代理具备自主决策能力,可以形成完整的轨迹来解决端到端的软件任务。
  3. 现有的软件代理需要专门设计,且可能存在架构设计的挑战和成本问题。
  4. 自我改进的软件代理是近年来的研究热点,包括达尔文-歌德机器(DGM)。
  5. 自我改进的软件代理需要在特定基准测试上进行离线训练,泛化能力可能受限。
  6. Live-SWE-agent是首个能在解决现实世界软件问题时实时自主连续进化的软件代理。

Cool Papers

点此查看论文截图

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

Authors:Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang

Vision-Language Models (VLMs) are increasingly deployed as autonomous agents to navigate mobile graphical user interfaces (GUIs). Operating in dynamic on-device ecosystems, which include notifications, pop-ups, and inter-app interactions, exposes them to a unique and underexplored threat vector: environmental injection. Unlike prompt-based attacks that manipulate textual instructions, environmental injection corrupts an agent’s visual perception by inserting adversarial UI elements (for example, deceptive overlays or spoofed notifications) directly into the GUI. This bypasses textual safeguards and can derail execution, causing privacy leakage, financial loss, or irreversible device compromise. To systematically evaluate this threat, we introduce GhostEI-Bench, the first benchmark for assessing mobile agents under environmental injection attacks within dynamic, executable environments. Moving beyond static image-based assessments, GhostEI-Bench injects adversarial events into realistic application workflows inside fully operational Android emulators and evaluates performance across critical risk scenarios. We further propose a judge-LLM protocol that conducts fine-grained failure analysis by reviewing the agent’s action trajectory alongside the corresponding screenshot sequence, pinpointing failure in perception, recognition, or reasoning. Comprehensive experiments on state-of-the-art agents reveal pronounced vulnerability to deceptive environmental cues: current models systematically fail to perceive and reason about manipulated UIs. GhostEI-Bench provides a framework for quantifying and mitigating this emerging threat, paving the way toward more robust and secure embodied agents.

视觉语言模型(VLMs)作为自主代理,在移动图形用户界面(GUI)中的部署越来越多。它们在动态设备生态系统(包括通知、弹出窗口和跨应用程序交互)中运行,面临一个独特且尚未广泛研究的威胁向量:环境注入。与环境注入不同,提示性攻击通过操纵文本指令,环境注入通过在GUI中直接插入对抗性UI元素(例如欺骗性叠加层或假冒通知)来破坏代理的视觉感知。这绕过了文本保障措施并可能导致执行中断,造成隐私泄露、财务损失或设备无法挽回的损害。为了系统地评估这一威胁,我们引入了GhostEI-Bench,这是第一个在动态可执行环境中评估移动代理环境注入攻击的基准测试。超越基于静态图像的评估,GhostEI-Bench将对抗性事件注入到操作中的现实应用程序工作流中并在功能齐全的Android模拟器中评估其在关键风险场景中的性能。我们还提出了一个法官LLM协议,它通过审查代理的行动轨迹和相应的屏幕截图序列来进行精细的故障分析,确定感知、识别或推理方面的失败点。关于最新代理的综合实验表明,它们对欺骗性环境线索的脆弱性十分明显:当前模型在感知和推理被操纵的UI时存在系统性问题。GhostEI-Bench提供了一个量化并缓解这一新兴威胁的框架,为更强大和安全的实体代理铺平了道路。

论文及项目相关链接

PDF

Summary

本文主要介绍了Vision-Language Models(VLMs)作为自主代理在移动图形用户界面(GUI)中的部署日益普及所面临的新型威胁——环境注入。环境注入通过插入对抗性UI元素直接腐蚀GUI,从而绕过文本保障并可能导致隐私泄露、财务损失或不可逆的设备损害。为了系统地评估这一威胁,引入了GhostEI-Bench,这是第一个在动态可执行环境中评估移动代理环境注入攻击的基准测试平台。它通过注入对抗性事件到现实应用程序的工作流程中,并在各种关键风险场景中评估性能。同时提出一种判断协议(judge-LLM),通过审查代理的行动轨迹和相应的屏幕截图序列进行精细的故障分析,确定感知、识别或推理过程中的失败点。对先进代理的综合实验表明,它们对欺骗性的环境线索非常脆弱,而GhostEI-Bench为量化和管理这一新兴威胁提供了框架。

Key Takeaways

  1. VLMs作为自主代理在移动GUI中的部署面临环境注入威胁。
  2. 环境注入通过插入对抗性UI元素腐蚀代理的视觉感知。
  3. GhostEI-Bench是第一个评估移动代理在动态环境中面对环境注入攻击的基准测试平台。
  4. 判断协议(judge-LLM)能够精细地分析代理在感知、识别或推理过程中的失败点。
  5. 综合实验表明,当前模型对欺骗性的环境线索存在显著脆弱性。
  6. GhostEI-Bench为量化和管理这一新兴威胁提供了框架。

Cool Papers

点此查看论文截图

ResearStudio: A Human-Intervenable Framework for Building Controllable Deep-Research Agents

Authors:Linyi Yang, Yixuan Weng

Current deep-research agents run in a ‘’fire-and-forget’’ mode: once started, they give users no way to fix errors or add expert knowledge during execution. We present ResearStudio, the first open-source framework that places real-time human control at its core. The system follows a Collaborative Workshop design. A hierarchical Planner-Executor writes every step to a live ‘’plan-as-document,’’ a fast communication layer streams each action, file change, and tool call to a web interface. At any moment, the user can pause the run, edit the plan or code, run custom commands, and resume – switching smoothly between AI-led, human-assisted and human-led, AI-assisted modes. In fully autonomous mode, ResearStudio achieves state-of-the-art results on the GAIA benchmark, surpassing systems like OpenAI’s DeepResearch and Manus. These results show that strong automated performance and fine-grained human control can coexist. The full code, protocol, and evaluation scripts are available at https://github.com/ResearAI/ResearStudio. We will continue to update the repository to encourage further work on safe and controllable research agents. Our live demo is publicly accessible at http://ai-researcher.net:3000/. We support the development of DeepScientist, which can be accessed at https://github.com/ResearAI/DeepScientist.

当前深度研究代理运行在“一锤子买卖”模式下:一旦启动,它们不会为用户提供在运行时修正错误或添加专家知识的途径。我们推出ResearStudio,这是首个以实时人为控制为核心的开源框架。系统遵循协作工作室设计。分层Planner-Executor将每一步写入实时“计划文档”,快速通信层将每个动作、文件更改和工具调用流式传输到Web界面。任何时候,用户都可以暂停运行,编辑计划或代码,运行自定义命令,并恢复——在AI主导、人工辅助和人工主导、AI辅助模式之间无缝切换。在全自主模式下,ResearStudio在GAIA基准测试中实现了最新结果,超越了OpenAI的DeepResearch和Manus等系统。这些结果表明强大的自动化性能和精细的人类控制可以共存。完整的代码、协议和评估脚本可在https://github.com/ResearAI/ResearStudio找到。我们将继续更新此仓库,以鼓励在安全和可控的研究代理方面进行进一步的工作。我们的实时演示可在http://ai-researcher.net:3000/公开访问。我们支持DeepScientist的开发,可通过https://github.com/ResearAI/DeepScientist访问。

论文及项目相关链接

PDF EMNLP 2025 Demo, Oral

Summary
深研究代理通常运行在“点火并遗忘”模式下,运行过程中无法纠正错误或添加专家知识。现在,我们推出ResearStudio,首个以实时人为控制为核心的开源框架。它采用协作工作室设计,分层规划器执行器将每一步写入实时计划文档,快速通信层将每个动作、文件更改和工具调用流传输至网页界面。用户可以随时暂停运行,编辑计划或代码,运行自定义命令并恢复,在人工智能主导、人工辅助和人工主导、人工智能辅助模式之间轻松切换。全自动模式下,ResearStudio在GAIA基准测试中达到最新成果水平,超越OpenAI的DeepResearch和Manus等系统。这表明强大的自动化性能和精细的人类控制可以共存。更多代码、协议和评估脚本请访问我们的GitHub仓库(https://github.com/ResearAI/ResearStudio)。我们将继续更新仓库以鼓励在安全可控研究代理方面进行进一步的工作。我们的实时演示可在http://ai-researcher.net:3000上公开访问。我们还支持DeepScientist的开发,可访问https://github.com/ResearAI/DeepScientist了解详情。

Key Takeaways

  1. 当前深度研究代理运行在“点火并遗忘”模式下,缺乏实时人为控制机制。
  2. ResearStudio是首个以实时人为控制为核心的开源框架。
  3. ResearStudio采用协作工作室设计,用户可随时调整运行计划或代码。
  4. 用户可在AI主导、人工辅助和人工主导、AI辅助模式之间灵活切换。
  5. ResearStudio全自动模式下在GAIA基准测试中具有卓越表现。
  6. ResearStudio证明强大的自动化性能和精细的人类控制可以共存。

Cool Papers

点此查看论文截图

LLM Collaboration With Multi-Agent Reinforcement Learning

Authors:Shuo Liu, Tianle Chen, Zeyu Liang, Xueguang Lyu, Christopher Amato

A large amount of work has been done in Multi-Agent Systems (MAS) for modeling and solving problems with multiple interacting agents. However, most LLMs are pretrained independently and not specifically optimized for coordination. Existing LLM fine-tuning frameworks rely on individual rewards, which require complex reward designs for each agent to encourage collaboration. To address these challenges, we model LLM collaboration as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. We develop a multi-agent, multi-turn algorithm, Multi-Agent Group Relative Policy Optimization (MAGRPO), to solve it, building on current RL approaches for LLMs as well as MARL techniques. Our experiments on LLM writing and coding collaboration demonstrate that fine-tuning MAS with MAGRPO enables agents to generate high-quality responses efficiently through effective cooperation. Our approach opens the door to using other MARL methods for LLMs and highlights the associated challenges. Our code is available at https://github.com/OpenMLRL/CoMLRL.

在具有多个交互智能体的建模和解决问题方面,多智能体系统(MAS)已经进行了大量的工作。然而,大多数大型语言模型都是独立进行预训练的,并未针对协同进行优化。现有的大型语言模型微调框架依赖于个体奖励,这需要为每个智能体设计复杂的奖励来鼓励协作。为了解决这些挑战,我们将大型语言模型的协作建模为协同多智能体强化学习(MARL)问题。我们开发了一种多智能体多轮算法,即多智能体相对策略优化(MAGRPO),以解决这一问题,该算法基于当前的大型语言模型强化学习方法和多智能体强化学习技术。我们在大型语言模型的写作和编码协作方面的实验表明,使用MAGRPO微调MAS能够促使智能体通过有效协作高效生成高质量响应。我们的方法为大型语言模型打开了使用其他多智能体强化学习方法的门户,并突出了相关的挑战。我们的代码可在https://github.com/OpenMLRL/CoMLRL找到。

论文及项目相关链接

PDF

Summary:

大型多智能体系统(MAS)领域有大量关于建模和解决多智能体交互问题的研究。然而,大多数大型语言模型(LLM)是独立预训练的,并未针对协调进行优化。现有的LLM微调框架依赖于个体奖励,这需要为每个智能体设计复杂的奖励以鼓励协作。为应对这些挑战,我们将LLM协作建模为协同多智能体强化学习(MARL)问题。我们开发了一种多智能体多任务算法,即多智能体相对策略优化(MAGRPO),来解决这一问题,该算法建立在当前LLM的强化学习方法和MARL技术之上。实验表明,使用MAGRPO进行微调的MAS智能体能高效生成高质量响应并通过有效协作完成写作和编码任务。我们的研究为其他LLM的MARL方法打开了大门并指出了相关挑战。代码公开于:https://github.com/OpenMLRL/CoMLRL。

Key Takeaways:

  1. 多智能体系统(MAS)在建模和解决多智能体交互问题上进行了大量研究。
  2. 大多数大型语言模型(LLM)独立预训练,未针对协调优化。
  3. 现有LLM微调框架依赖个体奖励,需复杂设计以鼓励智能体协作。
  4. 提出将LLM协作建模为协同多智能体强化学习(MARL)问题。
  5. 开发多智能体多任务算法MAGRPO,结合当前LLM强化学习方法和MARL技术。
  6. 实验显示MAGRPO使智能体能高效生成高质量响应并通过有效协作完成任务。
  7. 研究为其他LLM的MARL方法提供了启示并指出了相关挑战,代码已公开。

Cool Papers

点此查看论文截图

Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

Authors:Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud

We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.

我们调查了社会经济指标(如家庭财富)是否能在卫星图像(捕捉物理特征)和互联网文本(反映历史/经济叙事)上留下可恢复的印记。我们利用来自非洲社区的人口与健康调查(DHS)数据,将Landsat图像与基于位置/年份的LLM生成文本描述和AI搜索代理从网络来源检索的文本配对。我们开发了一个多模态框架,通过五个管道预测家庭财富(国际财富指数):(i)卫星图像的视觉模型;(ii)仅使用位置/年份的LLM;(iii)AI代理搜索/合成网络文本;(iv)联合图像文本编码器;(v)所有信号集合。我们的框架产生了三个贡献。首先,融合视觉和代理/LLM文本在财富预测方面的表现优于仅使用视觉的基线(例如,在样本外的分割点上R平方值为0.77对比0.63),并且LLM的内部知识证明比代理检索到的文本更有效,提高了跨国家和跨时间的泛化能力。其次,我们发现部分代表性收敛:视觉/语言模态的融合嵌入物之间存在中度相关性(对齐后的余弦相似度中位数为0.60),这表明存在一个共享的物质福祉潜在代码,同时保留互补细节,这与柏拉图表征假设相一致。尽管仅使用LLM的文本表现优于代理检索的数据,挑战了我们的代理诱导新颖性假设,但在某些分割点结合代理数据的适度增益微弱地支持了这样一个观点,即代理收集的信息引入了独特的表征结构,这些结构没有被静态LLM知识完全捕获。第三,我们发布了一个大规模的多模式数据集,其中包括超过60,000个与卫星图像、LLM生成描述和代理检索文本相关联的DHS集群。

论文及项目相关链接

PDF 7 figures

Summary

本文探索了社会经济指标(如家庭财富)是否能在卫星图像(捕捉物理特征)和互联网来源文本(反映历史/经济叙事)中留下可恢复印记。研究通过使用非洲社区的人口和健康调查数据,结合卫星图像、大型语言模型生成的文本描述以及AI搜索代理从网络获取的文本,构建了一个多模态框架来预测家庭财富。研究表明,结合视觉和代理/大型语言模型的文本在预测家庭财富方面优于仅使用视觉基线的模型。同时,研究发现了部分代表性收敛,表明不同模态的融合嵌入之间存在中等关联度,显示出共同的潜在物质福祉代码。最后,该研究发布了一个大型多模态数据集,包含超过6万个与卫星图像、大型语言模型生成描述和代理检索文本相关联的DHS集群。

Key Takeaways

  1. 研究探索了社会经济指标在卫星图像和互联网文本中的可恢复印记。
  2. 通过结合卫星图像、大型语言模型生成的文本和AI搜索代理的文本,构建了预测家庭财富的多模态框架。
  3. 结合视觉和代理/大型语言模型的文本在预测家庭财富方面表现更优。
  4. 研究发现不同模态间的部分代表性收敛,表明存在共同的潜在物质福祉代码。
  5. 大型语言模型内部的知识比代理检索的文本在预测中更有效,增强了跨国家和跨时间的稳健性。
  6. 代理检索的文本信息虽然挑战了“代理诱导的新颖性假设”,但在某些情况下与大型语言模型结合使用仍有助于引入独特的代表性结构。

Cool Papers

点此查看论文截图

LLM-DSE: Searching Accelerator Parameters with LLM Agents

Authors:Hanyu Wang, Xinrui Wu, Zijian Ding, Su Zheng, Chengyue Wang, Neha Prakriya, Tony Nowatzki, Yizhou Sun, Jason Cong

Even though high-level synthesis (HLS) tools mitigate the challenges of programming domain-specific accelerators (DSAs) by raising the abstraction level, optimizing hardware directive parameters remains a significant hurdle. Existing heuristic and learning-based methods struggle with adaptability and sample efficiency. We present LLM-DSE, a multi-agent framework designed specifically for optimizing HLS directives. Combining LLM with design space exploration (DSE), our explorer coordinates four agents: Router, Specialists, Arbitrator, and Critic. These multi-agent components interact with various tools to accelerate the optimization process. LLM-DSE leverages essential domain knowledge to identify efficient parameter combinations while maintaining adaptability through verbal learning from online interactions. Evaluations on the HLSyn dataset demonstrate that LLM-DSE achieves substantial $2.55\times$ performance gains over state-of-the-art methods, uncovering novel designs while reducing runtime. Ablation studies validate the effectiveness and necessity of the proposed agent interactions. Our code is open-sourced here: https://github.com/Nozidoali/LLM-DSE.

尽管高层次综合(HLS)工具通过提高抽象层次缓解了编程域特定加速器(DSA)的挑战,但优化硬件指令参数仍然是一个重大障碍。现有的启发式方法和基于学习的方法在适应性和样本效率方面存在困难。我们提出了LLM-DSE,这是一个专门为优化HLS指令设计的多智能体框架。结合LLM与设计空间探索(DSE),我们的探索者协调了四个智能体:路由器、专家、仲裁者和评论家。这些多智能体组件与各种工具进行交互,以加速优化过程。LLM-DSE利用重要的领域知识来识别有效的参数组合,同时通过在线交互的言语学习保持适应性。在HLSyn数据集上的评估表明,LLM-DSE相比最先进的方法实现了高达2.55倍的性能提升,能够发现新颖的设计并减少运行时间。消融研究验证了所提出智能体交互的有效性和必要性。我们的代码已在此开源:https://github.com/Nozidoali/LLM-DSE。

论文及项目相关链接

PDF

总结

在抽象级别较高的合成工具减轻针对特定领域加速器(DSAs)编程挑战的同时,优化硬件指令参数仍是重大难题。当前启发式和学习型方法面临适应性和样本效率的挑战。我们提出了LLM-DSE,一个专为优化HLS指令设计的多智能体框架。结合LLM与设计空间探索(DSE),我们的探索者协调了四个智能体:路由器、专家、仲裁者和评论家。这些智能体组件与各种工具互动,加速优化过程。LLM-DSE借助重要领域知识,识别有效的参数组合,同时通过在线互动中的言语学习维持适应性。在HLSyn数据集上的评估表明,LLM-DSE较目前先进的方法取得了实质的性能提升,实现了高达$2.55\times$的性能提升,同时发现新颖设计并缩短了运行时间。我们的代码已在此开源:https://github.com/Nozidoali/LLM-DSE。

关键见解

  1. LLM-DSE是一个多智能体框架,专为优化高级合成(HLS)指令设计。
  2. 该框架结合了LLM与设计空间探索(DSE),协调四个智能体以优化硬件指令参数。
  3. LLM-DSE借助领域知识识别有效参数组合,通过在线互动中的言语学习维持适应性。
  4. 与现有方法相比,LLM-DSE在性能上取得了显著的提升,实现了$2.55\times$的加速。
  5. LLM-DSE能够发现新颖的设计,并缩短了运行时间。
  6. 通过对智能体交互的剖析研究,验证了LLM-DSE的有效性和必要性。

Cool Papers

点此查看论文截图

LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Design of Multi Active/Passive Core-Agent Architectures

Authors:Amine Ben Hassouna, Hana Chaari, Ines Belhaj

In an era where vast amounts of data are collected and processed from diverse sources, there is a growing demand for sophisticated AI systems capable of intelligently fusing and analyzing this information. To address these challenges, researchers have turned towards integrating tools into LLM-powered agents to enhance the overall information fusion process. However, the conjunction of these technologies and the proposed enhancements in several state-of-the-art works followed a non-unified software architecture, resulting in a lack of modularity and terminological inconsistencies among researchers. To address these issues, we propose a novel LLM-based Agent Unified Modeling Framework (LLM-Agent-UMF) that establishes a clear foundation for agent development from both functional and software architectural perspectives, developed and evaluated using the Architecture Tradeoff and Risk Analysis Framework (ATRAF). Our framework clearly distinguishes between the different components of an LLM-based agent, setting LLMs and tools apart from a new element, the core-agent, which plays the role of central coordinator. This pivotal entity comprises five modules: planning, memory, profile, action, and security – the latter often neglected in previous works. By classifying core-agents into passive and active types based on their authoritative natures, we propose various multi-core agent architectures that combine unique characteristics of distinctive agents to tackle complex tasks more efficiently. We evaluate our framework by applying it to thirteen state-of-the-art agents, thereby demonstrating its alignment with their functionalities and clarifying overlooked architectural aspects. Moreover, we thoroughly assess five architecture variants of our framework by designing new agent architectures that combine characteristics of state-of-the-art agents to address specific goals. …

在这个从各种来源收集和加工大量数据的时代,对于能够智能融合和分析这些信息的先进AI系统的需求日益增长。为了应对这些挑战,研究者们已经转向将工具集成到LLM驱动的代理中,以增强整体的信息融合过程。然而,这些技术的结合以及在许多最新工作中提出的增强功能遵循了非统一的软件架构,导致了模块化的缺乏和研究人员之间的术语不一致。为了解决这些问题,我们提出了一种基于LLM的Agent统一建模框架(LLM-Agent-UMF),该框架从功能性和软件架构的角度为代理开发建立了清晰的基础,并使用架构权衡和风险分析框架(ATRAF)进行开发和评估。我们的框架清晰地区分了基于LLM的代理的不同组件,将LLM和工具与新的核心代理元素区分开来,后者充当中央协调员的角色。这个关键实体包括五个模块:规划、内存、配置文件、操作和安全性(后者在以前的研究中经常被忽视)。根据他们的权威性,我们将核心代理分类为被动型和主动型,并提出了各种多核心代理架构,这些架构结合了不同代理的独特特征,以更有效地处理复杂任务。我们通过将框架应用于十三个最新代理来评估其适用性,从而证明了其与这些代理的功能的一致性,并澄清了被忽视的建筑方面。此外,我们通过设计结合最新代理特征的新代理架构的五种变体来全面评估我们的框架,以解决特定的目标。……

论文及项目相关链接

PDF 39 pages, 19 figures, 3 tables. Published in Information Fusion, Volume 127, March 2026, 103865. Part of the special issue “Data Fusion Approaches in Data-Centric AI for Developing Trustworthy AI Systems”

Summary

在大数据时代,对能够智能融合和分析信息的先进AI系统的需求日益增长。为应对挑战,研究者将工具集成到LLM驱动的代理中,以增强信息融合过程的整体性能。然而,现有技术组合及改进大多遵循非统一软件架构,缺乏模块化和术语不一致。为解决这些问题,我们提出基于LLM的Agent Unified Modeling Framework(LLM-Agent-UMF),从功能及软件架构角度为代理开发建立清晰基础。框架明确了LLM代理的不同组成部分,引入了核心代理作为中央协调员,包含规划、内存、配置、行动和安全五个模块。我们评估了框架在13种最新代理中的应用,并设计了新的代理架构来应对特定目标。

Key Takeaways

  1. 大数据时代对智能融合和分析信息的先进AI系统需求增加。
  2. 为应对挑战,研究者集成工具到LLM驱动的代理中增强信息融合。
  3. 现有技术组合及改进存在非统一软件架构问题,缺乏模块化和术语不一致。
  4. 提出基于LLM的Agent Unified Modeling Framework(LLM-Agent-UMF)建立清晰基础。
  5. LLM-Agent-UMF框架明确了LLM代理的不同组成部分,引入核心代理作为中央协调员。
  6. 核心代理包含五个模块:规划、内存、配置、行动和安全。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-11-25 PersonaAgent with GraphRAG Community-Aware Knowledge Graphs for Personalized LLM
2025-11-25
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-11-25 Counterfactual World Models via Digital Twin-conditioned Video Diffusion
2025-11-25
  目录