嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-08 更新

Regret Lower Bounds for Decentralized Multi-Agent Stochastic Shortest Path Problems

Authors:Utkarsh U. Chavan, Prashant Trivedi, Nandyala Hemachandra

Multi-agent systems (MAS) are central to applications such as swarm robotics and traffic routing, where agents must coordinate in a decentralized manner to achieve a common objective. Stochastic Shortest Path (SSP) problems provide a natural framework for modeling decentralized control in such settings. While the problem of learning in SSP has been extensively studied in single-agent settings, the decentralized multi-agent variant remains largely unexplored. In this work, we take a step towards addressing that gap. We study decentralized multi-agent SSPs (Dec-MASSPs) under linear function approximation, where the transition dynamics and costs are represented using linear models. Applying novel symmetry-based arguments, we identify the structure of optimal policies. Our main contribution is the first regret lower bound for this setting based on the construction of hard-to-learn instances for any number of agents, $n$. Our regret lower bound of $\Omega(\sqrt{K})$, over $K$ episodes, highlights the inherent learning difficulty in Dec-MASSPs. These insights clarify the learning complexity of decentralized control and can further guide the design of efficient learning algorithms in multi-agent systems.

多智能体系统(MAS)在群机器人和交通路由等应用中处于核心地位,在这些应用中,智能体必须以分布式的方式协调以实现共同目标。随机最短路径(SSP)问题为这种设置中的分布式控制提供了自然的框架。虽然SSP中的学习问题在单智能体环境中已被广泛研究,但分布式多智能体变体仍未被充分探索。在这项工作中,我们朝着解决这一差距迈出了一步。我们研究了线性函数近似下的分布式多智能体SSP(Dec-MASSP),其中转换动态和成本由线性模型表示。通过应用新颖的基于对称性的论证,我们确定了最优策略的结构。我们的主要贡献是基于为任何智能体数量$n$构建难以学习的实例,为这一设置首次给出了遗憾下界。我们的遗憾下界为$\Omega(\sqrt{K})$,其中$K$是时间段数,突出了Dec-MASSP中固有的学习难度。这些见解阐明了分布式控制的学习复杂性,并可以进一步指导多智能体系统中高效学习算法的设计。

论文及项目相关链接

PDF To appear in 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

Summary
多智能体系统(MAS)在群体机器人和交通路由等应用中至关重要,智能体需要分散控制以达到共同目标。随机最短路径(SSP)问题提供了此类设置中的分散控制的自然框架。尽管SSP中的学习问题在单智能体环境中已被广泛研究,但分散式多智能体变体仍然被较少探索。本研究旨在缩小这一差距,研究线性函数近似下的分散式多智能体SSP(Dec-MASSP),其中过渡动态和成本由线性模型表示。通过应用新颖的对称论证,我们确定了最优策略的结构。我们的主要贡献是基于为任何智能体数量n构建的难以学习的实例,得出此设置中的首个遗憾下界。经过K个阶段的遗憾下界为Ω(√K),突显了Dec-MASSP中的内在学习难度。这些见解明确了分散控制的复杂性,并可进一步指导多智能体系统中高效学习算法的设计。

Key Takeaways

  • 多智能体系统(MAS)在协调多个智能体完成共同任务中起到关键作用。
  • 随机最短路径(SSP)问题提供了建模分散控制任务的天然框架。
  • 分散式多智能体SSP(Dec-MASSP)在智能体间的协同学习上仍存在较大的探索空间。
  • 研究人员在线性函数近似下探索了Dec-MASSP的最优策略结构。
  • 通过对称论证方法确定了最优策略的结构特点。
  • 研究得出了该领域首个遗憾下界,反映了学习的内在难度。

Cool Papers

点此查看论文截图

Promoting Sustainable Web Agents: Benchmarking and Estimating Energy Consumption through Empirical and Theoretical Analysis

Authors:Lars Krupp, Daniel Geißler, Vishal Banwari, Paul Lukowicz, Jakob Karolus

Web agents, like OpenAI’s Operator and Google’s Project Mariner, are powerful agentic systems pushing the boundaries of Large Language Models (LLM). They can autonomously interact with the internet at the user’s behest, such as navigating websites, filling search masks, and comparing price lists. Though web agent research is thriving, induced sustainability issues remain largely unexplored. To highlight the urgency of this issue, we provide an initial exploration of the energy and $CO_2$ cost associated with web agents from both a theoretical -via estimation- and an empirical perspective -by benchmarking. Our results show how different philosophies in web agent creation can severely impact the associated expended energy, and that more energy consumed does not necessarily equate to better results. We highlight a lack of transparency regarding disclosing model parameters and processes used for some web agents as a limiting factor when estimating energy consumption. Our work contributes towards a change in thinking of how we evaluate web agents, advocating for dedicated metrics measuring energy consumption in benchmarks.

网络代理(如OpenAI的操作员和Google的Mariner项目)是强大的代理系统,正在推动大型语言模型(LLM)的边界。他们可以在用户的请求下自主地与互联网交互,例如浏览网站、填写搜索掩码和比较价格列表。尽管网络代理研究正在蓬勃发展,但由此产生的可持续性相关问题仍很大程度上未被探索。为了突出这个问题的紧迫性,我们从理论和实证两个角度初步探讨了网络代理所涉及的能源和二氧化碳成本。我们的结果表明,网络代理创建中的不同理念会对所消耗的能源产生严重影响,而且消耗更多能源并不一定意味着效果更好。我们强调了在某些网络代理中使用模型参数和流程透明度不足的问题,这是估算能源消耗时的限制因素。我们的工作促使人们改变对如何评估网络代理的思考方式,倡导在基准测试中采用专门的衡量能源消耗指标。

论文及项目相关链接

PDF Accepted by AAAI 2026 AISI

Summary:网络代理如OpenAI的Operator和Google的Project Mariner正在推动大型语言模型(LLM)的边界。它们可以应用户的要求自主地在互联网上交互,如浏览网站、填写搜索掩码和比较价格列表。尽管网络代理研究正在蓬勃发展,但由此产生的可持续性问题仍被大量忽视。本文初步探讨了网络代理相关的能源和二氧化碳成本问题,从理论和实证两个角度进行研究,并指出不同的网络代理设计理念会严重影响能耗,但高能耗不一定等于高性能。此外,还强调了网络代理模型参数和流程披露的透明度不足是估算能耗的一个限制因素。本文呼吁改变对评估网络代理的思考方式,提倡在基准测试中采用专门的能耗测量指标。

Key Takeaways

  1. 网络代理如OpenAI的Operator和Google的Project Mariner可自主地在互联网上交互。
  2. 网络代理的可持续性研究尚未得到充分关注。
  3. 网络代理创建的不同理念会严重影响能耗,但高能耗不一定等于高性能。
  4. 缺乏某些网络代理模型参数和流程的透明度是估算能耗的一个限制因素。
  5. 当前对网络代理的评价方式需要改变,应重视其能耗问题。
  6. 需要采用专门的能耗测量指标来评估网络代理。

Cool Papers

点此查看论文截图

Beyond Shortest Path: Agentic Vehicular Routing with Semantic Context

Authors:Carnot Braun, Rafael O. Jarczewski, Gabriel U. Talasso, Leandro A. Villas, Allan M. de Souza

Traditional vehicle routing systems efficiently optimize singular metrics like time or distance, and when considering multiple metrics, they need more processes to optimize . However, they lack the capability to interpret and integrate the complex, semantic, and dynamic contexts of human drivers, such as multi-step tasks, situational constraints, or urgent needs. This paper introduces and evaluates PAVe (Personalized Agentic Vehicular Routing), a hybrid agentic assistant designed to augment classical pathfinding algorithms with contextual reasoning. Our approach employs a Large Language Model (LLM) agent that operates on a candidate set of routes generated by a multi-objective (time, CO2) Dijkstra algorithm. The agent evaluates these options against user-provided tasks, preferences, and avoidance rules by leveraging a pre-processed geospatial cache of urban Points of Interest (POIs). In a benchmark of realistic urban scenarios, PAVe successfully used complex user intent into appropriate route modifications, achieving over 88% accuracy in its initial route selections with a local model. We conclude that combining classical routing algorithms with an LLM-based semantic reasoning layer is a robust and effective approach for creating personalized, adaptive, and scalable solutions for urban mobility optimization.

传统车辆路由系统能够有效地优化单一指标,如时间或距离,而在考虑多个指标时,它们需要更多的流程来进行优化。然而,它们缺乏解释和整合人类驾驶员的复杂、语义和动态上下文的能力,如多步骤任务、情境约束或紧急需求。本文介绍并评估了PAVe(个性化智能车辆路由),这是一种混合智能助理,旨在通过上下文推理增强经典的路径查找算法。我们的方法采用大型语言模型(LLM)代理,该代理在由多目标(时间、二氧化碳)Dijkstra算法生成的路线候选集中运行。代理通过利用预先处理的城市兴趣点(POI)地理缓存,针对用户提供的任务、偏好和避免规则对这些选项进行评估。在现实的城市场景基准测试中,PAVe成功地将复杂的用户意图转化为适当的路线修改,使用本地模型在初始路线选择中实现了超过8v的准确性。我们得出结论,将经典路由算法与基于LLM的语义推理层相结合,是一种稳健有效的城市流动性优化个性化、自适应和可扩展解决方案的方法。

论文及项目相关链接

PDF

Summary
现代车辆路线规划系统多以单一指标(如时间或距离)进行优化,难以适应复杂的用户需求与语境,如多步骤任务、情境约束或紧急需求等。本文提出并评估了PAVe系统,该系统结合了传统的路径规划算法与上下文推理,通过大型语言模型(LLM)进行个性化路线推荐。PAVe利用多目标Dijkstra算法生成候选路线,并结合用户任务、偏好和回避规则进行路线选择评估。在真实城市场景下,PAVe成功地将复杂的用户意图转化为适当的路线调整,初始路线选择的准确率超过88%。研究结果表明,结合传统路径规划算法和基于LLM的语义推理层是一个有效的个性化城市移动性优化方案。

Key Takeaways

  1. 传统车辆路由系统主要优化单一指标,难以满足复杂用户需求。
  2. PAVe系统结合传统路径规划算法与上下文推理,具备个性化路线推荐能力。
  3. PAVe利用大型语言模型(LLM)进行智能决策。
  4. PAVe通过多目标Dijkstra算法生成候选路线。
  5. PAVe考虑用户任务、偏好和回避规则进行路线选择评估。
  6. 在真实城市场景下,PAVe成功将复杂用户意图转化为适当的路线调整。

Cool Papers

点此查看论文截图

Speed at the Cost of Quality? The Impact of LLM Agent Assistance on Software Development

Authors:Hao He, Courtney Miller, Shyam Agarwal, Christian Kästner, Bogdan Vasilescu

Large language models (LLMs) have demonstrated the promise to revolutionize the field of software engineering. Among other things, LLM agents are rapidly gaining momentum in their application to software development, with practitioners claiming a multifold productivity increase after adoption. Yet, empirical evidence is lacking around these claims. In this paper, we estimate the causal effect of adopting a widely popular LLM agent assistant, namely Cursor, on development velocity and software quality. The estimation is enabled by a state-of-the-art difference-in-differences design comparing Cursor-adopting GitHub projects with a matched control group of similar GitHub projects that do not use Cursor. We find that the adoption of Cursor leads to a significant, large, but transient increase in project-level development velocity, along with a significant and persistent increase in static analysis warnings and code complexity. Further panel generalized method of moments estimation reveals that the increase in static analysis warnings and code complexity acts as a major factor causing long-term velocity slowdown. Our study carries implications for software engineering practitioners, LLM agent assistant designers, and researchers.

大型语言模型(LLMs)在软件工程领域展现出了巨大的潜力。除了其他应用之外,LLM代理在软件开发中的应用正在迅速获得动力,从业者声称采用后生产率大幅提高。然而,关于这些说法缺乏实证证据。在本文中,我们估计采用广泛流行的大型语言模型代理助手Cursor对开发速度和软件质量的影响。这一估计是基于一项先进的差异内差异设计,通过比较采用Cursor的GitHub项目与不使用Cursor的类似GitHub项目匹配对照组来实现的。我们发现采用Cursor会导致项目层面开发速度显著提高,而且虽然增幅大但只是暂时的,同时伴随着静态分析警告和代码复杂性的显著且持久增长。进一步的面板广义矩估计表明,静态分析警告和代码复杂性的增加是导致长期速度下降的主要因素。我们的研究对软件工程从业者、LLM代理助手设计师和研究人员具有重要意义。

论文及项目相关链接

PDF

Summary

大型语言模型(LLMs)在软件工程领域展现出巨大的潜力,尤其是LLM代理在软件开发中的应用正迅速获得动力。一项新研究通过采用流行的LLM代理助手Cursor,对开发速度和软件质量进行因果效应评估。研究结果显示,Cursor的采用能带来显著但短暂的开发速度提升,同时伴随着静态分析警告和代码复杂性的显著且持久增加。进一步的分析揭示,静态分析警告和代码复杂性的增加是导致长期速度下降的主要因素。

Key Takeaways

  1. 大型语言模型(LLM)在软件工程领域具有巨大潜力。
  2. LLM代理在软件开发中的应用正迅速增长,并声称能提高生产力。
  3. 一项新研究评估了采用Cursor(一种LLM代理助手)对开发速度和软件质量的影响。
  4. Cursor的采用能带来显著但短暂的开发速度提升。
  5. 采用Cursor后,静态分析警告和代码复杂性显著增加且持久。
  6. 静态分析警告和代码复杂性的增加是长期速度下降的主要因素。

Cool Papers

点此查看论文截图

Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach

Authors:Chanwoo Park, Ziyang Chen, Asuman Ozdaglar, Kaiqing Zhang

Large language models (LLMs) are increasingly deployed as “agents” for decision-making (DM) in interactive and dynamic environments. Yet, since they were not originally designed for DM, recent studies show that LLMs can struggle even in basic online DM problems, failing to achieve low regret or an effective exploration-exploitation tradeoff. To address this, we introduce Iterative Regret-Minimization Fine-Tuning (Iterative RMFT), a post-training procedure that repeatedly distills low-regret decision trajectories back into the base model. At each iteration, the model rolls out multiple decision trajectories, selects the k-lowest regret ones, and fine-tunes itself on them. Unlike prior methods that (a) distill action sequences from known DM algorithms or (b) rely on manually crafted chain-of-thought templates, our approach leverages the regret metric to elicit the model’s own DM ability and reasoning rationales. This reliance on model-generated reasoning avoids rigid output engineering and provides more flexible, natural-language training signals. Empirical results show that Iterative RMFT improves LLMs’ DM performance across diverse models - from Transformers with numerical input/output, to open-weight LLMs, and advanced closed-weight models like GPT-4o mini. Its flexibility in output and reasoning formats enables generalization across tasks with varying horizons, action spaces, reward processes, and natural-language contexts. Finally, we provide theoretical insight showing that a single-layer Transformer under this paradigm can act as a no-regret learner in a simplified setting. Overall, Iterative RMFT offers a principled and general post-training framework for enhancing LLMs’ decision-making capabilities.

大型语言模型(LLM)越来越多地被部署在交互式和动态环境中作为决策代理。然而,由于它们最初并非为决策而设计,最近的研究表明,即使在基本的在线决策问题中,LLM也可能会遇到困难,无法实现低遗憾或有效的探索-利用权衡。为了解决这一问题,我们引入了迭代遗憾最小化微调(Iterative RMFT)技术,这是一种针对模型的后续训练过程,它反复将低遗憾决策轨迹蒸馏回基础模型。在每次迭代中,模型会推出多个决策轨迹,选择遗憾最小的k个轨迹,并在此基础上进行微调。与之前的方法不同,这些方法要么从已知的决策算法中提炼行动序列,要么依赖于手动设计的思维链模板,我们的方法利用遗憾指标来激发模型自身的决策能力和推理理由。这种对模型生成推理的依赖避免了僵化的输出工程,并提供了更灵活、更自然的训练信号。经验结果表明,迭代RMFT技术提高了LLM在不同模型中的决策性能,包括具有数值输入/输出的转换器、开放权重的LLM以及先进的封闭权重模型如GPT-4o mini等。其在输出和推理格式上的灵活性使得它能够跨不同任务进行推广,这些任务具有不同的视野、行动空间、奖励过程和自然语言背景。最后,我们从理论上阐述了在这种模式下,单层转换器可以在简化设置中发挥无遗憾学习者的作用。总的来说,迭代RMFT提供了一个有原则且通用的后续训练框架,用于提高LLM的决策能力。

论文及项目相关链接

PDF

摘要
大型语言模型被越来越多的部署为决策代理,但在动态环境中表现欠佳。为解决这一问题,我们提出迭代后悔最小化微调(Iterative RMFT),这是一种通过低后悔决策轨迹反馈至基础模型的训练后程序。此方法利用后悔指标激发模型自身的决策能力和推理理由,不同于先前的方法。实证结果显示,Iterative RMFT提高了各种语言模型的决策性能,包括数值输入输出转换器、开放权重的大型语言模型和先进的闭式模型如GPT-4o mini等。其灵活的输出和推理格式使模型能够在任务多变的场景下实现泛化。总之,Iterative RMFT为增强大型语言模型的决策能力提供了一个有原则且通用的训练后框架。

关键见解

  1. 大型语言模型在决策制定方面的挑战日益凸显。它们往往不能很好地适应基本在线决策问题中的低后悔决策策略,无法达到有效的探索与利用之间的平衡。
  2. Iterative RMFT是一种新的训练后程序,旨在解决大型语言模型在决策制定方面的不足。它通过迭代反馈低后悔决策轨迹到基础模型中,提高模型的决策性能。

Cool Papers

点此查看论文截图

GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents

Authors:Jian Mu, Chaoyun Zhang, Chiming Ni, Lu Wang, Bo Qiao, Kartik Mathur, Qianhui Wu, Yuhang Xie, Xiaojun Ma, Mengyu Zhou, Si Qin, Liqun Li, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

We introduce GUI-360$^\circ$, a large-scale, comprehensive dataset and benchmark suite designed to advance computer-using agents (CUAs). CUAs present unique challenges and is constrained by three persistent gaps: a scarcity of real-world CUA tasks, the lack of automated collection-and-annotation pipelines for multi-modal trajectories, and the absence of a unified benchmark that jointly evaluates GUI grounding, screen parsing, and action prediction. GUI-360$^\circ$ addresses these gaps with an LLM-augmented, largely automated pipeline for query sourcing, environment-template construction, task instantiation, batched execution, and LLM-driven quality filtering. The released corpus contains over 1.2M executed action steps across thousands of trajectories in popular Windows office applications, and includes full-resolution screenshots, accessibility metadata when available, instantiated goals, intermediate reasoning traces, and both successful and failed action trajectories. The dataset supports three canonical tasks, GUI grounding, screen parsing, and action prediction, and a hybrid GUI+API action space that reflects modern agent designs. Benchmarking state-of-the-art vision–language models on GUI-360$^\circ$ reveals substantial out-of-the-box shortcomings in grounding and action prediction; supervised fine-tuning and reinforcement learning yield significant gains but do not close the gap to human-level reliability. We release GUI-360$^\circ$ and accompanying code to facilitate reproducible research and accelerate progress on robust desktop CUAs. The full dataset has been made public on https://huggingface.co/datasets/vyokky/GUI-360.

我们介绍了GUI-360°这一大规模综合性数据集和基准测试套件,旨在推动计算机使用代理(CUAs)的发展。计算机使用代理面临独特的挑战,存在三个持久的差距:真实世界CUA任务的稀缺,缺乏用于多模式轨迹的自动化收集和注释管道,以及缺乏一个联合评估GUI定位、屏幕解析和动作预测的基准测试。GUI-360°通过大型语言模型增强的大规模自动化管道解决这些问题,该管道包括查询源、环境模板构建、任务实例化、批处理执行和基于大型语言模型的质量过滤。发布的数据集包含数千个Windows办公软件轨迹中超过一百万已执行的操作步骤,包括全分辨率截图、可用的可访问性元数据、实例化目标、中间推理轨迹以及成功和失败的操作轨迹。该数据集支持GUI定位、屏幕解析和动作预测三个标准任务,并反映现代代理设计的混合GUI+API动作空间。在GUI-360°上对最先进的视觉语言模型进行基准测试表明,在定位和动作预测方面存在大量现成的不足;有监督的微调强化学习产生了显著收益,但尚未达到人类水平的可靠性。我们发布GUI-360°和相关代码,以促进可重复的研究并加速稳健桌面CUA的进步。完整数据集已在https://huggingface.co/datasets/vyokky/GUI-360上公开发布。

论文及项目相关链接

PDF

Summary
GUI-360°数据集是为了推进计算机使用代理(CUAs)的发展而设计的大规模、综合数据集和基准测试套件。该数据集解决了CUA存在的独特挑战和三个持续存在的差距:缺乏真实世界的CUA任务、缺乏多模态轨迹的自动化收集和注释管道,以及缺乏一个联合评估GUI定位、屏幕解析和动作预测的基准测试。GUI-360°采用大型语言模型增强的大规模自动化管道进行数据查询源、环境模板构建、任务实例化、批量执行和基于大型语言模型的质量过滤。发布的数据集包含超过120万个在流行的Windows办公软件中的执行动作步骤和数千个轨迹,包括全分辨率截图、可用的访问性元数据、实例化目标、中间推理轨迹以及成功和失败的动作轨迹。该数据集支持GUI定位、屏幕解析和动作预测三个典型任务,以及反映现代代理设计的混合GUI+API动作空间。

Key Takeaways

  1. GUI-360°是一个为推进计算机使用代理(CUAs)发展而设计的大规模、综合数据集。
  2. 数据集解决了CUA存在的独特挑战和三个主要差距。
  3. GUI-360°采用了大型语言模型增强的自动化管道进行数据收集和处理。
  4. 数据集包含超过120万个执行动作步骤和数千个轨迹,涵盖多种数据类型。
  5. 数据集支持GUI定位、屏幕解析和动作预测三个典型任务。
  6. 基准测试显示,现有模型在GUI-360°数据集上存在明显的短板。

Cool Papers

点此查看论文截图

BAPPA: Benchmarking Agents, Plans, and Pipelines for Automated Text-to-SQL Generation

Authors:Fahim Ahmed, Md Mubtasim Ahasan, Jahir Sadik Monon, Muntasir Wahed, M Ashraful Amin, A K M Mahbubur Rahman, Amin Ahsan Ali

Text-to-SQL systems provide a natural language interface that can enable even laymen to access information stored in databases. However, existing Large Language Models (LLM) struggle with SQL generation from natural instructions due to large schema sizes and complex reasoning. Prior work often focuses on complex, somewhat impractical pipelines using flagship models, while smaller, efficient models remain overlooked. In this work, we explore three multi-agent LLM pipelines, with systematic performance benchmarking across a range of small to large open-source models: (1) Multi-agent discussion pipeline, where agents iteratively critique and refine SQL queries, and a judge synthesizes the final answer; (2) Planner-Coder pipeline, where a thinking model planner generates stepwise SQL generation plans and a coder synthesizes queries; and (3) Coder-Aggregator pipeline, where multiple coders independently generate SQL queries, and a reasoning agent selects the best query. Experiments on the Bird-Bench Mini-Dev set reveal that Multi-Agent discussion can improve small model performance, with up to 10.6% increase in Execution Accuracy for Qwen2.5-7b-Instruct seen after three rounds of discussion. Among the pipelines, the LLM Reasoner-Coder pipeline yields the best results, with DeepSeek-R1-32B and QwQ-32B planners boosting Gemma 3 27B IT accuracy from 52.4% to the highest score of 56.4%. Codes are available at https://github.com/treeDweller98/bappa-sql.

文本到SQL系统提供了一个自然语言接口,使得即使是门外汉也能访问数据库中存储的信息。然而,由于模式规模庞大和推理复杂,现有的大型语言模型(LLM)在根据自然指令生成SQL方面遇到了困难。以前的工作经常关注使用旗舰模型的复杂、有些不切实际的管道,而较小、高效的模型却被忽视。在这项工作中,我们探索了三种多代理LLM管道,并在一系列从小到大的开源模型上进行了系统的性能基准测试:(1)多代理讨论管道,其中代理迭代地批判和完善SQL查询,法官综合最终答案;(2)计划者-编码者管道,其中思考模型计划者生成分步SQL生成计划,编码者综合查询;(3)编码者-聚合器管道,其中多个编码者独立生成SQL查询,推理代理选择最佳查询。在Bird-Bench Mini-Dev集上的实验表明,多代理讨论可以提高小模型的性能,在三轮讨论后,Qwen2.5-7b-Instruct的执行准确率提高了10.6%。在这些管道中,LLM Reasoner-Coder管道的效果最佳,DeepSeek-R1-32B和QwQ-32B计划者将Gemma 3 27B IT的准确性从52.4%提高到最高的56.4%。代码可在https://github.com/treeDweller98/bappa-sql获取。

简化翻译

论文及项目相关链接

PDF

Summary
该研究探讨了使用多代理系统来解决文本到SQL转换的问题。研究中采用了三种多代理LLM管道,通过在不同大小的开源模型上进行系统性性能评估发现,多代理讨论管道可以提高小型模型的性能,并且在经过三轮讨论后,Qwen2.5-7b-Instruct的执行准确度提高了10.6%。其中,LLM Reasoner-Coder管道表现最佳,DeepSeek-R1-32B和QwQ-32B规划器提高了Gemma 3 27B IT的准确度至最高分数56.4%。

Key Takeaways

  1. 文本-SQL系统通过自然语言接口使非专业人士也能访问数据库中的信息。
  2. 大型语言模型(LLM)在生成SQL指令方面存在困难,主要原因是涉及大量数据和复杂推理。
  3. 研究人员测试了三种多代理LLM管道,包括多代理讨论管道、规划者-编码者管道和编码者-聚合器管道。
  4. 多代理讨论管道能提高小型模型的性能,在Qwen2.5-7b-Instruct模型上执行准确度提高了10.6%。
  5. LLM Reasoner-Coder管道表现最佳,特定规划器提高了某些模型的准确度。
  6. 研究使用的代码已公开在GitHub上。
  7. 该研究为文本到SQL转换领域提供了新的思路和方法,有望改进现有系统的性能。

Cool Papers

点此查看论文截图

Learning from Online Videos at Inference Time for Computer-Use Agents

Authors:Yujian Liu, Ze Wang, Hao Chen, Ximeng Sun, Xiaodong Yu, Jialian Wu, Jiang Liu, Emad Barsoum, Zicheng Liu, Shiyu Chang

Computer-use agents can operate computers and automate laborious tasks, but despite recent rapid progress, they still lag behind human users, especially when tasks require domain-specific procedural knowledge about particular applications, platforms, and multi-step workflows. Humans can bridge this gap by watching video tutorials: we search, skim, and selectively imitate short segments that match our current subgoal. In this paper, we study how to enable computer-use agents to learn from online videos at inference time effectively. We propose a framework that retrieves and filters tutorial videos, converts them into structured demonstration trajectories, and dynamically selects trajectories as in-context guidance during execution. Particularly, using a VLM, we infer UI actions, segment videos into short subsequences of actions, and assign each subsequence a textual objective. At inference time, a two-stage selection mechanism dynamically chooses a single trajectory to add in context at each step, focusing the agent on the most helpful local guidance for its next decision. Experiments on two widely used benchmarks show that our framework consistently outperforms strong base agents and variants that use only textual tutorials or transcripts. Analyses highlight the importance of trajectory segmentation and selection, action filtering, and visual information, suggesting that abundant online videos can be systematically distilled into actionable guidance that improves computer-use agents at inference time. Our code is available at https://github.com/UCSB-NLP-Chang/video_demo.

计算机使用代理可以操作计算机并自动化繁琐任务,但尽管最近取得了快速进展,它们仍然落后于人类用户,尤其是在任务需要特定领域的程序知识时,涉及特定应用程序、平台和多步骤工作流程。人类可以通过观看视频教程来弥补这一差距:我们搜索、浏览并选择性模仿与当前子目标匹配的短片段。在本文中,我们研究了如何在推理时间使计算机使用代理从在线视频中学习。我们提出了一个框架,该框架检索和过滤教程视频,将它们转换为结构化的演示轨迹,并在执行过程中动态选择轨迹作为上下文指导。特别是,通过使用视觉语言模型(VLM),我们推断用户界面操作,将视频分割成短的行动子序列,并为每个子序列分配一个文本目标。在推理时间,两阶段选择机制动态选择在每个步骤中添加单个轨迹以提供上下文,使代理专注于对其下一个决策最有帮助的局部指导。在广泛使用的两个基准测试上的实验表明,我们的框架始终优于强大的基础代理和使用仅文本教程或转录的变体。分析强调了轨迹分割和选择、动作过滤和视觉信息的重要性,这表明大量在线视频可以系统地提炼成可在推理时间改善计算机使用代理的行动指南。我们的代码可在https://github.com/UCSB-NLP-Chang/video_demo找到。

论文及项目相关链接

PDF

Summary

本文研究如何使计算机使用代理在推理时间从在线视频中学习。提出了一种框架,该框架可检索和过滤教程视频,将它们转换为结构化演示轨迹,并在执行过程中动态选择轨迹作为上下文指导。使用VLM进行UI动作推断,将视频分段为短动作子序列并为每个子序列分配文本目标。在推理阶段,两阶段选择机制动态选择每一步的单个轨迹,重点关注对下一个决策最有帮助的局部指导。实验表明,该框架始终优于强大的基础代理和使用仅文本教程的变体,分析强调了轨迹分割和选择、动作过滤和视觉信息的重要性。

Key Takeaways

  1. 计算机使用代理在自动化任务方面已取得进展,但在需要特定领域程序知识的任务方面仍落后于人类用户。
  2. 在线视频可以为计算机使用代理提供宝贵的学习资源。
  3. 提出的框架能够检索和过滤教程视频,将其转化为结构化的演示轨迹。
  4. 利用VLM进行UI动作推断,并将视频分段为短动作子序列,为每个子序列分配文本目标。
  5. 两阶段选择机制能动态选择在每一步中最有助于代理做出决策的轨迹。
  6. 框架的实验表现优于其他方法,强调轨迹分割和选择、动作过滤以及视觉信息的重要性。

Cool Papers

点此查看论文截图

Agentmandering: A Game-Theoretic Framework for Fair Redistricting via Large Language Model Agents

Authors:Hao Li, Haotian Chen, Ruoyuan Gong, Juanjuan Wang, Hao Jiang

Redistricting plays a central role in shaping how votes are translated into political power. While existing computational methods primarily aim to generate large ensembles of legally valid districting plans, they often neglect the strategic dynamics involved in the selection process. This oversight creates opportunities for partisan actors to cherry-pick maps that, while technically compliant, are politically advantageous. Simply satisfying formal constraints does not ensure fairness when the selection process itself can be manipulated. We propose \textbf{Agentmandering}, a framework that reimagines redistricting as a turn-based negotiation between two agents representing opposing political interests. Drawing inspiration from game-theoretic ideas, particularly the \textit{Choose-and-Freeze} protocol, our method embeds strategic interaction into the redistricting process via large language model (LLM) agents. Agents alternate between selecting and freezing districts from a small set of candidate maps, gradually partitioning the state through constrained and interpretable choices. Evaluation on post-2020 U.S. Census data across all states shows that Agentmandering significantly reduces partisan bias and unfairness, while achieving 2 to 3 orders of magnitude lower variance than standard baselines. These results demonstrate both fairness and stability, especially in swing-state scenarios. Our code is available at https://github.com/Lihaogx/AgentMandering.

选区重划在塑造投票如何转化为政治权力方面扮演着核心角色。虽然现有的计算方法主要旨在生成大量合法有效的选区划分计划,但它们往往忽视了选择过程中涉及的策略动态。这一疏忽为党派参与者挑选技术合规但政治上却占优势的地图创造了机会。仅仅满足正式约束并不能确保公平性,因为选择过程本身可能会被操纵。我们提出“Agentmandering”框架,重新想象选区重划是两个代表对立政治利益的代理之间的回合制谈判。我们的方法从博弈论思想中汲取灵感,特别是“选择和冻结”协议,通过大型语言模型(LLM)代理将策略互动嵌入选区重划过程中。代理从一组候选地图中选择和冻结地区,通过有限的选择逐渐划分州,这些选择受到约束且可解释。对2020年后美国所有州的人口普查数据的评估表明,Agentmandering显著减少了党派偏见和不公平现象,与标准基线相比实现了2到3个数量级的较低方差。这些结果证明了公平性和稳定性,特别是在摇摆州场景中。我们的代码可在https://github.com/Lihaogx/AgentMandering获取。

论文及项目相关链接

PDF Accepted by AAAI AISI 2026

Summary

基于区域重划在政治权力分配中的核心作用,现有计算方法虽能产生大量合法有效的区域划分方案,却忽视了选择过程中的策略动态。这导致党派参与者有机会选择虽符合技术规定却具有政治优势的地图。本文提出将区域重划视为代表不同政治利益的两个代理人的轮流谈判过程,受到博弈论中的“选择并冻结”协议启发,通过大型语言模型(LLM)代理人嵌入战略互动。评估显示,该方法显著减少了党派偏见和不公平现象,实现了比标准基线低2到3个数量级的方差。

Key Takeaways

  1. 区域重划在确定政治权力中起关键作用,但现有方法忽视了选择过程中的策略动态。
  2. 政党有机会通过选择合规但政治有利的地图来影响选举结果。
  3. 引入“Agentmandering”框架,将区域重划视为不同政治利益代理人的轮流谈判过程。
  4. 采用大型语言模型(LLM)代理人嵌入战略互动,增强决策过程的公平性和透明度。
  5. 该方法显著减少党派偏见和选举不公平现象。
  6. 与标准基线相比,Agentmandering方法实现了更低的方差,显示出更高的稳定性和公平性。

Cool Papers

点此查看论文截图

Benchmarking and Studying the LLM-based Agent System in End-to-End Software Development

Authors:Zhengran Zeng, Yixin Li, Rui Xie, Wei Ye, Shikun Zhang

The development of LLM-based autonomous agents for end-to-end software development represents a significant paradigm shift in software engineering. However, the scientific evaluation of these systems is hampered by significant challenges, including overly simplistic benchmarks and the difficulty of conducting fair comparisons between different agent architectures due to confounding implementation variables. To address these limitations, we first construct a challenging and dynamically curated E2EDevBench to simulate realistic development scenarios. Second, we propose a hybrid evaluation framework that combines test-case-based functional assessment with fine-grained, LLM-based requirement verification. Using this framework, we conduct a controlled empirical study on three representative agent architectures implemented upon a unified foundation to isolate the impact of workflow design. Our findings reveal that state-of-the-art agents can fulfill approximately 50% of requirements on \bench{}, but their success is critically dependent on the architectural strategy for task decomposition and collaboration. Furthermore, our analysis indicates that the primary bottleneck is the omission of requirements and inadequate self-verification. This work provides the community with a more realistic benchmark, a comprehensive evaluation framework, and crucial insights into the current capabilities and core challenges of software development agents, guiding future research toward enhancing requirement comprehension and planning.

基于大型语言模型(LLM)的自主代理人在端到端软件开发中的发展,代表了软件工程中的重大范式转变。然而,这些系统的科学评估面临着重大挑战,包括过于简单的基准测试和由于混淆的实施变量而导致对不同代理架构进行公平比较的难度。为了解决这些局限性,我们首先构建了一个具有挑战性和动态管理的E2EDevBench,以模拟现实的开发场景。其次,我们提出了一种混合评估框架,该框架结合了基于测试用例的功能评估与基于大型语言模型的精细要求验证。使用这个框架,我们对基于统一基础的三种代表性代理架构进行了控制实证研究,以隔离工作流程设计的影响。我们的研究发现,最新代理可以在我们的基准测试上完成约50%的要求,但他们的成功严重依赖于任务分解和协作的架构策略。此外,我们的分析表明,主要瓶颈在于要求遗漏和不足的自我验证。这项工作为社区提供了一个更现实的基准测试、一个全面的评估框架,以及对当前软件开发代理的能力和核心挑战的关键见解,为未来的研究提供了增强要求理解和规划的方向。

论文及项目相关链接

PDF

Summary
大型语言模型(LLM)驱动的自主代理软件在端到端软件开发领域的应用代表了软件工程的重要范式转变。然而,对这些系统的科学评估面临诸多挑战,如过于简单的基准测试和难以在不同代理架构之间进行公平比较等。为解决这些问题,研究者构建了模拟真实开发场景的E2EDevBench基准测试平台,并提出了结合测试用例功能评估与精细粒度的LLM需求验证的混合评估框架。基于该框架的研究发现,先进代理仅能完成约一半的需求任务,且其成功很大程度上取决于任务分解和协作的架构策略。当前软件代理面临的主要挑战是需求遗漏和缺乏自我验证能力。本工作提供了更现实的基准测试、全面的评估框架以及关于软件代理当前能力和核心挑战的关键见解,为未来的研究提供了方向。

Key Takeaways

  • LLM驱动的自主代理软件推动了端到端软件开发的范式转变。
  • 评估这些系统时面临诸多挑战,如简单的基准测试和难以比较不同代理架构。
  • 为解决这些问题,研究者构建了E2EDevBench基准测试平台和混合评估框架。
  • 研究发现先进代理仅能完成约一半的需求任务。
  • 代理的成功取决于任务分解和协作的架构策略。
  • 当前软件代理面临的主要挑战是需求遗漏和缺乏自我验证能力。

Cool Papers

点此查看论文截图

ArchPilot: A Proxy-Guided Multi-Agent Approach for Machine Learning Engineering

Authors:Zhuowen Yuan, Tao Liu, Yang Yang, Yang Wang, Feng Qi, Kaushik Rangadurai, Bo Li, Shuang Yang

Recent LLM-based agents have demonstrated strong capabilities in automated ML engineering. However, they heavily rely on repeated full training runs to evaluate candidate solutions, resulting in significant computational overhead, limited scalability to large search spaces, and slow iteration cycles. To address these challenges, we introduce ArchPilot, a multi-agent system that integrates architecture generation, proxy-based evaluation, and adaptive search into a unified framework. ArchPilot consists of three specialized agents: an orchestration agent that coordinates the search process using a Monte Carlo Tree Search (MCTS)-inspired novel algorithm with a restart mechanism and manages memory of previous candidates; a generation agent that iteratively generates, improves, and debugs candidate architectures; and an evaluation agent that executes proxy training runs, generates and optimizes proxy functions, and aggregates the proxy scores into a fidelity-aware performance metric. This multi-agent collaboration allows ArchPilot to prioritize high-potential candidates with minimal reliance on expensive full training runs, facilitating efficient ML engineering under limited budgets. Experiments on MLE-Bench demonstrate that ArchPilot outperforms SOTA baselines such as AIDE and ML-Master, validating the effectiveness of our multi-agent system.

最近的基于LLM的代理在自动化ML工程方面展现了强大的能力。然而,它们严重依赖于重复的全训练运行来评估候选解决方案,导致计算开销大、在大搜索空间中的可扩展性有限以及迭代周期缓慢。为了应对这些挑战,我们引入了ArchPilot,这是一个多代理系统,它将架构生成、基于代理的评估和自适应搜索集成到一个统一框架中。ArchPilot由三个专业代理组成:一个协调代理,使用蒙特卡洛树搜索(MCTS)启发的新型算法和重启机制来协调搜索过程,并管理之前的候选者的内存;一个生成代理,它迭代地生成、改进和调试候选架构;以及一个评估代理,它执行代理训练运行、生成和优化代理函数,并将代理分数聚合成一个考虑保真度的性能指标。这种多代理协作使ArchPilot能够优先处理高潜力的候选者,尽量少依赖昂贵的全训练运行,在有限的预算下实现高效的ML工程。MLE-Bench上的实验表明,ArchPilot优于AIDE和ML-Master等最新技术基准,验证了我们的多代理系统的有效性。

论文及项目相关链接

PDF

Summary
近期LLM模型为基础构建的代理展现出自动化ML工程的强大能力。但评估候选方案严重依赖反复完整训练,带来大量计算负担,对大搜索空间可扩展性差及迭代周期慢的问题。为应对这些挑战,我们推出ArchPilot多代理系统,整合架构生成、基于代理的评价和自适应搜索于一体化框架中。ArchPilot包括三个专业代理:协调搜索过程的编排代理,采用蒙特卡洛树搜索启发的新算法和重启机制管理之前候选者记忆;生成代理则负责迭代生成、改进和调试候选架构;评价代理则执行代理训练运行,生成和优化代理函数并聚集为忠实性能度的代理分数指标。此多代理合作让ArchPilot可优先考虑高潜力候选者,尽量少依赖昂贵完整训练运行,在有限预算下实现高效ML工程。实验表明ArchPilot表现优于AIDE和ML-Master等最新技术基准线。

Key Takeaways

  • LLM模型为基础构建的代理在自动化ML工程上具有强大能力。
  • 评估候选方案依赖反复完整训练存在计算负担、扩展性差和迭代周期长的问题。
  • ArchPilot是一个多代理系统,包括编排、生成和评价代理,用于解决上述挑战。
  • ArchPilot采用蒙特卡洛树搜索启发的新算法协调搜索过程,管理候选者记忆。
  • 生成代理负责迭代生成、改进和调试候选架构。
  • 评价代理通过执行代理训练运行并优化代理函数来评估候选方案。
  • ArchPilot能优先考虑高潜力候选者,减少昂贵完整训练的运行需求。

Cool Papers

点此查看论文截图

PEFA-AI: Advancing Open-source LLMs for RTL generation using Progressive Error Feedback Agentic-AI

Authors:Athma Narayanan, Mahesh Subedar, Omesh Tickoo

We present an agentic flow consisting of multiple agents that combine specialized LLMs and hardware simulation tools to collaboratively complete the complex task of Register Transfer Level (RTL) generation without human intervention. A key feature of the proposed flow is the progressive error feedback system of agents (PEFA), a self-correcting mechanism that leverages iterative error feedback to progressively increase the complexity of the approach. The generated RTL includes checks for compilation, functional correctness, and synthesizable constructs. To validate this adaptive approach to code generation, benchmarking is performed using two opensource natural language-to-RTL datasets. We demonstrate the benefits of the proposed approach implemented on an open source agentic framework, using both open- and closed-source LLMs, effectively bridging the performance gap between them. Compared to previously published methods, our approach sets a new benchmark, providing state-of-the-art pass rates while being efficient in token counts.

我们提出了一种由多个代理组成的多代理流,这些代理结合了专门的LLM和硬件仿真工具,以协作方式完成无需人工干预的寄存器传输级别(RTL)生成任务。所提出流程的关键功能是代理渐进错误反馈系统(PEFA),这是一种自我修正机制,利用迭代误差反馈来逐步提高方法的复杂性。生成的RTL包括编译检查、功能正确性检查以及可综合结构。为了验证这种代码生成的自适应方法,我们使用两个开源的自然语言到RTL数据集进行基准测试。我们在开源代理框架上展示了所提出方法的好处,该框架既使用开源和闭源的LLM,有效地填补了它们之间的性能差距。与之前发布的方法相比,我们的方法树立了新的基准,在提供最先进的通过率的同时,在令牌计数方面也很有效率。

论文及项目相关链接

PDF Appeared in the Design Automation Conference (DAC) 2025, Workshop Poster on June 22, 2025

Summary
我们提出了一种由多个智能体组成的工作流,通过结合专门的LLM和硬件仿真工具,无需人工干预即可协作完成复杂的寄存器传输级别(RTL)生成任务。该流程的关键特点是智能体的渐进错误反馈系统(PEFA),这是一种自我修正机制,利用迭代错误反馈来逐步提高方法的复杂性。生成的RTL包括编译、功能正确性和可合成结构的检查。通过两个开源的自然语言到RTL数据集进行基准测试,验证了该自适应代码生成方法的有效性。我们在开源智能体框架上实现了该方法,使用开源和闭源的LLM,有效地缩小了它们之间的性能差距。与以前发布的方法相比,我们的方法达到了新的基准水平,在令牌计数方面表现出高效率。

Key Takeaways:

  1. 提出了一个由多个智能体组成的工作流,用于完成RTL生成的复杂任务。
  2. 结合了专门的LLM和硬件仿真工具,实现了无需人工干预的自动化生成。
  3. 智能体的渐进错误反馈系统(PEFA)是流程的关键特点,利用迭代错误反馈逐步提高方法的复杂性。
  4. 生成RTL包括编译、功能正确性和可合成结构的检查。
  5. 通过两个开源的自然语言到RTL数据集验证了该自适应代码生成方法的有效性。
  6. 在开源智能体框架上实现了该方法,支持开源和闭源的LLM。

Cool Papers

点此查看论文截图

KnowThyself: An Agentic Assistant for LLM Interpretability

Authors:Suraj Prasai, Mengnan Du, Ying Zhang, Fan Yang

We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.

我们开发了KnowThyself,这是一款智能助理,旨在提高大型语言模型(LLM)的可解释性。现有工具虽然能提供有用的见解,但功能仍然较为分散且代码密集。KnowThyself将这些功能整合到一个基于聊天的界面中,用户可以在其中上传模型、提出自然语言问题并获得带有指导解释的交互式可视化结果。其核心是一个调度器LLM,首先重新制定用户查询,一个代理路由器进一步指导它们到特定模块,并最终将输出上下文化为连贯的解释。这种设计降低了技术门槛,为LLM检查提供了一个可扩展的平台。通过将整个过程嵌入对话式工作流程中,KnowThyself为可访问的LLM可解释性提供了坚实的基础。

论文及项目相关链接

PDF 5 pages, 1 figure, Accepted for publication at the Demonstration Track of the 40th AAAI Conference on Artificial Intelligence (AAAI 26)

Summary:我们开发了KnowThyself,这是一种代理助手,提高了大型语言模型的可解释性。现有工具虽然能提供有用的见解,但操作复杂且功能分散。KnowThyself将这些功能整合到一个基于聊天的界面中,用户可以在其中上传模型、提出自然语言问题并获得带有指导说明的交互式可视化结果。其核心是一个协调器大型语言模型,首先重新格式化用户查询,代理路由器进一步指导它们进入特定模块,最终将输出上下文化为连贯的解释。这种设计降低了技术门槛,为大型语言模型的检查提供了一个可扩展的平台。通过将整个过程嵌入对话工作流程中,KnowThyself为可访问的大型语言模型可解释性提供了坚实的基础。

Key Takeaways

  1. KnowThyself是一个基于代理的大型语言模型可解释性助手。
  2. 它整合了现有的大型语言模型分析功能,提供了一个统一的聊天界面。
  3. 用户可以通过该界面上传模型、提出自然语言问题并获得交互式可视化结果。
  4. KnowThyself的核心是一个协调器大型语言模型,用于重新格式化用户查询并引导它们到特定模块。
  5. 该设计简化了大型语言模型分析的技术门槛,使其更易于使用。
  6. 通过嵌入对话工作流程,KnowThyself为大型语言模型的可解释性提供了可扩展的基础。

Cool Papers

点此查看论文截图

ASAP: an Agentic Solution to Auto-optimize Performance of Large-Scale LLM Training

Authors:Yuran Ding, Xinwei Chen, Xiaofan Zhang, Zongwei Zhou

Optimizing large-language model (LLM) training on distributed domain-specific accelerator systems presents significant challenges due to its complex optimization space. Existing optimization methods, however, rely on time-consuming manual tuning or resource-intensive black-box searches, which struggle to keep pace with the rapidly evolving LLM domain, leading to slow development and underutilized resources. To address this, we introduce ASAP, an Agentic Solution to Auto-optimize Performance of Large-Scale LLM Training. It is a multi-agent system, featuring Coordinator, Analyzer, and Proposal agents, which integrates LLM reasoning with insights from performance profiling tools, roofline analysis, and a knowledge base of best practices and successful past optimizations from human experts. Our proposed design can automate the diagnosis of performance bottlenecks and recommend optimized sharding configurations with reasoning, thus effectively improving the efficiency of distributed LLM training. Experiments have shown that the ASAP-generated sharding configurations can contribute up to 28% training step time reduction and 1.43 times throughput improvement. When combined with additional optimization from human experts, throughput can be further increased to 2.58 times. The proposed ASAP promises to provide a scalable and explainable methodology for AI-assisted performance engineering in large-scale LLM training.

优化大规模语言模型(LLM)在特定领域分布式加速器系统上的训练存在显著挑战,因为其优化空间复杂。然而,现有的优化方法依赖于耗时的人工调整或资源密集型的黑盒搜索,很难与快速发展的LLM领域保持同步,导致开发缓慢和资源利用不足。为了解决这一问题,我们引入了ASAP,即大规模LLM训练性能自动化优化代理解决方案。它是一个多代理系统,包括协调器、分析器和提案代理,它将LLM推理与性能分析工具、屋顶线分析和人类专家的最佳实践和过去成功优化的知识库相结合。我们提出的设计可以自动诊断性能瓶颈,并推荐优化分片配置及推理,从而有效提高分布式LLM训练的效率。实验表明,ASAP生成的分片配置可以减少高达28%的训练步骤时间并提高1.43倍吞吐量。当与人类专家的额外优化相结合时,吞吐量可进一步提高至2.58倍。所提出的ASAP旨在为大规模LLM训练的AI辅助性能工程提供一种可扩展和可解释的方法。

论文及项目相关链接

PDF This work has been accepted to Workshop on ML for Systems at NeurIPS 2025

Summary

大规模语言模型(LLM)在分布式领域特定加速器系统上的训练优化面临复杂挑战。现有优化方法依赖耗时的人工调整或资源密集型的黑盒搜索,难以适应LLM领域的快速发展,导致开发缓慢和资源利用不足。我们提出ASAP,一种自动化优化大规模LLM训练性能的多智能体解决方案。ASAP整合了协调器、分析器和提案器等智能体,融合了LLM推理、性能分析工具洞察、屋顶线分析和人类专家的最佳实践与过去成功的优化知识库。ASAP可自动诊断性能瓶颈,推荐优化分片配置并给出理由,有效提高分布式LLM训练效率。实验表明,ASAP生成的分片配置可减少最多达28%的训练步骤时间并提高1.43倍吞吐量。结合人类专家的额外优化,吞吐量可进一步提升至2.58倍。ASAP为AI辅助性能工程在大规模LLM训练中提供了可扩展和可解释的方法论。

Key Takeaways

  1. 大规模语言模型(LLM)在分布式领域特定加速器系统上的训练优化具有挑战性。
  2. 现有优化方法依赖人工调整或黑盒搜索,难以适应LLM领域的快速发展。
  3. ASAP是一个多智能体系统,包括协调器、分析器和提案器等智能体,旨在自动化优化LLM训练性能。
  4. ASAP整合了性能分析工具、屋顶线分析和专家知识库,能自动诊断性能瓶颈。
  5. ASAP能推荐优化分片配置,减少训练步骤时间并提高吞吐量。
  6. 结合人类专家的额外优化,ASAP的效益更加显著。

Cool Papers

点此查看论文截图

PoCo: Agentic Proof-of-Concept Exploit Generation for Smart Contracts

Authors:Vivi Andersson, Sofia Bobadilla, Harald Hobbelhagen, Martin Monperrus

Smart contracts operate in a highly adversarial environment, where vulnerabilities can lead to substantial financial losses. Thus, smart contracts are subject to security audits. In auditing, proof-of-concept (PoC) exploits play a critical role by demonstrating to the stakeholders that the reported vulnerabilities are genuine, reproducible, and actionable. However, manually creating PoCs is time-consuming, error-prone, and often constrained by tight audit schedules. We introduce POCO, an agentic framework that automatically generates executable PoC exploits from natural-language vulnerability descriptions written by auditors. POCO autonomously generates PoC exploits in an agentic manner by interacting with a set of code-execution tools in a Reason-Act-Observe loop. It produces fully executable exploits compatible with the Foundry testing framework, ready for integration into audit reports and other security tools. We evaluate POCO on a dataset of 23 real-world vulnerability reports. POCO consistently outperforms the prompting and workflow baselines, generating well-formed and logically correct PoCs. Our results demonstrate that agentic frameworks can significantly reduce the effort required for high-quality PoCs in smart contract audits. Our contribution provides readily actionable knowledge for the smart contract security community.

智能合约在一个高度对抗的环境中运行,其中存在的漏洞可能导致重大经济损失。因此,智能合约需要接受安全审计。在审计过程中,概念验证(PoC)漏洞利用发挥着关键作用,向利益相关者证明报告的漏洞是真实存在的、可复制的并且可以采取行动进行修复。然而,手动创建PoC耗时、易出错,并且经常受到严格审计时间表的限制。我们引入了POCO,这是一个代理框架,能够自动根据审计员编写的自然语言漏洞描述生成可执行PoC漏洞利用。POCO通过理性-行动-观察循环与一系列代码执行工具进行交互,以代理方式自动生成PoC漏洞利用。它产生与Foundry测试框架兼容的完全可执行漏洞利用,可以集成到审计报告和其他安全工具中。我们在包含真实世界漏洞报告的23个数据集上评估了POCO的性能。POCO始终优于提示和工作流基线,生成形式良好且逻辑正确的PoC。我们的结果表明,代理框架可以显著降低智能合约审计中高质量PoC所需的工作量。我们的贡献为智能合约安全社区提供了可立即采取行动的知识。

论文及项目相关链接

PDF Under review

Summary
智能合约运行环境充满对抗性,存在漏洞可能导致重大经济损失,因此需接受安全审计。在审计过程中,概念验证(PoC)漏洞利用发挥着关键作用,向利益相关者证明报告的漏洞真实、可复制且可操作。然而,手动创建PoC耗时、易出错且受审计时间表限制。本文介绍POCO,一种自动化生成可执行PoC漏洞利用的智能框架,该框架通过审计人员编写的自然语言漏洞描述与一系列代码执行工具进行交互,以Reason-Act-Observe循环自主生成PoC漏洞利用。它产生的完全可执行漏洞利用与Foundry测试框架兼容,可整合至审计报告和其他安全工具。对包含23份现实世界漏洞报告的数据集进行的评估表明,POCO持续优于提示和工作流程基线,生成形式良好且逻辑正确的PoC。结果证明智能框架可显著降低智能合约审计中高质量PoC所需的工作量,为智能合约安全社区提供了可直接操作的知识。

Key Takeaways

  1. 智能合约运行环境具有对抗性,安全审计中需验证漏洞的真实性和可利用性。
  2. 概念验证(PoC)在智能合约审计中起关键作用。
  3. 现有手动创建PoC的方法存在耗时、易错等缺点。
  4. 引入POCO智能框架,可自动化生成可执行PoC漏洞利用。
  5. POCO框架通过自然语言描述与代码执行工具交互,以Reason-Act-Observe循环生成PoC。
  6. POCO生成的PoC与Foundry测试框架兼容,便于集成至审计报告和安全工具。

Cool Papers

点此查看论文截图

Measuring the Security of Mobile LLM Agents under Adversarial Prompts from Untrusted Third-Party Channels

Authors:Chenghao Du, Quanfeng Huang, Tingxuan Tang, Zihao Wang, Adwait Nadkarni, Yue Xiao

Large Language Models (LLMs) have transformed software development, enabling AI-powered applications known as LLM-based agents that promise to automate tasks across diverse apps and workflows. Yet, the security implications of deploying such agents in adversarial mobile environments remain poorly understood. In this paper, we present the first systematic study of security risks in mobile LLM agents. We design and evaluate a suite of adversarial case studies, ranging from opportunistic manipulations such as pop-up advertisements to advanced, end-to-end workflows involving malware installation and cross-app data exfiltration. Our evaluation covers eight state-of-the-art mobile agents across three architectures, with over 2,000 adversarial and paired benign trials. The results reveal systemic vulnerabilities: low-barrier vectors such as fraudulent ads succeed with over 80% reliability, while even workflows requiring the circumvention of operating-system warnings, such as malware installation, are consistently completed by advanced multi-app agents. By mapping these attacks to the MITRE ATT&CK Mobile framework, we uncover novel privilege-escalation and persistence pathways unique to LLM-driven automation. Collectively, our findings provide the first end-to-end evidence that mobile LLM agents are exploitable in realistic adversarial settings, where untrusted third-party channels (e.g., ads, embedded webviews, cross-app notifications) are an inherent part of the mobile ecosystem.

大型语言模型(LLM)已经改变了软件开发的格局,使得被称为LLM基础代理的AI驱动应用得以出现,这些代理承诺能够在各种应用程序和工作流程中自动化任务。然而,在敌对移动环境中部署此类代理的安全影响仍知之甚少。在本文中,我们对移动LLM代理的安全风险进行了首次系统研究。我们设计并评估了一系列对抗性案例研究,从机会性操纵(如弹出式广告)到涉及恶意软件安装和跨应用程序数据泄露的端到端工作流程等高级内容。我们的评估涵盖了三种架构的八个最新移动代理,进行了超过2000次对抗性和配对良性试验。结果揭示了系统性漏洞:低门槛的欺诈广告等手段的成功率高达80%以上,即使是需要绕过操作系统警告的复杂工作流程(如恶意软件安装)也能被高级多应用程序代理持续完成。通过将这些攻击映射到MITRE ATT&CK Mobile框架上,我们发现了与LLM驱动的自动化相关的独特特权升级和持久性路径。总体而言,我们的研究结果首次提供了端到端的证据表明,移动LLM代理在现实的对抗环境中是可以利用的,不信任的第三方渠道(例如广告、嵌入式web视图跨应用程序通知)是移动生态系统固有的一部分。

论文及项目相关链接

PDF

Summary:大型语言模型(LLM)在软件开发领域的应用已经引起了变革,推动了LLM代理的发展,这些代理可以在各种应用程序和工作流程中自动化任务。然而,在敌对移动环境中部署此类代理的安全影响尚未得到充分理解。本文首次对移动LLM代理的安全风险进行了系统研究。我们设计和评估了一系列对抗性研究案例,从机会性操纵到涉及恶意软件安装和跨应用程序数据泄露的高级端到端工作流程。评估覆盖了三种架构的八个最新移动代理,进行了超过两千次的对抗性和配对良性试验。结果显示系统存在漏洞:欺诈性广告等低障碍载体成功率为超过百分之八十,即使需要规避操作系统警告的工作流程也被持续完成。我们通过对这些攻击映射到MITRE ATT&CK Mobile框架,发现了独特的特权提升和持久性路径。总的来说,我们的研究首次提供了在真实敌对环境中针对移动LLM代理进行利用的证据。这些不受信任第三方渠道(如广告、嵌入式网页视图、跨应用程序通知)是移动生态系统固有的部分。

Key Takeaways:

  1. LLMs在软件开发生成了重要影响,并产生了自动化任务的应用程序代理。但他们的安全影响尚未完全了解。
  2. 移动LLM代理面临严重的安全风险,如欺诈广告可能导致高风险威胁,这些威胁甚至可以规避操作系统的警告信息。
  3. 移动LLM代理的系统漏洞可能导致特权提升和持久性风险增加。这是移动生态系统固有的部分。需要更加关注安全性研究以保护用户隐私和数据安全。
  4. 移动LLM代理在对抗环境中容易受到攻击。对于使用这些代理的企业和组织来说,加强安全管理和采取适当的防御措施至关重要。这些措施包括防范潜在的安全漏洞和威胁,并定期进行安全评估和审计。

Cool Papers

点此查看论文截图

CREA: A Collaborative Multi-Agent Framework for Creative Image Editing and Generation

Authors:Kavana Venkatesh, Connor Dunlop, Pinar Yanardag

Creativity in AI imagery remains a fundamental challenge, requiring not only the generation of visually compelling content but also the capacity to add novel, expressive, and artistically rich transformations to images. Unlike conventional editing tasks that rely on direct prompt-based modifications, creative image editing requires an autonomous, iterative approach that balances originality, coherence, and artistic intent. To address this, we introduce CREA, a novel multi-agent collaborative framework that mimics the human creative process. Our framework leverages a team of specialized AI agents who dynamically collaborate to conceptualize, generate, critique, and enhance images. Through extensive qualitative and quantitative evaluations, we demonstrate that CREA significantly outperforms state-of-the-art methods in diversity, semantic alignment, and creative transformation. To the best of our knowledge, this is the first work to introduce the task of creative editing.

人工智能图像中的创造力仍然是一个基本挑战,这既需要生成视觉上有吸引力的内容,也需要具备向图像添加新颖、富有表现力和艺术性丰富的转换的能力。不同于依赖直接提示修改的常规编辑任务,创造性图像编辑需要一种平衡独创性、连贯性和艺术意图的自主迭代方法。为了解决这个问题,我们引入了CREA,这是一个模仿人类创造过程的新型多智能体协作框架。我们的框架利用一组专门的AI智能体进行动态协作,以构思、生成、批判和改进图像。通过广泛的质量和数量评估,我们证明CREA在多样性、语义对齐和创造性转换方面显著优于最先进的方法。据我们所知,这是首次引入创造性编辑任务的工作。

论文及项目相关链接

PDF Published at NeurIPS’25 Main Conference

Summary
本论文提出了AI创意影像的一大挑战,不仅要生成视觉吸引力强的内容,还要能自主迭代地对图像进行新颖、表达力强和艺术丰富的转变。为应对这一挑战,引入CREA这一多智能体协作框架,模仿人类创意过程,通过一系列专业AI智能体的动态协作,实现图像的构思、生成、评估和增强。经过广泛的质量和数量评估,证明CREA在多样性、语义对齐和创造性转变方面显著优于现有方法。本文还是首次引入创造性编辑任务的工作。

Key Takeaways

  1. AI在创意图像生成方面面临挑战,需生成视觉吸引、新颖表达和艺术丰富的图像内容。
  2. 创意图像编辑不同于传统编辑任务,需要自主迭代的方法,平衡原创性、连贯性和艺术意图。
  3. 引入CREA框架,模仿人类创意过程,通过多智能体动态协作实现图像构思、生成、评估和增强。
  4. CREA框架在多样性、语义对齐和创造性转变方面显著优于现有方法。
  5. 此工作是首次引入创造性编辑任务的研究。
  6. 该框架具有潜力为AI在创意图像编辑领域提供新的方向和方法。

Cool Papers

点此查看论文截图

Collaboration Dynamics and Reliability Challenges of Multi-Agent LLM Systems in Finite Element Analysis

Authors:Chuan Tian, Yilei Zhang

Large Language Model (LLM)-based multi-agent systems are increasingly applied to automate computational workflows in science and engineering. However, how inter-agent dynamics influence reasoning quality and verification reliability remains unclear. We study these mechanisms using an AutoGen-based multi-agent framework for linear-elastic Finite Element Analysis (FEA), evaluating seven role configurations across four tasks under a fixed 12-turn conversation limit. From 1,120 controlled trials, we find that collaboration effectiveness depends more on functional complementarity than team size: the three-agent Coder-Executor-Critic configuration uniquely produced physically and visually correct solutions, while adding redundant reviewers reduced success rates. Yet three systematic failure modes persist: (1) affirmation bias, where the Rebuttal agent endorsed rather than challenged outputs (85-92% agreement, including errors); (2) premature consensus caused by redundant reviewers; and (3) a verification-validation gap where executable but physically incorrect code passed undetected. No agent combination successfully validated constitutive relations in complex tasks. Building on theories of functional diversity, role differentiation, and computational validation, we propose actionable design principles: (i) assign complementary agent roles, (ii) enforce multi-level validation (execution, specification, physics), and (iii) prevent early consensus through adversarial or trigger-based interaction control. These findings establish a principled foundation for designing trustworthy LLM collaborations in engineering workflows.

基于大型语言模型(LLM)的多智能体系统正在越来越多地应用于科学和工程中的计算工作流自动化。然而,智能体之间的动态如何影响推理质量和验证可靠性仍不清楚。我们使用基于AutoGen的线性弹性有限元分析(FEA)多智能体框架来研究这些机制,在固定的12轮对话限制下,对四种任务的七种角色配置进行评估。在1120次受控试验中,我们发现协作的有效性更多地取决于功能互补性而非团队规模:三人智能体(Coder-Executor-Critic配置)产生了唯一正确且物理视觉正确的解决方案,而增加额外的审核人员降低了成功率。然而,仍存在三种系统失效模式:(1)肯定偏见,其中反驳智能体赞同而非挑战输出(85-92%的协议,包括错误);(2)由冗余审查人员导致的过早共识;(3)验证与验证之间的差距,其中可执行但物理上错误的代码未被发现。在复杂任务中,没有任何智能体组合能够成功验证基本关系。基于功能多样性、角色差异和计算验证的理论,我们提出可行的设计原则:(i)分配互补的智能体角色,(ii)执行多层次验证(执行、规范、物理),以及(iii)通过对抗性或基于触发的交互控制来防止过早共识。这些发现为在工程工作流中设计可靠的大型语言模型合作建立了原则基础。

论文及项目相关链接

PDF

Summary
大型语言模型(LLM)为基础的多智能体系统被广泛应用于科学和工程的计算工作流自动化。研究发现在固定12轮对话限制下,跨四项任务的1120次受控试验表明,协作有效性更依赖于功能互补而非团队规模。三智能体Coder-Executor-Critic配置首次产生物理和视觉正确解决方案,而冗余审查者则降低成功率。持续存在的三个系统性失效模式是:1)确认偏见;2)过早共识;和3)验证与验证差距。提出的设计原则包括分配互补角色、执行多层次验证和防止早期共识。这些发现奠定了在工程工作流中设计可信赖LLM协作的理论基础。

Key Takeaways

  • LLM-based多智能体系统用于自动化科学和工程的计算工作流程。
  • 协作有效性更依赖于功能互补而非团队规模。
  • 三智能体Coder-Executor-Critic配置表现最佳。
  • 冗余审查者会降低成功率,导致过早的共识和验证失效。
  • 系统性失效模式包括确认偏见和验证差距。
  • 设计原则包括分配互补角色、执行多层次验证以及控制早期共识形成的方式。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-11-08 MedSapiens Taking a Pose to Rethink Medical Imaging Landmark Detection
2025-11-08
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-11-08 Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning
2025-11-08
  目录