嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-17 更新

Explaining Decentralized Multi-Agent Reinforcement Learning Policies

Authors:Kayla Boggess, Sarit Kraus, Lu Feng

Multi-Agent Reinforcement Learning (MARL) has gained significant interest in recent years, enabling sequential decision-making across multiple agents in various domains. However, most existing explanation methods focus on centralized MARL, failing to address the uncertainty and nondeterminism inherent in decentralized settings. We propose methods to generate policy summarizations that capture task ordering and agent cooperation in decentralized MARL policies, along with query-based explanations for When, Why Not, and What types of user queries about specific agent behaviors. We evaluate our approach across four MARL domains and two decentralized MARL algorithms, demonstrating its generalizability and computational efficiency. User studies show that our summarizations and explanations significantly improve user question-answering performance and enhance subjective ratings on metrics such as understanding and satisfaction.

近年来,多智能体强化学习(MARL)受到了广泛关注,它能够在各个领域实现多个智能体的序贯决策。然而,现有的解释方法大多集中在集中式的MARL上,无法解决去中心化设置中固有的不确定性和非决定性。我们提出了生成策略摘要的方法,以捕获去中心化MARL策略中的任务排序和智能体合作,以及基于查询的解释,用于用户关于特定智能体行为的何时、为什么不、什么类型的查询。我们在四个MARL领域和两个去中心化MARL算法上评估了我们的方法,证明了其通用性和计算效率。用户研究表明,我们的摘要和解释显著提高了用户的问题回答性能,并在理解度和满意度等指标上提高了主观评分。

论文及项目相关链接

PDF Accepted for oral presentation at AAAI-26

Summary
多智能体强化学习(MARL)近年来备受关注,可实现多个智能体在各种领域中的序贯决策。然而,现有解释方法主要集中在集中式的MARL,无法解决去中心化设置中的不确定性和非确定性。本文提出生成策略摘要的方法,捕获去中心化MARL策略中的任务排序和智能体合作,并提供基于查询的解释,回答关于特定智能体行为的何时、何原因不、何种类型的问题。评估显示,该方法具有通用性和计算效率。用户研究表明,摘要和解释显著提高了用户的问题回答性能,并提高了理解和满意度的主观评价。

Key Takeaways

  1. 多智能体强化学习(MARL)允许多个智能体进行序贯决策,在多个领域具有应用潜力。
  2. 现有解释方法主要集中在集中式MARL,难以处理去中心化环境中的不确定性和非确定性。
  3. 本文提出生成策略摘要的方法,能捕获去中心化MARL中的任务排序和智能体合作。
  4. 提供基于查询的解释,能够回答关于特定智能体行为的不同问题类型。
  5. 方法在四个MARL领域和两个去中心化MARL算法中进行了评估,证明了其通用性和计算效率。
  6. 用户研究显示,该方法的摘要和解释提高了用户的问题回答能力。

Cool Papers

点此查看论文截图

VISTA: A Vision and Intent-Aware Social Attention Framework for Multi-Agent Trajectory Prediction

Authors:Stephane Da Silva Martins, Emanuel Aldea, Sylvie Le Hégarat-Mascle

Multi-agent trajectory prediction is crucial for autonomous systems operating in dense, interactive environments. Existing methods often fail to jointly capture agents’ long-term goals and their fine-grained social interactions, which leads to unrealistic multi-agent futures. We propose VISTA, a recursive goal-conditioned transformer for multi-agent trajectory forecasting. VISTA combines (i) a cross-attention fusion module that integrates long-horizon intent with past motion, (ii) a social-token attention mechanism for flexible interaction modeling across agents, and (iii) pairwise attention maps that make social influence patterns interpretable at inference time. Our model turns single-agent goal-conditioned prediction into a coherent multi-agent forecasting framework. Beyond standard displacement metrics, we evaluate trajectory collision rates as a measure of joint realism. On the high-density MADRAS benchmark and on SDD, VISTA achieves state-of-the-art accuracy and substantially fewer collisions. On MADRAS, it reduces the average collision rate of strong baselines from 2.14 to 0.03 percent, and on SDD it attains zero collisions while improving ADE, FDE, and minFDE. These results show that VISTA generates socially compliant, goal-aware, and interpretable trajectories, making it promising for safety-critical autonomous systems.

多智能体轨迹预测对于在密集、交互环境中运行的自主系统至关重要。现有方法往往不能联合捕捉智能体的长期目标和精细的社会互动,从而导致不切实际的多智能体未来。我们提出了VISTA,这是一种用于多智能体轨迹预测的递归目标条件变压器。VISTA结合了(i)一种跨注意力融合模块,该模块将长期意图与过去动作相结合,(ii)一种社会令牌注意力机制,用于智能体之间的灵活交互建模,以及(iii)成对注意力图,可在推理时解释社会影响模式。我们的模型将单智能体目标条件预测转化为连贯的多智能体预测框架。除了标准位移指标外,我们还评估轨迹碰撞率作为联合现实性的衡量标准。在高密度的MADRAS基准测试和SDD上,VISTA达到了最先进的准确性,碰撞次数大大减少。在MADRAS上,它将强基准的平均碰撞率从2.14%降低到0.03%,在SDD上实现了零碰撞,同时提高了ADE、FDE和minFDE。这些结果表明,VISTA能够生成符合社会规范、具有目标意识和可解释性的轨迹,对于安全关键的自主系统来说具有广阔前景。

论文及项目相关链接

PDF Paper accepted at WACV 2026

Summary

多代理轨迹预测对于在密集、交互环境中运行自主系统至关重要。现有方法往往无法联合捕获代理的长期目标和精细的社会互动,导致未来多代理轨迹预测不真实。本文提出VISTA,一种用于多代理轨迹预测的递归目标条件变压器。VISTA结合了跨注意力融合模块,将长期意图与过去动作相结合,采用社交令牌注意力机制进行灵活的跨代理交互建模,以及配对注意力图,可在推理时解释社会影响模式。该模型将单目标条件预测转化为连贯的多代理预测框架。除了标准位移指标外,我们还以轨迹碰撞率作为联合现实性的衡量指标。在密集代理数据集MADRAS和SDD上,VISTA达到最先进的精度,碰撞次数大大减少。在MADRAS上,它将基线模型的平均碰撞率从2.14%降至0.03%,在SDD上实现了零碰撞,同时提高了ADE、FDE和minFDE。这些结果表明,VISTA生成的轨迹具有社会合规性、目标意识和可解释性,对于安全关键的自主系统具有广阔的发展前景。

Key Takeaways

  1. 多代理轨迹预测对自主系统在密集、交互环境中的运行至关重要。
  2. 现有方法忽略了长期目标和精细社会互动的联合捕获,导致预测不真实。
  3. VISTA是一个递归目标条件变压器模型,用于多代理轨迹预测。
  4. VISTA结合了跨注意力融合、社交令牌注意力和配对注意力图。
  5. VISTA实现了从单目标条件预测到连贯的多代理预测的转变。
  6. 除了标准位移指标外,还采用轨迹碰撞率作为预测质量的衡量指标。

Cool Papers

点此查看论文截图

Continuous Benchmark Generation for Evaluating Enterprise-scale LLM Agents

Authors:Divyanshu Saxena, Rishikesh Maurya, Xiaoxuan Ou, Gagan Somashekar, Shachee Mishra Gupta, Arun Iyer, Yu Kang, Chetan Bansal, Aditya Akella, Saravan Rajmohan

The rapid adoption of AI agents across domains has made systematic evaluation crucial for ensuring their usefulness and successful production deployment. Evaluation of AI agents typically involves using a fixed set of benchmarks and computing multiple evaluation metrics for the agent. While sufficient for simple coding tasks, these benchmarks fall short for enterprise-scale agents, where services and requirements evolve continuously and ground-truth examples are sparse. We propose a process of benchmark generation that helps evolve the benchmarks as the requirements change and perform robust evaluation of evolving AI agents. We instantiate this approach for a case study of service migration from one deployment platform to another at a large public enterprise. Our approach relies on semi-structured documents where developers express the high-level intent, and uses state-of-the-art LLMs to generate benchmarks from just a small number of such documents. Overall, this process results in a maintainable evaluation framework, enabling rapid feedback on agent performance and facilitating targeted improvements.

随着人工智能代理在各个领域中的快速采用,对其进行系统评估对于确保其有用性和成功的产品部署至关重要。对人工智能代理的评估通常涉及使用固定的基准测试集并为代理计算多个评估指标。虽然这对于简单的编码任务来说已经足够了,但这些基准测试对于企业级规模的代理来说却不足够应对,因为服务和要求在不断地发展变化,而真实情况的例子却很少见。我们提出了一种基准测试生成过程,该过程有助于随着要求的改变而不断发展基准测试,并对不断变化的人工智能代理进行稳健评估。我们通过一项案例研究来实例化这种方法,该案例研究是关于大型公共企业从一个部署平台迁移到另一个部署平台的服务迁移。我们的方法依赖于半结构化文档,开发者在其中表达高级意图,并使用最先进的LLM从少量此类文档中生成基准测试。总的来说,这个过程形成了一个可持续的评估框架,能够迅速反馈代理性能并进行有针对性的改进。

论文及项目相关链接

PDF 5 pages

Summary

随着AI代理在多个领域的快速采纳,系统评估对于确保其实用性和成功部署至关重要。传统的固定基准测试对于简单编码任务足够,但对企业级代理来说存在局限性。本文提出一种基准测试生成方法,根据需求变化更新基准测试,并对不断发展的AI代理进行稳健评估。此方法依赖半结构化文档表达开发者的高级意图,并使用最新大型语言模型从小规模文档生成基准测试。总体上来说,这建立了一个可持续的评估框架,可快速反馈代理性能并进行有针对性的改进。

Key Takeaways

  1. AI代理的广泛采用使得系统评估变得至关重要,以确保其实用性和成功部署。
  2. 传统基准测试对于简单编码任务有效,但对企业级AI代理的评估存在局限性。
  3. 提出的基准测试生成方法能够根据需求变化更新基准测试。
  4. 方法依赖半结构化文档和最新大型语言模型来生成基准测试。
  5. 该评估框架允许快速反馈代理性能并进行有针对性的改进。
  6. 此方法为小规模文档生成基准测试提供了可能。

Cool Papers

点此查看论文截图

Multi-agent In-context Coordination via Decentralized Memory Retrieval

Authors:Tao Jiang, Zichuan Lin, Lihe Li, Yi-Chen Li, Cong Guan, Lei Yuan, Zongzhang Zhang, Yang Yu, Deheng Ye

Large transformer models, trained on diverse datasets, have demonstrated impressive few-shot performance on previously unseen tasks without requiring parameter updates. This capability has also been explored in Reinforcement Learning (RL), where agents interact with the environment to retrieve context and maximize cumulative rewards, showcasing strong adaptability in complex settings. However, in cooperative Multi-Agent Reinforcement Learning (MARL), where agents must coordinate toward a shared goal, decentralized policy deployment can lead to mismatches in task alignment and reward assignment, limiting the efficiency of policy adaptation. To address this challenge, we introduce Multi-agent In-context Coordination via Decentralized Memory Retrieval (MAICC), a novel approach designed to enhance coordination by fast adaptation. Our method involves training a centralized embedding model to capture fine-grained trajectory representations, followed by decentralized models that approximate the centralized one to obtain team-level task information. Based on the learned embeddings, relevant trajectories are retrieved as context, which, combined with the agents’ current sub-trajectories, inform decision-making. During decentralized execution, we introduce a novel memory mechanism that effectively balances test-time online data with offline memory. Based on the constructed memory, we propose a hybrid utility score that incorporates both individual- and team-level returns, ensuring credit assignment across agents. Extensive experiments on cooperative MARL benchmarks, including Level-Based Foraging (LBF) and SMAC (v1/v2), show that MAICC enables faster adaptation to unseen tasks compared to existing methods. Code is available at https://github.com/LAMDA-RL/MAICC.

在多样化数据集上训练的的大型Transformer模型,在未更新参数的情况下,以前所未有的少数镜头(few-shot)性能展现出对未见任务的出色表现。这一能力在强化学习(RL)中也得到了探索,其中代理通过与环境互动来检索上下文并最大化累积奖励,展示了在复杂环境中的强大适应性。然而,在合作型多代理强化学习(MARL)中,代理必须协调以实现共同目标,去中心化策略部署可能导致任务对齐和奖励分配方面的不匹配,限制了策略适应的效率。为了解决这一挑战,我们引入了基于去中心化记忆检索的多代理上下文协调(MAICC),这是一种旨在通过快速适应增强协调性的新方法。我们的方法包括训练一个集中嵌入模型来捕捉精细轨迹表示,随后是采用分散模型来近似集中嵌入模型以获得团队级别的任务信息。基于学习的嵌入,我们检索相关轨迹作为上下文,结合代理当前的子轨迹,为决策提供依据。在去中心化执行过程中,我们引入了一种新的记忆机制,可以有效地平衡在线数据和离线记忆。基于构建的记忆,我们提出了一个混合效用评分,该评分结合了个人和团队回报,以确保在代理之间进行信用分配。在包括层次化觅食(LBF)和SMAC(v1/v2)等合作型MARL基准测试上的广泛实验表明,MAICC能够更快适应未见任务相比于现有方法。代码可在https://github.com/LAMDA-RL/MAICC找到。

论文及项目相关链接

PDF

摘要

大型转换模型在多样的数据集上进行训练,展示了对未见任务的强大性能,无需参数更新。这一能力在强化学习(RL)中也得到了探索,特别是在复杂环境中,智能体通过与环境的交互来检索上下文并最大化累积奖励,表现出强大的适应性。然而,在合作型多智能体强化学习(MARL)中,智能体需要协调实现共同目标,去中心化的策略部署可能导致任务对齐和奖励分配的不匹配,限制了策略适应的效率。为解决此挑战,我们提出了基于去中心化记忆检索的多智能体上下文协调(MAICC)新方法,旨在通过快速适应增强协调性。该方法包括训练中央嵌入模型以捕获精细轨迹表示,随后使用去中心化模型近似中央模型以获得团队级任务信息。基于学习的嵌入,我们检索相关的轨迹作为上下文,与智能体的当前子轨迹相结合,为决策提供依据。在去中心化执行过程中,我们引入了新的记忆机制,有效平衡了在线数据与离线记忆。基于构建的记忆,我们提出了一个混合效用分数,既包括个体也包括团队回报,确保智能体之间的信用分配。在合作型MARL基准测试上进行的广泛实验显示,MAICC使智能体在未见任务上的适应能力得到了提高。代码已在GitHub上发布。

关键见解

  1. 大型转换模型在多样化数据集上的训练已证明其在未见任务上的强大性能。
  2. 强化学习智能体在复杂环境中表现出强大的适应性,通过与环境的交互检索上下文并最大化累积奖励。
  3. 在合作型多智能体强化学习中,去中心化策略部署可能导致任务对齐和奖励分配的问题。
  4. MAICC方法通过引入中央嵌入模型和去中心化记忆检索增强了智能体间的协调性。
  5. MAICC通过训练智能体在合作型MARL基准测试上的广泛实验表现出了较高的适应性和性能提升。
  6. MAICC结合了在线数据和离线记忆,通过新颖的记忆机制进行有效平衡。

Cool Papers

点此查看论文截图

SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations

Authors:Eric Xie, Danielle Waterfield, Michael Kennedy, Aidong Zhang

Large Language Models (LLMs) have shown immense potential in education, automating tasks like quiz generation and content summarization. However, generating effective presentation slides introduces unique challenges due to the complexity of multimodal content creation and the need for precise, domain-specific information. Existing LLM-based solutions often fail to produce reliable and informative outputs, limiting their educational value. To address these limitations, we introduce SlideBot - a modular, multi-agent slide generation framework that integrates LLMs with retrieval, structured planning, and code generation. SlideBot is organized around three pillars: informativeness, ensuring deep and contextually grounded content; reliability, achieved by incorporating external sources through retrieval; and practicality, which enables customization and iterative feedback through instructor collaboration. It incorporates evidence-based instructional design principles from Cognitive Load Theory (CLT) and the Cognitive Theory of Multimedia Learning (CTML), using structured planning to manage intrinsic load and consistent visual macros to reduce extraneous load and enhance dual-channel learning. Within the system, specialized agents collaboratively retrieve information, summarize content, generate figures, and format slides using LaTeX, aligning outputs with instructor preferences through interactive refinement. Evaluations from domain experts and students in AI and biomedical education show that SlideBot consistently enhances conceptual accuracy, clarity, and instructional value. These findings demonstrate SlideBot’s potential to streamline slide preparation while ensuring accuracy, relevance, and adaptability in higher education.

大型语言模型(LLMs)在教育领域展现出巨大的潜力,能够自动化生成测验和内容摘要等任务。然而,生成有效的演示幻灯片由于多媒体内容创作的复杂性和对精确、特定领域信息的需求,引入了一些独特的挑战。现有的基于LLM的解决方案往往无法产生可靠和富有信息量的输出,从而限制了其教育价值。为了解决这些限制,我们引入了SlideBot——一个模块化的多代理幻灯片生成框架,它将LLMs与检索、结构化规划和代码生成相结合。SlideBot围绕三个支柱构建:信息性,确保深入和基于上下文的内容;可靠性,通过检索融入外部资源来实现;实用性,通过教师协作实现定制和迭代反馈。它结合了认知负荷理论(CLT)和多媒体学习认知理论(CTML)的证据支持教学设计原则,使用结构化规划来管理内在负荷,并用一致的视觉宏元素来减少外在负荷并增强双通道学习。在该系统中,专业代理协同检索信息、总结内容、生成图形并使用LaTeX格式化幻灯片,通过交互细化与教师的偏好对齐输出。来自人工智能和生物医学教育领域的专家和学生评估表明,SlideBot持续提高了概念准确性、清晰度和教学价值。这些发现证明了SlideBot在简化幻灯片制作的同时,确保准确性、相关性和适应性的潜力,在高等教育中具有广泛的应用前景。

论文及项目相关链接

PDF 32 pages, 14 figures, accepted into EAAI 2026

Summary

基于大型语言模型(LLM)在教育领域的潜力,本文介绍了SlideBot这一模块化、多代理的幻灯片生成框架。该框架集成了LLM与检索、结构化规划和代码生成,以解决生成有效演示幻灯片所面临的独特挑战。SlideBot以信息丰富性、可靠性和实用性为三大支柱,确保深度且基于上下文的内容,通过检索融入外部资源,并通过教师协作实现个性化定制和迭代反馈。它结合了认知负荷理论(CLT)和多媒体学习认知理论(CTML)的证据指导设计原则,采用结构化规划管理内在负荷,使用一致的视觉宏减少外在负荷并增强双通道学习。特别代理协同工作,进行信息检索、内容摘要、图形生成和幻灯片格式转换等任务。专家评估和学生在AI和生物医学教育中的反馈显示,SlideBot在概念准确性、清晰度和教学价值方面表现卓越。该框架具有简化幻灯片制作流程、确保准确性、相关性和高等教育适应性的潜力。

Key Takeaways

  • LLM在教育领域具有潜力,用于自动化任务如测验生成和内容摘要。
  • 生成演示幻灯片面临独特挑战,需要处理多模态内容创建和精确、特定领域的资讯。
  • SlideBot是一个模块化、多代理的幻灯片生成框架,集成LLM与检索、结构化规划和代码生成。
  • SlideBot的三大支柱是信息丰富性、可靠性和实用性,确保内容深度、上下文相关,并融入外部资源。
  • SlideBot结合认知负荷理论和多媒体学习认知理论的原则,采用结构化规划管理学习负荷。
  • SlideBot包括信息检索、内容摘要、图形生成和幻灯片格式转换等功能的特别代理。
  • SlideBot在概念准确性、清晰度和教学价值方面得到专家和学生的积极反馈。

Cool Papers

点此查看论文截图

Beyond Monotonicity: Revisiting Factorization Principles in Multi-Agent Q-Learning

Authors:Tianmeng Hu, Yongzheng Cui, Rui Tang, Biao Luo, Ke Li

Value decomposition is a central approach in multi-agent reinforcement learning (MARL), enabling centralized training with decentralized execution by factorizing the global value function into local values. To ensure individual-global-max (IGM) consistency, existing methods either enforce monotonicity constraints, which limit expressive power, or adopt softer surrogates at the cost of algorithmic complexity. In this work, we present a dynamical systems analysis of non-monotonic value decomposition, modeling learning dynamics as continuous-time gradient flow. We prove that, under approximately greedy exploration, all zero-loss equilibria violating IGM consistency are unstable saddle points, while only IGM-consistent solutions are stable attractors of the learning dynamics. Extensive experiments on both synthetic matrix games and challenging MARL benchmarks demonstrate that unconstrained, non-monotonic factorization reliably recovers IGM-optimal solutions and consistently outperforms monotonic baselines. Additionally, we investigate the influence of temporal-difference targets and exploration strategies, providing actionable insights for the design of future value-based MARL algorithms.

值分解是多智能体强化学习(MARL)中的核心方法,它通过全局值函数分解到局部值来实现集中训练与分散执行。为了确保个体全局最大(IGM)一致性,现有方法要么强制执行单调性约束,这会限制其表达力,要么采用更复杂但代价高昂的替代方法。在本研究中,我们对非单调值分解进行动态系统分析,将学习动态建模为连续时间的梯度流。我们证明,在近似贪婪探索下,所有违反IGM一致性的零损失平衡点是不稳定的鞍点,而只有IGM一致的解才是学习动态的稳定吸引子。在合成矩阵游戏和具有挑战性的MARL基准测试上的大量实验表明,无约束的非单调分解能够可靠地恢复IGM最优解,并且始终优于单调基线。此外,我们还研究了时间差分目标和探索策略的影响,为未来基于价值的MARL算法设计提供了可操作的见解。

论文及项目相关链接

PDF Accepted at AAAI 2026

Summary

价值分解是多智能体强化学习(MARL)中的核心方法,通过全局价值函数分解为局部价值实现集中训练与分散执行。为确保个体全局最大化(IGM)一致性,现有方法通常采取单调性约束,这限制了其表达力,或在算法复杂度上有所牺牲采用较软的替代物。本研究通过动态系统分析非单调价值分解,将学习动态建模为连续时间梯度流。我们证明,在近似贪婪探索下,所有违反IGM一致性的零损失平衡点是不稳定鞍点,只有IGM一致解才是学习动态的稳定吸引子。在合成矩阵游戏和具有挑战性的MARL基准测试中进行的广泛实验表明,无约束的非单调分解可靠地恢复了IGM最优解,并始终优于单调基线。此外,我们还研究了时间差分目标和探索策略的影响,为未来价值基础的MARL算法设计提供了可操作见解。

Key Takeaways

  1. 价值分解是多智能体强化学习中的核心方法,它允许全局价值函数分解为局部价值以实现集中训练和分散执行。
  2. 现行的价值分解方法为了实现个体全局最大化一致性(IGM),会采用单调性约束或者软替代方案,这分别导致了表达能力的限制和算法复杂度的提高。
  3. 通过动态系统分析非单调价值分解,本研究将学习动态建模为连续时间梯度流。
  4. 研究证明了非单调价值分解在近似贪婪探索下能够达到稳定状态,且只有符合IGM一致性的解才是稳定的吸引子。
  5. 实验表明非单调分解在多种场景下表现优于传统的单调基线方法。
  6. 研究还探索了时间差分目标和探索策略对价值分解的影响。

Cool Papers

点此查看论文截图

Robust and Diverse Multi-Agent Learning via Rational Policy Gradient

Authors:Niklas Lauffer, Ameesh Shah, Micah Carroll, Sanjit A. Seshia, Stuart Russell, Michael Dennis

Adversarial optimization algorithms that explicitly search for flaws in agents’ policies have been successfully applied to finding robust and diverse policies in multi-agent settings. However, the success of adversarial optimization has been largely limited to zero-sum settings because its naive application in cooperative settings leads to a critical failure mode: agents are irrationally incentivized to self-sabotage, blocking the completion of tasks and halting further learning. To address this, we introduce Rationality-preserving Policy Optimization (RPO), a formalism for adversarial optimization that avoids self-sabotage by ensuring agents remain rational–that is, their policies are optimal with respect to some possible partner policy. To solve RPO, we develop Rational Policy Gradient (RPG), which trains agents to maximize their own reward in a modified version of the original game in which we use opponent shaping techniques to optimize the adversarial objective. RPG enables us to extend a variety of existing adversarial optimization algorithms that, no longer subject to the limitations of self-sabotage, can find adversarial examples, improve robustness and adaptability, and learn diverse policies. We empirically validate that our approach achieves strong performance in several popular cooperative and general-sum environments. Our project page can be found at https://rational-policy-gradient.github.io.

对抗优化算法显式地寻找智能体策略中的缺陷,并已成功应用于多智能体环境中的稳健性和多样性策略的发现。然而,对抗优化的成功大多局限于零和环境中,因为其在合作环境中的简单应用会导致一种关键失败模式:智能体会受到非理性激励来自我破坏,阻止任务的完成并阻止进一步的学习。为了解决这一问题,我们引入了理性保持策略优化(RPO),这是一种对抗性优化的形式化表述,它通过确保智能体保持理性来避免自我破坏,即他们的策略相对于某些可能的合作伙伴策略是最优的。为了解决RPO问题,我们开发了一种理性策略梯度(RPG)方法,它训练智能体在原始游戏的修改版中最大化自己的奖励,并使用对手塑造技术来优化对抗性目标。RPG使我们能够扩展各种现有的对抗优化算法,不再受自我破坏的限制,可以发现对抗性示例,提高稳健性和适应性,并学习多种策略。我们通过实证研究验证了我们的方法在几种流行的合作和一般总和环境中实现了出色的性能。我们的项目页面可在https://rational-policy-gradient.github.io找到。

论文及项目相关链接

PDF Published at NeurIPS 2025

Summary

对抗性优化算法通过寻找智能体策略的缺陷,已成功应用于多智能体环境中寻找稳健和多样化的策略。然而,对抗性优化的成功主要局限于零和环境中,因为其在合作环境中的直接应用会导致关键失败模式——智能体受到非理性激励去自我破坏,阻止任务完成并阻止进一步学习。为解决这一问题,我们提出了理性策略优化(RPO),这是一种对抗性优化的形式化方法,通过确保智能体保持理性避免自我破坏——即其策略对于可能的对手策略来说是最佳的。为解决RPO问题,我们发展了理性策略梯度法(RPG),它通过训练智能体以最大化其自身奖励于原始游戏的一种改进版本中实现优化对抗目标的目标。RPG使我们能够扩展各种现有的对抗性优化算法,不再受制于自我破坏的限制,可以发现对抗性例子,提高稳健性和适应性,并学习多样化的策略。我们在多个流行的合作和通用环境中的表现进行了实证验证。欢迎访问我们的项目页面:https://rational-policy-gradient.github.io 了解更多。

Key Takeaways

  1. 对抗性优化算法在多智能体环境中寻找稳健和多样化的策略方面表现出成功应用。
  2. 对抗性优化的成功主要局限于零和环境中。
  3. 在合作环境中直接应用对抗性优化可能导致智能体自我破坏的问题。
  4. 为解决自我破坏问题,提出了理性策略优化(RPO)方法。
  5. 发展了理性策略梯度法(RPG)以解决RPO问题。
  6. RPG能够扩展对抗性优化算法,使其能够发现对抗性例子,提高稳健性和适应性,并学习多样化策略。

Cool Papers

点此查看论文截图

From Pixels to Cooperation Multi Agent Reinforcement Learning based on Multimodal World Models

Authors:Sureyya Akin, Kavita Srivastava, Prateek B. Kapoor, Pradeep G. Sethi, Sunita Q. Patel, Rahu Srivastava

Learning cooperative multi-agent policies directly from high-dimensional, multimodal sensory inputs like pixels and audio (from pixels) is notoriously sample-inefficient. Model-free Multi-Agent Reinforcement Learning (MARL) algorithms struggle with the joint challenge of representation learning, partial observability, and credit assignment. To address this, we propose a novel framework based on a shared, generative Multimodal World Model (MWM). Our MWM is trained to learn a compressed latent representation of the environment’s dynamics by fusing distributed, multimodal observations from all agents using a scalable attention-based mechanism. Subsequently, we leverage this learned MWM as a fast, “imagined” simulator to train cooperative MARL policies (e.g., MAPPO) entirely within its latent space, decoupling representation learning from policy learning. We introduce a new set of challenging multimodal, multi-agent benchmarks built on a 3D physics simulator. Our experiments demonstrate that our MWM-MARL framework achieves orders-of-magnitude greater sample efficiency compared to state-of-the-art model-free MARL baselines. We further show that our proposed multimodal fusion is essential for task success in environments with sensory asymmetry and that our architecture provides superior robustness to sensor-dropout, a critical feature for real-world deployment.

直接从像素和音频等高级、多模式感官输入中学习合作多智能体策略是非常样本低效的。无模型多智能体强化学习(MARL)算法在表示学习、部分可观察性和信用分配方面面临联合挑战。为解决此问题,我们提出了一种基于共享生成式多模式世界模型(MWM)的新型框架。我们的MWM经过训练,通过融合所有智能体的分布式多模式观察结果,学习环境的动态压缩潜在表示,这得益于一种可扩展的基于注意力的机制。随后,我们利用学到的MWM作为快速“想象”模拟器,在其潜在空间内完全训练合作MARL策略(例如MAPPO),从而将表示学习与策略学习解耦。我们引入了一套基于3D物理模拟器构建的挑战性多模式多智能体基准测试。我们的实验表明,我们的MWM-MARL框架与最新的无模型MARL基线相比,实现了样本效率的显著提高。我们还进一步表明,我们所提出的多模式融合对于感官不对称环境中的任务成功至关重要,并且我们的架构对传感器掉线具有出色的鲁棒性,这是现实世界部署的关键功能。

论文及项目相关链接

PDF We have identified critical issues in the code implementation that severely deviate from Algorithm 1, invalidating all experimental results and conclusions. Despite exhaustive efforts to correct these issues, we find they fundamentally undermine the paper’s core claims. To uphold academic integrity and prevent misinformation, we are withdrawing this manuscript

Summary

基于像素和音频等多元感官输入,学习多智能体合作策略的挑战在于样本效率低。针对此问题,我们提出一种新型框架,利用共享生成式多模态世界模型(MWM)。MWM训练得到环境的压缩潜在表现,通过可扩展的注意力机制融合所有智能体的分布式多模态观察。随后,我们在MWM中学习合作多智能体强化学习政策(如MAPPO),完全脱离其潜在空间,使表现学习和政策学习解耦。实验表明,我们的MWM-MARL框架相较于当前先进的无模型MARL基准测试,样本效率提高了数倍。此外,我们证明在感官不对称的环境中,提出的多模态融合对任务成功至关重要,并且我们的架构对传感器掉线具有出色的稳健性,这是实现真实世界部署的关键特性。

Key Takeaways

  1. 多智能体强化学习(MARL)直接从高维、多模态感官输入(如像素和音频)学习政策是样本效率低下的。
  2. 提出一种新型框架,基于共享生成式多模态世界模型(MWM),学习环境动力学压缩潜在表现。
  3. 使用可扩展的注意力机制融合所有智能体的分布式多模态观察。
  4. 利用学到的MWM作为快速“想象”模拟器,完全在潜在空间内训练合作MARL政策。
  5. 实验表明,MWM-MARL框架相较于其他基准测试有更高的样本效率。
  6. 多模态融合在感官不对称的环境中是任务成功的关键。

Cool Papers

点此查看论文截图

HRM-Agent: Training a recurrent reasoning model in dynamic environments using reinforcement learning

Authors:Long H Dang, David Rawlinson

The Hierarchical Reasoning Model (HRM) has impressive reasoning abilities given its small size, but has only been applied to supervised, static, fully-observable problems. One of HRM’s strengths is its ability to adapt its computational effort to the difficulty of the problem. However, in its current form it cannot integrate and reuse computation from previous time-steps if the problem is dynamic, uncertain or partially observable, or be applied where the correct action is undefined, characteristics of many real-world problems. This paper presents HRM-Agent, a variant of HRM trained using only reinforcement learning. We show that HRM can learn to navigate to goals in dynamic and uncertain maze environments. Recent work suggests that HRM’s reasoning abilities stem from its recurrent inference process. We explore the dynamics of the recurrent inference process and find evidence that it is successfully reusing computation from earlier environment time-steps.

层次推理模型(HRM)因其规模小而具有令人印象深刻的推理能力,但仅应用于监督、静态、完全可观察的问题。HRM的一个优点是其适应问题难度的计算努力能力。然而,在现有形式下,如果问题是动态、不确定或部分可观察的,或者正确行动未定义(许多现实问题的特征),它无法整合和重复使用之前的计算步骤中的计算。本文提出了HRM-Agent,这是一种仅通过强化学习进行训练的HRM变体。我们展示了HRM可以在动态和不确定的迷宫环境中学习实现目标导航。最近的工作表明,HRM的推理能力来源于其递归推理过程。我们探索了递归推理过程的动态性,并发现它成功重复使用了早期环境时间步的计算证据。

论文及项目相关链接

PDF 14 pages, 9 figures, 1 table

Summary:层次化推理模型(HRM)具有出色的推理能力,但其仅适用于监督的、静态的、完全可观察的问题。HRM的一个强项是其能够自适应调整计算努力以应对问题的难度。然而,当问题具有动态性、不确定性、部分可观察性或正确行动未定义等特性时,当前的HRM无法整合和重用先前的计算。本文介绍了HRM的变种——HRM-Agent,它仅通过强化学习进行训练。实验表明,HRM能够在动态和不确定的迷宫环境中学习实现目标。最新研究表明,HRM的推理能力来源于其递归推理过程。本文探讨了递归推理过程的动态性,并发现HRM能够成功重用早期环境时间步的计算。

Key Takeaways

  1. 层次化推理模型(HRM)具有出色的推理能力,尤其擅长处理监督的、静态的、完全可观察的问题。
  2. HRM能够自适应调整计算努力以应对问题的难度。
  3. 当前HRM无法处理动态、不确定或部分可观察的问题,以及正确行动未定义的问题,这是其局限所在。
  4. HRM-Agent是HRM的一种变种,通过强化学习进行训练。
  5. HRM-Agent能够在动态和不确定的迷宫环境中学习实现目标。
  6. HRM的推理能力来源于其递归推理过程。

Cool Papers

点此查看论文截图

A Brain Cell Type Resource Created by Large Language Models and a Multi-Agent AI System for Collaborative Community Annotation

Authors:Rongbin Li, Wenbo Chen, Zhao Li, Rodrigo Munoz-Castaneda, Jinbo Li, Neha S. Maurya, Arnav Solanki, Huan He, Hanwen Xing, Meaghan Ramlakhan, Zachary Wise, Nelson Johansen, Zhuhao Wu, Hua Xu, Michael Hawrylycz, W. Jim Zheng

Single-cell RNA sequencing has transformed our ability to identify diverse cell types and their transcriptomic signatures. However, annotating these signatures-especially those involving poorly characterized genes-remains a major challenge. Traditional methods, such as Gene Set Enrichment Analysis (GSEA), depend on well-curated annotations and often perform poorly in these contexts. Large Language Models (LLMs) offer a promising alternative but struggle to represent complex biological knowledge within structured ontologies. To address this, we present BRAINCELL-AID (BRAINCELL-AID: https://biodataai.uth.edu/BRAINCELL-AID), a novel multi-agent AI system that integrates free-text descriptions with ontology labels to enable more accurate and robust gene set annotation. By incorporating retrieval-augmented generation (RAG), we developed a robust agentic workflow that refines predictions using relevant PubMed literature, reducing hallucinations and enhancing interpretability. Using this workflow, we achieved correct annotations for 77% of mouse gene sets among their top predictions. Applying this approach, we annotated 5,322 brain cell clusters from the comprehensive mouse brain cell atlas generated by the BRAIN Initiative Cell Census Network, enabling novel insights into brain cell function by identifying region-specific gene co-expression patterns and inferring functional roles of gene ensembles. BRAINCELL-AID also identifies Basal Ganglia-related cell types with neurologically meaningful descriptions. Hence, we create a valuable resource to support community-driven cell type annotation.

单细胞RNA测序技术已经改变了我们识别多种细胞类型及其转录组特征的能力。然而,对这些特征进行注释,特别是涉及特征不明基因的特征,仍然是一个主要挑战。传统方法,如基因集富集分析(GSEA),依赖于精心编制的注释,在这些情况下往往表现不佳。大型语言模型(LLM)提供了有前景的替代方案,但在结构化本体论中表示复杂的生物学知识方面存在困难。为了解决这一问题,我们推出了BRAINCELL-AID(BRAINCELL-AID:https://biodataai.uth.edu/BRAINCELL-AID),这是一种新型多智能体AI系统,它将自由文本描述与本体论标签相结合,能够实现更准确和稳健的基因集注释。通过引入检索增强生成(RAG)技术,我们开发了一个稳健的智能工作流程,利用相关的PubMed文献来优化预测,减少了幻觉并增强了可解释性。使用这个工作流程,我们在顶级预测中实现了对77%的老鼠基因集的正确注释。应用这种方法,我们对由BRAIN Initiative细胞普查网络生成的综合小鼠大脑细胞图谱中的5322个大脑细胞集群进行了注释,通过识别区域特定的基因共表达模式并推断基因组合的功能角色,为大脑细胞功能提供了新的见解。BRAINCELL-AID还确定了与基底节相关的细胞类型,并提供了神经学上有意义的描述。因此,我们创建了一个有价值的资源来支持社区驱动的细胞类型注释。

论文及项目相关链接

PDF 23 pages, 6 figures, 2 tables

Summary

单细胞RNA测序技术已极大地提升了我们对多样细胞类型及其转录组特征的认识。然而,对这些特征进行注释,尤其是涉及表征不佳的基因时,仍面临巨大挑战。传统方法如基因集富集分析(GSEA)依赖于精细的注释,在这些情况下往往表现不佳。大型语言模型(LLMs)虽提供有前景的替代方案,但在结构化本体中表达复杂的生物学知识方面存在困难。为解决这一问题,我们推出了BRAINCELL-AID系统,该系统整合了自由文本描述和本体标签,实现了更准确、更稳健的基因集注释。通过引入检索增强生成(RAG)技术,我们开发了一个强大的多智能体工作流程,利用相关的PubMed文献对预测进行精细化修正,减少了虚幻成分并增强了可解释性。利用此工作流程,我们在顶级预测中对77%的老鼠基因集进行了正确的注释。应用此方法,我们对由BRAIN Initiative细胞普查网络生成的综合老鼠大脑细胞图谱中的5322个大脑细胞簇进行了注释,通过识别区域特定的基因共表达模式并推断基因组合的功能角色,为理解大脑细胞功能提供了新的见解。BRAINCELL-AID还识别了与基底节相关的细胞类型并提供神经学上有意义的描述。因此,我们创建了一个有价值的资源,以支持社区驱动的细胞类型注释。

Key Takeaways

  1. 单细胞RNA测序已显著改善对细胞类型和转录组特征的认识。
  2. 现有方法如GSEA在基因集注释上受限于缺乏精细注释。
  3. 大型语言模型在生物学知识的结构化表达方面存在挑战。
  4. BRAINCELL-AID系统通过结合自由文本和本体标签提高了基因集注释的准确性。
  5. 引入RAG技术优化了预测,减少了虚幻成分,增强了可解释性。
  6. BRAINCELL-AID在老鼠基因集注释中取得了显著成果。

Cool Papers

点此查看论文截图

Ax-Prover: A Deep Reasoning Agentic Framework for Theorem Proving in Mathematics and Quantum Physics

Authors:Benjamin Breen, Marco Del Tredici, Jacob McCarran, Javier Aspuru Mijares, Weichen Winston Yin, Kfir Sulimany, Jacob M. Taylor, Frank H. L. Koppens, Dirk Englund

We present Ax-Prover, a multi-agent system for automated theorem proving in Lean that can solve problems across diverse scientific domains and operate either autonomously or collaboratively with human experts. To achieve this, Ax-Prover approaches scientific problem solving through formal proof generation, a process that demands both creative reasoning and strict syntactic rigor. Ax-Prover meets this challenge by equipping Large Language Models (LLMs), which provide knowledge and reasoning, with Lean tools via the Model Context Protocol (MCP), which ensure formal correctness. To evaluate its performance as an autonomous prover, we benchmark our approach against frontier LLMs and specialized prover models on two public math benchmarks and on two Lean benchmarks we introduce in the fields of abstract algebra and quantum theory. On public datasets, Ax-Prover is competitive with state-of-the-art provers, while it largely outperforms them on the new benchmarks. This shows that, unlike specialized systems that struggle to generalize, our tool-based agentic theorem prover approach offers a generalizable methodology for formal verification across diverse scientific domains. Furthermore, we demonstrate Ax-Prover’s assistant capabilities in a practical use case, showing how it enabled an expert mathematician to formalize the proof of a complex cryptography theorem.

我们推出Ax-Prover,这是一款用于Lean自动定理证明的多智能体系统,能够解决不同科学领域的各种问题,并能自主运行或与人类专家协作。为实现这一目标,Ax-Prover通过形式化证明生成来解决科学问题,这一过程既需要创造性推理又需要严格的句法严谨性。Ax-Prover通过装备大型语言模型(LLM)来应对这一挑战,这些模型提供知识和推理能力,并通过模型上下文协议(MCP)与Lean工具相结合,确保形式正确性。为了评估其作为自主证明器的性能,我们在两个公共数学基准测试以及我们在抽象代数和量子理论领域推出的两个Lean基准测试上对前沿LLM和专用证明器模型进行了基准测试。在公共数据集上,Ax-Prover与最先进的证明器相竞争,而在新基准测试中则大大优于它们。这表明,与那些难以推广的专用系统不同,我们基于工具的理论证明者方法提供了一种跨不同科学领域的可推广的正式验证方法论。此外,我们还展示了Ax-Prover在实际案例中的辅助能力,证明了它如何帮助一位专家数学家对一个复杂的密码学定理进行形式化证明。

论文及项目相关链接

PDF

Summary

Ax-Prover是一个基于多智能体的定理自动证明系统,能够在Lean中解决跨不同科学领域的问题,并能自主运行或与人类专家协作。它通过形式化证明生成来应对科学问题解决,这需要创造性的推理和严格的语法严谨性。Ax-Prover通过装备大型语言模型(LLMs)来实现这一目标,这些模型提供知识和推理能力,并通过模型上下文协议(MCP)利用Lean工具确保形式正确性。在自主证明者性能方面,我们在两个公共数学基准测试和两个新推出的抽象代数和量子理论领域的Lean基准测试中对我们的方法进行了评估。在公共数据集上,Ax-Prover与最先进的证明者具有竞争力,而在新基准测试中则大大优于它们。这表明,与那些难以推广的专用系统不同,我们的基于工具的多智能体定理证明方法提供了一种跨不同科学领域的可推广的形式验证方法。我们还展示了Ax-Prover在实际案例中的助理能力,表明它如何帮助数学家对一个复杂的密码学定理进行形式化证明。

Key Takeaways

  1. Ax-Prover是一个多智能体系统,用于在Lean中进行定理自动证明。
  2. 它能够解决跨多个科学领域的问题,并可以自主运行或与人类专家协作。
  3. Ax-Prover通过形式化证明生成来应对科学问题解决,这需要创造性推理和严格语法。
  4. 通过大型语言模型和模型上下文协议,Ax-Prover确保了形式正确性。
  5. 在多个基准测试中,Ax-Prover的性能与最先进的证明者相当或更优,表明其良好的泛化能力。
  6. Ax-Prover可以在实际场景中应用,帮助专家进行复杂定理的形式化证明。

Cool Papers

点此查看论文截图

FHIR-AgentBench: Benchmarking LLM Agents for Realistic Interoperable EHR Question Answering

Authors:Gyubok Lee, Elea Bach, Eric Yang, Tom Pollard, Alistair Johnson, Edward Choi, Yugang jia, Jong Ha Lee

The recent shift toward the Health Level Seven Fast Healthcare Interoperability Resources (HL7 FHIR) standard opens a new frontier for clinical AI, demanding LLM agents to navigate complex, resource-based data models instead of conventional structured health data. However, existing benchmarks have lagged behind this transition, lacking the realism needed to evaluate recent LLMs on interoperable clinical data. To bridge this gap, we introduce FHIR-AgentBench, a benchmark that grounds 2,931 real-world clinical questions in the HL7 FHIR standard. Using this benchmark, we systematically evaluate agentic frameworks, comparing different data retrieval strategies (direct FHIR API calls vs. specialized tools), interaction patterns (single-turn vs. multi-turn), and reasoning strategies (natural language vs. code generation). Our experiments highlight the practical challenges of retrieving data from intricate FHIR resources and the difficulty of reasoning over them, both of which critically affect question answering performance. We publicly release the FHIR-AgentBench dataset and evaluation suite (https://github.com/glee4810/FHIR-AgentBench) to promote reproducible research and the development of robust, reliable LLM agents for clinical applications.

最近转向健康水平七快速医疗互通资源(HL7 FHIR)标准的趋势为临床人工智能开辟了新的前沿领域,要求LLM代理处理复杂的基于资源的数据模型,而不是传统的结构化健康数据。然而,现有的基准测试未能跟上这一转变,缺乏评估近期LLM在可互操作的临床数据上的真实性的需求。为了弥补这一差距,我们引入了FHIR-AgentBench基准测试,该测试以HL7 FHIR标准为基础,涵盖了2931个真实世界的临床问题。使用这个基准测试,我们系统地评估了代理框架,比较了不同的数据检索策略(直接调用FHIR API与专用工具)、交互模式(单轮与多轮)和推理策略(自然语言与代码生成)。我们的实验突出了从复杂的FHIR资源中检索数据和对其进行推理的实际挑战,两者都对问答性能产生重大影响。我们公开发布FHIR-AgentBench数据集和评估套件(https://github.com/glee4810/FHIR-AgentBench),以促进可重复的研究和临床应用中稳健可靠的LLM代理的开发。

论文及项目相关链接

PDF ML4H 2025 Proceedings

Summary

随着向Health Level Seven Fast Healthcare Interoperability Resources(HL7 FHIR)标准的转变,临床人工智能迎来了新的发展机遇。然而,现有评估标准尚未跟上这一转变。为填补这一空白,推出基于HL7 FHIR标准的FHIR-AgentBench评估标准。该评估标准系统地评估了数据检索策略、交互模式和推理策略等方面,揭示了从复杂的FHIR资源中检索数据和进行推理的实际挑战。同时公开发布FHIR-AgentBench数据集和评估套件,以促进稳健可靠的LLM代理的临床应用发展。

Key Takeaways

  1. HL7 FHIR标准在临床人工智能领域开启新的发展机遇。
  2. 现有评估标准未能跟上HL7 FHIR的转变,缺乏现实性。
  3. 引入FHIR-AgentBench评估标准,基于真实世界临床问题并遵循HL7 FHIR标准。
  4. 系统评估数据检索策略,包括直接FHIR API调用和专用工具的比较。
  5. 交互模式和推理策略的比较,包括单轮和多轮交互以及自然语言与代码生成的区别。
  6. 实验揭示了从复杂的FHIR资源中检索数据和进行推理的实际挑战。

Cool Papers

点此查看论文截图

Depth Matters: Multimodal RGB-D Perception for Robust Autonomous Agents

Authors:Mihaela-Larisa Clement, Mónika Farsang, Felix Resch, Mihai-Teodor Stanusoiu, Radu Grosu

Autonomous agents that rely purely on perception to make real-time control decisions require efficient and robust architectures. In this work, we demonstrate that augmenting RGB input with depth information significantly enhances our agents’ ability to predict steering commands compared to using RGB alone. We benchmark lightweight recurrent controllers that leverage the fused RGB-D features for sequential decision-making. To train our models, we collect high-quality data using a small-scale autonomous car controlled by an expert driver via a physical steering wheel, capturing varying levels of steering difficulty. Our models were successfully deployed on real hardware and inherently avoided dynamic and static obstacles, under out-of-distribution conditions. Specifically, our findings reveal that the early fusion of depth data results in a highly robust controller, which remains effective even with frame drops and increased noise levels, without compromising the network’s focus on the task.

完全依赖感知来做出实时控制决策的自控代理需要高效且稳健的架构。在这项工作中,我们证明与仅使用RGB相比,通过深度信息增强RGB输入会极大地提高我们的代理预测转向指令的能力。我们采用轻量级的循环控制器,利用融合后的RGB-D特性进行序列决策评估。为了训练我们的模型,我们使用小型自动驾驶汽车收集高质量数据,该车由专业司机通过方向盘控制,可捕获不同难度的转向级别。我们的模型成功部署在真实硬件上,可在分布外部条件下避免动态和静态障碍。具体来说,我们的研究结果表明,深度数据的早期融合会导致一个高度稳健的控制器,即使在帧丢失和噪声水平增加的情况下,它仍然保持有效,且不影响网络对任务的关注。

论文及项目相关链接

PDF

Summary
融合RGB与深度信息后,自主代理的预测转向指令能力显著提升,对比仅使用RGB信息更具优势。采用轻量级循环控制器利用融合RGB-D特征进行序列决策。通过专家驾驶的小型自主汽车收集高质量数据训练模型,可成功部署于实际硬件上并避免动态与静态障碍。早期融合深度数据使控制器高度稳健,即使在帧丢失和噪声增加时仍有效,且不影响网络的任务专注度。

Key Takeaways

  1. 自主代理在融合RGB与深度信息后,预测转向指令能力显著提升。
  2. 对比仅使用RGB信息,融合后的信息能增强代理的性能。
  3. 采用轻量级循环控制器利用融合特征进行序列决策。
  4. 通过专家驾驶的小型自主汽车收集高质量数据用于模型训练。
  5. 模型可成功部署于实际硬件上,并能避免动态和静态障碍。
  6. 早期融合深度数据使控制器更加稳健。

Cool Papers

点此查看论文截图

Surgical AI Copilot: Energy-Based Fourier Gradient Low-Rank Adaptation for Surgical LLM Agent Reasoning and Planning

Authors:Jiayuan Huang, Runlong He, Danyal Zaman Khan, Evangelos B. Mazomenos, Danail Stoyanov, Hani Marcus, Linzhe Jiang, Matthew J Clarkson, Mobarak I. Hoque

Image-guided surgery demands adaptive, real-time decision support, yet static AI models struggle with structured task planning and providing interactive guidance. Large language models (LLMs)-powered agents offer a promising solution by enabling dynamic task planning and predictive decision support. Despite recent advances, the absence of surgical agent datasets and robust parameter-efficient fine-tuning techniques limits the development of LLM agents capable of complex intraoperative reasoning. In this paper, we introduce Surgical AI Copilot, an LLM agent for image-guided pituitary surgery, capable of conversation, planning, and task execution in response to queries involving tasks such as MRI tumor segmentation, endoscope anatomy segmentation, overlaying preoperative imaging with intraoperative views, instrument tracking, and surgical visual question answering (VQA). To enable structured agent planning, we develop the PitAgent dataset, a surgical context-aware planning dataset covering surgical tasks like workflow analysis, instrument localization, anatomical segmentation, and query-based reasoning. Additionally, we propose DEFT-GaLore, a Deterministic Energy-based Fourier Transform (DEFT) gradient projection technique for efficient low-rank adaptation of recent LLMs (e.g., LLaMA 3.2, Qwen 2.5), enabling their use as surgical agent planners. We extensively validate our agent’s performance and the proposed adaptation technique against other state-of-the-art low-rank adaptation methods on agent planning and prompt generation tasks, including a zero-shot surgical VQA benchmark, demonstrating the significant potential for truly efficient and scalable surgical LLM agents in real-time operative settings.

图像引导手术需要自适应、实时的决策支持,然而静态的AI模型在结构化任务规划和提供交互式指导方面存在困难。大型语言模型(LLM)驱动的代理提供了一种有前途的解决方案,能够实现动态任务规划和预测决策支持。尽管最近有所进展,但由于缺乏手术代理数据集和稳健的参数高效微调技术,能够进行复杂术中推理的LLM代理的开发受到限制。在本文中,我们介绍了Surgical AI Copilot,这是一个用于图像引导垂体手术的LLM代理,能够针对涉及MRI肿瘤分割、内窥镜解剖分割、术前影像与术中视图的叠加、仪器跟踪和手术视觉问答(VQA)等任务进行查询的会话、规划和任务执行。为了实现结构化的代理规划,我们开发了PitAgent数据集,这是一个手术上下文感知的规划数据集,涵盖手术任务,如工作流程分析、仪器定位、解剖分割和基于查询的推理。此外,我们提出了DEFT-GaLore,一种确定性能量基傅立叶变换(DEFT)梯度投影技术,用于最新LLMs(例如LLaMA 3.2,Qwen 2.5)的有效低秩适应,使其可作为手术代理规划师使用。我们全面验证了我们的代理性能以及所提出的适应技术与其他最先进的低秩适应方法在代理规划和提示生成任务上的表现,包括零射击手术VQA基准测试,证明了在实时操作环境中真正高效和可扩展的手术LLM代理的巨大潜力。

论文及项目相关链接

PDF 11 pages

Summary
实时图像引导手术需要自适应、交互式的决策支持。大语言模型驱动的代理智能体如手术AI副驾驶能够应对这一挑战,具备对话、规划和执行任务的能力。然而,缺乏手术代理数据集和鲁棒的参数高效微调技术限制了复杂手术推理能力的发展。本研究引入手术AI副驾驶,用于图像引导垂体手术,开发PitAgent数据集并实现DEFT-GaLore技术,以推动高效低秩适应的LLM在手术决策支持中的应用。

Key Takeaways

  1. 手术图像引导需要自适应、实时决策支持,大语言模型驱动的代理智能体为解决这一问题提供了有前途的解决方案。
  2. 代理智能体如手术AI副驾驶具备对话、规划及任务执行能力,用于支持图像引导手术。
  3. 缺乏手术代理数据集限制了复杂手术推理能力的发展。
  4. 研究引入了Surgical AI Copilot,专门用于图像引导垂体手术的LLM代理。
  5. 开发PitAgent数据集以实现结构化代理规划,涵盖手术任务如工作流程分析、仪器定位、解剖结构分割和基于查询的推理。
  6. 提出DEFT-GaLore技术,通过确定性能量基于傅里叶变换的梯度投影技术,实现LLM的高效低秩适应。

Cool Papers

点此查看论文截图

Agent Journey Beyond RGB: Hierarchical Semantic-Spatial Representation Enrichment for Vision-and-Language Navigation

Authors:Xuesong Zhang, Yunbo Xu, Jia Li, Ruonan Liu, Zhenzhen Hu

Navigating unseen environments from natural language instructions remains challenging for egocentric agents in Vision-and-Language Navigation (VLN). Humans naturally ground concrete semantic knowledge within spatial layouts during indoor navigation. Although prior work has introduced diverse environment representations to improve reasoning, auxiliary modalities are often naively concatenated with RGB features, which underutilizes each modality’s distinct contribution. We propose a hierarchical Semantic Understanding and Spatial Awareness (SUSA) architecture to enable agents to perceive and ground environments at multiple scales. Specifically, the Textual Semantic Understanding (TSU) module supports local action prediction by generating view-level descriptions, capturing fine-grained semantics and narrowing the modality gap between instructions and environments. Complementarily, the Depth Enhanced Spatial Perception (DSP) module incrementally builds a trajectory-level depth exploration map, providing a coarse-grained representation of global spatial layout. Extensive experiments show that the hierarchical representation enrichment of SUSA significantly improves navigation performance over the baseline on discrete VLN benchmarks (REVERIE, R2R, and SOON) and generalizes better to the continuous R2R-CE benchmark.

在视觉与语言导航(VLN)中,以自我为中心的智能体从自然语言指令中导航未知环境仍然是一个挑战。人类在室内导航时,自然地会在空间布局中巩固具体语义知识。尽管之前的工作已经引入了各种环境表示方法来改善推理,但辅助模式通常以原始方式与RGB特征相结合,这并没有充分利用每个模态的独特贡献。我们提出了一种分层的语义理解与空间感知(SUSA)架构,使智能体能够在多个尺度上感知和巩固环境。具体来说,文本语义理解(TSU)模块通过生成视图级别的描述来支持局部动作预测,捕捉精细语义,缩小指令和环境之间的模态差距。作为补充,深度增强空间感知(DSP)模块逐步构建轨迹级别的深度探索地图,提供全局空间布局的粗粒度表示。大量实验表明,在离散VLN基准测试(REVERIE、R2R和SOON)上,SUSA的分层次表示丰富性显著提高了导航性能,并且在连续的R2R-CE基准测试上表现更好。

论文及项目相关链接

PDF AAAI2026, I14 pages, 12 figures, 11 tables

Summary
在视觉与语言导航(VLN)中,从自然语言指令导航未知环境对于以自我为中心的代理来说仍然具有挑战性。人类在室内导航时会自然地结合空间布局和具体语义知识。先前的工作虽然引入了多种环境表示方法来改善推理能力,但辅助模态通常与RGB特征简单结合,这忽略了每个模态的独特贡献。我们提出了一种层次化的语义理解与空间感知(SUSA)架构,使代理能够在多个尺度上感知和定位环境。具体来说,文本语义理解(TSU)模块通过生成视图级描述来支持局部动作预测,捕捉精细语义并缩小指令和环境之间的模态差距。此外,深度增强空间感知(DSP)模块逐步构建轨迹级深度探索图,提供全局空间布局的粗略表示。大量实验表明,SUSA的层次化表示丰富性在离散VLN基准测试(REVERIE、R2R和SOON)上的导航性能明显优于基线,并且在连续的R2R-CE基准测试上具有更好的泛化能力。

Key Takeaways

  1. 在视觉与语言导航(VLN)中,将自然语言指令用于导航未知环境具有挑战性。
  2. 人类在室内导航时会结合空间布局和具体语义知识。
  3. 先前的工作在环境表示方面有所进展,但忽略了不同模态的独特贡献。
  4. 提出的SUSA架构旨在实现层次化的语义理解与空间感知。
  5. TSU模块支持局部动作预测,通过生成视图级描述来捕捉精细语义。
  6. DSP模块构建轨迹级深度探索图,提供全局空间布局的粗略表示。
  7. SUSA架构在多个VLN基准测试上的性能优于基线,并具有良好的泛化能力。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
MMT MMT
MMT 方向最新论文已更新,请持续关注 Update in 2025-11-17 HI-TransPA Hearing Impairments Translation Personal Assistant
2025-11-17
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-11-17 Prompt Tuning for Natural Language to SQL with Embedding Fine-Tuning and RAG
2025-11-17
  目录