⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-03-12 更新
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning
Authors:Xiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein
Large Language Models (LLMs) have shown impressive performance on existing medical question-answering benchmarks. This high performance makes it increasingly difficult to meaningfully evaluate and differentiate advanced methods. We present MedAgentsBench, a benchmark that focuses on challenging medical questions requiring multi-step clinical reasoning, diagnosis formulation, and treatment planning-scenarios where current models still struggle despite their strong performance on standard tests. Drawing from seven established medical datasets, our benchmark addresses three key limitations in existing evaluations: (1) the prevalence of straightforward questions where even base models achieve high performance, (2) inconsistent sampling and evaluation protocols across studies, and (3) lack of systematic analysis of the interplay between performance, cost, and inference time. Through experiments with various base models and reasoning methods, we demonstrate that the latest thinking models, DeepSeek R1 and OpenAI o3, exhibit exceptional performance in complex medical reasoning tasks. Additionally, advanced search-based agent methods offer promising performance-to-cost ratios compared to traditional approaches. Our analysis reveals substantial performance gaps between model families on complex questions and identifies optimal model selections for different computational constraints. Our benchmark and evaluation framework are publicly available at https://github.com/gersteinlab/medagents-benchmark.
大规模语言模型(LLMs)在现有的医疗问答基准测试中表现出了令人印象深刻的性能。这种高性能使得有意义地评估和区分先进方法变得越来越困难。我们推出了MedAgentsBench基准测试,它专注于具有挑战性的医疗问题,需要多步骤的临床推理、诊断制定和治疗规划方案,尽管当前模型在标准测试上的表现强劲,但在这些场景中仍然面临困难。我们从七个已建立的医疗数据集中汲取数据,基准测试解决了现有评估中的三个关键局限性:(1)简单问题普遍存在,即使基础模型也能取得良好的性能;(2)各研究之间的采样和评估协议不一致;(3)缺乏对性能、成本和推理时间之间相互作用的系统性分析。通过对各种基础模型和推理方法进行实验,我们证明了最新的思维模型,如DeepSeek R1和OpenAI o3,在复杂的医疗推理任务中表现出卓越的性能。此外,与传统方法相比,先进的基于搜索的代理方法提供了有前景的性能价格比。我们的分析揭示了不同模型家族在复杂问题上的性能差距,并针对不同计算约束条件确定了最佳模型选择。我们的基准测试和评估框架可在https://github.com/gersteinlab/medagents-benchmark上公开访问。
论文及项目相关链接
Summary
大型语言模型(LLMs)在现有的医疗问答基准测试中表现出卓越性能。然而,这导致难以对先进方法进行有意义地评估和区分。为此,我们提出了MedAgentsBench基准测试,它专注于挑战需要多步骤临床推理、诊断制定和治疗规划的医疗问题。该基准测试从七个已建立的医疗数据集中抽取数据,解决了现有评估中的三个关键局限性:一是简单问题过多,即使是基础模型也能实现高性能;二是研究间的采样和评估协议不一致;三是缺乏关于性能、成本和推理时间之间相互作用的系统性分析。通过一系列实验,我们证明了最新的思考模型DeepSeek R1和OpenAI o3在复杂的医疗推理任务中表现出卓越性能。此外,与传统方法相比,先进的基于搜索的代理方法提供了有前景的性能成本比。我们的分析揭示了不同模型家族在复杂问题上的性能差距,并针对不同计算约束确定了最佳模型选择。我们的基准测试和评估框架可在https://github.com/gersteinlab/medagents-benchmark访问。
Key Takeaways
- 大型语言模型(LLMs)在医疗问答方面表现出色,但现有评估方法难以区分不同模型的性能。
- MedAgentsBench基准测试旨在解决现有评估中的三个关键局限性:简单问题过多、采样和评估协议不一致以及缺乏性能、成本和推理时间的综合分析。
- 最新思考模型DeepSeek R1和OpenAI o3在复杂的医疗推理任务中表现突出。
- 与传统方法相比,先进的基于搜索的代理方法具有吸引力的性能成本比。
- 不同模型家族在复杂问题上的性能存在差距,需要根据计算约束选择合适的模型。
- MedAgentsBench提供了评估和比较模型的框架。
点此查看论文截图






Automated Movie Generation via Multi-Agent CoT Planning
Authors:Weijia Wu, Zeyu Zhu, Mike Zheng Shou
Existing long-form video generation frameworks lack automated planning, requiring manual input for storylines, scenes, cinematography, and character interactions, resulting in high costs and inefficiencies. To address these challenges, we present MovieAgent, an automated movie generation via multi-agent Chain of Thought (CoT) planning. MovieAgent offers two key advantages: 1) We firstly explore and define the paradigm of automated movie/long-video generation. Given a script and character bank, our MovieAgent can generates multi-scene, multi-shot long-form videos with a coherent narrative, while ensuring character consistency, synchronized subtitles, and stable audio throughout the film. 2) MovieAgent introduces a hierarchical CoT-based reasoning process to automatically structure scenes, camera settings, and cinematography, significantly reducing human effort. By employing multiple LLM agents to simulate the roles of a director, screenwriter, storyboard artist, and location manager, MovieAgent streamlines the production pipeline. Experiments demonstrate that MovieAgent achieves new state-of-the-art results in script faithfulness, character consistency, and narrative coherence. Our hierarchical framework takes a step forward and provides new insights into fully automated movie generation. The code and project website are available at: https://github.com/showlab/MovieAgent and https://weijiawu.github.io/MovieAgent.
现有长视频生成框架缺乏自动化规划,需要手动输入故事情节、场景、摄像和角色互动,导致成本高且效率低下。为解决这些挑战,我们推出了MovieAgent,一种通过多智能体思维链(CoT)规划实现电影自动化生成的方法。MovieAgent提供两个主要优势:
1)我们首次探索和定义了电影/长视频生成的自动化范式。给定剧本和角色库,我们的MovieAgent可以生成多场景、多镜头的长视频,具有连贯的叙事,同时确保角色一致性、字幕同步和电影全程稳定的音频。
论文及项目相关链接
PDF The code and project website are available at: https://github.com/showlab/MovieAgent and https://weijiawu.github.io/MovieAgent
Summary
MovieAgent实现多代理Chain of Thought(CoT)规划自动化电影生成,解决现有长视频生成框架缺乏自动化规划的问题。给定剧本和角色库,MovieAgent能生成具有连贯叙事的多场景、多镜头长视频,确保角色一致性、字幕同步和音频稳定。通过层次化的CoT推理过程自动构建场景、相机设置和电影制作,显著减少人力投入。
Key Takeaways
- MovieAgent使用多代理Chain of Thought(CoT)规划实现电影自动生成。
- 解决了现有长视频生成框架需要手动输入故事线、场景、摄影和角色互动的缺点。
- MovieAgent能生成具有连贯叙事的多场景、多镜头长视频,确保角色一致性、字幕同步和音频稳定。
- 通过层次化的CoT推理过程自动构建场景、相机设置和电影制作,降低人力成本。
- 采用多个大型语言模型(LLM)代理模拟导演、编剧、分镜师和场地经理的角色,优化生产流程。
- 实验证明,MovieAgent在剧本忠实度、角色一致性和叙事连贯性方面达到新的先进水平。
点此查看论文截图





DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science
Authors:Ziming You, Yumiao Zhang, Dexuan Xu, Yiwei Lou, Yandong Yan, Wei Wang, Huaming Zhang, Yu Huang
Data Science tasks are multifaceted, dynamic, and often domain-specific. Existing LLM-based approaches largely concentrate on isolated phases, neglecting the interdependent nature of many data science tasks and limiting their capacity for comprehensive end-to-end support. We propose DatawiseAgent, a notebook-centric LLM agent framework that unifies interactions among user, agent and the computational environment through markdown and executable code cells, supporting flexible and adaptive automated data science. Built on a Finite State Transducer(FST), DatawiseAgent orchestrates four stages, including DSF-like planning, incremental execution, self-debugging, and post-filtering. Specifically, the DFS-like planning stage systematically explores the solution space, while incremental execution harnesses real-time feedback and accommodates LLM’s limited capabilities to progressively complete tasks. The self-debugging and post-filtering modules further enhance reliability by diagnosing and correcting errors and pruning extraneous information. Extensive experiments on diverse tasks, including data analysis, visualization, and data modeling, show that DatawiseAgent consistently outperforms or matches state-of-the-art methods across multiple model settings. These results highlight its potential to generalize across data science scenarios and lay the groundwork for more efficient, fully automated workflows.
数据科学任务具有多面性、动态性,并且通常是特定领域的。现有的基于大型语言模型(LLM)的方法主要关注孤立的阶段,忽略了数据科学任务之间的相互依赖性,并限制了它们进行全面端到端支持的能力。我们提出了DatawiseAgent,这是一个以笔记本为中心的LLM代理框架,它通过markdown和可执行代码单元格统一了用户、代理和计算环境之间的交互,支持灵活和自适应的自动化数据科学。DatawiseAgent建立在有限状态转换器(FST)上,协调四个阶段,包括类似DSF的规划、增量执行、自我调试和后期过滤。具体来说,类似DFS的规划阶段系统地探索了解空间,而增量执行利用实时反馈并适应LLM的有限能力来逐步完成任务。自我调试和后期过滤模块通过诊断和纠正错误以及删除多余信息,进一步提高了可靠性。在包括数据分析、可视化和数据建模等多样化任务上的大量实验表明,DatawiseAgent在多个模型设置下始终优于或匹配最新方法。这些结果突显了其在数据科学场景中的通用潜力,并为更高效、更全自动化的工作流程奠定了基础。
论文及项目相关链接
Summary
数据科学任务具有多面性、动态性和领域特异性。现有基于大型语言模型(LLM)的方法主要关注孤立阶段,忽视数据科学任务间的相互依赖性,并限制其全面端到端支持能力。我们提出DatawiseAgent,一种以笔记本为中心的LLM代理框架,通过markdown和可执行代码单元格统一用户、代理和计算环境之间的交互,支持灵活和自适应的自动化数据科学。该框架基于有限状态转换器(FST),包含类似DSF的规划、增量执行、自我调试和后期过滤四个阶段。规划阶段系统地探索解决方案空间,增量执行阶段利用实时反馈并适应LLM的有限能力以逐步完成任务。自我调试和后期过滤模块进一步通过诊断和校正错误以及删除多余信息来提高可靠性。在包括数据分析、可视化和数据建模在内的各种任务上的广泛实验表明,DatawiseAgent在多种模型设置下始终优于或匹配最新方法,突显其在数据科学场景中的通用潜力,并为更高效、完全自动化的工作流程奠定基础。
Key Takeaways
- 数据科学任务具有多面性、动态性和领域特异性。
- 现有LLM方法主要关注孤立阶段,缺乏全面端到端的支持。
- DatawiseAgent是一个以笔记本为中心的LLM代理框架,支持灵活和自适应的自动化数据科学。
- DatawiseAgent通过四个阶段实现功能:类似DSF的规划、增量执行、自我调试和后期过滤。
- 规划阶段系统地探索解决方案空间。
- 增量执行阶段利用实时反馈并适应LLM的有限能力逐步完成任务。
- 自我调试和后期过滤模块提高了可靠性,通过诊断和校正错误以及删除多余信息。
点此查看论文截图



Can Proof Assistants Verify Multi-Agent Systems?
Authors:Julian Alfredo Mendez, Timotheus Kampik
This paper presents the Soda language for verifying multi-agent systems. Soda is a high-level functional and object-oriented language that supports the compilation of its code not only to Scala, a strongly statically typed high-level programming language, but also to Lean, a proof assistant and programming language. Given these capabilities, Soda can implement multi-agent systems, or parts thereof, that can then be integrated into a mainstream software ecosystem on the one hand and formally verified with state-of-the-art tools on the other hand. We provide a brief and informal introduction to Soda and the aforementioned interoperability capabilities, as well as a simple demonstration of how interaction protocols can be designed and verified with Soda. In the course of the demonstration, we highlight challenges with respect to real-world applicability.
本文介绍了用于验证多智能体系统的Soda语言。Soda是一种高级函数和面向对象的语言,它支持其代码不仅编译为Scala(一种强静态类型高级编程语言),还编译为Lean(一种证明助理和编程语言)。基于这些功能,Soda可以实现多智能体系统或其部分,一方面可以将其集成到主流软件生态系统中,另一方面可以运用最新的工具对其进行形式化验证。我们对Soda及其上述互操作功能进行了简短的非正式介绍,并简单演示了如何使用Soda设计和验证交互协议。在演示过程中,我们强调了实际应用所面临的挑战。
论文及项目相关链接
Summary
Soda语言用于验证多代理系统,是一门高级功能性和面向对象的语言。它可以编译为Scala和Lean两种语言,实现多代理系统或其部分的实现,并可以集成到主流软件生态系统中,同时使用最新工具进行形式化验证。本文简要介绍了Soda及其与两种语言的互通性能力,并通过简单的演示展示了如何使用Soda设计和验证交互协议,同时强调了其在现实世界应用中的挑战。
Key Takeaways
- Soda是一种用于验证多代理系统的高级功能性和面向对象的语言。
- Soda可以将代码编译为Scala和Lean两种语言。
- Soda可以实现多代理系统或其部分,并集成到主流软件生态系统中。
- Soda可以使用最新工具进行形式化验证。
- 本文提供了Soda与两种语言的互通性能力的简要介绍。
- 演示展示了如何使用Soda设计和验证交互协议。
点此查看论文截图

AutoMisty: A Multi-Agent LLM Framework for Automated Code Generation in the Misty Social Robot
Authors:Xiao Wang, Lu Dong, Sahana Rangasrinivasan, Ifeoma Nwogu, Srirangaraj Setlur, Venugopal Govindaraju
The social robot’s open API allows users to customize open-domain interactions. However, it remains inaccessible to those without programming experience. In this work, we introduce AutoMisty, the first multi-agent collaboration framework powered by large language models (LLMs), to enable the seamless generation of executable Misty robot code from natural language instructions. AutoMisty incorporates four specialized agent modules to manage task decomposition, assignment, problem-solving, and result synthesis. Each agent incorporates a two-layer optimization mechanism, with self-reflection for iterative refinement and human-in-the-loop for better alignment with user preferences. AutoMisty ensures a transparent reasoning process, allowing users to iteratively refine tasks through natural language feedback for precise execution. To evaluate AutoMisty’s effectiveness, we designed a benchmark task set spanning four levels of complexity and conducted experiments in a real Misty robot environment. Extensive evaluations demonstrate that AutoMisty not only consistently generates high-quality code but also enables precise code control, significantly outperforming direct reasoning with ChatGPT-4o and ChatGPT-o1. All code, optimized APIs, and experimental videos will be publicly released through the webpage: https://wangxiaoshawn.github.io/AutoMisty.html
社交机器人的开放API允许用户进行开放领域的交互定制。然而,对于没有编程经验的人来说,这一功能仍然无法访问。在这项工作中,我们引入了AutoMisty,这是一个由大型语言模型(LLM)驱动的多智能体协作框架,能够直接从自然语言指令无缝生成可执行的Misty机器人代码。AutoMisty集成了四个专业智能体模块,负责管理任务分解、分配、问题解决和结果合成。每个智能体都采用了两层优化机制,通过自我反思进行迭代优化,并结合人工参与以更好地符合用户偏好。AutoMisty确保了一个透明的推理过程,允许用户通过自然语言反馈来迭代优化任务,以实现精确执行。为了评估AutoMisty的有效性,我们设计了一套跨越四个难度级别的基准任务集,并在真实的Misty机器人环境中进行了实验。广泛评估表明,AutoMisty不仅持续生成高质量代码,而且能够实现精确的代码控制,显著优于直接使用ChatGPT-4o和ChatGPT-o1进行推理。所有代码、优化API和实验视频将通过网页公开发布:https://wangxiaoshawn.github.io/AutoMisty.html
论文及项目相关链接
Summary
基于社交机器人的开放API,用户可自定义开放域交互,但对无编程经验者仍不可行。本研究引入AutoMisty,首个由大型语言模型驱动的多智能体协作框架,可从自然语言指令无缝生成可执行机器人代码。AutoMisty包含四个专门智能体模块,负责任务分解、分配、问题解决和结果合成。每个智能体采用两层优化机制,通过自我反思进行迭代优化,并结合人类反馈提高与用户偏好的对齐。AutoMisty确保透明推理过程,允许用户通过自然语言反馈进行任务迭代细化,以实现精确执行。我们在真实机器人环境中进行实验评估,证明AutoMisty不仅持续生成高质量代码,而且实现了精确的代码控制,优于直接推理。所有代码、优化API和实验视频将通过网页公开发布:https://wangxiaoshawn.github.io/AutoMisty.html。
Key Takeaways
- 社交机器人开放API允许用户自定义开放域交互,但编程经验不足的用户难以使用。
- AutoMisty框架引入多智能体协作,利用大型语言模型实现自然语言指令到机器人代码的无缝生成。
- AutoMisty包含四个智能体模块负责任务分解、分配、问题解决和结果合成。
- 每个智能体采用两层优化机制,包括自我反思迭代优化和结合人类反馈提高与用户偏好对齐。
- AutoMisty确保透明推理过程,允许用户通过自然语言反馈细化任务。
- 在真实机器人环境中的实验评估表明,AutoMisty生成的代码质量高且能实现精确的代码控制。
点此查看论文截图






Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent
Authors:Xingzuo Li, Kehai Chen, Yunfei Long, Xuefeng Bai, Yong Xu, Min Zhang
Large language model (LLM) agents typically adopt a step-by-step reasoning framework, in which they interleave the processes of thinking and acting to accomplish the given task. However, this paradigm faces a deep-rooted one-pass issue whereby each generated intermediate thought is plugged into the trajectory regardless of its correctness, which can cause irreversible error propagation. To address the issue, this paper proposes a novel framework called Generator-Assistant Stepwise Rollback (GA-Rollback) to induce better decision-making for LLM agents. Particularly, GA-Rollback utilizes a generator to interact with the environment and an assistant to examine each action produced by the generator, where the assistant triggers a rollback operation upon detection of incorrect actions. Moreover, we introduce two additional strategies tailored for the rollback scenario to further improve its effectiveness. Extensive experiments show that GA-Rollback achieves significant improvements over several strong baselines on three widely used benchmarks. Our analysis further reveals that GA-Rollback can function as a robust plug-and-play module, integrating seamlessly with other methods.
大型语言模型(LLM)代理通常采用逐步推理框架,在该框架中,它们将思考和行动过程交织在一起,以完成给定的任务。然而,这种范式面临一个根深蒂固的一次性通过问题,即无论中间产生的想法是否正确,都会将其插入到轨迹中,这可能导致不可逆的错误传播。为了解决这一问题,本文提出了一种名为生成器辅助逐步回滚(GA-Rollback)的新型框架,以引导LLM代理做出更好的决策。特别是,GA-Rollback利用生成器与环境进行交互,并利用助理检查生成器产生的每个动作,当检测到不正确的动作时,助理会触发回滚操作。此外,我们还引入了两种针对回滚场景的其他策略,以进一步提高其有效性。大量实验表明,在三个广泛使用的基准测试中,GA-Rollback相对于几个强大的基线取得了显著改进。我们的分析还表明,GA-Rollback可以作为一个强大的即插即用模块,能够无缝地与其他方法集成。
论文及项目相关链接
Summary
大型语言模型(LLM)代理通常采用逐步推理框架执行任务,但存在一次性问题,可能导致错误传播。本文提出了一种名为Generator-Assistant Stepwise Rollback(GA-Rollback)的新框架,以更好地进行决策。GA-Rollback利用生成器与环境进行交互,并利用助理检查生成器的每个动作。一旦发现错误动作,助理将触发回滚操作。此外,还引入两种针对回滚场景的策略来提高其有效性。实验表明,GA-Rollback在广泛使用的三个基准测试上优于多个强大的基线模型。分析表明,GA-Rollback可以作为一个强大的即插即用模块与其他方法无缝集成。
Key Takeaways
- 大型语言模型(LLM)代理在执行任务时通常采用逐步推理框架。
- 存在一种名为“一次性问题”的深层问题,可能导致错误传播。
- GA-Rollback框架旨在解决这一问题,包括生成器与环境的交互以及助理的功能来检查每个动作。
- 当检测到错误的动作时,GA-Rollback会触发回滚操作以纠正错误。
- 引入两种针对回滚场景的策略以提高其有效性。
- 实验表明,GA-Rollback在多个基准测试上优于其他强大的模型。
点此查看论文截图




RAG-Enhanced Collaborative LLM Agents for Drug Discovery
Authors:Namkyeong Lee, Edward De Brouwer, Ehsan Hajiramezanali, Tommaso Biancalani, Chanyoung Park, Gabriele Scalia
Recent advances in large language models (LLMs) have shown great potential to accelerate drug discovery. However, the specialized nature of biochemical data often necessitates costly domain-specific fine-tuning, posing critical challenges. First, it hinders the application of more flexible general-purpose LLMs in cutting-edge drug discovery tasks. More importantly, it impedes the rapid integration of the vast amounts of scientific data continuously generated through experiments and research. To investigate these challenges, we propose CLADD, a retrieval-augmented generation (RAG)-empowered agentic system tailored to drug discovery tasks. Through the collaboration of multiple LLM agents, CLADD dynamically retrieves information from biomedical knowledge bases, contextualizes query molecules, and integrates relevant evidence to generate responses – all without the need for domain-specific fine-tuning. Crucially, we tackle key obstacles in applying RAG workflows to biochemical data, including data heterogeneity, ambiguity, and multi-source integration. We demonstrate the flexibility and effectiveness of this framework across a variety of drug discovery tasks, showing that it outperforms general-purpose and domain-specific LLMs as well as traditional deep learning approaches.
最近的大型语言模型(LLM)的进步显示出加速药物发现的巨大潜力。然而,生化数据的特殊性通常需要进行昂贵的特定领域微调,这带来了重大挑战。首先,它阻碍了更灵活的通用LLM在前沿药物发现任务中的应用。更重要的是,它阻碍了通过试验和研究连续生成的大量科学数据的快速整合。为了研究这些挑战,我们提出了CLADD,这是一个用于药物发现任务的检索增强生成(RAG)赋能的代理系统。通过多个LLM代理的协作,CLADD能够动态地从生物医学知识库中检索信息,对查询分子进行语境化,并整合相关证据以生成响应,而无需特定的领域微调。最重要的是,我们解决了将RAG工作流程应用于生化数据的关键障碍,包括数据异质性、模糊性和多源集成。我们在各种药物发现任务中展示了该框架的灵活性和有效性,表明其在通用和特定领域的LLM以及传统的深度学习方法上表现出更高的性能。
论文及项目相关链接
PDF Machine Learning, Drug Discovery
Summary
大规模语言模型(LLMs)在加速药物发现方面具有巨大潜力,但生化数据的特殊性需要昂贵的特定领域微调,带来挑战。我们提出CLADD系统,一个用于药物发现任务的检索增强生成(RAG)赋能代理系统,无需特定领域微调,即可通过多个LLM代理协作,从生物医学知识库中动态检索信息、上下文化查询分子并整合相关证据以生成响应。我们解决了将RAG工作流程应用于生化数据的关键障碍,并在多种药物发现任务中展示了该框架的灵活性和有效性。
Key Takeaways
- 大规模语言模型在药物发现中具有巨大潜力。
- 生化数据的特殊性需要特定领域微调,增加了成本和挑战。
- CLADD系统是一个用于药物发现任务的RAG赋能代理系统。
- CLADD通过多个LLM代理协作,无需特定领域微调。
- CLADD能从生物医学知识库中动态检索信息,并整合相关证据生成响应。
- CLADD解决了将RAG工作流程应用于生化数据的关键障碍。
点此查看论文截图



Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration
Authors:Shao Zhang, Xihuai Wang, Wenhao Zhang, Chaoran Li, Junru Song, Tingyu Li, Lin Qiu, Xuezhi Cao, Xunliang Cai, Wen Yao, Weinan Zhang, Xinbing Wang, Ying Wen
Agents built on large language models (LLMs) have excelled in turn-by-turn human-AI collaboration but struggle with simultaneous tasks requiring real-time interaction. Latency issues and the challenge of inferring variable human strategies hinder their ability to make autonomous decisions without explicit instructions. Through experiments with current independent System 1 and System 2 methods, we validate the necessity of using Dual Process Theory (DPT) in real-time tasks. We propose DPT-Agent, a novel language agent framework that integrates System 1 and System 2 for efficient real-time simultaneous human-AI collaboration. DPT-Agent’s System 1 uses a Finite-state Machine (FSM) and code-as-policy for fast, intuitive, and controllable decision-making. DPT-Agent’s System 2 integrates Theory of Mind (ToM) and asynchronous reflection to infer human intentions and perform reasoning-based autonomous decisions. We demonstrate the effectiveness of DPT-Agent through further experiments with rule-based agents and human collaborators, showing significant improvements over mainstream LLM-based frameworks. DPT-Agent can effectively help LLMs convert correct slow thinking and reasoning into executable actions, thereby improving performance. To the best of our knowledge, DPT-Agent is the first language agent framework that achieves successful real-time simultaneous human-AI collaboration autonomously. Code of DPT-Agent can be found in https://github.com/sjtu-marl/DPT-Agent.
基于大型语言模型(LLM)的代理人在逐轮的人机协作中表现出色,但在需要实时交互的同时任务中遇到了困难。延迟问题和推断可变人类策略的挑战影响了它们在没有明确指令的情况下进行自主决策的能力。通过当前独立的System 1和System 2方法的实验,我们验证了在实时任务中使用双过程理论(DPT)的必要性。我们提出了DPT-Agent,这是一种新型的语言代理框架,它整合了System 1和System 2,以实现高效实时的同时人机协作。DPT-Agent的System 1使用有限状态机(FSM)和代码即策略来进行快速、直观和可控的决策。DPT-Agent的System 2结合了心智理论(ToM)和异步反射来推断人类意图并进行基于推理的自主决策。我们通过与基于规则的代理和人类合作者进一步实验,证明了DPT-Agent的有效性,显示出在主流LLM框架上有显著改进。DPT-Agent可以有效地帮助LLM将正确的慢思考和推理转化为可执行行动,从而提高性能。据我们所知,DPT-Agent是第一个成功实现实时同步人机协作的自主语言代理框架。DPT-Agent的代码可在https://github.com/sjtu-marl/DPT-Agent找到。
论文及项目相关链接
PDF Preprint under review. Update the experimental results of the DeepSeek-R1 series models, QwQ-32b, o3-mini-high and o3-mini-medium
摘要
基于大型语言模型(LLM)的代理在逐步的人类-人工智能协作中表现出色,但在需要实时交互的同时任务中表现挣扎。延迟问题和推断可变人类策略的挑战限制了其在没有明确指令的情况下做出自主决策的能力。通过当前独立的System 1和System 2方法的实验验证,我们认识到在实时任务中应用双过程理论(DPT)的必要性。我们提出一种新型的语言代理框架DPT-Agent,它整合了System 1和System 2,以实现高效实时的同时人类-人工智能协作。DPT-Agent的System 1使用有限状态机(FSM)和代码即策略,以快速、直观和可控的方式进行决策。而System 2则融入了心智理论(ToM)和异步反射,以推断人类意图并进行基于推理的自主决策。我们通过与基于规则的代理和人类合作者进一步实验证明了DPT-Agent的有效性,显示其在主流LLM框架上有显著改进。DPT-Agent能有效帮助LLM将正确的慢思考和推理转化为可执行动作,从而提高性能。据我们所知,DPT-Agent是首个实现实时同步人类-人工智能协作的自主语言代理框架。有关DPT-Agent的代码可在https://github.com/sjtu-marl/DPT-Agent找到。
关键见解
- 基于大型语言模型的代理在实时交互任务中存在挑战,如延迟和推断可变人类策略的问题。
- 双过程理论(DPT)对于实现实时任务中的自主决策至关重要。
- DPT-Agent是一个新型语言代理框架,融合了System 1和System 2以实现高效实时人类-人工智能协作。
- DPT-Agent的System 1使用有限状态机和代码即策略进行快速决策。
- DPT-Agent的System 2能够推断人类意图并进行基于推理的自主决策,通过心智理论和异步反射实现。
- 实验表明,DPT-Agent在主流的大型语言模型框架上实现了显著的性能改进。
点此查看论文截图




TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents
Authors:Geon Lee, Wenchao Yu, Kijung Shin, Wei Cheng, Haifeng Chen
Time series data is essential in various applications, including climate modeling, healthcare monitoring, and financial analytics. Understanding the contextual information associated with real-world time series data is often essential for accurate and reliable event predictions. In this paper, we introduce TimeCAP, a time-series processing framework that creatively employs Large Language Models (LLMs) as contextualizers of time series data, extending their typical usage as predictors. TimeCAP incorporates two independent LLM agents: one generates a textual summary capturing the context of the time series, while the other uses this enriched summary to make more informed predictions. In addition, TimeCAP employs a multi-modal encoder that synergizes with the LLM agents, enhancing predictive performance through mutual augmentation of inputs with in-context examples. Experimental results on real-world datasets demonstrate that TimeCAP outperforms state-of-the-art methods for time series event prediction, including those utilizing LLMs as predictors, achieving an average improvement of 28.75% in F1 score.
时间序列数据在各种应用中至关重要,包括气候建模、健康监测和财务分析。理解现实世界时间序列数据相关的上下文信息对于准确可靠的事件预测通常至关重要。在本文中,我们介绍了TimeCAP,这是一个时间序列处理框架,创造性地利用大型语言模型(LLM)作为时间序列数据的语境化工具,扩展了其作为预测器的典型用途。TimeCAP集成了两个独立的大型语言模型代理:一个生成文本摘要,捕捉时间序列的上下文,另一个则利用这个丰富的摘要做出更有根据的预测。此外,TimeCAP采用多模态编码器,与大型语言模型代理协同工作,通过相互增强输入和上下文实例,提高预测性能。在真实数据集上的实验结果表明,TimeCAP在事件预测方面优于最新时间序列预测方法,包括使用大型语言模型作为预测器的方法,在F1分数上平均提高了28.75%。
论文及项目相关链接
PDF AAAI 2025
Summary
时间序列数据在气候建模、健康监测和金融分析等多个领域都有广泛应用。理解真实世界时间序列数据相关的上下文信息对于准确可靠的事件预测至关重要。本文介绍了一个时间序列处理框架TimeCAP,它创造性地利用大型语言模型(LLM)作为时间序列数据的上下文解析器,扩展了它们作为预测器的典型用途。TimeCAP包含两个独立的LLM代理,一个生成捕获时间序列上下文的文本摘要,另一个使用这个丰富的摘要来做出更明智的预测。此外,TimeCAP还采用多模式编码器,与LLM代理协同工作,通过上下文示例的输入互增,提高预测性能。在真实数据集上的实验结果表明,TimeCAP在事件预测方面优于现有技术方法,包括使用LLM作为预测器的方法,在F1分数上平均提高了28.75%。
Key Takeaways
- 时间序列数据在多个领域有广泛应用,包括气候建模、健康监测和金融分析等。
- 理解时间序列数据的上下文信息对准确预测事件至关重要。
- TimeCAP是一个基于大型语言模型(LLM)的时间序列处理框架,用于解析时间序列数据的上下文信息。
- TimeCAP包含两个独立的LLM代理,一个生成文本摘要,另一个基于该摘要进行预测。
- TimeCAP采用多模式编码器,与LLM代理协同工作,提高预测性能。
- TimeCAP在真实数据集上的实验结果表明其优于现有技术方法,包括使用LLM作为预测器的方法。
点此查看论文截图





SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents
Authors:Sheng Yin, Xianghe Pang, Yuanzhuo Ding, Menglan Chen, Yutong Bi, Yichen Xiong, Wenhao Huang, Zhen Xiang, Jing Shao, Siheng Chen
With the integration of large language models (LLMs), embodied agents have strong capabilities to understand and plan complicated natural language instructions. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in the real world. Existing benchmarks predominantly overlook critical safety risks, focusing solely on planning performance, while a few evaluate LLMs’ safety awareness only on non-interactive image-text data. To address this gap, we present SafeAgentBench-the first benchmark for safety-aware task planning of embodied LLM agents in interactive simulation environments. SafeAgentBench includes: (1) an executable, diverse, and high-quality dataset of 750 tasks, rigorously curated to cover 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 8 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that, although agents based on different design frameworks exhibit substantial differences in task success rates, their overall safety awareness remains weak. The most safety-conscious baseline achieves only a 10% rejection rate for detailed hazardous tasks. Moreover, simply replacing the LLM driving the agent does not lead to notable improvements in safety awareness. More details and code are available at https://github.com/shengyin1224/SafeAgentBench.
随着大型语言模型(LLM)的集成,实体代理具有强大的理解和规划复杂自然语言指令的能力。然而,一个可预见的问题是他们也能完美执行一些危险任务,可能在现实世界中造成损害。现有的基准测试主要忽视了关键的安全风险,只专注于规划性能,而少数测试只在非交互式的图像文本数据上评估LLM的安全意识。为了弥补这一空白,我们推出了SafeAgentBench——首个用于交互式模拟环境中实体LLM代理的安全意识任务规划的基准测试。SafeAgentBench包括:(1)750个可执行、多样化、高质量的任务数据集,经过严格筛选,涵盖10种潜在危险和3种任务类型;(2)SafeAgentEnv,一个通用实体环境,具有低级控制器,支持多代理执行,具有17个高级动作,适用于8种最新基线;(3)从执行和语义两个方面的可靠评估方法。实验结果表明,虽然基于不同设计框架的代理在任务成功率方面存在显著差异,但他们的整体安全意识仍然薄弱。最具有安全意识的基线只对详细的危险任务实现了10%的拒绝率。此外,仅仅更换驱动代理的LLM并不会导致安全意识显著提高。更多细节和代码请访问:https://github.com/shengyin1224/SafeAgentBench。
论文及项目相关链接
PDF 23 pages, 17 tables, 14 figures
Summary
本文介绍了一个名为SafeAgentBench的新基准测试,该测试旨在评估大型语言模型驱动的智能实体代理在交互式模拟环境中的安全感知任务规划能力。SafeAgentBench包括一个多样化的高质量数据集,一个通用的智能实体环境,以及从执行和语义两个角度的可靠评估方法。实验结果显示,虽然不同设计框架的代理在任务成功率上有显著差异,但它们在整体安全感知方面仍存在较大不足。最注重安全的基线仅实现了对危险任务的10%拒绝率,简单地更换驱动代理的大型语言模型并不能显著提高安全感知能力。
Key Takeaways
- SafeAgentBench是首个针对智能实体代理的安全感知任务规划能力的基准测试。
- 该基准测试包括一个多样化的高质量数据集,涵盖10种潜在危险和3种任务类型。
- SafeAgentBench提供了一个通用的智能实体环境,支持多代理执行,并具有从执行和语义两个角度的可靠评估方法。
- 实验结果显示智能实体代理在整体安全感知方面存在不足。
- 不同设计框架的代理在任务成功率上有显著差异。
- 最注重安全的基线仅实现了对危险任务的较低拒绝率。
点此查看论文截图





EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms
Authors:Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Dongsheng Li, Deqing Yang
The rise of powerful large language models (LLMs) has spurred a new trend in building LLM-based autonomous agents for solving complex tasks, especially multi-agent systems. Despite the remarkable progress, we notice that existing works are heavily dependent on human-designed frameworks, which greatly limits the functional scope and scalability of agent systems. How to automatically extend the specialized agent to multi-agent systems to improve task-solving capability still remains a significant challenge. In this paper, we introduce EvoAgent, a generic method to automatically extend specialized agents to multi-agent systems via the evolutionary algorithm, thereby improving the effectiveness of LLM-based agents in solving tasks. Specifically, we consider the existing agent frameworks as the initial individual and then apply a series of evolutionary operators (e.g., mutation, crossover, selection, etc.) to generate multiple agents with diverse settings. Experimental results across various tasks show that EvoAgent can significantly enhance the task-solving capability of LLM-based agents, and can be generalized to any LLM-based agent framework to extend them into multi-agent systems. Resources are available at https://evo-agent.github.io/.
随着强大的大型语言模型(LLM)的兴起,基于LLM构建自主代理来解决复杂任务,尤其是多代理系统,已经成为了一种新的趋势。尽管取得了显著的进步,但我们注意到现有工作严重依赖于人工设计的框架,这极大地限制了代理系统的功能范围和可扩展性。如何将专用代理自动扩展到多代理系统以提高任务解决能力仍然是一个巨大的挑战。在本文中,我们介绍了EvoAgent,这是一种通过进化算法将专用代理自动扩展到多代理系统的通用方法,从而提高了基于LLM的代理在完成任务方面的有效性。具体来说,我们将现有的代理框架视为初始个体,然后应用一系列进化算子(例如变异、交叉、选择等)来生成具有不同设置的多个代理。跨越各种任务的实验结果表明,EvoAgent可以显著提高基于LLM的代理的任务解决能力,并且可以推广到其他任何基于LLM的代理框架中,将它们扩展到多代理系统。相关资源可在https://evo-agent.github.io/找到。
论文及项目相关链接
PDF Accepted as a main conference paper at NAACL 2025
Summary
基于大型语言模型(LLM)的自主代理的发展为解决复杂任务提供了新的趋势,特别是在多代理系统方面。然而,现有工作大多依赖于人工设计的框架,限制了代理系统的功能范围和可扩展性。本文提出EvoAgent方法,通过进化算法自动将专用代理扩展到多代理系统,从而提高LLM基代理的任务解决能力。实验结果表明,EvoAgent能显著提高LLM基代理的任务解决能力,并可推广至任何LLM基代理框架,将其扩展为多代理系统。
Key Takeaways
- 大型语言模型(LLM)的崛起为构建自主代理提供了新趋势,特别是在解决复杂任务和多代理系统方面。
- 现有代理系统大多依赖于人工设计框架,这限制了它们的功能和可扩展性。
- EvoAgent是一种通过将专用代理自动扩展到多代理系统的方法,以提高基于LLM的代理的任务解决能力。
- EvoAgent使用进化算法,将现有代理框架视为初始个体,并通过一系列进化算子(如变异、交叉、选择等)生成多个具有不同设置的代理。
- 实验结果表明,EvoAgent在多种任务上显著提高了基于LLM的代理的任务解决能力。
- EvoAgent可以推广至任何LLM基代理框架,实现多代理系统的扩展。
点此查看论文截图




Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents
Authors:Seyed A. Esmaeili, Suho Shin, Aleksandrs Slivkins
Motivated by applications such as online labor markets we consider a variant of the stochastic multi-armed bandit problem where we have a collection of arms representing strategic agents with different performance characteristics. The platform (principal) chooses an agent in each round to complete a task. Unlike the standard setting, when an arm is pulled it can modify its reward by absorbing it or improving it at the expense of a higher cost. The principle has to solve a mechanism design problem to incentivize the arms to give their best performance. However, since even with an effective mechanism agents may still deviate from rational behavior, the principal wants a robust algorithm that also gives a non-vacuous guarantee on the total accumulated rewards under non-equilibrium behavior. In this paper, we introduce a class of bandit algorithms that meet the two objectives of performance incentivization and robustness simultaneously. We do this by identifying a collection of intuitive properties that a bandit algorithm has to satisfy to achieve these objectives. Finally, we show that settings where the principal has no information about the arms’ performance characteristics can be handled by combining ideas from second price auctions with our algorithms.
受在线劳动市场等应用驱动的启发,我们考虑随机多臂老虎机问题的一个变体。在这个变体中,我们有一组代表具有不同性能特征的策略性代理的“手臂”。平台(委托人)每轮都会选择一个代理来完成任务。与标准设置不同,当拉动一个“手臂”时,它可以通过吸收或提高奖励来改进其奖励,但这需要以更高的成本为代价。委托人需要解决一个机制设计问题,以激励“手臂”发挥最佳性能。然而,由于即使有了有效的机制,代理人仍可能偏离理性行为,委托人需要一个稳健的算法,该算法在非均衡行为下也能提供非空的总体累积奖励保证。在本文中,我们介绍了一类满足激励性能和稳健性两个目标的强盗算法。我们通过识别一系列直观属性来实现这一点,这些属性是强盗算法必须满足的以实现这些目标。最后,我们展示了当委托人没有任何关于手臂性能特征的信息时,可以通过将第二价格拍卖的想法与我们的算法相结合来处理这种情况。
论文及项目相关链接
总结
在在线劳动市场等应用背景下,考虑了一种随机多臂赌博问题的变体。平台(委托人)每轮选择一个代理人完成任务。不同于标准设置,当拉动一个手臂时,它可以通过吸收或提高奖励来改善其表现,但需要付出更高的成本。委托人需要解决机制设计问题,以激励手臂发挥最佳性能。然而,即使有有效的机制,代理人仍可能偏离理性行为,因此委托人需要一个既满足性能激励要求又具有对非均衡行为下的总累积奖励的非真空保证的稳健算法。本文引入了一类赌博算法,可以同时实现性能激励和稳健性的目标。我们通过识别一系列直觉属性来实现这一点,这些属性必须被满足以达到这些目标。最后,我们展示了当委托人无法了解手臂的性能特征时,可以通过将第二价格拍卖的理念与我们的算法相结合来应对挑战。
要点分析
- 考虑在线劳动市场背景下的随机多臂赌博问题变体。
- 平台(委托人)每轮选择代理人完成任务,代理人可调整其奖励以提高表现的成本不同。
- 需要解决机制设计问题来激励手臂的最佳表现,并解决代理人在非均衡情况下的偏离问题。
- 引入同时实现性能激励和稳健性的赌博算法类。
- 算法满足直观属性以达到激励和稳健目标。
- 当委托人没有关于手臂性能特征的信息时,可以通过结合第二价格拍卖的理念来应对挑战。这是一个有效的策略来激发战略性行为的有效表现和鼓励参与者在未知环境中的自我提升等行为的考虑融入在线劳务市场中实施和优化自动化策略的动态模拟分析中作为新领域的发展讨论和未来趋势的分析具有重要的应用前景并启示我们从多维度的角度来综合考虑和设计更高效稳定的智能任务分配和自动化管理机制来实现理论研究成果在实践中的应用与突破促进人工智能技术的高速发展与变革解决了当代挑战如制定稳定激励机制如何动态反应分配者现有能力与利用机制的可靠稳健决策策略实现大规模智能化应用的突破点在此我们认识到高效可靠稳定的算法对构建公正可持续智能任务市场的重要性并在实践中通过实施监控调整改进以及实践验证其应用的有效性和稳定性为未来的人工智能应用奠定基础贡献了新的解决方案以推动相关行业的创新发展回应问题和质疑与解答用户对该研究的见解和分析呈现的研究意义和展望具有重要应用价值促进了对未知领域更深层次的探讨并可能激发未来的深入研究从而不断推动科技领域的前进发展开启新篇章基于提供的这些见解我们将对原始研究提出新的问题并进一步研究未来的发展方向和创新可能性为该领域的未来贡献新的观点和见解促进理论的突破和实践的应用作为对于研究的思考和启发面向未来发展提供了一种深入的理解和实施方案的灵感以期在该领域发挥积极的作用解决面临的各种问题和挑战回应评论进一步探究实施效果和相关解决方案以提高服务质量为未来应用的推进注入新的活力和方向展示技术的价值优势对于相关研究具有重要价值可能开辟新研究路径未来相关领域发展方向的深度分析在未来实践应用中将会展现出强大的应用前景助力科技发展引领未来的研究和探索具有重要意义
点此查看论文截图


