嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2024-12-21 更新

Operationalising Rawlsian Ethics for Fairness in Norm-Learning Agents

Authors:Jessica Woodgate, Paul Marshall, Nirav Ajmeri

Social norms are standards of behaviour common in a society. However, when agents make decisions without considering how others are impacted, norms can emerge that lead to the subjugation of certain agents. We present RAWL-E, a method to create ethical norm-learning agents. RAWL-E agents operationalise maximin, a fairness principle from Rawlsian ethics, in their decision-making processes to promote ethical norms by balancing societal well-being with individual goals. We evaluate RAWL-E agents in simulated harvesting scenarios. We find that norms emerging in RAWL-E agent societies enhance social welfare, fairness, and robustness, and yield higher minimum experience compared to those that emerge in agent societies that do not implement Rawlsian ethics.

社会规范是社会中普遍的行为标准。然而,当决策者不考虑他人所受的影响时,可能会出现导致某些代理人受压迫的规范。我们提出了RAWL-E方法,用于创建遵循道德规范的智能体。RAWL-E智能体在执行决策时实施来自罗尔斯正义论的公平原则最大化原则,通过平衡社会福祉与个人目标来促进道德规范。我们在模拟的采集场景中评估RAWL-E智能体。我们发现,在RAWL-E智能体社会中出现的规范增强了社会福祉、公平性和稳健性,与不在实施罗尔斯伦理学的智能体社会中出现的规范相比,产生了更高的最低体验。

论文及项目相关链接

PDF 14 pages, 7 figures, 8 tables (and supplementary material with reproducibility and additional results), accepted at AAAI 2025

Summary
社会规范是一社会中普遍的行为标准。然而,当代理人做决策时若没有考虑他人的影响,可能会产生导致某些代理人被奴役的规范。我们提出了RAWL-E方法,用于创建遵循道德规范的智能体。RAWL-E智能体在决策过程中运用罗尔斯式公平原则——最大化原则,在兼顾社会福祉和个人目标的基础上推动道德规范的发展。我们在模拟的收割场景中评估了RAWL-E智能体的表现。我们发现,在RAWL-E智能体社会中形成的规范提高了社会福利、公平性和稳健性,与那些在不实施罗尔斯伦理的智能体社会中出现的规范相比,产生了更高的最低体验。

Key Takeaways

  1. 社会规范是特定社会中的行为标准。
  2. 当代理人做决策时未考虑他人影响,可能出现对部分代理人不利的规范。
  3. RAWL-E方法用于创建遵循道德规范的智能体。
  4. RAWL-E智能体在决策时运用罗尔斯式公平原则。
  5. RAWL-E智能体在模拟场景中表现优越,形成的规范提高了社会福利、公平性和稳健性。
  6. 与其他智能体社会相比,RAWL-E智能体社会中出现的规范产生了更高的最低体验。

Cool Papers

点此查看论文截图

Bel Esprit: Multi-Agent Framework for Building AI Model Pipelines

Authors:Yunsu Kim, AhmedElmogtaba Abdelaziz, Thiago Castro Ferreira, Mohamed Al-Badrashiny, Hassan Sawaf

As the demand for artificial intelligence (AI) grows to address complex real-world tasks, single models are often insufficient, requiring the integration of multiple models into pipelines. This paper introduces Bel Esprit, a conversational agent designed to construct AI model pipelines based on user-defined requirements. Bel Esprit employs a multi-agent framework where subagents collaborate to clarify requirements, build, validate, and populate pipelines with appropriate models. We demonstrate the effectiveness of this framework in generating pipelines from ambiguous user queries, using both human-curated and synthetic data. A detailed error analysis highlights ongoing challenges in pipeline construction. Bel Esprit is available for a free trial at https://belesprit.aixplain.com.

随着对人工智能(AI)的需求不断增长以解决复杂的现实世界任务,单一模型往往不足以应对,需要多个模型的集成到管道中。本文介绍了Bel Esprit,这是一个对话代理,旨在根据用户定义的要求构建AI模型管道。Bel Esprit采用多代理框架,子代理协同工作以明确需求、构建、验证和用适当的模型填充管道。我们展示了该框架在处理模糊用户查询时生成管道的有效性,并使用了人工和合成数据。详细的误差分析突出了管道构建中的持续挑战。Bel Esprit可在https://belesprit.aixplain.com进行免费试用。

论文及项目相关链接

PDF

Summary

随着人工智能需求增长以解决复杂的现实世界任务,单一模型常常不足以应对,需要构建AI模型管道集成多个模型。本文介绍了一款基于用户定义需求构建AI模型管道的智能对话代理Bel Esprit。Bel Esprit采用多代理框架,子代理协作澄清需求、构建、验证和填充适当的模型管道。通过人类精心策划和合成数据生成的管道实例演示了该框架的有效性。详细的错误分析突显了管道构建中的挑战。Bel Esprit已在https://belesprit.aixplain.com提供免费试用。

Key Takeaways

  1. AI需求的增长促使了模型管道的需求:为了满足复杂任务的完成需求,需要整合多个AI模型成管道以提高效率和准确性。
  2. Bel Esprit是一个智能对话代理:它可以根据用户需求构建AI模型管道,简化了复杂的构建过程。
  3. 多代理框架的应用:Bel Esprit利用多代理框架实现子代理间的协作,以明确需求、建立、验证并填充模型管道。
  4. 框架有效性展示:通过实例演示了利用人类精心策划和合成数据生成AI模型管道的可行性及有效性。
  5. 详细的错误分析:揭示了当前在构建AI模型管道过程中存在的挑战和问题,为后续改进提供了方向。
  6. Bel Esprit提供免费试用:用户可以通过访问指定网站体验这款智能对话代理。

Cool Papers

点此查看论文截图

Agent-SafetyBench: Evaluating the Safety of LLM Agents

Authors:Zhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang

As large language models (LLMs) are increasingly deployed as agents, their integration into interactive environments and tool use introduce new safety challenges beyond those associated with the models themselves. However, the absence of comprehensive benchmarks for evaluating agent safety presents a significant barrier to effective assessment and further improvement. In this paper, we introduce Agent-SafetyBench, a comprehensive benchmark designed to evaluate the safety of LLM agents. Agent-SafetyBench encompasses 349 interaction environments and 2,000 test cases, evaluating 8 categories of safety risks and covering 10 common failure modes frequently encountered in unsafe interactions. Our evaluation of 16 popular LLM agents reveals a concerning result: none of the agents achieves a safety score above 60%. This highlights significant safety challenges in LLM agents and underscores the considerable need for improvement. Through quantitative analysis, we identify critical failure modes and summarize two fundamental safety detects in current LLM agents: lack of robustness and lack of risk awareness. Furthermore, our findings suggest that reliance on defense prompts alone is insufficient to address these safety issues, emphasizing the need for more advanced and robust strategies. We release Agent-SafetyBench at \url{https://github.com/thu-coai/Agent-SafetyBench} to facilitate further research and innovation in agent safety evaluation and improvement.

随着大型语言模型(LLM)越来越多地被部署为代理,它们与交互式环境的集成和工具使用带来了新的安全挑战,这些挑战超出了与模型本身相关的挑战。然而,缺乏用于评估代理安全性的综合基准,成为有效评估和进一步改进的重大障碍。在本文中,我们介绍了Agent-SafetyBench,这是一个旨在评估LLM代理安全性的综合基准。Agent-SafetyBench包含349个交互环境和2000个测试用例,评估了8类安全风险,并涵盖了不安全交互中经常遇到的10种常见故障模式。我们对16个流行的LLM代理的评估结果令人担忧:没有一个代理的安全分数超过60%。这凸显了LLM代理存在的重大安全挑战,并强调迫切需要进行改进。通过定量分析,我们确定了关键的失败模式,并总结了当前LLM代理中的两个基本安全缺陷:缺乏稳健性和缺乏风险意识。此外,我们的研究结果表明,仅仅依赖防御提示不足以解决这些安全问题,强调需要更先进和稳健的策略。我们在\url{https://github.com/thu-coai/Agent-SafetyBench}发布了Agent-SafetyBench,以促进在代理安全评估和改进方面的进一步研究和创新。

论文及项目相关链接

PDF 23 pages, 9 figures

Summary:随着大型语言模型(LLM)作为代理的部署越来越多,它们在交互式环境和工具使用中的集成带来了新的安全挑战。然而,缺乏全面的代理安全评估基准,阻碍了有效的评估和进一步的改进。本文介绍了Agent-SafetyBench,一个全面的基准测试,旨在评估LLM代理的安全性。它包括349个交互环境和2000个测试用例,涵盖十个常见失效模式,并评估八类安全风险。通过对当前流行的LLM代理人的评估,发现无一安全得分超过百分之六十,凸显了LLM代理人的安全挑战和巨大的改进需求。研究发现依赖防御提示并不能解决这些安全问题,因此需要更先进和稳健的策略。同时发布了Agent-SafetyBench来推动对代理安全评估和改进的进一步研究和创新。

Key Takeaways

  • 大型语言模型(LLM)作为代理在集成到交互式环境和工具使用时面临新的安全挑战。
  • 缺乏全面的代理安全评估基准阻碍了有效的评估和进一步的改进。
  • Agent-SafetyBench是一个全面的基准测试,旨在评估LLM代理的安全性,包括多种交互环境和测试用例。
  • 当前流行的LLM代理存在显著的安全挑战,无一安全得分超过百分之六十。
  • 定量分析发现关键失效模式,总结了当前LLM代理的两个基本安全问题:缺乏稳健性和风险意识。
  • 仅依赖防御提示不足以解决这些安全问题,需要更先进和稳健的策略。

Cool Papers

点此查看论文截图

Can Modern LLMs Act as Agent Cores in Radiology Environments?

Authors:Qiaoyu Zheng, Chaoyi Wu, Pengcheng Qiu, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie

Advancements in large language models (LLMs) have paved the way for LLM-based agent systems that offer enhanced accuracy and interpretability across various domains. Radiology, with its complex analytical requirements, is an ideal field for the application of these agents. This paper aims to investigate the pre-requisite question for building concrete radiology agents which is, `Can modern LLMs act as agent cores in radiology environments?’ To investigate it, we introduce RadABench with three-fold contributions: First, we present RadABench-Data, a comprehensive synthetic evaluation dataset for LLM-based agents, generated from an extensive taxonomy encompassing 6 anatomies, 5 imaging modalities, 10 tool categories, and 11 radiology tasks. Second, we propose RadABench-EvalPlat, a novel evaluation platform for agents featuring a prompt-driven workflow and the capability to simulate a wide range of radiology toolsets. Third, we assess the performance of 7 leading LLMs on our benchmark from 5 perspectives with multiple metrics. Our findings indicate that while current LLMs demonstrate strong capabilities in many areas, they are still not sufficiently advanced to serve as the central agent core in a fully operational radiology agent system. Additionally, we identify key factors influencing the performance of LLM-based agent cores, offering insights for clinicians on how to apply agent systems in real-world radiology practices effectively. All of our code and data are open-sourced in https://github.com/MAGIC-AI4Med/RadABench.

大型语言模型(LLM)的进步为基于LLM的代理系统铺平了道路,这些系统在各个领域提供了增强准确性和可解释性。由于其复杂的分析要求,放射学是这些代理应用的理想领域。本文旨在探讨构建具体放射学代理的先决问题,即“现代LLM能否在放射线环境中充当代理核心?”为了调查这个问题,我们推出了RadABench,它包括三方面的贡献:首先,我们展示了RadABench-Data,这是一套全面的合成评估数据集,用于基于LLM的代理,数据来自包含6个解剖学、5种成像模式、10个工具类别和11个放射学任务的广泛分类。其次,我们提出了RadABench-EvalPlat,这是一个新型代理评估平台,具有提示驱动的工作流程和模拟广泛放射学工具集的能力。第三,我们从5个角度对7个领先的大型语言模型进行了评估,使用多个指标。我们的研究发现,虽然当前的大型语言模型在许多领域表现出强大的能力,但它们仍不足以作为完全运行的放射学代理系统的核心代理。此外,我们还确定了影响基于LLM的代理核心性能的关键因素,为临床医生提供了如何在现实世界的放射学实践中有效应用代理系统的见解。所有代码和数据均在https://github.com/MAGIC-AI4Med/RadABench上开源。

论文及项目相关链接

PDF 22 pages,7 figures

Summary

本文探讨了大型语言模型(LLM)在放射学领域的应用潜力。文章介绍了RadABench的三个主要贡献:提供了一个综合的LLM评估数据集RadABench-Data,一个用于评估LLM作为放射学代理核心性能的平台RadABench-EvalPlat,以及对七款领先的LLM的性能评估。研究结果表明,当前LLM虽在某些方面表现出色,但仍不足以作为完全运营的放射学代理系统的核心。文章还公开了所有代码和数据。

Key Takeaways

  1. 大型语言模型(LLM)在放射学领域有广泛的应用潜力。
  2. RadABench-Data是一个为LLM代理系统提供的综合评估数据集。
  3. RadABench-EvalPlat是一个评估LLM作为放射学代理核心性能的平台。
  4. 当前LLM在某些方面表现出色,但不足以作为完全运营的放射学代理系统的核心。
  5. LLM在放射学领域的应用受到一些关键因素的影响。
  6. 公开的代码和数据有助于临床医生有效应用代理系统在真实世界的放射学实践中。

Cool Papers

点此查看论文截图

Knowledge Tagging with Large Language Model based Multi-Agent System

Authors:Hang Li, Tianlong Xu, Ethan Chang, Qingsong Wen

Knowledge tagging for questions is vital in modern intelligent educational applications, including learning progress diagnosis, practice question recommendations, and course content organization. Traditionally, these annotations have been performed by pedagogical experts, as the task demands not only a deep semantic understanding of question stems and knowledge definitions but also a strong ability to link problem-solving logic with relevant knowledge concepts. With the advent of advanced natural language processing (NLP) algorithms, such as pre-trained language models and large language models (LLMs), pioneering studies have explored automating the knowledge tagging process using various machine learning models. In this paper, we investigate the use of a multi-agent system to address the limitations of previous algorithms, particularly in handling complex cases involving intricate knowledge definitions and strict numerical constraints. By demonstrating its superior performance on the publicly available math question knowledge tagging dataset, MathKnowCT, we highlight the significant potential of an LLM-based multi-agent system in overcoming the challenges that previous methods have encountered. Finally, through an in-depth discussion of the implications of automating knowledge tagging, we underscore the promising results of deploying LLM-based algorithms in educational contexts.

知识标签在现代智能教育应用中的使用非常重要,包括学习进度诊断、实践问题推荐和课程内容组织。传统上,这些注释由教学专家完成,因为这项工作不仅需要深入理解问题的根源和知识定义,还需要具备将问题解决逻辑与相关知识概念紧密相连的强烈能力。随着先进的自然语言处理(NLP)算法的出现,如预训练语言模型和大型语言模型(LLM),开创性研究开始尝试使用各种机器学习模型自动化知识标签过程。在本文中,我们探讨了多代理系统在解决先前算法局限方面的使用,特别是在处理涉及复杂知识定义和严格数值约束的复杂案例方面。通过在公开可用的数学知识标签数据集MathKnowCT上展示其卓越性能,我们突出了基于LLM的多代理系统在克服先前方法所面临的挑战方面的巨大潜力。最后,通过对自动化知识标签的影响进行深入讨论,我们强调了在教育环境中部署基于LLM算法的令人鼓舞的结果。

论文及项目相关链接

PDF Accepted by AAAI 2025 (AAAI/IAAI 2025 Innovative Application Award)

总结
随着现代智能教育应用的发展,知识标注对于问题的重要性日益凸显,涉及学习进度诊断、练习问题推荐和课程内容组织等方面。传统上,这些标注由教育专家执行,任务需要深厚的语义理解、知识定义以及将问题解决逻辑与相关知识概念联系起来的强大能力。随着预训练语言模型和大语言模型(LLM)等先进自然语言处理算法的兴起,有开创性研究开始探索使用各种机器学习模型自动化知识标注过程。本文调查了多智能体系统在解决以前算法局限性方面的应用,特别是在处理复杂知识定义和严格数值约束方面的优势。在公开可用的数学问题知识标注数据集MathKnowCT上展示其卓越性能,凸显了基于LLM的多智能体系统在克服以前方法所遇到挑战方面的巨大潜力。最后,通过深入探讨自动化知识标注的影响,我们强调了部署基于LLM的算法在教育环境中的有前途的结果。

关键见解

  1. 知识标注在现代智能教育应用中具有重要意义,包括学习进度诊断、实践问题推荐和课程内容组织。
  2. 传统知识标注主要由教育专家完成,需要深厚的语义理解和联系问题解决与知识概念的能力。
  3. 随着自然语言处理算法的发展,特别是预训练语言模型和大语言模型(LLM),自动化知识标注的可行性得到提高。
  4. 多智能体系统能有效解决复杂知识标注问题,尤其在处理复杂知识定义和严格数值约束方面表现出优势。
  5. 在MathKnowCT数据集上的卓越性能表明,基于LLM的多智能体系统有巨大潜力克服先前方法的挑战。
  6. 自动化知识标注的深入应用有望改变教育方式,提高教育效率。

Cool Papers

点此查看论文截图

IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction

Authors:Kaiyu He, Mian Zhang, Shuo Yan, Peilin Wu, Zhiyu Zoey Chen

While large language models (LLMs) have been thoroughly evaluated for deductive and inductive reasoning, their proficiency in holistic rule learning in interactive environments remains less explored. We introduce RULEARN, a novel benchmark to assess the rule-learning abilities of LLM agents in interactive settings. In RULEARN, agents strategically interact with simulated environments to gather observations, discern patterns, and solve complex problems. To enhance the rule-learning capabilities for LLM agents, we propose IDEA, a novel reasoning framework that integrates the process of Induction, Deduction, and Abduction. The IDEA agent generates initial hypotheses from limited observations through abduction, devises plans to validate these hypotheses or leverages them to solve problems via deduction, and refines previous hypotheses through induction, dynamically establishing and applying rules that mimic human rule-learning behaviors. Our evaluation of the IDEA framework, which involves five representative LLMs, demonstrates significant improvements over the baseline. Furthermore, our study with human participants reveals notable discrepancies in rule-learning behaviors between humans and LLMs. We believe our benchmark will serve as a valuable and challenging resource, and IDEA will provide crucial insights for the development of LLM agents capable of human-like rule learning in real-world scenarios. Our code and data is publicly available.

虽然大型语言模型(LLM)在演绎和归纳推理方面已经得到了充分的评估,但它们在交互式环境中进行整体规则学习的能力仍然缺乏探索。我们引入了RULEARN这一新型基准测试,以评估LLM代理在交互式环境中学习规则的能力。在RULEARN中,代理与模拟环境进行战略交互,以收集观察资料、识别模式并解决复杂问题。为了增强LLM代理的规则学习能力,我们提出了IDEA,这是一个集演绎、归纳和假设的新推理框架。IDEA代理通过假设从有限的观察中生成初步假设,通过演绎制定验证假设或解决问题的计划,并通过归纳修正先前的假设,动态建立和应用模仿人类规则学习行为的规则。我们对包含五个代表性LLM的IDEA框架的评估,证明了其较基线有明显的改进。此外,我们与人类参与者的研究揭示了人类和LLM在规则学习行为之间的显著差异。我们相信,我们的基准测试将成为一个宝贵且具有挑战性的资源,而IDEA将为开发能够在现实世界中像人类一样进行规则学习的LLM代理提供关键见解。我们的代码和数据已公开可用。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)在演绎和归纳推理方面已经得到了广泛评估,但它们在互动环境中整体规则学习的能力仍缺乏探索。本文引入了RULEARN基准测试,以评估LLM代理人在互动环境中的规则学习能力。本文提出了IDEA,一个结合归纳、演绎和溯因推理的新型框架,用于增强LLM代理人的规则学习能力。通过五种代表性LLM的评估,显示IDEA框架较基线有显著改善。此外,与人类参与者的研究揭示了人类与LLM在规则学习行为上的显著差异。本文认为,RULEARN将为有价值且具有挑战性的资源,而IDEA将为开发能在真实场景中实现人类式规则学习的LLM代理人提供关键见解。

Key Takeaways

  1. LLM在互动环境中的整体规则学习能力尚未得到充分探索。
  2. 引入RULEARN基准测试,用于评估LLM在互动环境中的规则学习能力。
  3. 提出IDEA框架,整合归纳、演绎和溯因推理,增强LLM的规则学习能力。
  4. 对五种代表性LLM的评估显示,IDEA框架较基线有显著改善。
  5. 人类与LLM在规则学习行为上存在显著差异。
  6. RULEARN基准测试是一个有价值的挑战资源。

Cool Papers

点此查看论文截图

Multi-Agent Trajectory Prediction with Difficulty-Guided Feature Enhancement Network

Authors:Guipeng Xin, Duanfeng Chu, Liping Lu, Zejian Deng, Yuang Lu, Xigang Wu

Trajectory prediction is crucial for autonomous driving as it aims to forecast the future movements of traffic participants. Traditional methods usually perform holistic inference on the trajectories of agents, neglecting the differences in prediction difficulty among agents. This paper proposes a novel Difficulty-Guided Feature Enhancement Network (DGFNet), which leverages the prediction difficulty differences among agents for multi-agent trajectory prediction. Firstly, we employ spatio-temporal feature encoding and interaction to capture rich spatio-temporal features. Secondly, a difficulty-guided decoder controls the flow of future trajectories into subsequent modules, obtaining reliable future trajectories. Then, feature interaction and fusion are performed through the future feature interaction module. Finally, the fused agent features are fed into the final predictor to generate the predicted trajectory distributions for multiple participants. Experimental results demonstrate that our DGFNet achieves state-of-the-art performance on the Argoverse 1&2 motion forecasting benchmarks. Ablation studies further validate the effectiveness of each module. Moreover, compared with SOTA methods, our method balances trajectory prediction accuracy and real-time inference speed.

轨迹预测对自动驾驶至关重要,因为它旨在预测交通参与者的未来移动。传统的方法通常对代理的轨迹进行整体推理,忽略了代理之间预测难度的差异。本文提出了一种新的难度引导特征增强网络(DGFNet),该网络利用代理之间预测难度的差异进行多代理轨迹预测。首先,我们采用时空特征编码和交互来捕捉丰富的时空特征。其次,难度引导解码器控制未来轨迹的流向后续模块,以获得可靠的未来轨迹。然后,通过未来特征交互模块进行特征交互和融合。最后,融合后的代理特征被输入到最终预测器中,以生成多个参与者的预测轨迹分布。实验结果表明,我们的DGFNet在Argoverse 1&2运动预测基准测试中达到了最新技术水平。消融研究进一步验证了每个模块的有效性。此外,与最先进的方法相比,我们的方法在轨迹预测精度和实时推理速度之间达到了平衡。

论文及项目相关链接

PDF

Summary

文章提出了一种基于难度引导的特征增强网络(DGFNet)进行多智能体轨迹预测的方法。该模型考虑到了不同智能体预测难度的差异,并对其进行时空特征编码和交互,然后通过一个难度引导解码器进行未来轨迹的预测。最后,通过与现有先进方法的对比实验,证明了其在Argoverse 1&2运动预测基准测试上的优越性。

Key Takeaways

  1. 该方法考虑到不同智能体轨迹预测的难度差异。
  2. 利用时空特征编码和交互来捕捉丰富的时空特征。
  3. 难度引导解码器负责控制未来轨迹的流动,以获取可靠的未来轨迹。
  4. 通过未来特征交互模块进行特征交互和融合。
  5. 该方法在Argoverse运动预测基准测试中达到了先进水平。
  6. 消融研究验证了每个模块的有效性。

Cool Papers

点此查看论文截图

DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents

Authors:Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi

Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include assessing the agent’s ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and evaluating performance under randomized questioning with LongDialQA, a novel, high-quality question-answering dataset. Our experiments using DialSim reveal the strengths and weaknesses of the latest conversational agents, offering valuable insights for future advancements in conversational AI. DialSim is available at https://dialsim.github.io/.

最近大型语言模型(LLM)的进步显著增强了对话代理的能力,使其适用于各个领域(例如教育)。尽管取得了进展,但对代理的评估往往忽略了现实世界中对话的复杂性,如实时互动、多方对话和扩展的上下文依赖关系。为了弥补这一差距,我们引入了DialSim,一个实时对话模拟器。在这个模拟器中,代理被分配扮演流行电视剧中的角色,需要利用过去的对话信息回答突发问题,并区分已知和未知信息。DialSim的关键功能包括评估代理在合理时间限制内做出响应的能力、处理长期多方对话的能力,以及使用LongDialQA这一新型高质量问答数据集在随机提问下评估表现的能力。我们使用DialSim进行的实验揭示了最新对话代理的优势和劣势,为未来对话人工智能的发展提供了宝贵的见解。DialSim可在https://dialsim.github.io/访问。

论文及项目相关链接

PDF

Summary

对话模拟工具DialSim填补了对话AI评价中的现实差距,该工具要求对话AI模型扮演电视剧中的角色,模拟现实对话场景进行应答,评估其在限定时间内回应的能力、处理多方的长期对话的能力以及在随机问题下的表现。对于提升对话AI的进步具有重要价值。

Key Takeaways

  1. Large Language Models (LLMs)的进展增强了对话AI的应用能力,但现实对话的复杂性在评估中常被忽视。
  2. DialSim是一个实时对话模拟器,旨在填补这一评估差距。
  3. DialSim要求对话AI模型扮演电视剧角色,模拟真实对话场景。
  4. DialSim的关键功能包括评估AI在限定时间内回应的能力、处理长期多方的对话的能力以及在随机问题下的表现。
  5. 使用DialSim进行的实验揭示了最新对话AI的优势和劣势。
  6. DialSim为未来的对话AI发展提供了有价值的见解。

Cool Papers

点此查看论文截图

AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents

Authors:Christopher Rawles, Sarah Clinckemaillie, Yifan Chang, Jonathan Waltz, Gabrielle Lau, Marybeth Fair, Alice Li, William Bishop, Wei Li, Folawiyo Campbell-Ajala, Daniel Toyama, Robert Berry, Divya Tyamagundlu, Timothy Lillicrap, Oriana Riva

Autonomous agents that execute human tasks by controlling computers can enhance human productivity and application accessibility. However, progress in this field will be driven by realistic and reproducible benchmarks. We present AndroidWorld, a fully functional Android environment that provides reward signals for 116 programmatic tasks across 20 real-world Android apps. Unlike existing interactive environments, which provide a static test set, AndroidWorld dynamically constructs tasks that are parameterized and expressed in natural language in unlimited ways, thus enabling testing on a much larger and more realistic suite of tasks. To ensure reproducibility, each task includes dedicated initialization, success-checking, and tear-down logic, which modifies and inspects the device’s system state. We experiment with baseline agents to test AndroidWorld and provide initial results on the benchmark. Our best agent can complete 30.6% of AndroidWorld’s tasks, leaving ample room for future work. Furthermore, we adapt a popular desktop web agent to work on Android, which we find to be less effective on mobile, suggesting future research is needed to achieve universal, cross-platform agents. Finally, we also conduct a robustness analysis, showing that task variations can significantly affect agent performance, demonstrating that without such testing, agent performance metrics may not fully reflect practical challenges. AndroidWorld and the experiments in this paper are available at github.com/google-research/android_world.

通过控制计算机执行人类任务,自主代理可以增强人类生产力和应用程序的可访问性。然而,这一领域的进展将取决于现实且可再生的基准测试。我们推出了AndroidWorld,这是一个功能齐全的Android环境,为20个真实世界的Android应用程序中的116个程序化任务提供了奖励信号。与现有的交互式环境不同,AndroidWorld能够动态构建任务,这些任务以自然语言参数化表达,且方式无限,从而能够在更大且更现实的任务套件上进行测试。为确保可重复性,每个任务都包含专用的初始化、成功检查和拆除逻辑,这些逻辑可以修改和检查设备系统状态。我们以基准代理进行实验来测试AndroidWorld,并在该基准测试上提供了初步结果。我们表现最佳的代理可以完成AndroidWorld的30.6%的任务,这为未来的工作留下了充足的空间。此外,我们将一个流行的桌面网络代理改编为适用于Android的版本,但发现在移动设备上效果较差,这表明需要未来的研究来实现通用跨平台代理。最后,我们还进行了稳健性分析,表明任务变化会显著影响代理性能,表明如果没有这样的测试,代理性能指标可能无法充分反映实际挑战。AndroidWorld以及本文中的实验可在github.com/google-research/android_world获取。

论文及项目相关链接

PDF

Summary

自主执行人类任务并控制电脑的智能代理可以提升人类生产力和应用可及性。然而,该领域的进展将取决于现实且可复制的基准测试。我们推出AndroidWorld,这是一个功能齐全的Android环境,为20个真实世界Android应用程序中的116个程序化任务提供奖励信号。与现有的交互式环境不同,AndroidWorld能够动态构建任务,这些任务以自然语言无限表达,参数化设定,从而能够在更大范围和更现实的场景下测试任务。为确保可重复性,每个任务都包含专门的初始化、成功检查和清理逻辑,这些逻辑会修改和检查设备系统状态。我们对基准测试智能代理进行实验并提供了初步结果。表现最佳的智能代理能完成AndroidWorld的30.6%的任务,这为未来的工作留下了充足的空间。此外,我们还将一个流行的桌面网页智能代理改编为适用于Android的版本,发现其在移动设备上效果较差,这表明需要研究以实现跨平台的通用智能代理。我们还进行了稳健性分析,表明任务变化会显著影响智能代理的表现,表明没有这样的测试,智能代理的性能指标可能无法充分反映实际挑战。AndroidWorld以及本文中的实验可在github.com/google-research/android_world上找到。

Key Takeaways

  1. 自主代理能够通过控制电脑执行人类任务,提高人类生产力和应用可及性。
  2. AndroidWorld是一个功能齐全的Android环境,提供奖励信号供程序化任务测试。
  3. AndroidWorld能够动态构建任务,实现更大范围和更现实的测试场景。
  4. 每个任务都包含初始化、成功检查和清理逻辑以确保测试的可靠性和可重复性。
  5. 目前最佳智能代理只能完成AndroidWorld的30.6%的任务,表明未来研究空间巨大。
  6. 将桌面网页智能代理改编为适用于Android的版本效果较差,需要研究跨平台智能代理。

Cool Papers

点此查看论文截图

Agent Planning with World Knowledge Model

Authors:Shuofei Qiao, Runnan Fang, Ningyu Zhang, Yuqi Zhu, Xiang Chen, Shumin Deng, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

Recent endeavors towards directly using large language models (LLMs) as agent models to execute interactive planning tasks have shown commendable results. Despite their achievements, however, they still struggle with brainless trial-and-error in global planning and generating hallucinatory actions in local planning due to their poor understanding of the ``real’’ physical world. Imitating humans’ mental world knowledge model which provides global prior knowledge before the task and maintains local dynamic knowledge during the task, in this paper, we introduce parametric World Knowledge Model (WKM) to facilitate agent planning. Concretely, we steer the agent model to self-synthesize knowledge from both expert and sampled trajectories. Then we develop WKM, providing prior task knowledge to guide the global planning and dynamic state knowledge to assist the local planning. Experimental results on three complex real-world simulated datasets with three state-of-the-art open-source LLMs, Mistral-7B, Gemma-7B, and Llama-3-8B, demonstrate that our method can achieve superior performance compared to various strong baselines. Besides, we analyze to illustrate that our WKM can effectively alleviate the blind trial-and-error and hallucinatory action issues, providing strong support for the agent’s understanding of the world. Other interesting findings include: 1) our instance-level task knowledge can generalize better to unseen tasks, 2) weak WKM can guide strong agent model planning, and 3) unified WKM training has promising potential for further development. The code is available at https://github.com/zjunlp/WKM.

最近,直接使用大型语言模型(LLM)作为代理模型来执行交互式规划任务的研究取得了值得赞扬的成果。然而,尽管取得了成就,它们仍然在全球规划方面存在盲目的试错问题,并在局部规划中产生幻觉行为,这是因为它们对“真实”物理世界的理解不足。本文中,我们引入参数化世界知识模型(WKM)来辅助代理规划,模仿人类的精神世界知识模型,在任务前提供全局先验知识,并在任务期间保持局部动态知识。具体地,我们引导代理模型从专家轨迹和采样轨迹中自行合成知识。然后,我们开发WKM,提供任务先验知识来指导全局规划,以及动态状态知识来辅助局部规划。在三个复杂的真实世界模拟数据集上与三种最先进的开源LLM(Mistral-7B、Gemma-7B和Llama-3-8B)的实验结果表明,我们的方法相比各种强大的基线方法可以达到更优越的性能。此外,我们通过分析证明,我们的WKM可以有效地减轻盲目的试错和幻觉行为问题,为代理对世界的理解提供强有力的支持。其他有趣的发现包括:1)我们的实例级任务知识可以更好地推广到未见过的任务;2)弱的WKM可以指导强大的代理模型规划;3)统一的WKM训练具有进一步开发的巨大潜力。代码可用在https://github.com/zjunlp/WKM。

论文及项目相关链接

PDF NeurIPS 2024

摘要
大型语言模型(LLM)作为代理模型直接执行交互式规划任务取得了可喜的成果,但仍存在全球规划中的盲目试错和局部规划中产生幻觉行动的问题,因为它们对“真实”物理世界的理解不足。本文通过引入参数化世界知识模型(WKM),模拟人类的先验知识和动态知识,帮助代理规划。通过专家轨迹和采样轨迹合成知识,提供任务先验知识指导全局规划,动态状态知识辅助局部规划。在三个复杂真实世界模拟数据集上的实验结果表明,该方法优于各种强大的基线。此外,分析表明WKM能有效缓解盲目试错和幻觉行为问题,为代理理解世界提供有力支持。该代码可在“https://github.com/zjunlp/WKM找到”。

关键见解

  1. 大型语言模型(LLMs)在交互式规划任务中表现出色,但仍存在对真实物理世界理解不足的问题。
  2. 引入参数化世界知识模型(WKM)以模仿人类的精神世界知识模型。
  3. WKM能从专家轨迹和采样轨迹合成知识,提供任务先验知识指导全局规划,并辅助局部规划。
  4. 实验结果表明,WKM方法在所有测试数据集上均优于各种强大的基线。
  5. WKM能有效缓解LLMs的盲目试错和幻觉行为问题,提高其对世界的理解。
  6. 实例级任务知识具有良好的未见任务泛化能力。

Cool Papers

点此查看论文截图

Agent-OM: Leveraging LLM Agents for Ontology Matching

Authors:Zhangcheng Qiang, Weiqing Wang, Kerry Taylor

Ontology matching (OM) enables semantic interoperability between different ontologies and resolves their conceptual heterogeneity by aligning related entities. OM systems currently have two prevailing design paradigms: conventional knowledge-based expert systems and newer machine learning-based predictive systems. While large language models (LLMs) and LLM agents have revolutionised data engineering and have been applied creatively in many domains, their potential for OM remains underexplored. This study introduces a novel agent-powered LLM-based design paradigm for OM systems. With consideration of several specific challenges in leveraging LLM agents for OM, we propose a generic framework, namely Agent-OM (Agent for Ontology Matching), consisting of two Siamese agents for retrieval and matching, with a set of simple OM tools. Our framework is implemented in a proof-of-concept system. Evaluations of three Ontology Alignment Evaluation Initiative (OAEI) tracks over state-of-the-art OM systems show that our system can achieve results very close to the long-standing best performance on simple OM tasks and can significantly improve the performance on complex and few-shot OM tasks.

本体匹配(OM)能够使不同本体之间实现语义互操作性,并通过对齐相关实体解决其概念上的异质性。目前,OM系统主要有两种流行的设计范式:传统的基于知识的专家系统和更新的基于机器学习的预测系统。虽然大型语言模型(LLM)和LLM代理已经彻底改变了数据工程,并在许多领域得到了创造性的应用,但它们在OM中的潜力仍未得到充分探索。本研究引入了一种基于代理的LLM设计范式的新型OM系统。考虑到在利用LLM代理进行OM时面临的若干特定挑战,我们提出了一个通用框架,即Agent-OM(用于本体匹配的代理),它由两个用于检索和匹配的Siamese代理和一组简单的OM工具组成。我们的框架在一个概念验证系统中实现。对最先进的OM系统进行了三个本体对齐评估倡议(OAEI)轨道的评估显示,我们的系统在简单的OM任务上的结果非常接近长期以来的最佳性能,并在复杂的和少镜头OM任务上可以显著提高性能。

论文及项目相关链接

PDF 19 pages, 13 figures, 4 tables

Summary
本研究提出一种新型基于LLM代理的OM系统设计范式,利用大型语言模型代理实现语义互操作性以解决不同本体之间的概念异质性。通过考虑利用LLM代理进行OM的特定挑战,本研究提出了一个通用框架Agent-OM,包含用于检索和匹配的Siamese代理以及一套简单的OM工具。在多个OM系统评估中,该系统在简单任务上表现接近最佳水平,并在复杂和少量任务上显著提高性能。

Key Takeaways

  1. 本体匹配(OM)是解决不同本体间概念异质性的关键手段,它使得语义互操作性成为可能。
  2. 目前有两种主要的OM系统设计范式:传统的知识型专家系统和新兴的基于机器学习的预测系统。
  3. 大型语言模型(LLM)和LLM代理在数据工程领域具有革命性应用,但在OM方面的潜力尚未得到充分探索。
  4. 本研究提出了一种基于LLM代理的新型OM系统设计范式,即Agent-OM框架。
  5. Agent-OM框架包含两个用于检索和匹配的Siamese代理,并辅以一套简单的OM工具。
  6. 在多个OM系统评估中,该框架表现优秀,尤其在复杂和少量任务上显著提升了性能。

Cool Papers

点此查看论文截图

Scaling Laws for Imitation Learning in Single-Agent Games

Authors:Jens Tuyls, Dhruv Madeka, Kari Torkkola, Dean Foster, Karthik Narasimhan, Sham Kakade

Imitation Learning (IL) is one of the most widely used methods in machine learning. Yet, many works find it is often unable to fully recover the underlying expert behavior, even in constrained environments like single-agent games. However, none of these works deeply investigate the role of scaling up the model and data size. Inspired by recent work in Natural Language Processing (NLP) where “scaling up” has resulted in increasingly more capable LLMs, we investigate whether carefully scaling up model and data size can bring similar improvements in the imitation learning setting for single-agent games. We first demonstrate our findings on a variety of Atari games, and thereafter focus on the extremely challenging game of NetHack. In all games, we find that IL loss and mean return scale smoothly with the compute budget (FLOPs) and are strongly correlated, resulting in power laws for training compute-optimal IL agents. Finally, we forecast and train several NetHack agents with IL and find they outperform prior state-of-the-art by 1.5x in all settings. Our work both demonstrates the scaling behavior of imitation learning in a variety of single-agent games, as well as the viability of scaling up current approaches for increasingly capable agents in NetHack, a game that remains elusively hard for current AI systems.

模仿学习(IL)是机器学习中应用最广泛的方法之一。然而,许多研究表明,即使在单智能体游戏等受限环境中,它也无法完全恢复专家行为。然而,这些研究都没有深入探讨扩大模型和数据规模的作用。受自然语言处理(NLP)领域最近工作的启发,“规模化”已经导致了越来越强大的大型语言模型的出现,我们调查了是否通过精心扩大模型和数据的规模,可以在单智能体游戏的模仿学习环境中带来类似的改进。我们首先在各种Atari游戏上展示我们的发现,然后专注于极具挑战性的NetHack游戏。在所有游戏中,我们发现IL损失和平均回报率随着计算预算(FLOPs)的扩大而平稳扩展,并且存在强烈的相关性,从而形成了训练计算最优IL代理的幂律。最后,我们预测并训练了多个NetHack代理使用模仿学习,发现它们在所有设置中的性能超过了现有最新技术水平的1.5倍。我们的工作既展示了在各种单智能体游戏中模仿学习的扩展行为,也证明了在NetHack这个仍然对当前人工智能系统具有挑战性的游戏中,扩大当前方法的规模以产生越来越强大的代理的可行性。

论文及项目相关链接

PDF Accepted at TMLR 2024

Summary

本文探讨了通过扩大模型和数据量来提升模仿学习(IL)效果的可能性。在单智能体游戏的场景下,研究发现在不断扩大计算预算(FLOPs)时,IL损失和平均回报率能够平稳扩展并相互关联,呈现出幂律关系。最终,通过预测并训练多个NetHack智能体,发现它们在所有设置中均超过了先前最优水平,表现出更强的性能。这项工作既展示了模仿学习在多种单智能体游戏中的可扩展性,也证明了在当前系统仍无法轻易解决的NetHack游戏中,通过扩大规模和提升技术,模仿学习的有效性。

Key Takeaways

  1. 模仿学习(IL)在机器学习中应用广泛,但在单智能体游戏中往往无法完全恢复专家行为。
  2. 扩大模型和数据量在NLP中的大型语言模型(LLMs)取得了成功,本文探索了这种策略在模仿学习中的潜力。
  3. 在Atari游戏和NetHack游戏中的研究发现,IL损失和平均回报率随着计算预算的增加而平稳扩展。
  4. 这种扩展表现出强烈的幂律关系,即计算预算的增加对训练效果有显著的正面影响。
  5. 在NetHack游戏中训练的智能体表现优于先前的最优水平,显示出模仿学习的巨大潜力。
  6. 本文工作证明了模仿学习在单智能体游戏中的可扩展性,特别是在解决复杂任务时的有效性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2024-12-21 DS$^2$-ABSA Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis
2024-12-21
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2024-12-21 OpenEMMA Open-Source Multimodal Model for End-to-End Autonomous Driving
2024-12-21
  目录