⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-29 更新
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents
Authors:Haochen Sun, Shuwen Zhang, Lujie Niu, Lei Ren, Hao Xu, Hao Fu, Fangkun Zhao, Caixia Yuan, Xiaojie Wang
Large Language Models (LLMs) based agent systems have made great strides in real-world applications beyond traditional NLP tasks. This paper proposes a new LLM-based Multi-Agent System (LLM-MAS) benchmark, Collab-Overcooked, built on the popular Overcooked-AI game with more applicable and challenging tasks in interactive environments. Collab-Overcooked extends existing benchmarks in two novel ways. First, it provides a multi-agent framework supporting diverse tasks and objectives and encourages collaboration through natural language communication. Second, it introduces a spectrum of process-oriented evaluation metrics to assess the fine-grained collaboration capabilities of different LLM agents, a dimension often overlooked in prior work. We conduct extensive experiments with 13 popular LLMs and show that, while the LLMs exhibit a strong ability in goal interpretation, there are significant shortcomings in active collaboration and continuous adaptation, which are critical for efficiently fulfilling complex tasks. Notably, we highlight the strengths and weaknesses of LLM-MAS and provide insights for improving and evaluating LLM-MAS on a unified and open-source benchmark. The environments, 30 open-ended tasks, and the evaluation package are publicly available at https://github.com/YusaeMeow/Collab-Overcooked.
基于大语言模型(LLM)的代理系统在传统NLP任务之外的现实世界应用中已经取得了巨大的进步。本文提出了一个新的基于LLM的多代理系统(LLM-MAS)基准测试,名为Collab-Overcooked,它建立在流行的Overcooked-AI游戏之上,拥有更多适用于交互式环境中的挑战性任务。Collab-Overcooked以两种新颖的方式扩展了现有基准测试。首先,它提供了一个多代理框架,支持各种任务和目标,并通过自然语言通信鼓励协作。其次,它引入了一系列面向过程的评估指标,以评估不同LLM代理的精细协作能力,这是以前工作中经常被忽视的一个维度。我们对1. 我们对十三种流行的LLM进行了大量实验,发现虽然LLM在目标解读方面表现出很强的能力,但在主动协作和持续适应方面存在明显不足,这对于高效完成复杂任务至关重要。值得注意的是,我们强调了LLM-MAS的优势和不足,并提供了一个统一和开源基准测试的见解来改善和评估LLM-MAS。环境、30个开放任务和评估包可在https://github.com/YusaeMeow/Collab-Overcooked上公开访问。
论文及项目相关链接
PDF Accepted to EMNLP 2025 Main Conference. Camera-Ready Version. 30 pages, 17 figures
Summary
大型语言模型(LLM)驱动的代理系统在现实世界应用和传统NLP任务之外取得了显著进展。本文提出了一个新的LLM多代理系统(LLM-MAS)基准测试——Collab-Overcooked,它基于流行的Overcooked-AI游戏,拥有更适用和更具挑战性的交互环境中的任务。Collab-Overcooked以两种新颖的方式扩展了现有的基准测试。首先,它提供了一个支持多样任务和目标的多代理框架,并通过自然语言交流鼓励协作。其次,它引入了一系列面向过程的评估指标,以评估不同LLM代理的精细协作能力,这是以前工作中经常忽视的一个维度。通过进行广泛的实验,我们发现LLM在目标解读方面表现出很强的能力,但在主动协作和持续适应方面存在明显不足,这对于高效完成复杂任务至关重要。我们强调了LLM-MAS的优点和缺点,并为在统一和开源基准测试上改进和评估LLM-MAS提供了见解。
Key Takeaways
- LLMs在现实世界应用方面已展现显著进展,尤其是在传统NLP任务之外。
- 新基准测试Collab-Overcooked基于Overcooked-AI游戏构建,提供多样化且更具挑战性的任务环境。
- Collab-Overcooked通过鼓励自然语言交流来支持多代理协作。
- 引入面向过程的评估指标以评估LLM代理的精细协作能力,这是过去工作中常被忽视的部分。
- LLM在目标解读方面表现出强大的能力,但在主动协作和持续适应方面存在不足。
- LLM-MAS的优点和缺点被强调,为改进和评估LLM-MAS提供了方向。
点此查看论文截图




