嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-07-12 更新

MIRIX: Multi-Agent Memory System for LLM-Based Agents

Authors:Yu Wang, Xi Chen

Although memory capabilities of AI agents are gaining increasing attention, existing solutions remain fundamentally limited. Most rely on flat, narrowly scoped memory components, constraining their ability to personalize, abstract, and reliably recall user-specific information over time. To this end, we introduce MIRIX, a modular, multi-agent memory system that redefines the future of AI memory by solving the field’s most critical challenge: enabling language models to truly remember. Unlike prior approaches, MIRIX transcends text to embrace rich visual and multimodal experiences, making memory genuinely useful in real-world scenarios. MIRIX consists of six distinct, carefully structured memory types: Core, Episodic, Semantic, Procedural, Resource Memory, and Knowledge Vault, coupled with a multi-agent framework that dynamically controls and coordinates updates and retrieval. This design enables agents to persist, reason over, and accurately retrieve diverse, long-term user data at scale. We validate MIRIX in two demanding settings. First, on ScreenshotVQA, a challenging multimodal benchmark comprising nearly 20,000 high-resolution computer screenshots per sequence, requiring deep contextual understanding and where no existing memory systems can be applied, MIRIX achieves 35% higher accuracy than the RAG baseline while reducing storage requirements by 99.9%. Second, on LOCOMO, a long-form conversation benchmark with single-modal textual input, MIRIX attains state-of-the-art performance of 85.4%, far surpassing existing baselines. These results show that MIRIX sets a new performance standard for memory-augmented LLM agents. To allow users to experience our memory system, we provide a packaged application powered by MIRIX. It monitors the screen in real time, builds a personalized memory base, and offers intuitive visualization and secure local storage to ensure privacy.

尽管人工智能代理的记忆能力日益受到关注,但现有解决方案仍存在根本性局限。大多数依赖平面、范围狭窄的记忆组件,限制了它们随着时间个性化、抽象和可靠回忆用户特定信息的能力。为此,我们引入了MIRIX,这是一个模块化、多代理记忆系统,通过解决该领域最关键的挑战来重新定义AI记忆的未来,即实现语言模型真正的记忆能力。不同于以往的方法,MIRIX超越了文本,拥抱丰富的视觉和多模式体验,使记忆在真实场景中具有真正的实用性。MIRIX由六种独特且精心结构的记忆类型组成:核心记忆、情景记忆、语义记忆、程序记忆、资源记忆和知识宝库,以及一个动态控制和协调更新和检索的多代理框架。这种设计使代理能够大规模持久保存、推理和准确检索多样化的长期用户数据。我们在两个有挑战性的环境中验证了MIRIX的有效性。首先,在ScreenshotVQA上,这是一个包含每序列近2万个高分辨率计算机截图的多模式基准测试,需要深入上下文理解,且现有记忆系统无法应用,MIRIX的准确度比RAG基准高出35%,同时减少存储需求达99.9%。其次,在LOCOMO上,这是一个具有单模态文本输入的长对话基准测试,MIRIX达到了最先进的性能,达到85.4%,远远超出当前基准。这些结果表明,MIRIX为内存增强的大型语言模型代理设定了新的性能标准。为了让用户体验我们的记忆系统,我们提供了一个由MIRIX驱动的应用程序。它实时监控屏幕,建立个性化记忆库,并提供直观可视化和安全本地存储以确保隐私。

论文及项目相关链接

PDF

Summary

本文介绍了AI代理的记忆能力虽然受到越来越多的关注,但现有解决方案仍存在根本性限制。为解决此问题,提出了MIRIX这一模块化、多代理记忆系统,它重新定义了AI记忆的未来,解决了该领域最关键的挑战,即让语言模型真正能够记忆。MIRIX超越了文本,拥抱丰富的视觉和多模式体验,使记忆在真实场景中有真正的用处。通过六种不同的记忆类型和多重代理框架的结合,MIRIX使代理能够持久、推理并准确检索大规模、长期的用户数据。在ScreenshotVQA和LOCOMO两个需求高的环境中验证了MIRIX的有效性,其表现超越了现有基线。此外,还提供了由MIRIX驱动的应用程序,可实时监控屏幕、建立个性化记忆库,并提供直观可视化和安全本地存储以确保隐私。

Key Takeaways

  1. AI代理的记忆能力虽受关注,但现有解决方案存在根本性限制,主要依赖平坦、范围狭窄的记忆组件。
  2. MIRIX是一个模块化、多代理记忆系统,重新定义了AI记忆的未来。
  3. MIRIX解决了语言模型记忆能力方面的最关键挑战,即让语言模型真正能够记忆。
  4. MIRIX超越文本,结合丰富的视觉和多模式体验,使记忆在真实场景中有用。
  5. MIRIX包含六种不同的记忆类型,通过多代理框架动态控制和协调更新和检索。
  6. MIRIX在ScreenshotVQA和LOCOMO两个环境中表现优越,超越了现有基线。

Cool Papers

点此查看论文截图

Agentic Retrieval of Topics and Insights from Earnings Calls

Authors:Anant Gupta, Rajarshi Bhowmik, Geoffrey Gunow

Tracking the strategic focus of companies through topics in their earnings calls is a key task in financial analysis. However, as industries evolve, traditional topic modeling techniques struggle to dynamically capture emerging topics and their relationships. In this work, we propose an LLM-agent driven approach to discover and retrieve emerging topics from quarterly earnings calls. We propose an LLM-agent to extract topics from documents, structure them into a hierarchical ontology, and establish relationships between new and existing topics through a topic ontology. We demonstrate the use of extracted topics to infer company-level insights and emerging trends over time. We evaluate our approach by measuring ontology coherence, topic evolution accuracy, and its ability to surface emerging financial trends.

通过跟踪企业收益电话会议中的主题来关注公司的战略重点,是财务分析中的一项关键任务。然而,随着行业的不断发展,传统的主题建模技术很难动态捕捉新兴主题及其关系。在这项工作中,我们提出了一种由大型语言模型(LLM)驱动的方法来发现和检索季度收益电话会议中的新兴主题。我们提议使用一个大型语言模型代理程序从文件中提取主题,将它们结构化为层次化本体,并通过主题本体建立新主题和现有主题之间的关系。我们展示了使用提取的主题来推断公司层面的见解以及随时间发展的新兴趋势。我们通过测量本体一致性、主题演化准确性和发现新兴金融趋势的能力来评估我们的方法。

论文及项目相关链接

PDF The 2nd Workshop on Financial Information Retrieval in the Era of Generative AI, The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval July 13-17, 2025 | Padua, Italy

Summary

本文提出利用LLM-agent从季度财报电话会议中发现和检索新兴话题的方法。该方法能够将话题从文档中抽取出来,构建成层次化的本体结构,并通过话题本体建立新旧话题之间的关系。通过提取的话题,可以推断出公司层面的见解和随时间出现的新兴趋势。本文评估了该方法在语义连贯性、话题演变准确性和捕捉新兴金融趋势方面的能力。

Key Takeaways

  1. LLM-agent用于从季度财报电话会议中发现和检索新兴话题。
  2. 构建话题的层次化本体结构以描述不同话题之间的关系。
  3. 通过提取的话题,可以了解公司层面的见解和随时间出现的新兴趋势。
  4. 所提出的方法在语义连贯性、话题演变准确性和捕捉新兴金融趋势方面进行了评估。
  5. 传统的话题建模技术在捕捉动态变化的行业中的新兴话题时面临挑战。
  6. LLM-agent能够帮助解决这一挑战,提供对新兴话题的更全面和深入的理解。

Cool Papers

点此查看论文截图

Toward Real-World Chinese Psychological Support Dialogues: CPsDD Dataset and a Co-Evolving Multi-Agent System

Authors:Yuanchen Shi, Longyin Zhang, Fang Kong

The growing need for psychological support due to increasing pressures has exposed the scarcity of relevant datasets, particularly in non-English languages. To address this, we propose a framework that leverages limited real-world data and expert knowledge to fine-tune two large language models: Dialog Generator and Dialog Modifier. The Generator creates large-scale psychological counseling dialogues based on predefined paths, which guide system response strategies and user interactions, forming the basis for effective support. The Modifier refines these dialogues to align with real-world data quality. Through both automated and manual review, we construct the Chinese Psychological support Dialogue Dataset (CPsDD), containing 68K dialogues across 13 groups, 16 psychological problems, 13 causes, and 12 support focuses. Additionally, we introduce the Comprehensive Agent Dialogue Support System (CADSS), where a Profiler analyzes user characteristics, a Summarizer condenses dialogue history, a Planner selects strategies, and a Supporter generates empathetic responses. The experimental results of the Strategy Prediction and Emotional Support Conversation (ESC) tasks demonstrate that CADSS achieves state-of-the-art performance on both CPsDD and ESConv datasets.

随着压力的不断增加,对心理支持的需求日益增长,这暴露出了相关数据集,特别是在非英语语境下的稀缺性。为了解决这一问题,我们提出了一个利用有限现实数据和专业知识来调整两个大型语言模型的框架:对话生成器和对话修饰器。生成器基于预定义路径创建大规模心理咨询对话,引导系统响应策略和用户交互,为有效支持奠定基础。修饰器则对这些对话进行改进,以符合现实数据的质量。通过自动和手动审查,我们构建了中文心理支持对话数据集(CPsDD),包含13组、16个心理问题、13个原因和12个支持重点的6.8万条对话。此外,我们还引入了综合代理对话支持系统(CADSS),其中分析器分析用户特征,摘要器浓缩对话历史,规划器选择策略,支持者生成富有同情心的回应。策略和情绪支持对话任务(ESC)的实验结果表明,CADSS在CPsDD和ESConv数据集上均达到了最先进的性能表现。

论文及项目相关链接

PDF 10pages,8 figures

Summary
心理支持需求随着压力增大而不断增长,相关数据集匮乏,特别是在非英语领域。为此,我们提出一个框架,利用有限现实数据和专家知识微调两个大型语言模型:对话生成器和对话修饰器。生成器基于预设路径创建大规模心理咨询对话,引导系统响应策略和用户体验,为有效支持奠定基础。修饰器则完善这些对话以符合现实数据质量。我们构建了中文心理支持对话数据集(CPsDD),包含6.8万条对话,涵盖不同群体、心理问题、原因和支持重点。同时,我们推出综合代理对话支持系统(CADSS),包括分析用户特性的分析器、精简对话历史的概述器、选择策略的计划器以及生成富有同情心回应的支持者。实验结果表明,CADSS在CPsDD和ESConv数据集上实现最先进的性能表现。

Key Takeaways

  1. 随着压力增加,心理支持需求增长,而非英语领域的心理数据集较为匮乏。
  2. 提出的框架结合有限现实数据和专家知识,通过对话生成器和修饰器两个大型语言模型来应对这一挑战。
  3. 对话生成器基于预设路径创建心理咨询对话,为有效支持奠定基础。
  4. 对话修饰器用于完善对话内容,以符合现实数据质量。
  5. 构建了中文心理支持对话数据集(CPsDD),包含丰富的对话样本,覆盖不同群体、心理问题等。
  6. 综合代理对话支持系统(CADSS)包括分析用户特性的分析器、概述器、计划器和支持者。

Cool Papers

点此查看论文截图

StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production-Living Simulations with Stardew Valley

Authors:Weihao Tan, Changjiu Jiang, Yu Duan, Mingcong Lei, Jiageng Li, Yitian Hong, Xinrun Wang, Bo An

Autonomous agents navigating human society must master both production activities and social interactions, yet existing benchmarks rarely evaluate these skills simultaneously. To bridge this gap, we introduce StarDojo, a novel benchmark based on Stardew Valley, designed to assess AI agents in open-ended production-living simulations. In StarDojo, agents are tasked to perform essential livelihood activities such as farming and crafting, while simultaneously engaging in social interactions to establish relationships within a vibrant community. StarDojo features 1,000 meticulously curated tasks across five key domains: farming, crafting, exploration, combat, and social interactions. Additionally, we provide a compact subset of 100 representative tasks for efficient model evaluation. The benchmark offers a unified, user-friendly interface that eliminates the need for keyboard and mouse control, supports all major operating systems, and enables the parallel execution of multiple environment instances, making it particularly well-suited for evaluating the most capable foundation agents, powered by multimodal large language models (MLLMs). Extensive evaluations of state-of-the-art MLLMs agents demonstrate substantial limitations, with the best-performing model, GPT-4.1, achieving only a 12.7% success rate, primarily due to challenges in visual understanding, multimodal reasoning and low-level manipulation. As a user-friendly environment and benchmark, StarDojo aims to facilitate further research towards robust, open-ended agents in complex production-living environments.

智能代理在人类社会中的导航必须掌握生产活动和社会交互,但现有的基准测试很少同时评估这些技能。为了弥补这一差距,我们推出了StarDojo,这是一个基于星露谷物的新基准测试,旨在评估智能代理在开放式生产生活模拟中的表现。在StarDojo中,代理被要求执行基本的生计活动,如耕作和制作工艺品,同时参与社交互动以建立充满活力的社区内的关系。StarDojo涵盖了五大领域:耕作、制作工艺品、探索、战斗和社交互动,总计精心策划了1000个任务。此外,我们还提供了包含100个代表性任务的紧凑子集,以便高效模型评估。该基准测试提供了一个统一且用户友好的界面,无需使用键盘和鼠标控制,支持所有主要操作系统,并可以并行执行多个环境实例,因此特别适合评估由多模态大型语言模型驱动的最先进智能代理。对最新多模态大型语言模型代理的广泛评估表明存在显著局限性,表现最佳的GPT-4.1模型成功率仅为12.7%,这主要是由于视觉理解、多模态推理和低级操作方面的挑战所致。作为一个用户友好的环境和基准测试平台,StarDojo旨在促进进一步研究,以开发在复杂生产生活环境中具有鲁棒性的开放式智能代理。

论文及项目相关链接

PDF Project website: https://weihaotan.github.io/StarDojo

Summary
星界谷基准测试(StarDojo)是一个基于游戏Stardew Valley的新型基准测试,旨在评估人工智能代理在开放生产生活模拟中的表现。它要求代理同时掌握生产活动和社会交互技能。StarDojo包含1000个精心策划的任务,涵盖五个关键领域:农业、工艺、探索、战斗和社会互动。它为模型评估提供了一个紧凑的任务子集,并为用户提供了一个友好的界面。然而,当前最先进的模型在StarDojo中的表现有限,GPT-4.1的成功率仅为12.7%。

Key Takeaways

  1. StarDojo是一个基于游戏Stardew Valley的新型基准测试,旨在评估AI代理在模拟生产生活环境中的表现。
  2. 它要求代理同时掌握生产活动和社会交互技能,涵盖农业、工艺、探索、战斗和社会互动五个领域。
  3. StarDojo提供了1000个任务以及一个紧凑的任务子集,用于高效模型评估。
  4. 用户友好型界面支持所有主要操作系统,并允许并行执行多个环境实例。
  5. 当前最先进的模型在StarDojo中的表现有限,GPT-4.1的成功率仅为12.7%,表明存在视觉理解、多模式推理和低级操作方面的挑战。
  6. StarDojo旨在促进对复杂生产生活环境中健壮、开放的人工智能代理的研究。

Cool Papers

点此查看论文截图

SAND: Boosting LLM Agents with Self-Taught Action Deliberation

Authors:Yu Xia, Yiran Jenny Shen, Junda Wu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Lina Yao, Julian McAuley

Large Language Model (LLM) agents are commonly tuned with supervised finetuning on ReAct-style expert trajectories or preference optimization over pairwise rollouts. Most of these methods focus on imitating specific expert behaviors or promoting chosen reasoning thoughts and actions over rejected ones. However, without reasoning and comparing over alternatives actions, LLM agents finetuned with these methods may over-commit towards seemingly plausible but suboptimal actions due to limited action space exploration. To address this, in this paper we propose Self-taught ActioN Deliberation (SAND) framework, enabling LLM agents to explicitly deliberate over candidate actions before committing to one. To tackle the challenges of when and what to deliberate given large action space and step-level action evaluation, we incorporate self-consistency action sampling and execution-guided action critique to help synthesize step-wise action deliberation thoughts using the base model of the LLM agent. In an iterative manner, the deliberation trajectories are then used to finetune the LLM agent itself. Evaluating on two representative interactive agent tasks, SAND achieves an average 20% improvement over initial supervised finetuning and also outperforms state-of-the-art agent tuning approaches.

大型语言模型(LLM)代理通常通过反应式专家轨迹的监督微调或成对推出中的偏好优化来进行调整。这些方法大多侧重于模仿特定专家的行为或促进选择的推理思考和行动,而不是拒绝的行动。然而,如果不理性并比较替代行动,通过这些方法微调的LLM代理可能会因行动空间探索有限而过度承诺看似合理但次优的行动。为了解决这个问题,本文提出了自我教行动审议(SAND)框架,使LLM代理能够在承诺行动之前明确地对候选行动进行审议。为了解决在给定大行动空间和步骤级行动评估时何时审议以及审议什么内容的挑战,我们引入了自我一致性行动采样和执行指导行动评论,帮助利用LLM代理的基础模型合成步骤级行动审议思想。通过迭代的方式,审议轨迹然后用于微调LLM代理本身。在两个具有代表性的交互式代理任务上评估,SAND相较于初始的监督微调平均提高了20%的效果,并且优于最新的代理调整方法。

论文及项目相关链接

PDF

Summary
大型语言模型(LLM)代理通常采用监督微调的方法,模仿专家轨迹或偏好优化配对回放。但这些方法可能使代理过度依赖看似合理但实际是次优的行动。本文提出了自我行动决策(SAND)框架,使LLM代理能够明确地对候选行动进行权衡后再采取行动。通过自我一致性行动采样和执行指导行动评价,合成逐步行动决策思维,使用LLM代理的基础模型。迭代过程中,通过权衡轨迹对LLM代理进行微调。在两项代表性的交互式代理任务上,SAND相较于初始监督微调平均提升了20%,并超越了现有的代理调整方法。

Key Takeaways

  1. LLM代理通常通过模仿专家轨迹或优化偏好配对回放来进行监督微调。
  2. 这些方法可能导致LLM代理过度依赖看似合理但实际上是次优的行动。
  3. SAND框架使LLM代理能够明确对候选行动进行权衡,从而避免过早承诺次优行动。
  4. SAND通过自我一致性行动采样和执行指导行动评价,合成逐步决策思维。
  5. SAND框架使用LLM代理的基础模型进行迭代调整。
  6. 在两项代表性的交互式代理任务上,SAND相较于传统方法取得了显著改进。

Cool Papers

点此查看论文截图

Multi-Agent Retrieval-Augmented Framework for Evidence-Based Counterspeech Against Health Misinformation

Authors:Anirban Saha Anik, Xiaoying Song, Elliott Wang, Bryan Wang, Bengisu Yarimbas, Lingzi Hong

Large language models (LLMs) incorporated with Retrieval-Augmented Generation (RAG) have demonstrated powerful capabilities in generating counterspeech against misinformation. However, current studies rely on limited evidence and offer less control over final outputs. To address these challenges, we propose a Multi-agent Retrieval-Augmented Framework to generate counterspeech against health misinformation, incorporating multiple LLMs to optimize knowledge retrieval, evidence enhancement, and response refinement. Our approach integrates both static and dynamic evidence, ensuring that the generated counterspeech is relevant, well-grounded, and up-to-date. Our method outperforms baseline approaches in politeness, relevance, informativeness, and factual accuracy, demonstrating its effectiveness in generating high-quality counterspeech. To further validate our approach, we conduct ablation studies to verify the necessity of each component in our framework. Furthermore, human evaluations reveal that refinement significantly enhances counterspeech quality and obtains human preference.

将大型语言模型(LLMs)与检索增强生成(RAG)相结合,已显示出在生成对抗误导信息的反驳言论方面的强大能力。然而,当前的研究依赖于有限的证据,并且最终输出的可控性较低。为了解决这些挑战,我们提出了一种多代理检索增强框架,用于生成对抗健康误导信息的反驳言论,通过结合多个LLMs来优化知识检索、证据增强和响应细化。我们的方法结合了静态和动态证据,确保生成的反驳言论是相关、有根据的,并且是最新的。我们的方法在礼貌、相关性、信息量和事实准确性方面优于基线方法,证明了其在生成高质量反驳言论方面的有效性。为了进一步验证我们的方法,我们进行了剔除研究,以验证我们框架中每个组件的必要性。此外,人类评估表明,细化显著提高了反驳言论的质量,并获得了人类偏好。

论文及项目相关链接

PDF

Summary

大型语言模型结合检索增强生成技术,在应对错误信息生成反驳言论方面表现出强大能力。但现有研究证据有限,最终输出控制力较弱。为解决这些问题,我们提出多代理检索增强框架,用于生成针对健康误信息的反驳言论,整合多个大型语言模型,优化知识检索、证据增强和响应优化。该方法整合静态和动态证据,确保生成的反驳言论与事实相关、有事实依据并实时更新。在礼貌、相关性、信息量和事实准确性方面,该方法优于基线方法,证明其在生成高质量反驳言论方面的有效性。通过消融研究验证了框架中每个组件的必要性,人类评估显示进一步优化显著提高了反驳言论的质量并获得了人类偏好。

Key Takeaways

  1. 大型语言模型结合检索增强生成技术能有效生成针对误信息的反驳言论。
  2. 现有研究在证据有限和输出控制方面存在挑战。
  3. 提出多代理检索增强框架,整合多个大型语言模型以优化知识检索、证据增强和响应优化。
  4. 框架整合静态和动态证据,确保生成的反驳言论与事实相关、有事实依据并实时更新。
  5. 该方法在礼貌、相关性、信息量和事实准确性方面优于基线方法。
  6. 消融研究验证了框架中每个组件的必要性。

Cool Papers

点此查看论文截图

ViDove: A Translation Agent System with Multimodal Context and Memory-Augmented Reasoning

Authors:Yichen Lu, Wei Dai, Jiaen Liu, Ching Wing Kwok, Zongheng Wu, Xudong Xiao, Ao Sun, Sheng Fu, Jianyuan Zhan, Yian Wang, Takatomo Saito, Sicheng Lai

LLM-based translation agents have achieved highly human-like translation results and are capable of handling longer and more complex contexts with greater efficiency. However, they are typically limited to text-only inputs. In this paper, we introduce ViDove, a translation agent system designed for multimodal input. Inspired by the workflow of human translators, ViDove leverages visual and contextual background information to enhance the translation process. Additionally, we integrate a multimodal memory system and long-short term memory modules enriched with domain-specific knowledge, enabling the agent to perform more accurately and adaptively in real-world scenarios. As a result, ViDove achieves significantly higher translation quality in both subtitle generation and general translation tasks, with a 28% improvement in BLEU scores and a 15% improvement in SubER compared to previous state-of-the-art baselines. Moreover, we introduce DoveBench, a new benchmark for long-form automatic video subtitling and translation, featuring 17 hours of high-quality, human-annotated data. Our code is available here: https://github.com/pigeonai-org/ViDove

基于LLM的翻译代理已经实现了高度人性化的翻译结果,并能够更有效地处理更长、更复杂的上下文。然而,它们通常仅限于文本输入。在本文中,我们介绍了ViDove,一个为多种模式输入设计的翻译代理系统。ViDove受到人类翻译工作流程的启发,利用视觉和上下文背景信息来增强翻译过程。此外,我们整合了多种模式记忆系统和长期短期记忆模块,这些模块融合了特定领域的知识,使代理能够在真实场景中更精确、更自适应地执行。因此,ViDove在字幕生成和一般翻译任务中实现了更高的翻译质量,与之前的最新技术相比,BLEU得分提高了28%,SubER提高了15%。此外,我们还推出了DoveBench,这是一个新的长格式自动视频字幕和翻译的基准测试,包含17小时高质量、经过人工注释的数据。我们的代码可在https://github.com/pigeonai-org/ViDove找到。

论文及项目相关链接

PDF

Summary

基于LLM的翻译代理已经实现了高度人性化的翻译结果,并能够在处理更长的复杂上下文时表现出更高的效率。然而,它们通常仅限于文本输入。本文介绍了ViDove,一个为多媒体输入设计的翻译代理系统。ViDove利用视觉和上下文背景信息,激发人类翻译的工作流程,增强翻译过程。此外,我们整合了多媒体内存系统和丰富的领域特定知识的长短时记忆模块,使代理在真实场景中表现得更准确、更适应。因此,ViDove在字幕生成和一般翻译任务中实现了更高的翻译质量,与最新的先进基线相比,BLEU得分提高了28%,SubER提高了15%。我们还引入了DoveBench,这是一个新的长格式自动视频字幕和翻译基准测试,包含17小时高质量、经过人类注释的数据。

Key Takeaways

  1. LLM-based translation agents have achieved human-like translation results and can handle complex contexts efficiently.
  2. ViDove系统是一个为多媒体输入设计的翻译代理,融合了视觉和上下文背景信息以提升翻译质量。
  3. ViDove利用多媒体内存系统和长短时记忆模块,结合领域特定知识,提高代理在真实场景中的准确性和适应性。
  4. ViDove在字幕生成和一般翻译任务中表现出更高的翻译质量,相比先进基线有显著的改进。
  5. DoveBench是一个新的长格式自动视频字幕和翻译基准测试,为评估翻译系统的性能提供了新的标准。
  6. ViDove系统公开了源代码,便于进一步的研究和开发。

Cool Papers

点此查看论文截图

Open Source Planning & Control System with Language Agents for Autonomous Scientific Discovery

Authors:Licong Xu, Milind Sarkar, Anto I. Lonappan, Íñigo Zubeldia, Pablo Villanueva-Domingo, Santiago Casas, Christian Fidler, Chetana Amancharla, Ujjwal Tiwari, Adrian Bayer, Chadi Ait Ekiou, Miles Cranmer, Adrian Dimitrov, James Fergusson, Kahaan Gandhi, Sven Krippendorf, Andrew Laverick, Julien Lesgourgues, Antony Lewis, Thomas Meier, Blake Sherwin, Kristen Surrao, Francisco Villaescusa-Navarro, Chi Wang, Xueqing Xu, Boris Bolliet

We present a multi-agent system for automation of scientific research tasks, cmbagent. The system is formed by about 30 Large Language Model (LLM) agents and implements a Planning & Control strategy to orchestrate the agentic workflow, with no human-in-the-loop at any point. Each agent specializes in a different task (performing retrieval on scientific papers and codebases, writing code, interpreting results, critiquing the output of other agents) and the system is able to execute code locally. We successfully apply cmbagent to carry out a PhD level cosmology task (the measurement of cosmological parameters using supernova data) and evaluate its performance on two benchmark sets, finding superior performance over state-of-the-art LLMs. The source code is available on GitHub, demonstration videos are also available, and the system is deployed on HuggingFace and will be available on the cloud.

我们提出一个用于自动化科学研究任务的多智能体系统,名为cmbagent。该系统由大约30个大型语言模型(LLM)智能体组成,采用规划与控制策略来协调智能体的工作流程,整个流程中无需人工参与。每个智能体都专注于不同的任务(如执行科学论文和代码库的检索、编写代码、解释结果、评估其他智能体的输出),并且系统能够在本地执行代码。我们成功地将cmbagent应用于一个博士学位级别的宇宙学任务(使用超新星数据测量宇宙学参数),并在两个基准测试集上评估了其性能,发现其性能优于最新的大型语言模型。源代码可在GitHub上获得,还有演示视频可供参考,该系统已部署在HuggingFace上,并将在云端提供。

论文及项目相关链接

PDF Accepted contribution to the ICML 2025 Workshop on Machine Learning for Astrophysics. Code: https://github.com/CMBAgents/cmbagent; Videos: https://www.youtube.com/@cmbagent; HuggingFace: https://huggingface.co/spaces/astropilot-ai/cmbagent; Cloud: https://cmbagent.cloud

Summary

该系统是一个用于自动化科研任务的多智能体系统,名为cmbagent。系统由大约30个大型语言模型(LLM)智能体组成,采用计划与控制策略来协调智能体的工作流程,无需人工介入。智能体分别负责不同的任务,如检索科学论文和代码库、编写代码、解读结果、评估其他智能体的输出等。系统可本地执行代码。我们将cmbagent成功应用于执行博士级别的宇宙学任务(使用超新星数据测量宇宙学参数),并在两个基准测试集上评估其性能,发现其性能优于最先进的大型语言模型。源代码已在GitHub上提供,还有演示视频,该系统已部署在HuggingFace上,并将在云端提供。

Key Takeaways

  1. cmbagent是一个多智能体系统,用于自动化科研任务。
  2. 系统由30个大型语言模型(LLM)智能体组成,无需人工干预。
  3. 智能体分别负责不同的任务,如检索、编码、解读和批评。
  4. 系统可在本地执行代码。
  5. cmbagent成功完成博士级别的宇宙学任务,并表现出卓越性能。
  6. cmbagent的源代码已公开在GitHub上,还有演示视频可供参考。

Cool Papers

点此查看论文截图

The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover

Authors:Matteo Lupinacci, Francesco Aurelio Pironti, Francesco Blefari, Francesco Romeo, Luigi Arena, Angelo Furfaro

The rapid adoption of Large Language Model (LLM) agents and multi-agent systems enables unprecedented capabilities in natural language processing and generation. However, these systems have introduced unprecedented security vulnerabilities that extend beyond traditional prompt injection attacks. This paper presents the first comprehensive evaluation of LLM agents as attack vectors capable of achieving complete computer takeover through the exploitation of trust boundaries within agentic AI systems where autonomous entities interact and influence each other. We demonstrate that adversaries can leverage three distinct attack surfaces - direct prompt injection, RAG backdoor attacks, and inter-agent trust exploitation - to coerce popular LLMs (including GPT-4o, Claude-4 and Gemini-2.5) into autonomously installing and executing malware on victim machines. Our evaluation of 17 state-of-the-art LLMs reveals an alarming vulnerability hierarchy: while 41.2% of models succumb to direct prompt injection, 52.9% are vulnerable to RAG backdoor attacks, and a critical 82.4% can be compromised through inter-agent trust exploitation. Notably, we discovered that LLMs which successfully resist direct malicious commands will execute identical payloads when requested by peer agents, revealing a fundamental flaw in current multi-agent security models. Our findings demonstrate that only 5.9% of tested models (1/17) proved resistant to all attack vectors, with the majority exhibiting context-dependent security behaviors that create exploitable blind spots. Our findings also highlight the need to increase awareness and research on the security risks of LLMs, showing a paradigm shift in cybersecurity threats, where AI tools themselves become sophisticated attack vectors.

大型语言模型(LLM)代理的快速采用和多代理系统的出现,为自然语言处理和生成提供了前所未有的能力。然而,这些系统也引入了前所未有的安全漏洞,这些漏洞超出了传统的提示注入攻击的范围。本文首次全面评估了LLM代理作为攻击向量的能力,能够通过利用代理人工智能系统内的信任边界来实现对计算机的完全控制,在这些系统中,自主实体相互交互和影响。我们证明,敌人可以利用三种不同的攻击表面——直接提示注入、RAG后门攻击和代理间信任利用——来迫使流行的LLM(包括GPT-4o、Claude-4和Gemini-2.5)在受害机器上自主安装和执行恶意软件。我们对17款最先进LLM的评估揭示了一个令人警觉的漏洞层次:虽然41.2%的模型会屈服于直接的提示注入,但52.9%的模型容易受到RAG后门攻击,而高达82.4%的模型可以通过代理间的信任利用受到攻击。值得注意的是,我们发现即使LLM成功抵抗了直接的恶意命令,只要同伴代理提出要求,它们就会执行相同的有效载荷,这揭示了当前多代理安全模型中的根本缺陷。我们的研究结果表明,只有5.9%的测试模型(即17个中的1个)能够抵抗所有攻击向量,而大多数模型表现出依赖于上下文的安全行为,这些行为创造了可利用的盲点。我们的研究结果还强调了提高人们对LLM安全风险的意识以及进行相关研究的必要性,这显示了网络安全威胁的转变,即人工智能工具本身成为高级攻击向量。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)和多智能体系统的快速采纳,使得自然语言处理和生成能力得到了前所未有的提升,但同时也引入了前所未有的安全漏洞,这些漏洞超出了传统提示注入攻击的范围。本文首次全面评估了LLM代理作为攻击向量的能力,能够通过利用智能体AI系统内的信任边界,实现计算机系统的完全接管。通过展示三种独特的攻击面——直接提示注入、RAG后门攻击和智能体间信任剥削,我们能够诱导流行的LLM自主地在受害者机器上安装并执行恶意软件。对17款最新LLM的评估揭示了一个令人警觉的漏洞层次结构:尽管有41.2%的模型会屈服于直接的提示注入,但有高达82.4%的模型会通过智能体间的信任剥削受到攻击。尤其值得注意的是,即使LLM成功抵抗直接的恶意命令,当受到同伴智能体的请求时,仍会执行相同的恶意载荷,这揭示了当前多智能体安全模型中的根本缺陷。大部分模型表现出上下文相关的安全行为,创造了可利用的盲点。因此,必须提高人们对LLM安全风险的认识,并加强对相关风险的研究。

Key Takeaways

  1. LLM和多智能体系统的快速采纳带来了前所未有的自然语处理与生成能力,但也引入了新的安全漏洞。
  2. LLMs可被用作攻击向量,通过利用信任边界实现计算机系统的完全接管。
  3. 存在三种主要的攻击方式:直接提示注入、RAG后门攻击和智能体间信任剥削。
  4. 17款最新LLM中有高达82.4%可通过智能体间的信任剥削受到攻击。
  5. 即使LLM抵抗直接恶意命令,仍会通过同伴智能体的请求执行恶意载荷,显示多智能体安全模型的根本缺陷。
  6. 大部分LLM表现出上下文相关的安全行为,存在可利用的盲点。

Cool Papers

点此查看论文截图

GTA1: GUI Test-time Scaling Agent

Authors:Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li

Graphical user interface (GUI) agents autonomously operate across platforms (e.g., Linux) to complete tasks by interacting with visual elements. Specifically, a user instruction is decomposed into a sequence of action proposals, each corresponding to an interaction with the GUI. After each action, the agent observes the updated GUI environment to plan the next step. However, two main challenges arise: i) resolving ambiguity in task planning (i.e., the action proposal sequence), where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, i.e., precisely interacting with visual targets. This paper investigates the two aforementioned challenges with our GUI Test-time Scaling Agent, namely GTA1. First, to select the most appropriate action proposal, we introduce a test-time scaling method. At each step, we sample multiple candidate action proposals and leverage a judge model to evaluate and select the most suitable one. It trades off computation for better decision quality by concurrent sampling, shortening task execution steps, and improving overall performance. Second, we propose a model that achieves improved accuracy when grounding the selected action proposal to its corresponding visual elements. Our key insight is that reinforcement learning (RL) facilitates visual grounding through inherent objective alignments, rewarding successful clicks on interface elements. Experimentally, our method establishes state-of-the-art performance across diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7% accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When paired with a planner applying our test-time scaling strategy, it exhibits state-of-the-art agentic performance (e.g., 45.2% task success rate on OSWorld). We open-source our code and models here.

图形用户界面(GUI)代理能够跨平台(例如Linux)自主操作,通过与视觉元素交互来完成任务。具体地,用户指令被分解为一系列动作提案,每个提案对应于与GUI的一次交互。每个动作后,代理观察更新的GUI环境以计划下一步。然而,出现了两个主要挑战:i)解决任务规划中的歧义(即动作提案序列),选择合适的计划并不简单,因为可能存在许多有效的计划;ii)在复杂和高分辨率的接口上准确实现动作,即与视觉目标精确交互。

本文使用我们的GUI测试时间缩放代理,即GTA1,来研究上述两个挑战。首先,为了选择最合适的动作提案,我们引入了一种测试时间缩放方法。在每一步,我们采样多个候选动作提案,并利用评判模型来评估和选择最合适的一个。它通过并发采样、缩短任务执行步骤、提高整体性能来平衡计算与决策质量。其次,我们提出了一种模型,该模型在将所选动作提案与其相应的视觉元素相结合时提高了准确性。我们的关键见解是,强化学习(RL)通过固有的目标对齐来促进视觉定位,奖励成功点击界面元素。

论文及项目相关链接

PDF

Summary

本文介绍了一种名为GTA1的图形用户界面(GUI)测试时缩放代理。该代理旨在解决两个主要挑战:一是任务规划中的歧义问题,即选择适当的行动方案序列;二是准确地在复杂和高分辨率的接口中进行行动。为解决这两个问题,文章提出了一种测试时缩放方法和一个利用强化学习实现视觉定位准确性的模型。通过实验验证,该方法的性能达到业界最佳水平。同时开源代码和模型以供共享和使用。简而言之,这篇文章研究了通过提升精准决策能力和行动精度解决自主界面任务的技术问题,以此达到人工智能系统更智能的目标。具体方法包括采用测试时缩放策略,提高决策质量;使用强化学习实现精准点击等。其技术成果具有广泛的应用前景和实用价值。车程约谈代码精准判断触发度更专业模型组合优异表达现状发展使用力度精细标注工作流程涵盖建模先进版本逐渐持续检测错误观察文字开发基于最需求需要值得显著思考真实把握提供多样融合拓展突破模式高开发。仅需数行代码便可调用图像类场景展示运行检测所需文件组件所需设置多样化和平台技术内容承载输出表达能力反馈实用可靠兼容多样环境可维护性较好且能够提升用户交互体验以及促进技术领域的拓展与革新。核心思想是通过强化学习解决视觉定位问题,通过测试时缩放策略提高任务执行效率。对现有的模型和方法进行了改进和优化,提高了其性能和实用性。本论文不仅研究目标明确思路清晰设计先进更重要的是为我们提供了更智能的用户界面代理提供了有效的技术解决方案为解决相关问题具有重要的参考价值和实践意义。总的来说这是一个值得关注和研究的课题领域。

Key Takeaways

  1. GUI代理面临的主要挑战包括任务规划中的歧义性和在复杂界面中的精准动作定位。
  2. GTA1代理通过测试时缩放方法选择最合适的行动方案,提高了决策质量和任务执行效率。
  3. 强化学习被用于提高代理在视觉定位方面的准确性,通过奖励成功的点击来优化界面元素的交互。
  4. GTA1代理在多个基准测试中实现了业界最佳性能,如Screenspot-Pro、Screenspot-V2和OSWorld-G等。
  5. 开源代码和模型的共享促进了技术的进一步发展和社区贡献。
  6. 该研究为我们提供了更智能的用户界面代理的技术解决方案,具有重要的参考价值和实践意义。
  7. GTA1代理的核心优势在于其强大的决策能力、精准的动作定位以及对复杂界面环境的适应性。

Cool Papers

点此查看论文截图

Establishing Best Practices for Building Rigorous Agentic Benchmarks

Authors:Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpre, Kevin Meng, Rebecca Weiss, Fazl Barez, Rahul Gupta, Jwala Dhamala, Jacob Merizian, Mario Giulianelli, Harry Coppock, Cozmin Ududec, Jasjeet Sekhon, Jacob Steinhardt, Antony Kellerman, Sarah Schwettmann, Matei Zaharia, Ion Stoica, Percy Liang, Daniel Kang

Benchmarks are essential for quantitatively tracking progress in AI. As AI agents become increasingly capable, researchers and practitioners have introduced agentic benchmarks to evaluate agents on complex, real-world tasks. These benchmarks typically measure agent capabilities by evaluating task outcomes via specific reward designs. However, we show that many agentic benchmarks have issues in task setup or reward design. For example, SWE-bench Verified uses insufficient test cases, while TAU-bench counts empty responses as successful. Such issues can lead to under- or overestimation of agents’ performance by up to 100% in relative terms. To make agentic evaluation rigorous, we introduce the Agentic Benchmark Checklist (ABC), a set of guidelines that we synthesized from our benchmark-building experience, a survey of best practices, and previously reported issues. When applied to CVE-Bench, a benchmark with a particularly complex evaluation design, ABC reduces the performance overestimation by 33%.

基准测试是跟踪人工智能进步的关键。随着人工智能代理变得越来越强大,研究者和实践者已经引入了代理基准测试来评估代理在复杂现实世界任务中的表现。这些基准测试通常通过特定的奖励设计来评估任务结果,从而衡量代理的能力。然而,我们发现有多个代理基准测试在任务设置或奖励设计方面存在问题。例如,SWE-bench Verified使用的测试用例不足,而TAU-bench将空白的回答算作成功。这些问题可能导致对代理性能的相对高估或低估,最高达100%。为了严谨地评估代理性能,我们引入了代理基准测试清单(ABC),这是一套我们从基准测试构建经验、最佳实践调查和已报告的问题中综合得出的指南。当应用于具有特别复杂评估设计的CVE-Bench时,ABC将性能高估的情况减少了33%。

论文及项目相关链接

PDF 39 pages, 15 tables, 6 figures

Summary
人工智能的基准测试对于量化跟踪其进步至关重要。随着人工智能代理变得越来越强大,研究人员和实践者已经引入了代理基准测试来评估代理在复杂现实世界任务上的表现。然而,许多代理基准测试在任务设置或奖励设计方面存在问题。为此,我们提出代理基准测试清单(ABC),以指导最佳实践,解决先前存在的问题,减少性能评估中的误差。

Key Takeaways

  1. 基准测试对于评估人工智能的进步至关重要。
  2. 代理基准测试被用来评估人工智能代理在复杂现实世界任务上的表现。
  3. 许多现有的代理基准测试在任务设置或奖励设计方面存在问题。
  4. 这些问题可能导致对人工智能代理性能的过度或低估。
  5. 我们提出了代理基准测试清单(ABC)来解决这些问题。
  6. ABC结合了我们的经验、最佳实践和先前存在的问题。

Cool Papers

点此查看论文截图

MAEBE: Multi-Agent Emergent Behavior Framework

Authors:Sinem Erisken, Timothy Gothard, Martin Leitgab, Ram Potham

Traditional AI safety evaluations on isolated LLMs are insufficient as multi-agent AI ensembles become prevalent, introducing novel emergent risks. This paper introduces the Multi-Agent Emergent Behavior Evaluation (MAEBE) framework to systematically assess such risks. Using MAEBE with the Greatest Good Benchmark (and a novel double-inversion question technique), we demonstrate that: (1) LLM moral preferences, particularly for Instrumental Harm, are surprisingly brittle and shift significantly with question framing, both in single agents and ensembles. (2) The moral reasoning of LLM ensembles is not directly predictable from isolated agent behavior due to emergent group dynamics. (3) Specifically, ensembles exhibit phenomena like peer pressure influencing convergence, even when guided by a supervisor, highlighting distinct safety and alignment challenges. Our findings underscore the necessity of evaluating AI systems in their interactive, multi-agent contexts.

随着多智能体AI集群的普及,传统的针对孤立大型语言模型(LLM)的AI安全评估已不足以应对新兴风险。本文介绍了多智能体新兴行为评估(MAEBE)框架,以系统地评估这些风险。使用MAEBE与最大利益基准(以及一种新型双重反转问题技术),我们证明了以下几点:(1)LLM的道德偏好,特别是对工具性伤害的偏好,在单一智能体和集群中都令人惊讶地脆弱,并会随着问题的框架而显著改变。(2)由于新兴群体动力学的影响,LLM集群的道德推理不可直接从孤立智能体的行为预测。(3)特别是,即使受到监督者的引导,集群也会表现出诸如同伴压力影响收敛的现象,这突显了独特的安全和对齐挑战。我们的研究结果表明,在交互式多智能体的背景下评估AI系统是必要的。

论文及项目相关链接

PDF Preprint. This work has been submitted to the Multi-Agent Systems Workshop at ICML 2025 for review

Summary
随着多智能体AI集群的普及,传统的孤立大型语言模型(LLM)的AI安全评估已不足以应对新型出现的风险。本文引入了多智能体新兴行为评估(MAEBE)框架,以系统地评估此类风险。利用MAEBE与最大利益基准(结合新型双重反转问题技术),我们发现:LLM的道德偏好,尤其在工具性伤害方面,在问题设定上表现出惊人的脆弱性,并在单一智能体和集群中发生显著变化;由于新兴群体动态,无法直接从孤立智能体的行为预测集群的道德推理;特别是,即使在监督者的引导下,群体压力影响收敛现象依然存在,这突显出交互式多智能体环境下的AI系统评估的必要性。本文揭示了重新思考和开发新的AI评估和调试技术的重要性。这些技术不仅需要能够解释复杂的智能体行为,还需要模拟可能的安全风险场景来系统地进行多智能体风险评估和应对准备。多智能体环境中的智能体动态研究应该超越分析单一智能体的行为,更多地关注智能体之间的交互和新兴行为。此外,还需要进一步探索如何有效指导智能体在复杂环境中进行决策和应对挑战的策略和方法。这不仅是一个巨大的挑战,也是未来人工智能研究的重要方向之一。评估这些系统不仅是为了了解它们单独的表现,也是为了理解它们作为一个整体如何共同行动并可能出现何种意外的风险。在将来的AI发展中需要跨领域合作并共同努力进行此类评估和验证工作以实现安全和负责任的人工智能开发。这为构建未来安全的AI系统提供了新的视角和启示。传统的AI安全评估已不足以应对新兴的多智能体AI集群带来的风险和挑战。因此,需要跨领域合作并共同努力进行系统性的评估和验证工作以实现安全可控的人工智能技术并防范可能出现的未知风险和问题。Key Takeaways

 1. 多智能体AI集群的出现导致传统的AI安全评估方法不足以应对新型出现的风险。
 2. 引入Multi-Agent Emergent Behavior Evaluation (MAEBE)框架来评估多智能体AI集群的风险。
 3. LLM的道德偏好在问题设定上表现出脆弱性,并在单一智能体和集群中显著变化。
 4. 集群的智能体道德推理无法直接从孤立智能体的行为预测。
 5. 群体压力影响收敛现象存在于多智能体环境中,突显评估的必要性。
 6. 需要重新思考和开发新的AI评估和调试技术以适应多智能体环境。

Cool Papers

点此查看论文截图

Evaluating LLM Agent Adherence to Hierarchical Safety Principles: A Lightweight Benchmark for Probing Foundational Controllability Components

Authors:Ram Potham

Credible safety plans for advanced AI development require methods to verify agent behavior and detect potential control deficiencies early. A fundamental aspect is ensuring agents adhere to safety-critical principles, especially when these conflict with operational goals. This paper introduces a lightweight, interpretable benchmark to evaluate an LLM agent’s ability to uphold a high-level safety principle when faced with conflicting task instructions. Our evaluation of six LLMs reveals two primary findings: (1) a quantifiable “cost of compliance” where safety constraints degrade task performance even when compliant solutions exist, and (2) an “illusion of compliance” where high adherence often masks task incompetence rather than principled choice. These findings provide initial evidence that while LLMs can be influenced by hierarchical directives, current approaches lack the consistency required for reliable safety governance.

可信的安全计划对于先进的人工智能发展至关重要,这需要方法来验证代理行为并尽早检测潜在的控制缺陷。一个基本方面是确保代理遵守安全关键原则,尤其是在与安全目标相冲突时。本文介绍了一种轻便、可解释的基准测试,以评估大型语言模型代理在面临相互冲突的任务指令时,坚持高级安全原则的能力。我们对六个大型语言模型的评估得出了两个主要发现:(1)可量化的“合规成本”,即安全约束会降低任务性能,即使存在合规解决方案;(2)“合规假象”,即高度的合规性往往掩盖了任务无能,而非基于原则的选择。这些发现初步表明,虽然大型语言模型可以受到层次指令的影响,但当前的方法缺乏可靠安全治理所需的一致性。

论文及项目相关链接

PDF Preprint. This work has been submitted to the Technical AI Governance Workshop at ICML 2025 for review

Summary
本文介绍了一种评估大型语言模型(LLM)代理在面临冲突任务指令时能否遵守高级安全原则的可解释性基准。研究发现,安全约束可能会降低任务性能,即使存在合规解决方案;同时,高合规性可能掩盖任务无能而非基于原则的选择。

Key Takeaways

  • 先进AI的安全计划需要验证代理行为并早期检测潜在的控制缺陷。
  • 保证代理遵守安全关键原则至关重要,尤其在与安全目标冲突时。
  • 引入了一种可解释的基准来评估LLM代理在面临冲突时的安全原则遵守能力。
  • 安全约束可能会降低任务性能,即使存在合规解决方案,这被称为“合规的成本”。
  • 高合规性可能掩盖任务无能而非基于原则的选择,这种现象被称为“合规的假象”。

Cool Papers

点此查看论文截图

Task Assignment and Exploration Optimization for Low Altitude UAV Rescue via Generative AI Enhanced Multi-agent Reinforcement Learning

Authors:Xin Tang, Qian Chen, Wenjie Weng, Chao Jin, Zhang Liu, Jiacheng Wang, Geng Sun, Xiaohuan Li, Dusit Niyato

The integration of emerging uncrewed aerial vehicles (UAVs) with artificial intelligence (AI) and ground-embedded robots (GERs) has transformed emergency rescue operations in unknown environments. However, the high computational demands often exceed a single UAV’s capacity, making it difficult to continuously provide stable high-level services. To address this, this paper proposes a cooperation framework involving UAVs, GERs, and airships. The framework enables resource pooling through UAV-to-GER (U2G) and UAV-to-airship (U2A) links, offering computing services for offloaded tasks. Specifically, we formulate the multi-objective problem of task assignment and exploration as a dynamic long-term optimization problem aiming to minimize task completion time and energy use while ensuring stability. Using Lyapunov optimization, we transform it into a per-slot deterministic problem and propose HG-MADDPG, which combines the Hungarian algorithm with a GDM-based multi-agent deep deterministic policy gradient. Simulations demonstrate significant improvements in offloading efficiency, latency, and system stability over baselines.

新兴的无人机(UAV)与人工智能(AI)和地面嵌入式机器人(GER)的融合,已经转变了未知环境下的紧急救援行动。然而,高计算需求通常超出单个无人机的能力,难以持续提供稳定的高级服务。为了解决这一问题,本文提出了一个涉及无人机、地面嵌入式机器人和飞艇的合作框架。该框架通过无人机与地面嵌入式机器人(U2G)和无人机与飞艇(U2A)之间的链接,实现资源池化,为卸载的任务提供计算服务。具体来说,我们将任务分配和探索的多目标问题制定为一个动态长期优化问题,旨在最小化任务完成时间和能源消耗,同时确保稳定性。我们使用Lyapunov优化将其转化为每个时隙的确定性问题,并提出HG-MADDPG,它将匈牙利算法与基于GDM的多智能体深度确定性策略梯度相结合。模拟结果表明,与基线相比,在卸载效率、延迟和系统稳定性方面都有显著提高。

论文及项目相关链接

PDF

Summary

新兴无人航空器(UAVs)、人工智能(AI)与地面嵌入式机器人(GERs)的融合推动了未知环境下的紧急救援行动变革。然而,高计算需求常超出单一UAV的处理能力,难以持续提供稳定的高级服务。为应对此问题,本文提出一个涵盖UAVs、GERs和气浮船的合作框架,通过UAV-to-GER(U2G)和UAV-to-airship(U2A)链接实现资源池化,为卸载的任务提供计算服务。我们制定了一个动态长期优化问题,旨在最小化任务完成时间和能耗,同时保证稳定性。结合李雅普诺夫优化,我们将其转化为每槽确定性问题,并提出HG-MADDPG,它将匈牙利算法与基于GDM的多智能体深度确定性策略梯度相结合。模拟结果显示,相较于基线,HG-MADDPG在卸载效率、延迟和系统稳定性方面均有显著改善。

Key Takeaways

  1. 新兴无人航空器、人工智能和地面嵌入式机器人的结合推动了紧急救援操作的创新。
  2. 高计算需求超出单一无人航空器的处理能力,需要新的解决方案。
  3. 提出一个涵盖UAVs、GERs和气浮船的合作框架,实现资源池化,为卸载的任务提供计算服务。
  4. 将多目标任务分配和探索问题制定为动态长期优化问题,旨在最小化任务完成时间和能耗。
  5. 利用李雅普诺夫优化将问题转化为每槽确定性问题。
  6. 提出HG-MADDPG算法,结合匈牙利算法和基于GDM的多智能体深度确定性策略梯度。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-07-12 Doodle Your Keypoints Sketch-Based Few-Shot Keypoint Detection
2025-07-12
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-07-12 Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
2025-07-12
  目录