⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-18 更新
DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding
Authors:Dawei Zhu, Rui Meng, Jiefeng Chen, Sujian Li, Tomas Pfister, Jinsung Yoon
Comprehending long visual documents, where information is distributed across extensive pages of text and visual elements, is a critical but challenging task for modern Vision-Language Models (VLMs). Existing approaches falter on a fundamental challenge: evidence localization. They struggle to retrieve relevant pages and overlook fine-grained details within visual elements, leading to limited performance and model hallucination. To address this, we propose DocLens, a tool-augmented multi-agent framework that effectively ``zooms in’’ on evidence like a lens. It first navigates from the full document to specific visual elements on relevant pages, then employs a sampling-adjudication mechanism to generate a single, reliable answer. Paired with Gemini-2.5-Pro, DocLens achieves state-of-the-art performance on MMLongBench-Doc and FinRAGBench-V, surpassing even human experts. The framework’s superiority is particularly evident on vision-centric and unanswerable queries, demonstrating the power of its enhanced localization capabilities.
理解和处理长视觉文档是一个对现代视觉语言模型(VLMs)至关重要但具有挑战性的任务,信息分布在大量文本和视觉元素中。现有方法面临一个基本挑战:证据定位。他们难以检索相关页面,并忽略了视觉元素中的细微细节,导致性能有限和模型幻觉。为了解决这个问题,我们提出了DocLens,这是一个工具增强型多代理框架,可以像镜头一样有效地“放大”证据。它首先从整个文档导航到相关页面上的特定视觉元素,然后采用采样判决机制生成单一、可靠的答案。与Gemini-2.5-Pro配对,DocLens在MMLongBench-Doc和FinRAGBench-V上实现了最先进的性能,甚至超越了人类专家。该框架在视觉为中心和无法回答的问题上表现得尤为出色,证明了其增强定位能力的强大。
论文及项目相关链接
Summary:针对现代视觉语言模型(VLMs)在处理长文档时的挑战,如证据定位问题和忽视细微细节的问题,提出了DocLens工具增强多代理框架。该框架能够像透镜一样有效地“放大”证据,首先在整篇文档中导航到相关页面的特定视觉元素,然后采用采样判决机制生成单一可靠的答案。结合Gemini-2.5-Pro,DocLens在MMLongBench-Doc和FinRAGBench-V上实现了最先进的性能表现,甚至超越了人类专家。特别是在以视觉为中心的不可回答查询中,该框架的卓越性能显示了其增强定位能力的强大。
Key Takeaways:
- 视觉语言模型(VLMs)在处理长文档时面临挑战,包括证据定位问题和忽视细微细节的问题。
- DocLens是一个工具增强多代理框架,旨在解决这些问题。
- DocLens通过导航到相关页面的特定视觉元素并放大这些元素来工作。
- DocLens采用采样判决机制生成单一可靠的答案。
- 结合Gemini-2.5-Pro,DocLens在MMLongBench-Doc和FinRAGBench-V上实现了最先进的性能。
- DocLens在视觉中心和不可回答查询方面的表现尤其出色,显示了其增强定位能力的强大。
- DocLens的性能甚至超越了人类专家。
点此查看论文截图
Aligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shaping
Authors:Dena Mujtaba, Brian Hu, Anthony Hoogs, Arslan Basharat
The deployment of decision-making AI agents presents a critical challenge in maintaining alignment with human values or guidelines while operating in complex, dynamic environments. Agents trained solely to achieve their objectives may adopt harmful behavior, exposing a key trade-off between maximizing the reward function and maintaining the alignment. For the pre-trained agents, ensuring alignment is particularly challenging, as retraining can be a costly and slow process. This is further complicated by the diverse and potentially conflicting attributes representing the ethical values for alignment. To address these challenges, we propose a test-time alignment technique based on model-guided policy shaping. Our method allows precise control over individual behavioral attributes, generalizes across diverse reinforcement learning (RL) environments, and facilitates a principled trade-off between ethical alignment and reward maximization without requiring agent retraining. We evaluate our approach using the MACHIAVELLI benchmark, which comprises 134 text-based game environments and thousands of annotated scenarios involving ethical decisions. The RL agents are first trained to maximize the reward in their respective games. At test time, we apply policy shaping via scenario-action attribute classifiers to ensure decision alignment with ethical attributes. We compare our approach against prior training-time methods and general-purpose agents, as well as study several types of ethical violations and power-seeking behavior. Our results demonstrate that test-time policy shaping provides an effective and scalable solution for mitigating unethical behavior across diverse environments and alignment attributes.
决策AI代理的部署在复杂、动态的环境中运行时,如何保持与人类价值观或指南的一致性是一个关键的挑战。仅为了达成目标而训练的代理可能会采取有害的行为,这暴露出在最大化奖励函数和保持一致性之间的关键权衡。对于预训练的代理来说,确保一致性尤其具有挑战性,因为重新训练可能是一个成本高且速度慢的过程。由代表对齐道德价值的多样化和潜在冲突的属性进一步加剧了这一复杂性。为了解决这些挑战,我们提出了一种基于模型引导策略塑造的测试时对齐技术。我们的方法可以对单个行为属性进行精确控制,可以泛化到各种强化学习(RL)环境中,并在不需要代理重新训练的情况下,能够在道德对齐和奖励最大化之间实现有原则的权衡。我们使用MACHIAVELLI基准测试来评估我们的方法,该基准测试包括134个基于文本的游戏环境和涉及道德决策的数千个注释场景。首先,RL代理被训练在其各自的游戏中最大化奖励。在测试时,我们通过情景动作属性分类器进行策略塑造,以确保决策与道德属性对齐。我们将我们的方法与先前的训练时方法和通用代理进行了比较,并研究了多种类型的道德违规和权力寻求行为。结果表明,测试时的策略塑造为减轻不同环境和对齐属性中的不道德行为提供了一种有效且可扩展的解决方案。
论文及项目相关链接
PDF Accepted to AAAI 2026 AI Alignment Track
Summary
点此查看论文截图
ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation
Authors:Kaishen Wang, Ruibo Chen, Tong Zheng, Heng Huang
Recent text-to-image (T2I) models have made remarkable progress in generating visually realistic and semantically coherent images. However, they still suffer from randomness and inconsistency with the given prompts, particularly when textual descriptions are vague or underspecified. Existing approaches, such as prompt rewriting, best-of-N sampling, and self-refinement, can mitigate these issues but usually require additional modules and operate independently, hindering test-time scaling efficiency and increasing computational overhead. In this paper, we introduce ImAgent, a training-free unified multimodal agent that integrates reasoning, generation, and self-evaluation within a single framework for efficient test-time scaling. Guided by a policy controller, multiple generation actions dynamically interact and self-organize to enhance image fidelity and semantic alignment without relying on external models. Extensive experiments on image generation and editing tasks demonstrate that ImAgent consistently improves over the backbone and even surpasses other strong baselines where the backbone model fails, highlighting the potential of unified multimodal agents for adaptive and efficient image generation under test-time scaling.
近期文本到图像(T2I)模型在生成视觉上逼真且语义上连贯的图像方面取得了显著进步。然而,它们仍然受到给定提示的随机性和不一致性的困扰,尤其是在文本描述模糊或未指定时。现有方法,如提示重写、最佳N采样和自我完善,可以缓解这些问题,但它们通常需要额外的模块并且独立操作,阻碍了测试时的规模扩展效率并增加了计算开销。在本文中,我们介绍了ImAgent,这是一种无需训练的统一多模态代理,它在一个框架内集成了推理、生成和自我评估,以实现有效的测试时间缩放。在策略控制器的引导下,多个生成动作能够动态交互并自我组织,以提高图像的真实性和语义一致性,而无需依赖外部模型。在图像生成和编辑任务上的大量实验表明,ImAgent始终在主干网络上有所提升,甚至在主干模型失败的情况下也超过了其他强大的基线,这突显了统一多模态代理在测试时间缩放下的自适应和高效图像生成的潜力。
论文及项目相关链接
PDF 12 pages, 5 tables, 6 figures
Summary
新一代文本到图像(T2I)模型在生成视觉真实且语义连贯的图像方面取得了显著进步,但仍存在随机性和与提示不一致的问题,尤其在文本描述模糊或未明确指定时。现有方法如提示重写、最佳N采样和自我完善等,虽能缓解这些问题,但需要额外的模块并且操作独立,影响测试时的缩放效率并增加了计算开销。本文提出ImAgent,一个无需训练的统一多模态代理,它在一个框架内集成了推理、生成和自我评估,以实现高效的测试时缩放。受策略控制器的引导,多个生成动作能动态交互和自我组织,提高图像保真度和语义一致性,无需依赖外部模型。在图像生成和编辑任务的广泛实验表明,ImAgent不断改善并超越其他强大基线,即使背景模型失败也如此,凸显出统一多模态代理在测试时缩放自适应和高效图像生成的潜力。
Key Takeaways
- 文本到图像(T2I)模型在生成视觉上真实和语义上连贯的图像方面取得了重大进展。
- 当前模型仍面临随机性和与提示不一致的问题,尤其在文本描述模糊时。
- 现有方法如提示重写、最佳N采样和自我完善需要额外的模块,操作独立,影响效率。
- ImAgent是一个无需训练的统一多模态代理,集成了推理、生成和自我评估。
- ImAgent通过策略控制器引导多个生成动作的动态交互和自我组织。
- ImAgent提高了图像保真度和语义一致性,且无需依赖外部模型。
点此查看论文截图
SRLF: An Agent-Driven Set-Wise Reflective Learning Framework for Sequential Recommendation
Authors:Jiahao Wang, Bokang Fu, Yu Zhu, Yuli Liu
LLM-based agents are emerging as a promising paradigm for simulating user behavior to enhance recommender systems. However, their effectiveness is often limited by existing studies that focus on modeling user ratings for individual items. This point-wise approach leads to prevalent issues such as inaccurate user preference comprehension and rigid item-semantic representations. To address these limitations, we propose the novel Set-wise Reflective Learning Framework (SRLF). Our framework operationalizes a closed-loop “assess-validate-reflect” cycle that harnesses the powerful in-context learning capabilities of LLMs. SRLF departs from conventional point-wise assessment by formulating a holistic judgment on an entire set of items. It accomplishes this by comprehensively analyzing both the intricate interrelationships among items within the set and their collective alignment with the user’s preference profile. This method of set-level contextual understanding allows our model to capture complex relational patterns essential to user behavior, making it significantly more adept for sequential recommendation. Extensive experiments validate our approach, confirming that this set-wise perspective is crucial for achieving state-of-the-art performance in sequential recommendation tasks.
基于大型语言模型的代理(LLM-based agents)作为一种模拟用户行为以增强推荐系统的有前途的模式正崭露头角。然而,其有效性通常受限于现有研究,这些研究集中在为单个项目建立用户评级模型上。这种点对点的方法导致了普遍存在的问题,如用户偏好理解不准确和项目语义表示僵化。为了解决这些局限性,我们提出了新颖的集合级反思学习框架(SRLF)。我们的框架实施了一个闭环的“评估-验证-反思”周期,利用大型语言模型的上下文学习能力。SRLF通过对整个项目集进行整体判断,从而改变了传统的点对点评估方式。它通过综合分析集合内项目之间复杂的关系以及它们与用户偏好配置的集体一致性来实现这一点。这种集合级别的上下文理解方法使我们的模型能够捕捉到对用户行为至关重要的复杂关系模式,使其在序列推荐方面更加擅长。大量实验验证了我们方法的有效性,证明了集合观点对于实现最先进的序列推荐任务性能至关重要。
论文及项目相关链接
总结
基于LLM的代理模拟用户行为以增强推荐系统,展现出巨大的潜力。然而,现有的研究多聚焦于对用户单个项目的评分建模,这种方式导致用户偏好理解不准确和项目语义表示僵化等问题。为解决这些局限性,我们提出了新颖的Set-wise Reflective Learning Framework(SRLF)。我们的框架通过操作一个闭环的“评估-验证-反思”周期,利用LLM的上下文学习能力。SRLF不同于传统的点态评估,它对整个项目集进行整体判断。通过全面分析项目之间的复杂相互关系以及它们与用户偏好之间的集体一致性,实现了集合级别的上下文理解,从而捕捉对用户行为至关重要的复杂关系模式,使其对序列推荐任务更加擅长。实验验证了我们方法的有效性,证明了集合视角对于实现最先进的序列推荐任务性能至关重要。
关键见解
- LLM-based agents展现出在模拟用户行为以增强推荐系统中的潜力。
- 现有研究聚焦于用户单个项目的评分建模,导致用户偏好理解不准确和项目语义表示僵化。
- 提出的Set-wise Reflective Learning Framework (SRLF) 通过操作闭环的“评估-验证-反思”周期来解决这些问题。
- SRLF利用LLM的上下文学习能力,实现了集合级别的整体判断,全面分析项目间的复杂关系以及它们与用户偏好的一致性。
- SRLF通过捕捉复杂的关系模式提高了模型对序列推荐任务的适应性。
- 实验证明了集合视角对于实现最先进的序列推荐任务性能至关重要。
点此查看论文截图
NOVA: An Agentic Framework for Automated Histopathology Analysis and Discovery
Authors:Anurag J. Vaidya, Felix Meissen, Daniel C. Castro, Shruthi Bannur, Tristan Lazard, Drew F. K. Williamson, Faisal Mahmood, Javier Alvarez-Valle, Stephanie L. Hyland, Kenza Bouzid
Digitized histopathology analysis involves complex, time-intensive workflows and specialized expertise, limiting its accessibility. We introduce NOVA, an agentic framework that translates scientific queries into executable analysis pipelines by iteratively generating and running Python code. NOVA integrates 49 domain-specific tools (e.g., nuclei segmentation, whole-slide encoding) built on open-source software, and can also create new tools ad hoc. To evaluate such systems, we present SlideQuest, a 90-question benchmark – verified by pathologists and biomedical scientists – spanning data processing, quantitative analysis, and hypothesis testing. Unlike prior biomedical benchmarks focused on knowledge recall or diagnostic QA, SlideQuest demands multi-step reasoning, iterative coding, and computational problem solving. Quantitative evaluation shows NOVA outperforms coding-agent baselines, and a pathologist-verified case study links morphology to prognostically relevant PAM50 subtypes, demonstrating its scalable discovery potential.
数字化病理分析涉及复杂且耗时的流程,需要专业的技术知识,这就限制了其普及性。我们介绍了NOVA,这是一个智能框架,能够将科学查询转化为可执行的分析管道,通过迭代生成和运行Python代码来实现。NOVA整合了49个基于开源软件的领域特定工具(例如,细胞核分割、全幻灯片编码),并能够即兴创建新工具。为了评估这样的系统,我们推出了SlideQuest,这是一个由病理学家和生物医学科学家验证的包含90个问题的基准测试,涉及数据处理、定量分析和假设检验。与以往侧重于知识回忆或诊断质量保障的生物医学基准测试不同,SlideQuest需要多步骤推理、迭代编码和计算问题解决。定量评估显示,NOVA的表现优于编码代理基准测试,并且经过病理学家验证的案例研究将形态与预后相关的PAM50亚型联系起来,证明了其可扩展的发现潜力。
论文及项目相关链接
Summary
数字化组织病理学分析流程复杂且耗时,需要专业知识,限制了其普及性。本研究引入了NOVA分析框架,该框架能够将科学查询转化为可执行的分析流程,通过迭代生成和运行Python代码实现。NOVA整合了49种特定领域的工具,这些工具基于开源软件构建,不仅可以用于现有工具的使用,还可以根据需求创建新工具。本研究还推出了SlideQuest基准测试,包含由病理学家和生物医学科学家验证的90个问题,涵盖数据处理、定量分析和假设检验等方面。相较于以往侧重于知识回忆或诊断质量评估的基准测试,SlideQuest要求多步骤推理、迭代编码和计算问题解决能力。定量评估显示,NOVA优于编码代理基线,并通过病理学家验证的个案研究将形态与预后相关的PAM50亚型相联系,展示了其可发现潜在应用的潜力。
Key Takeaways
- 数字化组织病理学分析存在复杂性、耗时的限制以及专业要求较高的难题。
- NOVA框架可将科学查询转化为可执行的分析流程,通过迭代生成和运行Python代码实现。
- NOVA整合了多种特定领域的工具,并可以创建新的工具以满足特定需求。
- SlideQuest基准测试包含由专家验证的多个问题,涵盖数据处理、定量分析和假设检验等方面。
- SlideQuest不同于以往侧重于知识回忆或诊断质量评估的基准测试,更注重多步骤推理、迭代编码和计算问题解决能力。
- NOVA框架在定量评估中表现优异,优于编码代理基线。
点此查看论文截图
iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference
Authors:Wei Fan, JinYi Yoon, Bo Ji
Large Language Model (LLM) agent systems have advanced rapidly, driven by their strong generalization in zero-shot settings. To further enhance reasoning and accuracy on complex tasks, Multi-Agent Debate (MAD) has emerged as a promising framework that engages multiple LLM agents in structured debates to encourage diverse reasoning. However, triggering MAD for every query is inefficient, as it incurs substantial computational (token) cost and may even degrade accuracy by overturning correct single-agent answers. To address these limitations, we propose intelligent Multi-Agent Debate (iMAD), a token-efficient framework that selectively triggers MAD only when it is likely to be beneficial (i.e., correcting an initially wrong answer). To achieve this goal, iMAD learns generalizable model behaviors to make accurate debate decisions. Specifically, iMAD first prompts a single agent to produce a structured self-critique response, from which we extract 41 interpretable linguistic and semantic features capturing hesitation cues. Then, iMAD uses a lightweight debate-decision classifier, trained using our proposed FocusCal loss, to determine whether to trigger MAD, enabling robust debate decisions without test dataset-specific tuning. Through extensive experiments using six (visual) question answering datasets against five competitive baselines, we have shown that iMAD significantly reduces token usage (by up to 92%) while also improving final answer accuracy (by up to 13.5%).
大规模语言模型(LLM)代理系统发展迅速,得益于它们在零样本设置中的强大泛化能力。为了进一步提高在复杂任务上的推理和准确性,多代理辩论(MAD)作为一个有前景的框架应运而生,它让多个LLM代理参与结构化辩论,以鼓励多样化的推理。然而,为每次查询触发MAD是不高效的,因为它会产生大量的计算(令牌)成本,甚至可能通过推翻正确的单代理答案来降低准确性。为了解决这些局限性,我们提出了智能多代理辩论(iMAD),这是一个令牌高效的框架,它只选择性地触发MAD,当这很可能是有益的时候(即纠正一个最初的错误答案)。为了实现这一目标,iMAD学习可推广的模型行为来做出准确的辩论决策。具体来说,iMAD首先提示单个代理产生结构化的自我批判响应,从中我们提取41个可解释的语言和语义特征,捕捉犹豫的线索。然后,iMAD使用轻量级的辩论决策分类器,使用我们提出的FocusCal损失进行训练,以确定是否需要触发MAD,从而实现稳健的辩论决策而无需针对测试数据集进行特定调整。通过在与五个竞争性基准测试的六个(视觉)问答数据集上进行的大量实验,我们已经证明iMAD显著减少了令牌使用(最多减少92%),同时提高了最终答案的准确性(最多提高1.倍或更大。简化后的翻译如下:大型语言模型(LLM)系统进步迅速,特别是其在零样本环境下的良好泛化能力是一大驱动力。为了提高复杂任务的推理和准确性,一种名为多代理辩论(MAD)的方法备受关注。然而,每次查询都触发MAD并不高效,因为它需要大量的计算成本并可能降低准确性。为解决这一问题,我们推出了智能多代理辩论(iMAD),这是一个能有效节省令牌的框架。它只在可能有益的情况下触发辩论功能(即纠正原先的错误答案)。为了做出明智的辩论决策,iMAD学习了可推广的模型行为。具体来说,它通过观察单个代理的自我批判响应来识别犹豫线索等特征。接着使用轻量级的辩论决策分类器决定是否触发辩论功能。经过在多个问答数据集上的测试表明,iMAD显著减少了令牌的使用量并提高了答案的准确性。
论文及项目相关链接
PDF Accepted in AAAI 2026 (Oral)
Summary
大型语言模型(LLM)代理系统的快速发展推动了其在零样本环境下的泛化能力。为了进一步提高复杂任务的推理和准确性,出现了多代理辩论(MAD)这一有前景的框架,它让多个LLM代理参与结构化辩论,以促进多样化的推理。然而,为每次查询触发MAD是不高效的,因为它会引起大量的计算(令牌)成本,甚至可能通过推翻正确的单代理答案来降低准确性。为解决这些局限性,我们提出了智能多代理辩论(iMAD),这是一种令牌高效的框架,它仅选择性地触发MAD,当这可能有益时(即纠正最初的错误答案)。为实现这一目标,iMAD学习可推广的模型行为以做出准确的辩论决策。实验表明,iMAD在减少令牌使用的同时,也提高了最终答案的准确性。
Key Takeaways
- 大型语言模型(LLM)代理系统已快速发展,并在零样本环境下表现出强大的泛化能力。
- 多代理辩论(MAD)框架用于促进LLM代理之间的多样化推理,提高复杂任务的推理和准确性。
- 为每次查询触发MAD是不高效的,会导致计算成本增加和准确性下降。
- 智能多代理辩论(iMAD)框架旨在选择性触发MAD,仅在可能纠正错误答案时。
- iMAD通过提取语言和行为特征来做出辩论决策,这些特征反映了代理的犹豫和不确定性。
- iMAD使用轻量级的辩论决策分类器,通过FocusCal损失进行训练,以做出稳健的辩论决策,无需针对测试数据集进行特定调整。
点此查看论文截图
AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery
Authors:Yuqi Yin, Yibo Fu, Siyuan Wang, Peng Sun, Hongyu Wang, Xiaohui Wang, Lei Zheng, Zhiyong Li, Zhirong Liu, Jianji Wang, Zhaoxi Sun
The discovery of novel Ionic Liquids (ILs) is hindered by critical challenges in property prediction, including limited data, poor model accuracy, and fragmented workflows. Leveraging the power of Large Language Models (LLMs), we introduce AIonopedia, to the best of our knowledge, the first LLM agent for IL discovery. Powered by an LLM-augmented multimodal domain foundation model for ILs, AIonopedia enables accurate property predictions and incorporates a hierarchical search architecture for molecular screening and design. Trained and evaluated on a newly curated and comprehensive IL dataset, our model delivers superior performance. Complementing these results, evaluations on literature-reported systems indicate that the agent can perform effective IL modification. Moving beyond offline tests, the practical efficacy was further confirmed through real-world wet-lab validation, in which the agent demonstrated exceptional generalization capabilities on challenging out-of-distribution tasks, underscoring its ability to accelerate real-world IL discovery.
离子液体的新型发现受到属性预测方面的重大挑战所阻碍,包括数据有限、模型精度不足以及工作流程碎片化。我们借助大型语言模型(LLM)的力量,推出了AIonopedia,据我们所知,这是首款用于离子液体(IL)发现的LLM代理。AIonopedia由LLM增强的离子液体多模式域基础模型提供动力,能够进行准确的属性预测,并采用分层搜索架构进行分子筛选和设计。我们的模型是在新整理的综合离子液体数据集上进行训练和评估的,表现出卓越的性能。此外,对文献报道系统的评估表明,该代理可以有效进行离子液体改造。除了线下测试之外,通过现实世界湿实验室的验证进一步证实了其实用性,代理在具有挑战性的离群任务中表现出卓越的泛化能力,突显了其加速现实世界离子液体发现的能力。
论文及项目相关链接
Summary:借助大型语言模型(LLMs)的力量,我们引入了迄今为止首个用于离子液体(ILs)发现的LLM代理——AIonopedia。该模型通过LLM增强的多模式域基础模型进行赋能,可实现离子液体的精确属性预测,并融入分层搜索架构进行分子筛选和设计。在新整理的综合IL数据集上进行训练和评估,该模型表现出卓越性能。通过文献报道系统的评估,该代理可有效进行离子液体的改造。通过湿实验室验证,进一步证实了其在现实世界中的实用性,该代理在具有挑战性的离分布任务中表现出卓越泛化能力,突显其加速现实世界中离子液体发现的能力。
Key Takeaways:
- 离子液体(ILs)发现面临属性预测的挑战,包括数据有限、模型精度低和流程碎片化。
- 大型语言模型(LLMs)在IL发现中具有潜力。
- AIonopedia是首个用于IL发现的LLM代理,具备准确属性预测能力。
- AIonopedia采用分层搜索架构进行分子筛选和设计。
- 在新综合IL数据集上训练和评估的AIonopedia表现出卓越性能。
- AIonopedia能在文献报道的系统中进行有效IL改造。
点此查看论文截图
UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios
Authors:Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah
Autonomous aerial systems increasingly rely on large language models (LLMs) for mission planning, perception, and decision-making, yet the lack of standardized and physically grounded benchmarks limits systematic evaluation of their reasoning capabilities. To address this gap, we introduce UAVBench, an open benchmark dataset comprising 50,000 validated UAV flight scenarios generated through taxonomy-guided LLM prompting and multi-stage safety validation. Each scenario is encoded in a structured JSON schema that includes mission objectives, vehicle configuration, environmental conditions, and quantitative risk labels, providing a unified representation of UAV operations across diverse domains. Building on this foundation, we present UAVBench_MCQ, a reasoning-oriented extension containing 50,000 multiple-choice questions spanning ten cognitive and ethical reasoning styles, ranging from aerodynamics and navigation to multi-agent coordination and integrated reasoning. This framework enables interpretable and machine-checkable assessment of UAV-specific cognition under realistic operational contexts. We evaluate 32 state-of-the-art LLMs, including GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B, and ERNIE 4.5 300B, and find strong performance in perception and policy reasoning but persistent challenges in ethics-aware and resource-constrained decision-making. UAVBench establishes a reproducible and physically grounded foundation for benchmarking agentic AI in autonomous aerial systems and advancing next-generation UAV reasoning intelligence. To support open science and reproducibility, we release the UAVBench dataset, the UAVBench_MCQ benchmark, evaluation scripts, and all related materials on GitHub at https://github.com/maferrag/UAVBench
自主空中系统越来越依赖大型语言模型(LLM)进行任务规划、感知和决策,但由于缺乏标准化和物理基础的基准测试,其推理能力的系统评估受到限制。为了弥补这一空白,我们引入了UAVBench,这是一个开放的标准数据集,包含通过分类学指导的LLM提示和多阶段安全验证生成的50000个经过验证的无人机飞行场景。每个场景都按照结构化JSON模式编码,包括任务目标、车辆配置、环境条件和定量风险标签,为不同领域的无人机操作提供了统一表示。在此基础上,我们推出了UAVBench_MCQ,这是一个以推理为导向的扩展集,包含5万个涉及十种认知和道德推理风格的多项选择题,涵盖空气动力学、导航、多智能体协调以及综合推理等。该框架能够在现实操作环境下对无人机特定认知进行可解释和机器检测评估。我们评估了32种最新的大型语言模型,包括GPT-5、ChatGPT-4o、Gemini 2.5 Flash、DeepSeek V3、Qwen3 235B和ERNIE 4.5 300B等,发现在感知和政策推理方面表现出色,但在道德意识和资源受限的决策制定方面仍存在持续挑战。UAVBench为自主空中系统的智能代理基准测试提供了可重复和物理基础的基础,推动了下一代无人机推理智能的发展。为了支持开放科学和可重复性,我们在GitHub上发布了UAVBench数据集、UAVBench_MCQ基准测试、评估脚本和所有相关材料(https://github.com/maferrag/UAVBench)。
论文及项目相关链接
PDF 18 pages, 5 Figures
Summary
该文本介绍了自主空中系统越来越依赖大型语言模型进行任务规划、感知和决策,但缺乏标准化和物理基础的基准测试限制了对其推理能力的系统评估。为解决这一差距,引入了UAVBench数据集,包含通过分类学指导的语言模型提示和多阶段安全验证生成的5万个验证过的无人机飞行场景。此外,还推出了UAVBench_MCQ基准测试,包含涉及认知与道德推理的多个选择题。评估了多个先进的大型语言模型,发现它们在感知和政策推理方面表现出色,但在道德意识和资源受限的决策制定方面仍存在挑战。UAVBench为自主空中系统的智能代理基准测试提供了可复制和物理基础的基石。
Key Takeaways
- 大型语言模型在自主空中系统的任务规划、感知和决策中扮演重要角色。
- 缺乏标准化和物理基础的基准测试限制了语言模型在自主空中系统中的推理能力评估。
- UAVBench数据集包含通过分类学指导的语言模型提示生成的无人机飞行场景,并进行了多阶段安全验证。
- UAVBench_MCQ基准测试包含涉及认知与道德推理的多个选择题,用于评估无人机的推理能力。
- 先进的大型语言模型在感知和政策推理方面表现出色。
- 在道德意识和资源受限的决策制定方面,大型语言模型仍存在挑战。
点此查看论文截图
Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning
Authors:Dayong Liang, Xiao-Yong Wei, Changmeng Zheng
Hallucination continues to pose a major obstacle in the reasoning capabilities of large language models (LLMs). Although the Multi-Agent Debate (MAD) paradigm offers a promising solution by promoting consensus among multiple agents to enhance reliability, it relies on the unrealistic assumption that all debaters are rational and reflective, which is a condition that may not hold when agents themselves are prone to hallucinations. To address this gap, we introduce the Multi-agent Undercover Gaming (MUG) protocol, inspired by social deduction games like “Who is Undercover?”. MUG reframes MAD as a process of detecting “undercover” agents (those suffering from hallucinations) by employing multimodal counterfactual tests. Specifically, we modify reference images to introduce counterfactual evidence and observe whether agents can accurately identify these changes, providing ground-truth for identifying hallucinating agents and enabling robust, crowd-powered multimodal reasoning. MUG advances MAD protocols along three key dimensions: (1) enabling factual verification beyond statistical consensus through counterfactual testing; (2) introducing cross-evidence reasoning via dynamically modified evidence sources instead of relying on static inputs; and (3) fostering active reasoning, where agents engage in probing discussions rather than passively answering questions. Collectively, these innovations offer a more reliable and effective framework for multimodal reasoning in LLMs. The source code can be accessed at https://github.com/YongLD/MUG.git.
幻觉仍然是大型语言模型(LLM)推理能力的主要障碍。虽然多智能体辩论(MAD)范式通过促进多个智能体之间的共识以提高可靠性提供了一种有前途的解决方案,但它依赖于所有辩论者都是理性和反思的这一不切实际的假设,而当智能体自身也容易发生幻觉时,这一条件可能并不成立。为了解决这一差距,我们引入了受“谁是卧底?”等社会推理游戏启发而诞生的多智能体隐蔽游戏(MUG)协议。MUG通过将MAD重构为检测“卧底”智能体(即那些出现幻觉的智能体)的过程,采用多模式反事实测试,来重新塑造MAD。具体来说,我们修改参考图像以引入反事实证据,并观察智能体是否能准确识别这些变化,为识别幻觉智能体提供真实依据,从而实现稳健的众源多模式推理。MUG在三个关键维度上推进了MAD协议:(1)通过反事实测试实现超越统计共识的事实验证;(2)通过动态修改的证据源引入交叉证据推理,而不是依赖静态输入;(3)培养主动推理,让智能体参与探讨讨论而不是被动回答问题。这些创新共同为LLM中的多模式推理提供了更可靠和有效的框架。源代码可访问https://github.com/YongLD/MUG.git。
论文及项目相关链接
PDF Accepted by AAAI 2026
Summary
大型语言模型(LLM)中的推理能力主要面临幻觉这一难题。虽然多智能体辩论(MAD)范式通过促进多个智能体之间的共识增强可靠性,为解决此问题提供了希望,但它依赖于所有辩论者都是理性和反思的这一不切实际的假设。为解决这一差距,我们受“谁是卧底?”等社会推理游戏的启发,提出了多智能体卧底游戏(MUG)协议。MUG将MAD重构为检测“卧底”智能体(即那些出现幻觉的智能体)的过程,采用多模式反事实测试。通过修改参考图像来引入反事实证据,观察智能体是否能准确识别这些变化,为识别出现幻觉的智能体提供真实依据,从而实现健壮的、众源多模式推理。MUG在三个方面推进了MAD协议:1)通过反事实测试实现事实验证,超越统计共识;2)通过动态修改证据来源引入交叉证据推理,而不是依赖静态输入;3)培养主动推理,智能体进行探究讨论,而不是被动回答问题。这些创新为LLM中的多模式推理提供了更可靠和有效的框架。
Key Takeaways
- 大型语言模型(LLM)在推理过程中面临的主要挑战是幻觉。
- 多智能体辩论(MAD)范式虽有助于增强可靠性,但存在不切实际的假设。
- 多智能体卧底游戏(MUG)协议旨在解决MAD范式中的问题,通过检测“卧底”智能体(即出现幻觉的智能体)来增强可靠性。
- MUG采用多模式反事实测试,通过修改参考图像来识别智能体的幻觉。
- MUG实现了事实验证、交叉证据推理和主动推理,推进了MAD协议。
- MUG框架为LLM中的多模式推理提供了更可靠和有效的解决方案。
点此查看论文截图
Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA
Authors:Ayush Pandey, Jai Bardhan, Ishita Jain, Ramya S Hebbalaguppe, Rohan Raju Dhanakshirur, Lovekesh Vig
In the context of Visual Question Answering (VQA) and Agentic AI, calibration refers to how closely an AI system’s confidence in its answers reflects their actual correctness. This aspect becomes especially important when such systems operate autonomously and must make decisions under visual uncertainty. While modern VQA systems, powered by advanced vision-language models (VLMs), are increasingly used in high-stakes domains like medical diagnostics and autonomous navigation due to their improved accuracy, the reliability of their confidence estimates remains under-examined. Particularly, these systems often produce overconfident responses. To address this, we introduce AlignVQA, a debate-based multi-agent framework, in which diverse specialized VLM – each following distinct prompting strategies – generate candidate answers and then engage in two-stage interaction: generalist agents critique, refine and aggregate these proposals. This debate process yields confidence estimates that more accurately reflect the model’s true predictive performance. We find that more calibrated specialized agents produce better aligned confidences. Furthermore, we introduce a novel differentiable calibration-aware loss function called aligncal designed to fine-tune the specialized agents by minimizing an upper bound on the calibration error. This objective explicitly improves the fidelity of each agent’s confidence estimates. Empirical results across multiple benchmark VQA datasets substantiate the efficacy of our approach, demonstrating substantial reductions in calibration discrepancies. Furthermore, we propose a novel differentiable calibration-aware loss to fine-tune the specialized agents and improve the quality of their individual confidence estimates based on minimising upper bound calibration error.
在视觉问答(VQA)和智能体人工智能的背景下,校准是指人工智能系统对其答案的信心与实际正确性之间的吻合程度。当这些系统自主运行并在视觉不确定性下做出决策时,这一方面变得尤为重要。虽然现代VQA系统凭借先进的视觉语言模型(VLM)在医疗诊断、自主导航等高风险领域的应用越来越广泛,由于其精度的提高,但其信心估计的可靠性仍未得到充分研究。特别地,这些系统通常会产生过于自信的回应。为了解决这个问题,我们引入了AlignVQA,这是一个基于辩论的多智能体框架,其中不同的专业VLM——每个都遵循独特的提示策略——生成候选答案,然后进行两阶段交互:通用智能体对这些提案进行批判、细化和聚合。这种辩论过程产生的信心估计更能准确反映模型的真正预测性能。我们发现更校准的专门智能体产生的信心更符合实际。此外,我们引入了一种新型的可微校准感知损失函数,称为aligncal,旨在通过最小化校准误差的上界来微调专业智能体。这一目标明确提高了每个智能体信心估计的忠实度。在多个基准VQA数据集上的实证结果证实了我们方法的有效性,显示出校准差异的大幅减少。此外,我们提出了一种新型的可微校准损失来微调专业智能体,以提高其个体信心估计的质量,这是基于最小化上界校准误差来实现的。
论文及项目相关链接
PDF 17 pages, 6 figures, 5 tables. Accepted to Special Track on AI Alignment, AAAI 2026. Project Page- https://refine-align.github.io/
Summary
本文探讨了视觉问答(VQA)和智能体AI中的校准问题。文章介绍了如何评估AI系统答案的置信度与其实际正确性的匹配程度,特别是在自主运行和视觉不确定性的情况下。针对现代VQA系统在医疗诊断和自主导航等高风险领域的应用,文章提出了一个基于辩论的多智能体框架AlignVQA,通过不同专业VLM之间的交互和辩论过程,生成更准确的置信度估计。同时,文章还介绍了一种新型的微分校准感知损失函数aligncal,用于精细调整智能体,以减少校准误差。
Key Takeaways
- VQA系统和智能体AI中的校准是指AI系统答案的置信度与其实际正确性的匹配程度。
- 在自主运行和视觉不确定性的情况下,校准变得尤为重要。
- 现代VQA系统虽然在医疗诊断和自主导航等领域应用广泛,但其置信度估计的可靠性尚未得到充分研究。
- 提出的AlignVQA框架利用多智能体辩论过程生成更准确的置信度估计。
- AlignVQA框架包括多种专业VLM,它们遵循不同的提示策略,并通过两阶段交互进行辩论。
- 新型微分校准感知损失函数aligncal被用于精细调整智能体,以减少校准误差,提高置信度估计的准确性。
点此查看论文截图
Key Decision-Makers in Multi-Agent Debates: Who Holds the Power?
Authors:Qian Zhang, Yan Zheng, Jinyi Liu, Hebin Liang, Lanjun Wang
Recent studies on LLM agent scaling have highlighted the potential of Multi-Agent Debate (MAD) to enhance reasoning abilities. However, the critical aspect of role allocation strategies remains underexplored. In this study, we demonstrate that allocating roles with differing viewpoints to specific positions significantly impacts MAD’s performance in reasoning tasks. Specifically, we find a novel role allocation strategy, “Truth Last”, which can improve MAD performance by up to 22% in reasoning tasks. To address the issue of unknown truth in practical applications, we propose the Multi-Agent Debate Consistency (MADC) strategy, which systematically simulates and optimizes its core mechanisms. MADC incorporates path consistency to assess agreement among independent roles, simulating the role with the highest consistency score as the truth. We validated MADC across a range of LLMs (9 models), including the DeepSeek-R1 Distilled Models, on challenging reasoning tasks. MADC consistently demonstrated advanced performance, effectively overcoming MAD’s performance bottlenecks and providing a crucial pathway for further improvements in LLM agent scaling.
关于LLM代理扩展的最新研究已经突出了多代理辩论(MAD)在增强推理能力方面的潜力。然而,角色分配策略的关键方面仍然被忽视。在这项研究中,我们证明了在特定位置分配具有不同观点的角色会对多代理辩论在推理任务中的表现产生重大影响。具体来说,我们发现了一种新型的角色分配策略,即“真理至上”,该策略可以将多代理辩论在推理任务中的表现提高最多达22%。为了解决实际应用中未知真理的问题,我们提出了多代理辩论一致性(MADC)策略,它通过模拟和优化核心机制来解决这一问题。MADC采用路径一致性来评估独立角色之间的共识程度,并将得分最高的角色模拟为真理。我们在一系列LLM(包括DeepSeek-R1蒸馏模型在内的九个模型)上验证了MADC在具有挑战性的推理任务上的有效性。MADC的持续高级性能表明其成功突破了MAD的性能瓶颈,为进一步提高LLM代理扩展提供了一条关键途径。
论文及项目相关链接
Summary
该研究表明,在大型语言模型(LLM)代理扩展中,多代理辩论(MAD)的推理能力具有潜力。通过分配不同观点的角色到特定位置,角色分配策略对MAD在推理任务中的表现产生显著影响。研究提出了一种新的角色分配策略“真理最后”,可以提高MAD在推理任务中的性能高达22%。为了解决实际应用中未知真理的问题,研究提出了多代理辩论一致性(MADC)策略,它通过模拟和优化核心机制来系统地解决这一问题。在多种LLM上验证了MADC策略的有效性,包括DeepSeek-R1蒸馏模型,它在具有挑战性的推理任务中表现优越,有效克服了MAD的性能瓶颈,为LLM代理扩展的进一步改进提供了关键途径。
Key Takeaways
- 多代理辩论(MAD)在大型语言模型(LLM)的推理能力上具有潜力。
- 角色分配策略对MAD在推理任务中的表现至关重要。
- “真理最后”是一种新的角色分配策略,能提高MAD在推理任务中的性能。
- 多代理辩论一致性(MADC)策略解决了实际应用中未知真理的问题。
- MADC策略通过模拟和优化核心机制来系统地提高LLM的性能。
- 在多种LLM上验证了MADC策略的有效性,包括DeepSeek-R1蒸馏模型。
点此查看论文截图
GraphMASAL: A Graph-based Multi-Agent System for Adaptive Learning
Authors:Biqing Zeng, Mengquan Liu, Zongwei Zhen
The advent of Intelligent Tutoring Systems (ITSs) has marked a paradigm shift in education, enabling highly personalized learning pathways. However, true personalization requires adapting to learners’ complex knowledge states (multi-source) and diverse goals (multi-sink); existing ITSs often lack the necessary structural-reasoning capability and knowledge dynamism to generate genuinely effective learning paths, and they lack scientifically rigorous validation paradigms. In this paper we propose GraphMASAL (A Graph-based Multi-Agent System for Adaptive Learning), which integrates (i) a dynamic knowledge graph for persistent, stateful learner modeling; (ii) a LangGraph-orchestrated trio of agents (Diagnostician, Planner, Tutor); (iii) a knowledge-graph-grounded two-stage neural IR component (dual-encoder dense retrieval with cross-encoder listwise re-ranking and calibrated score fusion); and (iv) a multi-source multi-sink (MSMS) planning engine with a cognitively grounded cost and an approximation guarantee via greedy set cover. Under blinded automated evaluations with matched inputs and inference settings across diverse student profiles, GraphMASAL consistently outperforms LLM prompting and structured ablations in planning–achieving stronger structural/sequence alignment of learning paths, higher coverage of weak concepts, and lower learning cost–while also surpassing prompt-based baselines in cognitive diagnosis. Agreement with expert/LLM-proxy ratings further supports the validity of our evaluation protocol. These findings indicate that grounding LLM agents in a dynamic knowledge graph, coupled with optimization under educational constraints, yields reliable, interpretable, and pedagogically plausible learning plans, advancing personalized and goal-oriented education.
智能辅导系统(ITS)的出现标志着教育领域的范式转变,为个性化学习路径的开启提供了可能。然而,真正的个性化需要适应学习者的复杂知识状态(多源)和多样化的目标(多汇);现有的ITS通常缺乏必要的结构化推理能力和知识动态性,无法生成真正有效的学习路径,也缺乏科学严谨的验证范式。在本文中,我们提出了GraphMASAL(基于图的多智能体自适应学习系统),它集成了(i)动态知识图,用于持久、有状态的学习者建模;(ii)由LangGraph协调的三个智能体(诊断专家、规划者、辅导员);(iii)基于知识图的两个阶段神经IR组件(双编码器密集检索,跨编码器列表级重新排名和校准分数融合);以及(iv)多源多汇(MSMS)规划引擎,具有认知基础的成本和通过贪心集合覆盖的近似保证。在多样化的学生配置文件匹配输入和推理设置的盲自动评估下,GraphMASAL在规划方面始终优于大型语言模型的提示和结构化消解,实现了更强的学习路径结构/序列对齐、更高的弱概念覆盖率、更低的学习成本——同时也在认知诊断上超越了基于提示的基线。与专家/大型语言模型代理评分的协议进一步支持了我们评估协议的有效性。这些结果表明,将大型语言模型智能体建立在动态知识图上,并在教育约束下进行优化,可以产生可靠、可解释、符合教学法的学习计划,推动个性化和目标导向的教育发展。
论文及项目相关链接
PDF 9 pages, 3 figures,submitted to AAMAS 2026
Summary
智能辅导系统(ITS)的出现标志着教育领域的范式转变,为实现高度个性化的学习路径提供了可能。然而,真正的个性化需要适应学习者的复杂知识状态和多样化的目标。现有ITS系统缺乏必要的结构化推理能力和知识动态性,难以生成真正有效的学习路径,并且缺乏科学严谨性验证范式。本文提出GraphMASAL(基于图的多智能体自适应学习系统),通过动态知识图谱进行持久状态学习者建模、LangGraph协同的三个智能体(诊断师、规划师、辅导者)、知识图谱为基础的两阶段神经网络IR组件,以及多源多汇规划引擎,实现了有效的个性化学习路径生成。实验结果显示,GraphMASAL在自动化评估下表现优异,相较于LLM提示和结构化删除法生成的学习路径更具优势,体现在学习路径的结构化/序列对齐更强、覆盖的薄弱环节更高、学习成本更低。此外,与专家/LLM代理评分的契合进一步验证了其评估协议的有效性。此研究结果表明,将LLM智能体建立在动态知识图谱上,结合教育约束优化,可生成可靠、可解释、教育上合理的个性化学习计划。
Key Takeaways
- 智能辅导系统(ITS)在教育领域实现了个性化学习路径的潜力。
- 现有ITS系统在生成个性化学习路径时,缺乏结构化推理能力、知识动态性和科学验证方法。
- GraphMASAL通过动态知识图谱实现持久状态学习者建模。
- GraphMASAL集成了多个组件:诊断智能体、规划智能体、辅导智能体以及基于知识图谱的两阶段神经网络IR组件。
- GraphMASAL在多源多汇规划引擎的支持下,能有效生成个性化学习路径。
- 自动化评估结果显示GraphMASAL在规划方面表现优异,相对于其他方法有明显优势。
点此查看论文截图
Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting
Authors:Nirmit Arora, Sathvik Joel, Ishan Kavathekar, Palak, Rohan Gandhi, Yash Pandya, Tanuja Ganu, Aditya Kanade, Akshay Nambi
LLM-based agents are increasingly deployed in multi-agent systems (MAS). As these systems move toward real-world applications, their security becomes paramount. Existing research largely evaluates single-agent security, leaving a critical gap in understanding the vulnerabilities introduced by multi-agent design. However, existing systems fall short due to lack of unified frameworks and metrics focusing on unique rejection modes in MAS. We present SafeAgents, a unified and extensible framework for fine-grained security assessment of MAS. SafeAgents systematically exposes how design choices such as plan construction strategies, inter-agent context sharing, and fallback behaviors affect susceptibility to adversarial prompting. We introduce Dharma, a diagnostic measure that helps identify weak links within multi-agent pipelines. Using SafeAgents, we conduct a comprehensive study across five widely adopted multi-agent architectures (centralized, decentralized, and hybrid variants) on four datasets spanning web tasks, tool use, and code generation. Our findings reveal that common design patterns carry significant vulnerabilities. For example, centralized systems that delegate only atomic instructions to sub-agents obscure harmful objectives, reducing robustness. Our results highlight the need for security-aware design in MAS. Link to code is https://github.com/microsoft/SafeAgents
基于大型模型的智能体在多智能体系统(MAS)中的部署日益增多。随着这些系统向实际应用发展,其安全性变得至关重要。现有的研究大多评估单智能体的安全性,而对于多智能体设计所带来的漏洞缺乏理解,这一领域的研究还存在巨大的空白。然而,现有的系统由于缺乏专注于多智能体系统中独特拒绝模式的统一框架和指标,而无法充分发挥其效能。我们提出了SafeAgents,这是一个统一且可扩展的框架,用于对多智能体系统进行精细的安全评估。SafeAgents系统地揭示了设计选择,如计划构建策略、智能体间上下文共享和回退行为等,如何影响对抗性提示的易感性。我们引入了Dharma这一诊断度量标准,有助于识别多智能体管道中的薄弱环节。使用SafeAgents,我们对五个广泛采用的多智能体架构(集中式、分散式和混合变种)进行了全面研究,涉及四个涵盖网络任务、工具使用和代码生成的数据集。我们的研究发现,常见的设计模式存在重大漏洞。例如,集中式系统仅向子智能体委派原子指令会掩盖有害目标,降低其稳健性。我们的结果强调了多智能体系统中安全设计的必要性。代码链接是https://github.com/microsoft/SafeAgents。
论文及项目相关链接
PDF 10 pages, 3 figures. Code available at https://github.com/microsoft/SafeAgents
Summary
大型语言模型(LLM)驱动的代理在多代理系统(MAS)中的应用日益普及。随着这些系统向实际应用发展,其安全性变得至关重要。当前研究主要评估单一代理的安全性,忽视了多代理设计引入的漏洞所带来的风险。然而,现有的系统由于缺乏统一框架和专注于多代理系统(MAS)中的独特拒绝模式的度量标准而显得不足。本文提出了SafeAgents,这是一个统一且可扩展的框架,用于对MAS进行精细粒度的安全评估。SafeAgents系统地揭示了设计选择(如计划构建策略、代理间上下文共享和故障恢复行为)如何影响对对抗性提示的敏感性。本文还介绍了Dharma,这是一种诊断措施,有助于识别多代理管道中的薄弱环节。使用SafeAgents,我们在五个广泛采用的多代理架构(集中式、分散式和混合变体)以及涵盖网络任务、工具使用和代码生成的四个数据集上进行了综合研究。结果表明,常见的设计模式存在重大安全漏洞。例如,仅向子代理委派原子指令的集中式系统可能会掩盖有害目标,从而降低稳健性。本研究强调了多代理系统设计中需要注重安全性。
Key Takeaways
- LLM-based agents部署在多代理系统(MAS)中时,其安全性至关重要。
- 当前研究主要关注单一代理的安全性评估,忽视了多代理设计带来的漏洞。
- SafeAgents是一个统一且可扩展的框架,用于对MAS进行精细粒度的安全评估。
- SafeAgents揭示了设计选择如何影响多代理系统对对抗性提示的敏感性。
- Dharma是一种诊断措施,用于识别多代理管道中的薄弱环节。
- 研究表明常见的多代理系统设计模式存在重大安全漏洞。
点此查看论文截图
HPCAgentTester: A Multi-Agent LLM Approach for Enhanced HPC Unit Test Generation
Authors:Rabimba Karanjai, Lei Xu, Weidong Shi
Unit testing in High-Performance Computing (HPC) is critical but challenged by parallelism, complex algorithms, and diverse hardware. Traditional methods often fail to address non-deterministic behavior and synchronization issues in HPC applications. This paper introduces HPCAgentTester, a novel multi-agent Large Language Model (LLM) framework designed to automate and enhance unit test generation for HPC software utilizing OpenMP and MPI. HPCAgentTester employs a unique collaborative workflow where specialized LLM agents (Recipe Agent and Test Agent) iteratively generate and refine test cases through a critique loop. This architecture enables the generation of context-aware unit tests that specifically target parallel execution constructs, complex communication patterns, and hierarchical parallelism. We demonstrate HPCAgentTester’s ability to produce compilable and functionally correct tests for OpenMP and MPI primitives, effectively identifying subtle bugs that are often missed by conventional techniques. Our evaluation shows that HPCAgentTester significantly improves test compilation rates and correctness compared to standalone LLMs, offering a more robust and scalable solution for ensuring the reliability of parallel software systems.
高性能计算(HPC)中的单元测试至关重要,但面临着并行性、复杂算法和多样硬件的挑战。传统方法往往难以解决HPC应用程序中的非确定性行为和同步问题。本文介绍了HPCAgentTester,这是一种新型的多智能体大型语言模型(LLM)框架,旨在利用OpenMP和MPI自动化和改进高性能计算软件的单元测试生成。HPCAgentTester采用独特的协作工作流程,其中的专业LLM智能体(配方智能体和测试智能体)通过批判循环迭代地生成和细化测试用例。这种架构能够生成面向并行执行结构、复杂通信模式和层次化并行性的上下文感知单元测试。我们展示了HPCAgentTester为OpenMP和MPI基本元素生成可编译且功能正确的测试的能力,这些测试有效地识别出传统技术常常忽略的微妙错误。我们的评估显示,与独立的大型语言模型相比,HPCAgentTester在测试编译率和正确性方面有了显著提高,为并行软件系统提供了更稳健和可扩展的可靠性保证解决方案。
论文及项目相关链接
PDF Accepted in AIWare 2025
Summary
高性能计算(HPC)中的单元测试至关重要,但面临并行性、复杂算法和多样硬件的挑战。传统方法往往无法解决HPC应用程序中的非确定性行为和同步问题。本文介绍了HPCAgentTester,一种新型多智能体大型语言模型(LLM)框架,旨在利用OpenMP和MPI自动化和提高HPC软件的单元测试生成。HPCAgentTester采用独特的协作工作流程,专用LLM智能体(配方智能体和测试智能体)通过评审循环迭代生成和细化测试用例。此架构能够生成针对并行执行结构、复杂通信模式和层次并行的上下文感知单元测试。我们证明了HPCAgentTester能够为OpenMP和MPI基本组件生成可编译和功能正确的测试,有效地发现传统技术常忽略的细微错误。我们的评估显示,与独立LLM相比,HPCAgentTester显著提高测试编译率和正确性,为并行软件系统提供更为稳健和可扩展的可靠性保证解决方案。
Key Takeaways
- 高性能计算中的单元测试面临并行性、复杂算法和多样硬件的挑战。
- 传统方法在解决HPC应用程序的非确定性行为和同步问题上存在不足。
- HPCAgentTester是一个新型多智能体大型语言模型框架,旨在自动化和提高HPC软件的单元测试生成。
- HPCAgentTester采用独特协作工作流程,通过迭代生成和细化测试用例来增强测试效果。
- 该框架能够针对并行执行结构、复杂通信模式和层次并行生成上下文感知单元测试。
- HPCAgentTester能够生成可编译和功能正确的测试,包括发现传统技术常忽略的细微错误。
点此查看论文截图
VoiceAgentEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Voice-Agent Evaluation of Xbench’s Professional-Aligned Series
Authors:Pengyu Xu, Shijia Li, Ao Sun, Feng Zhang, Yahan Li, Bo Wu, Zhanyu Ma, Jiguo Li, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Rui Wang, Yang Liu, Xiaobo Hu, Fan Yang, Jia Zheng, Guanghua Yao
We propose OutboundEval, a comprehensive benchmark for evaluating large language models (LLMs) in expert-level intelligent outbound calling scenarios. Unlike existing methods that suffer from three key limitations - insufficient dataset diversity and category coverage, unrealistic user simulation, and inaccurate evaluation metrics - OutboundEval addresses these issues through a structured framework. First, we design a benchmark spanning six major business domains and 30 representative sub-scenarios, each with scenario-specific process decomposition, weighted scoring, and domain-adaptive metrics. Second, we develop a large-model-driven User Simulator that generates diverse, persona-rich virtual users with realistic behaviors, emotional variability, and communication styles, providing a controlled yet authentic testing environment. Third, we introduce a dynamic evaluation method that adapts to task variations, integrating automated and human-in-the-loop assessment to measure task execution accuracy, professional knowledge application, adaptability, and user experience quality. Experiments on 12 state-of-the-art LLMs reveal distinct trade-offs between expert-level task completion and interaction fluency, offering practical insights for building reliable, human-like outbound AI systems. OutboundEval establishes a practical, extensible, and domain-oriented standard for benchmarking LLMs in professional applications.
我们提出了OutboundEval,这是一个在专家级智能外呼场景中评估大型语言模型(LLM)的综合基准测试。与现有方法存在的三个主要局限性——数据集多样性和类别覆盖不足、用户模拟不真实、评估指标不准确——相比,OutboundEval通过结构化框架解决了这些问题。首先,我们设计了一个跨越六大业务域和30个代表性子场景的基准测试,每个场景都有特定的流程分解、加权评分和域自适应指标。其次,我们开发了一个以大型模型驱动的用户模拟器,生成具有多样化、丰富个性的虚拟用户,具有真实行为、情绪变化和交流风格,提供了一个受控但真实的测试环境。第三,我们引入了一种动态评估方法,该方法能够适应任务变化,结合自动化和人工评估,测量任务执行准确性、专业知识应用、适应性和用户体验质量。在12个最先进的大型语言模型上的实验揭示了专业任务完成和交互流畅性之间的明显权衡,为构建可靠、人性化的外呼AI系统提供了实际见解。OutboundEval为专业应用中大型语言模型的基准测试建立了一个实用、可扩展和面向域的标准。
论文及项目相关链接
Summary:
我们提出了OutboundEval,这是一个针对专业级智能外呼场景的大型语言模型(LLMs)的综合评估基准。它通过结构化框架解决了现有方法的三个主要局限性:数据集多样性和类别覆盖不足、用户模拟不真实以及评估指标不准确。我们设计了涵盖六大业务域和30个代表性子场景的基准测试,每个场景都有特定的过程分解、加权评分和领域自适应指标。同时,我们开发了一个大型模型驱动的用户模拟器,生成具有多样性和丰富个性的虚拟用户,提供受控但真实的测试环境。此外,我们引入了一种动态评估方法,适应任务变化,结合自动化和人工评估,测量任务执行准确性、专业知识应用、适应性和用户体验质量。对12款最先进的大型语言模型的实验揭示了专业任务完成和交互流畅性之间的权衡,为构建可靠、人性化的外呼AI系统提供了实际见解。OutboundEval为专业应用中大型语言模型的评估建立了一个实用、可扩展和面向领域的标准。
Key Takeaways:
- OutboundEval是一个针对智能外呼场景的大型语言模型的综合评估基准。
- 它解决了现有评估方法的不足,包括数据集多样性、用户模拟真实性和评估指标准确性问题。
- 基准测试涵盖六大业务域和多个子场景,每个场景都有特定的过程分解和评估指标。
- 用户模拟器能够生成多样且富有个性的虚拟用户,提供真实的测试环境。
- 引入的动态评估方法适应任务变化,结合自动化和人工评估,全面衡量语言模型的表现。
- 实验揭示了专业任务完成和交互流畅性之间的权衡,为构建外呼AI系统提供了实际见解。