嘘~ 正在从服务器偷取页面 . . .

Agent


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-08-15 更新

RAGulating Compliance: A Multi-Agent Knowledge Graph for Regulatory QA

Authors:Bhavik Agarwal, Hemant Sunil Jomraj, Simone Kaplunov, Jack Krolick, Viktoria Rojkova

Regulatory compliance question answering (QA) requires precise, verifiable information, and domain-specific expertise, posing challenges for Large Language Models (LLMs). In this work, we present a novel multi-agent framework that integrates a Knowledge Graph (KG) of Regulatory triplets with Retrieval-Augmented Generation (RAG) to address these demands. First, agents build and maintain an ontology-free KG by extracting subject–predicate–object (SPO) triplets from regulatory documents and systematically cleaning, normalizing, deduplicating, and updating them. Second, these triplets are embedded and stored along with their corresponding textual sections and metadata in a single enriched vector database, allowing for both graph-based reasoning and efficient information retrieval. Third, an orchestrated agent pipeline leverages triplet-level retrieval for question answering, ensuring high semantic alignment between user queries and the factual “who-did-what-to-whom” core captured by the graph. Our hybrid system outperforms conventional methods in complex regulatory queries, ensuring factual correctness with embedded triplets, enabling traceability through a unified vector database, and enhancing understanding through subgraph visualization, providing a robust foundation for compliance-driven and broader audit-focused applications.

监管合规问答(QA)需要精确、可验证的信息和特定领域的专业知识,这对大型语言模型(LLM)提出了挑战。在这项工作中,我们提出了一种新型的多代理框架,该框架将监管三元组的知识图谱与检索增强生成(RAG)相结合,以满足这些需求。首先,代理通过从监管文档中提取主体-谓语-对象(SPO)三元组来构建和维护无本体论知识图谱,并系统地对其进行清理、归一化、去重和更新。其次,这些三元组嵌入并与其相应的文本段落和元数据一起存储在单个丰富的向量数据库中,允许基于图的推理和高效的信息检索。第三,协同的代理管道利用三元组级别的检索来进行问答,确保用户查询与图中捕获的“谁做了哪些行为对谁”的核心内容之间存在高度语义对齐。我们的混合系统在复杂的监管查询中优于传统方法,通过嵌入的三元组确保事实正确性,通过统一的向量数据库实现可追溯性,并通过子图可视化增强理解,为合规驱动和更广泛的审计重点应用提供了稳健的基础。

论文及项目相关链接

PDF

Summary
本研究提出了一种新型多智能体框架,通过整合监管知识图谱和检索增强生成技术来解决监管合规问答的挑战。智能体构建并维护一个本体自由的KG,通过从监管文件中提取SPO三元组并进行清洗、归一化、去重和更新。这些三元组嵌入并存储在丰富的向量数据库中,支持基于图的推理和高效的信息检索。通过利用三元组级别的检索进行问答,确保用户查询与图形捕获的“谁对谁做了何事”核心之间的高语义一致性。该混合系统在复杂监管查询方面的表现优于传统方法,确保事实正确性、通过统一的向量数据库进行可追溯性,并通过子图可视化增强理解,为合规驱动和更广泛的审计重点应用提供了稳健的基础。

Key Takeaways

  1. 本研究提出了一个新型的多智能体框架来解决监管合规问答的挑战。
  2. 智能体通过构建并维护一个本体自由的KG来提取SPO三元组信息。
  3. KG中的三元组被嵌入并存储在丰富的向量数据库中,支持基于图的推理和高效的信息检索。
  4. 该框架利用三元组级别的检索进行问答,提高了用户查询与图形核心之间的语义一致性。
  5. 混合系统在复杂监管查询方面的表现优于传统方法,确保了事实的正确性和可追溯性。
  6. 子图可视化增强了系统对监管信息的理解。

Cool Papers

点此查看论文截图

AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving

Authors:Zhitian Xie, Qintong Wu, Chengyue Yu, Chenyi Zhuang, Jinjie Gu

The rapid advancement of large language models (LLMs) has empowered intelligent agents to leverage diverse external tools for solving complex real-world problems. However, as agents increasingly depend on multiple tools, they encounter new challenges: extended contexts from disparate sources and noisy or irrelevant tool outputs can undermine system reliability and accuracy. These challenges underscore the necessity for enhanced stability in agent-based systems. To address this, we introduce dynamic supervision and maneuvering mechanisms, constructing a robust and dynamic Multi-Agent System (MAS) architecture within the AWorld framework. In our approach, the Execution Agent invokes the Guard Agent at critical steps to verify and correct the reasoning process, effectively reducing errors arising from noise and bolstering problem-solving robustness. Extensive experiments on the GAIA test dataset reveal that our dynamic maneuvering mechanism significantly improves both the effectiveness and stability of solutions, outperforming single-agent system (SAS) and standard tool-augmented systems. As a result, our dynamic MAS system achieved first place among open-source projects on the prestigious GAIA leaderboard. These findings highlight the practical value of collaborative agent roles in developing more reliable and trustworthy intelligent systems.

随着大型语言模型(LLM)的快速发展,智能代理能够利用多种外部工具解决复杂的现实世界问题。然而,随着代理越来越依赖于多种工具,它们面临着新的挑战:来自不同来源的扩展上下文和嘈杂或无关的工具输出可能会破坏系统可靠性和准确性。这些挑战强调了基于代理的系统中增强稳定性的必要性。为了解决这个问题,我们引入了动态监督和操作机制,在AWorld框架内构建了一个稳健且动态的多代理系统(MAS)架构。在我们的方法中,执行代理会在关键步骤调用守卫代理来验证和纠正推理过程,有效地减少由噪声引起的错误并增强解决问题的稳健性。在GAIA测试数据集上的广泛实验表明,我们的动态操作机制显著提高了解决方案的有效性和稳定性,优于单代理系统(SAS)和标准工具增强系统。因此,我们的动态MAS系统在著名的GAIA排行榜上获得了开源项目第一名。这些发现凸显了协作代理角色在开发更可靠、更值得信赖的智能系统中的实际价值。

论文及项目相关链接

PDF

Summary

大型语言模型的快速发展使得智能代理能够利用多种外部工具解决复杂的现实世界问题。然而,随着代理越来越依赖于多种工具,他们面临新的挑战:来自不同来源的扩展上下文和嘈杂或无关的工具输出可能会破坏系统可靠性和准确性。为解决这些问题,我们引入了动态监督和操作机制,在AWorld框架内构建了一个稳健且动态的多代理系统(MAS)架构。执行代理在关键步骤中调用守卫代理进行验证和校正推理过程,有效降低噪声引起的错误并提升问题解决的稳健性。在GAIA测试数据集上的大量实验表明,我们的动态操作机制显著提高了解方案的有效性和稳定性,优于单代理系统(SAS)和标准工具增强系统。因此,我们的动态MAS系统在著名的GAIA排行榜上获得开源项目第一名。这些发现凸显了协作代理角色在开发更可靠、更值得信赖的智能系统中的实际价值。

Key Takeaways

  1. 大型语言模型的快速发展促进了智能代理利用外部工具解决复杂问题的能力。
  2. 依赖多个工具带来挑战,如上下文分散、工具输出嘈杂或无关。
  3. 需要增强代理系统的稳定性。
  4. 引入动态监督和操作机制,构建稳健的多代理系统(MAS)架构。
  5. 执行代理调用守卫代理进行验证和校正,降低噪声错误,提高问题解决的稳健性。
  6. 在GAIA测试数据集上的实验表明,动态操作机制提高解方案的有效性和稳定性。

Cool Papers

点此查看论文截图

HumanGenesis: Agent-Based Geometric and Generative Modeling for Synthetic Human Dynamics

Authors:Weiqi Li, Zehao Zhang, Liang Lin, Guangrun Wang

\textbf{Synthetic human dynamics} aims to generate photorealistic videos of human subjects performing expressive, intention-driven motions. However, current approaches face two core challenges: (1) \emph{geometric inconsistency} and \emph{coarse reconstruction}, due to limited 3D modeling and detail preservation; and (2) \emph{motion generalization limitations} and \emph{scene inharmonization}, stemming from weak generative capabilities. To address these, we present \textbf{HumanGenesis}, a framework that integrates geometric and generative modeling through four collaborative agents: (1) \textbf{Reconstructor} builds 3D-consistent human-scene representations from monocular video using 3D Gaussian Splatting and deformation decomposition. (2) \textbf{Critique Agent} enhances reconstruction fidelity by identifying and refining poor regions via multi-round MLLM-based reflection. (3) \textbf{Pose Guider} enables motion generalization by generating expressive pose sequences using time-aware parametric encoders. (4) \textbf{Video Harmonizer} synthesizes photorealistic, coherent video via a hybrid rendering pipeline with diffusion, refining the Reconstructor through a Back-to-4D feedback loop. HumanGenesis achieves state-of-the-art performance on tasks including text-guided synthesis, video reenactment, and novel-pose generalization, significantly improving expressiveness, geometric fidelity, and scene integration.

合成人类动力学旨在生成表达情感、受意图驱动动作的人的真实视频。然而,当前的方法面临两大挑战:(1)由于有限的3D建模和细节保留导致的几何不一致性粗糙重建;(2)由于生成能力较弱导致的运动泛化限制场景不和谐。为了解决这些问题,我们提出了HumanGenesis,这是一个通过四个协作代理整合几何和生成建模的框架:(1)重建器使用单目视频通过三维高斯摊铺和变形分解构建一致的三维人体场景表示;(2)批评代理通过基于多轮MLLM的反射来识别和细化不良区域,提高重建的保真度;(3)姿态引导者通过使用时间感知参数编码器生成表达性姿态序列,实现运动泛化;(4)视频协调器通过一个混合渲染管道与扩散合成现实且连贯的视频,并通过反馈循环改进重建器。HumanGenesis在文本引导合成、视频重放和新颖姿态泛化等任务上实现了最先进的性能,在表达性、几何保真和场景集成方面都有显著提高。

论文及项目相关链接

PDF

Summary

本文介绍了合成人类动力学(Synthetic human dynamics)的目标和挑战,并阐述了HumanGenesis框架通过整合几何和生成建模来解决这些问题的方法。该框架包括四个协作代理:Reconstructor、Critique Agent、Pose Guider和Video Harmonizer。HumanGenesis在文本引导合成、视频重演绎和新颖姿态推广等任务上取得了最先进的性能,显著提高了表现力、几何保真度和场景集成能力。

Key Takeaways

  1. Synthetic human dynamics的目标:生成表现人类表达意图的视频。
  2. 主要挑战:几何不一致性和粗糙重建、运动推广的局限性以及场景不和谐。
  3. HumanGenesis框架的功能:通过四个协作代理解决上述问题,包括重建、评估、姿态引导和视频和谐化。
  4. Reconstructor的作用:利用3D高斯喷射和变形分解从单目视频中构建一致的3D人类场景表示。
  5. Critique Agent的功能:通过多轮MLLM反馈增强重建的忠实度。
  6. Pose Guider的重要性:通过时间感知参数编码器生成表达性姿态序列,实现运动推广。
  7. Video Harmonizer的作用:通过混合渲染管道与扩散技术,合成逼真的连贯视频,并通过Back-to-4D反馈循环优化重建过程。

Cool Papers

点此查看论文截图

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

Authors:Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li

We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term memory. Beyond episodic memory, it also develops semantic memory, enabling it to accumulate world knowledge over time. Its memory is organized in an entity-centric, multimodal format, allowing deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn, iterative reasoning and retrieves relevant information from memory to accomplish the task. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a new long-video question answering benchmark. M3-Bench comprises 100 newly recorded real-world videos captured from a robot’s perspective (M3-Bench-robot) and 929 web-sourced videos across diverse scenarios (M3-Bench-web). We annotate question-answer pairs designed to test key capabilities essential for agent applications, such as human understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances the multimodal agents toward more human-like long-term memory and provides insights into their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent

我们介绍了M3-Agent,这是一种配备长期记忆的新型多模态代理框架。与人类相似,M3-Agent能够处理实时的视觉和听觉输入,以构建和更新其长期记忆。除了情景记忆之外,它还发展出语义记忆,使其能够随着时间的推移积累世界知识。它的记忆以实体为中心、多模态的方式组织,允许对环境的更深层次和更一致的理解。接受指令后,M3-Agent能够自主进行多轮迭代推理,从记忆中检索相关信息以完成任务。为了评估多模态代理中的记忆效果和基于记忆推理的能力,我们开发了M3-Bench,这是一个新的长视频问答基准测试。M3-Bench包括从机器人视角捕获的100个新录制现实世界视频(M3-Bench-robot)和涵盖不同场景的929个网络视频(M3-Bench-web)。我们注释了问题答案对,旨在测试代理应用程序所需的关键能力,例如人类理解、一般知识提取和跨模态推理。实验结果表明,通过强化学习训练的M3-Agent超越了最强基线——使用Gemini-1.5-pro和GPT-4o的提示代理,在M3-Bench-robot、M3-Bench-web和VideoMME-long上的准确率分别提高了6.7%、7.7%和5.3%。我们的工作使多模态代理朝着更类似于人类的长时记忆方向发展,并为其实用设计提供了见解。模型、代码和数据可在https://github.com/bytedance-seed/m3-agent找到。

论文及项目相关链接

PDF

Summary
引入了一种配备长期记忆的新型多模态代理框架M3-Agent。该框架可以处理实时的视觉和听觉输入来构建和更新其长期记忆,具备积累世界知识的能力。其记忆以实体为中心、多模态的方式组织,从而实现对环境的更深和更一致的理解。开发新的视频问答基准测试M3-Bench,以评估多模态代理的长期记忆效果和基于记忆推理的能力。M3-Agent在测试中表现优异,超越了最强基线。

Key Takeaways

  1. 引入了一种新型的多模态代理框架M3-Agent,具备处理实时视觉和听觉输入的能力。
  2. M3-Agent拥有长期记忆,可以积累世界知识。
  3. M3-Agent的记忆以实体为中心、多模态的方式组织。
  4. 开发了一个新的视频问答基准测试M3-Bench,用于评估多模态代理的记忆和推理能力。
  5. M3-Agent在M3-Bench测试中表现优于最强的基线模型。
  6. M3-Agent通过强化学习进行训练。

Cool Papers

点此查看论文截图

ReqInOne: A Large Language Model-Based Agent for Software Requirements Specification Generation

Authors:Taohong Zhu, Lucas C. Cordeiro, Youcheng Sun

Software Requirements Specification (SRS) is one of the most important documents in software projects, but writing it manually is time-consuming and often leads to ambiguity. Existing automated methods rely heavily on manual analysis, while recent Large Language Model (LLM)-based approaches suffer from hallucinations and limited controllability. In this paper, we propose ReqInOne, an LLM-based agent that follows the common steps taken by human requirements engineers when writing an SRS to convert natural language into a structured SRS. ReqInOne adopts a modular architecture by decomposing SRS generation into three tasks: summary, requirement extraction, and requirement classification, each supported by tailored prompt templates to improve the quality and consistency of LLM outputs. We evaluate ReqInOne using GPT-4o, LLaMA 3, and DeepSeek-R1, and compare the generated SRSs against those produced by the holistic GPT-4-based method from prior work as well as by entry-level requirements engineers. Expert evaluations show that ReqInOne produces more accurate and well-structured SRS documents. The performance advantage of ReqInOne benefits from its modular design, and experimental results further demonstrate that its requirement classification component achieves comparable or even better results than the state-of-the-art requirement classification model.

软件需求规格说明(SRS)是软件项目中最重要的文档之一,但手动编写既耗时又容易导致歧义。现有的自动化方法很大程度上依赖于手动分析,而最近基于大型语言模型(LLM)的方法则存在虚构和可控性有限的问题。在本文中,我们提出了ReqInOne,这是一个基于LLM的代理,它遵循人类需求工程师在编写SRS时采取的通用步骤,将自然语言转换为结构化的SRS。ReqInOne采用模块化架构,将SRS生成分解为三个任务:摘要、需求提取和需求分类,每个任务都由专门的提示模板支持,以提高LLM输出的质量和一致性。我们使用GPT-4o、LLaMA 3和DeepSeek-R1对ReqInOne进行了评估,并将生成的SRS与之前工作中基于整体GPT-4的方法以及入门级需求工程师产生的SRS进行了比较。专家评估表明,ReqInOne产生的SRS文档更准确、结构更好。ReqInOne的性能优势得益于其模块化设计,而且实验结果表明,其在需求分类组件方面达到了与最新需求分类模型相当甚至更好的结果。

论文及项目相关链接

PDF

Summary

本文介绍了ReqInOne,一个基于大型语言模型(LLM)的自动化工具,用于将自然语言转化为结构化的软件需求规格(SRS)。ReqInOne采用模块化架构,将SRS生成分解为摘要、需求提取和需求分类三个任务,并通过定制提示模板来提高LLM输出的质量和一致性。实验结果表明,ReqInOne生成的SRS文档更准确、结构更好,其性能优势得益于模块化设计,并且其需求分类组件的性能与最先进的模型相当或更好。

Key Takeaways

  1. ReqInOne是一个基于LLM的自动化工具,用于生成软件需求规格(SRS)。
  2. ReqInOne采用模块化设计,将SRS生成分为摘要、需求提取和需求分类三个任务。
  3. ReqInOne使用定制提示模板来提高大型语言模型(LLM)输出的质量和一致性。
  4. ReqInOne生成的SRS文档更准确、结构更好。
  5. ReqInOne的性能优势源于其模块化设计。
  6. ReqInOne的需求分类组件性能与最先进的模型相当或更好。

Cool Papers

点此查看论文截图

Preacher: Paper-to-Video Agentic System

Authors:Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

The paper-to-video task converts a research paper into a structured video abstract, distilling key concepts, methods, and conclusions into an accessible, well-organized format. While state-of-the-art video generation models demonstrate potential, they are constrained by limited context windows, rigid video duration constraints, limited stylistic diversity, and an inability to represent domain-specific knowledge. To address these limitations, we introduce Preacher, the first paper-to-video agentic system. Preacher employs a topdown approach to decompose, summarize, and reformulate the paper, followed by bottom-up video generation, synthesizing diverse video segments into a coherent abstract. To align cross-modal representations, we define key scenes and introduce a Progressive Chain of Thought (P-CoT) for granular, iterative planning. Preacher successfully generates high-quality video abstracts across five research fields, demonstrating expertise beyond current video generation models. Code will be released at: https://github.com/GenVerse/Paper2Video

这篇论文将研究论文转化为结构化的视频摘要,提炼关键概念、方法和结论,使其易于理解并以良好的组织方式呈现。尽管最先进的视频生成模型显示出潜力,但它们受限于有限的上下文窗口、严格的视频持续时间限制、有限的风格多样性和无法表示特定领域知识。为了解决这些局限性,我们引入了Preacher,这是第一个论文到视频的智能系统。Preacher采用自上而下的方法分解、总结和重构论文,然后进行自下而上的视频生成,将多样化的视频片段合成一个连贯的摘要。为了对齐跨模态表示,我们定义了关键场景并引入了渐进式思维链(P-CoT)进行精细的迭代规划。Preacher成功地在五个研究领域生成了高质量的视频摘要,显示出超越当前视频生成模型的专长。代码将在以下网址发布:https://github.com/GenVerse/Paper2Video

论文及项目相关链接

PDF

Summary
文本介绍了一种将研究论文转化为结构化视频摘要的任务,其中存在视频生成模型的局限性。为此,引入Preacher作为首个论文转视频的系统,通过自上而下分解、总结和重构论文内容,并结合自下而上的视频生成,将多样化的视频片段合成一个连贯的摘要。系统采用渐进式思维链进行精细迭代规划,成功生成高质量的视频摘要。

Key Takeaways

  1. 论文转视频摘要任务旨在将研究论文的关键概念、方法和结论转化为易于理解、结构化的视频格式。
  2. 当前视频生成模型存在局限性,如上下文窗口有限、视频时长约束、风格单一以及无法表达领域特定知识。
  3. Preacher是首个论文转视频的智能化系统,采用自上而下与自下而上的方法,实现对论文的分解、总结和重构,以及视频生成。
  4. Preacher通过定义关键场景和引入渐进式思维链(P-CoT)进行精细迭代规划,实现跨模态表示的对齐。
  5. Preacher成功生成高质量的视频摘要,并展示在五个研究领域的专业能力。
  6. 系统将在GitHub上发布代码以供公众使用。

Cool Papers

点此查看论文截图

Distilling LLM Prior to Flow Model for Generalizable Agent’s Imagination in Object Goal Navigation

Authors:Badi Li, Ren-jie Lu, Yu Zhou, Jingke Meng, Wei-shi Zheng

The Object Goal Navigation (ObjectNav) task challenges agents to locate a specified object in an unseen environment by imagining unobserved regions of the scene. Prior approaches rely on deterministic and discriminative models to complete semantic maps, overlooking the inherent uncertainty in indoor layouts and limiting their ability to generalize to unseen environments. In this work, we propose GOAL, a generative flow-based framework that models the semantic distribution of indoor environments by bridging observed regions with LLM-enriched full-scene semantic maps. During training, spatial priors inferred from large language models (LLMs) are encoded as two-dimensional Gaussian fields and injected into target maps, distilling rich contextual knowledge into the flow model and enabling more generalizable completions. Extensive experiments demonstrate that GOAL achieves state-of-the-art performance on MP3D and Gibson, and shows strong generalization in transfer settings to HM3D. Codes and pretrained models are available at https://github.com/Badi-Li/GOAL.

对象目标导航(ObjectNav)任务挑战智能体通过在场景中想象未观察到的区域,在未知环境中定位指定对象。之前的方法依赖于确定性和判别模型来完成语义地图,忽略了室内布局的内在不确定性,并限制了它们在未知环境中的泛化能力。在这项工作中,我们提出了GOAL,这是一个基于生成流的框架,通过桥接观察区域和丰富的语言模型(LLM)的全场景语义地图,对室内环境的语义分布进行建模。在训练过程中,从大型语言模型推断出的空间先验被编码为二维高斯场并注入目标地图,将丰富的上下文知识蒸馏到流模型中,使模型能够更通用地完成。大量实验表明,GOAL在MP3D和Gibson上达到了最先进的性能水平,并在转移到HM3D时显示出强大的泛化能力。代码和预先训练的模型可在https://github.com/Badi-Li/GOAL找到。

论文及项目相关链接

PDF

Summary

基于目标导航(ObjectNav)任务挑战代理在未见过的环境中寻找指定对象,通过想象场景的未观测区域来完成。先前的方法依赖于确定性和判别模型来完成语义地图,忽略了室内布局的固有不确定性,限制了它们在未见环境中的泛化能力。本文提出了GOAL,这是一个基于生成流的框架,通过桥接观测区域和LLM丰富的全场景语义地图,对室内环境的语义分布进行建模。在训练过程中,从大语言模型推断的空间先验被编码为二维高斯场并注入目标地图,将丰富的上下文知识蒸馏到流模型中,使完成任务更具泛化性。

Key Takeaways

  1. ObjectGoalNav任务挑战代理在未见过的环境中寻找指定对象,需要想象未观测的区域来完成任务。
  2. 现有方法主要依赖于确定性和判别模型完成语义地图,存在局限性。
  3. GOAL框架采用生成流的方式对室内环境的语义分布进行建模,结合观测区域和LLM丰富的全场景语义地图。
  4. 空间先验被编码为二维高斯场并注入目标地图,丰富上下文知识。
  5. GOAL在MP3D和Gibson数据集上达到最佳性能。
  6. GOAL在HM3D的转移设置中也表现出强大的泛化能力。

Cool Papers

点此查看论文截图

Waymo-3DSkelMo: A Multi-Agent 3D Skeletal Motion Dataset for Pedestrian Interaction Modeling in Autonomous Driving

Authors:Guangxun Zhu, Shiyu Fan, Hang Dai, Edmond S. L. Ho

Large-scale high-quality 3D motion datasets with multi-person interactions are crucial for data-driven models in autonomous driving to achieve fine-grained pedestrian interaction understanding in dynamic urban environments. However, existing datasets mostly rely on estimating 3D poses from monocular RGB video frames, which suffer from occlusion and lack of temporal continuity, thus resulting in unrealistic and low-quality human motion. In this paper, we introduce Waymo-3DSkelMo, the first large-scale dataset providing high-quality, temporally coherent 3D skeletal motions with explicit interaction semantics, derived from the Waymo Perception dataset. Our key insight is to utilize 3D human body shape and motion priors to enhance the quality of the 3D pose sequences extracted from the raw LiDRA point clouds. The dataset covers over 14,000 seconds across more than 800 real driving scenarios, including rich interactions among an average of 27 agents per scene (with up to 250 agents in the largest scene). Furthermore, we establish 3D pose forecasting benchmarks under varying pedestrian densities, and the results demonstrate its value as a foundational resource for future research on fine-grained human behavior understanding in complex urban environments. The dataset and code will be available at https://github.com/GuangxunZhu/Waymo-3DSkelMo

大规模高质量的三维动作数据集对于自动驾驶中的数据驱动模型至关重要,旨在实现在动态环境中对行人交互的精细理解。然而,现有的数据集大多依赖于从单目RGB视频帧中估计三维姿态,这些视频存在遮挡问题并且缺乏时间连续性,因此产生了不真实和低质量的人类动作。本文介绍了Waymo-3DSkelMo数据集,它是第一个大规模数据集,提供高质量、时间连贯的三维骨骼运动以及明确的交互语义,来源于Waymo感知数据集。我们的关键见解是利用三维人体形状和运动先验知识来提高从原始激光雷达点云中提取的三维姿态序列的质量。该数据集覆盖了超过14,000秒的时间,涵盖超过800个真实驾驶场景,包括平均每场景中有高达27个智能体之间的丰富交互(最大场景中最多可达250个智能体)。此外,我们在不同的行人密度下建立了三维姿态预测基准测试,结果表明它对于未来在复杂城市环境中进行精细人类行为理解研究的基础资源具有重要意义。数据集和代码将在https://github.com/GuangxunZhu/Waymo-3DSkelMo上提供。

论文及项目相关链接

PDF ACM Multimedia 2025 (Dataset Track) Paper

Summary

Waymo-3DSkelMo数据集对于数据驱动模型在动态城市环境中实现精细的行人交互理解至关重要。它提供了高质量、时间连贯的3D骨骼运动,具有明确的交互语义,并利用3D人体形状和运动先验知识提高从LiDAR点云提取的3D姿势序列的质量。数据集包含超过14,000秒的驾驶场景,涵盖丰富的行人交互。

Key Takeaways

  1. Waymo-3DSkelMo是首个提供高质量、时间连贯的3D骨骼运动的大型数据集,具有明确的交互语义。
  2. 数据集利用3D人体形状和运动先验知识,提高从LiDAR点云提取的3D姿势序列的质量。
  3. 数据集包含超过14,000秒的驾驶场景,覆盖丰富的行人交互,场景中包含平均27个行人(最大场景可达250个行人)。
  4. Waymo-3DSkelMo数据集对于数据驱动模型在动态城市环境中实现精细的行人交互理解至关重要。
  5. 数据集建立了在不同行人密度下的3D姿态预测基准测试,证明了其在未来复杂城市环境中精细人类行为理解研究中的价值。
  6. Waymo-3DSkelMo数据集和代码将在https://github.com/GuangxunZhu/Waymo-3DSkelMo上提供,方便未来研究使用。

Cool Papers

点此查看论文截图

Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

Authors:Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

Recent advancements in LLM-based agents have demonstrated remarkable capabilities in handling complex, knowledge-intensive tasks by integrating external tools. Among diverse choices of tools, search tools play a pivotal role in accessing vast external knowledge. However, open-source agents still fall short of achieving expert-level Search Intelligence, the ability to resolve ambiguous queries, generate precise searches, analyze results, and conduct thorough exploration. Existing approaches fall short in scalability, efficiency, and data quality. For example, small turn limits in existing online RL methods, e.g. <=10, restrict complex strategy learning. This paper introduces ASearcher, an open-source project for large-scale RL training of search agents. Our key contributions include: (1) Scalable fully asynchronous RL training that enables long-horizon search while maintaining high training efficiency. (2) A prompt-based LLM agent that autonomously synthesizes high-quality and challenging QAs, creating a large-scale QA dataset. Through RL training, our prompt-based QwQ-32B agent achieves substantial improvements, with 46.7% and 20.8% Avg@4 gains on xBench and GAIA, respectively. Notably, our agent exhibits extreme long-horizon search, with tool calls exceeding 40 turns and output tokens exceeding 150k during training time. With a simple agent design and no external LLMs, ASearcher-Web-QwQ achieves Avg@4 scores of 42.1 on xBench and 52.8 on GAIA, surpassing existing open-source 32B agents. We open-source our models, training data, and codes in https://github.com/inclusionAI/ASearcher.

最近基于大型语言模型(LLM)的代理人的进展,通过整合外部工具,在处理复杂、知识密集型任务方面展现了显著的能力。在多种工具选择中,搜索工具在访问大量外部知识方面发挥着至关重要的作用。然而,开源代理人仍然缺乏实现专家级的搜索智能,即解决模糊查询、进行精确搜索、分析结果以及进行全面探索的能力。现有方法在可扩展性、效率和数据质量方面存在不足。例如,现有在线强化学习(RL)方法的小回合限制(例如<=10),限制了复杂策略的学习。本文介绍了ASearcher,一个用于大规模RL训练的搜索引擎代理人的开源项目。我们的主要贡献包括:(1)可扩展的完全异步RL训练,能够在维持高效训练的同时实现长期搜索。(2)基于提示的大型语言模型代理人能够自主合成高质量、具有挑战性的问答,创建大规模问答数据集。通过强化学习训练,我们的基于提示的QwQ-32B代理人实现了显著改进,在xBench和GAIA上分别实现了46.7%和20.8%的Avg@4增益。值得注意的是,我们的代理人展示了极端的长期搜索,在训练过程中的工具调用超过40回合,输出令牌超过15万。通过简单的代理人设计和不使用外部大型语言模型,ASearcher-Web-QwQ在xBench上实现了42.1的Avg@4分数,在GAIA上实现了52.8的分数,超越了现有的开源32B代理人。我们在https://github.com/inclusionAI/ASearcher开源我们的模型、训练数据和代码。

论文及项目相关链接

PDF

Summary

LLM-based代理的新进展通过整合外部工具展现了处理复杂、知识密集型任务的能力。搜索工具在访问大量外部知识中发挥着关键作用。然而,开源代理仍未能实现专家级的搜索智能,存在解决模糊查询、生成精确搜索、分析结果和全面探索的能力不足的问题。现有方法存在可扩展性、效率和数据质量方面的不足。本文介绍了ASearcher,一个用于大规模RL训练的开源项目。主要贡献包括:可伸缩的完全异步RL训练,能够在维持高效训练的同时进行长期搜索;基于提示的LLM代理能够自主合成高质量、具挑战性的问答,创建大规模QA数据集。通过RL训练,我们的基于提示的QwQ-32B代理在xBench和GAIA上分别实现了46.7%和20.8%的Avg@4增益。值得注意的是,我们的代理展现了极端长期搜索,训练过程中的工具调用超过40轮,输出令牌超过150k。

Key Takeaways

  1. LLM-based代理在整合外部工具方面展现出色,尤其在处理复杂、知识密集型任务时表现突出。
  2. 搜索工具在访问外部知识中起关键作用,但现有开源代理在搜索智能方面仍有所欠缺。
  3. 当前方法存在可扩展性、效率和数据质量方面的挑战。
  4. ASearcher项目通过引入可伸缩的完全异步RL训练,提高了长期搜索的能力并保持高效。
  5. 基于提示的LLM代理能自主合成高质量QA数据集,是ASearcher的一大贡献。
  6. QwQ-32B代理通过RL训练在xBench和GAIA上取得了显著成绩,展现了其有效性。

Cool Papers

点此查看论文截图

ContestTrade: A Multi-Agent Trading System Based on Internal Contest Mechanism

Authors:Li Zhao, Rui Sun, Zuoyou Jiang, Bo Yang, Yuxiao Bai, Mengting Chen, Xinyang Wang, Jing Li, Zuo Bai

In financial trading, large language model (LLM)-based agents demonstrate significant potential. However, the high sensitivity to market noise undermines the performance of LLM-based trading systems. To address this limitation, we propose a novel multi-agent system featuring an internal competitive mechanism inspired by modern corporate management structures. The system consists of two specialized teams: (1) Data Team - responsible for processing and condensing massive market data into diversified text factors, ensuring they fit the model’s constrained context. (2) Research Team - tasked with making parallelized multipath trading decisions based on deep research methods. The core innovation lies in implementing a real-time evaluation and ranking mechanism within each team, driven by authentic market feedback. Each agent’s performance undergoes continuous scoring and ranking, with only outputs from top-performing agents being adopted. The design enables the system to adaptively adjust to dynamic environment, enhances robustness against market noise and ultimately delivers superior trading performance. Experimental results demonstrate that our proposed system significantly outperforms prevailing multi-agent systems and traditional quantitative investment methods across diverse evaluation metrics. ContestTrade is open-sourced on GitHub at https://github.com/FinStep-AI/ContestTrade.

在金融交易领域,基于大型语言模型(LLM)的代理展现出巨大的潜力。然而,对市场噪声的高度敏感性削弱了LLM交易系统的性能。为了解决这一局限性,我们提出了一种新型的多代理系统,该系统以现代企业管理结构为灵感,具备内部竞争机制。该系统由两个专业团队组成:(1)数据团队——负责处理和压缩大量市场数据,将其转化为多样化的文本因素,确保它们符合模型的约束语境。(2)研究团队——任务是基于深度研究方法做出并行多路径交易决策。核心创新在于在每个团队内部实施实时评估和排名机制,以真实的市场反馈为驱动。每个代理的表现都会进行持续打分和排名,只有表现最佳的代理的输出才会被采用。这种设计使系统能够自适应地调整动态环境,增强对市场噪声的稳健性,并最终实现优越的交易性能。实验结果表明,我们提出的系统在多种评估指标上显著优于现有的多代理系统和传统的量化投资方法。ContestTrade已在GitHub上开源,网址为:https://github.com/FinStep-AI/ContestTrade。

论文及项目相关链接

PDF

Summary

基于大型语言模型(LLM)的金融交易代理展现出巨大潜力,但易受市场噪音影响。为此,我们提出一种新型多代理系统,借鉴现代企业管理制度中的竞争机制。系统分为数据团队和研究团队,分别负责数据处理与深度研究决策。创新之处在于引入实时评价和排名机制,通过市场反馈来评估每个代理的表现,并只采用表现最佳的代理输出。该系统能适应环境变化,增强对噪音的稳健性,最终提供出色的交易性能。实验结果显示,该系统在多个评估指标上显著优于现有多代理系统和传统量化投资方法。

Key Takeaways

  1. 大型语言模型在金融交易领域展现出巨大潜力。
  2. 市场噪音对基于大型语言模型的交易系统性能产生负面影响。
  3. 提出一种新型多代理系统,借鉴现代企业管理制度中的竞争机制以提升性能。
  4. 系统包含数据团队和研究团队,分别负责数据处理和深度研究决策。
  5. 实时评价和排名机制用于评估每个代理的表现,并仅采用最佳表现代理的输出。
  6. 系统能够适应环境变化,增强稳健性,对抗市场噪音。
  7. 实验结果显示,该系统在多个评估指标上优于现有方法和传统量化投资手段。

Cool Papers

点此查看论文截图

WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks

Authors:Zihao Sun, Ling Chen

Recent progress in large language models (LLMs) has enabled the development of autonomous web agents capable of navigating and interacting with real websites. However, evaluating such agents remains challenging due to the instability and inconsistency of existing benchmarks, which often rely on dynamic content or oversimplified simulations. In this work, we introduce WebArXiv, a static and time-invariant benchmark comprising 275 web-based tasks grounded in the arXiv platform. WebArXiv ensures reproducible and reliable evaluation by anchoring tasks in fixed web snapshots with deterministic ground truths and standardized action trajectories. Through behavioral analysis, we identify a common failure mode, Rigid History Reflection, where agents over-rely on fixed interaction histories. To address this, we propose a lightweight dynamic reflection mechanism that allows agents to selectively retrieve relevant past steps during decision-making. We evaluate ten state-of-the-art web agents on WebArXiv. Results demonstrate clear performance differences across agents and validate the effectiveness of our proposed reflection strategy.

最近,大型语言模型(LLM)的进展为能够导航和与现实网站进行交互的自主网络代理的发展提供了可能。然而,由于现有基准测试的不稳定性和不一致性,评估此类代理仍然具有挑战性,这些基准测试通常依赖于动态内容或过于简化的模拟。在这项工作中,我们介绍了WebArXiv,这是一个由基于arXiv平台的275个网络任务组成的静态且时间不变的基准测试。WebArXiv通过锚定任务在固定的网络快照中,确保具有可重复性和可靠性的评估,并具有确定性的真实依据和标准化的行动轨迹。通过行为分析,我们发现了一种常见的失败模式,即刚性历史反射,代理过度依赖于固定的交互历史记录。为了解决这一问题,我们提出了一种轻量级的动态反射机制,允许代理在决策过程中有选择地检索相关的过去步骤。我们在WebArXiv上评估了十个最先进的网络代理。结果表明,各代理之间的性能差异显著,并验证了我们所提出的反射策略的有效性。

论文及项目相关链接

PDF 10 pages, 9 figures, 4 tables

Summary

大型语言模型(LLM)的最新进展使得能够开发出可以浏览和与现实网站交互的自主网络代理。然而,由于现有基准测试的不稳定性和不一致性,评估这些代理仍然具有挑战性。这项工作介绍了WebArXiv,一个由基于arXiv平台的网络任务组成的静态且时间不变的基准测试。WebArXiv通过将任务锚定在具有确定性地面真相和标准行动轨迹的固定网页快照上,确保可重复和可靠的评估。通过行为分析,我们确定了常见的失败模式——刚性历史反射,即代理过度依赖固定的交互历史。为解决这一问题,我们提出了一种轻量级的动态反射机制,允许代理在决策过程中有选择地检索相关的过去步骤。我们对十个最先进的网络代理进行了WebArXiv评估。结果表明各代理之间的性能差异显著,并验证了我们所提出的反射策略的有效性。

Key Takeaways

  1. 大型语言模型(LLM)的进步促进了自主网络代理的发展,能够与现实网站交互。
  2. 现有代理评估基准测试存在不稳定性和不一致性问题。
  3. 介绍了WebArXiv,一个静态且时间不变的基准测试,由基于arXiv平台的网络任务组成。
  4. WebArXiv通过固定网页快照确保可重复和可靠的评估,具有确定性地面真相和标准行动轨迹。
  5. 发现了代理常见的失败模式——刚性历史反射,即过度依赖固定交互历史。
  6. 为解决这一问题,提出了轻量级的动态反射机制,允许代理在决策时选择性检索相关历史信息。

Cool Papers

点此查看论文截图

MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs

Authors:Boyuan Chen, Minghao Shao, Abdul Basit, Siddharth Garg, Muhammad Shafique

As large language models (LLMs) grow more capable, they face growing vulnerability to sophisticated jailbreak attacks. While developers invest heavily in alignment finetuning and safety guardrails, researchers continue publishing novel attacks, driving progress through adversarial iteration. This dynamic mirrors a strategic game of continual evolution. However, two major challenges hinder jailbreak development: the high cost of querying top-tier LLMs and the short lifespan of effective attacks due to frequent safety updates. These factors limit cost-efficiency and practical impact of research in jailbreak attacks. To address this, we propose MetaCipher, a low-cost, multi-agent jailbreak framework that generalizes across LLMs with varying safety measures. Using reinforcement learning, MetaCipher is modular and adaptive, supporting extensibility to future strategies. Within as few as 10 queries, MetaCipher achieves state-of-the-art attack success rates on recent malicious prompt benchmarks, outperforming prior jailbreak methods. We conduct a large-scale empirical evaluation across diverse victim models and benchmarks, demonstrating its robustness and adaptability. Warning: This paper contains model outputs that may be offensive or harmful, shown solely to demonstrate jailbreak efficacy.

随着大型语言模型(LLM)的能力越来越强,它们面临越来越复杂的越狱攻击(jailbreak attacks)的威胁。虽然开发者在微调对齐和安全防护方面投入了大量精力,但研究者们仍在不断发布新型攻击方法,通过对抗迭代推动技术进步。这种动态反映了一种持续演化的战略博弈。然而,存在两大挑战阻碍越狱攻击的发展:一是查询顶尖LLM的成本高昂,二是由于频繁的安全更新,有效攻击的寿命短暂。这些因素限制了越狱攻击研究中成本和实际影响的效率。为了解决这一问题,我们提出了MetaCipher,一个低成本、多代理的越狱框架,可跨具有不同安全措施的LLM进行通用化。使用强化学习,MetaCipher具有模块化和自适应的特点,支持未来策略的扩展性。在仅10次查询内,MetaCipher达到了最新恶意提示基准测试的攻击成功率之巅,超越了先前的越狱方法。我们对各种不同的受害者模型和基准测试进行了大规模的经验评估,证明了其稳健性和适应性。警告:本论文包含可能具有攻击性或有害性的模型输出,仅用于展示越狱效果。

论文及项目相关链接

PDF

Summary
大型语言模型(LLMs)随着功能不断增强,面临着日益增长的复杂越狱攻击风险。尽管开发人员在安全更新方面投入了大量努力,研究者仍不断推出新型攻击方法,通过对抗性迭代推动技术进步。为此,我们提出了MetaCipher,一个低成本、多智能体的越狱框架,能够应对不同安全措施的LLMs。MetaCipher使用强化学习,具有模块化和自适应特点,未来策略具有可扩展性。它在少量查询内达到了针对最新恶意提示基准测试的最先进攻击成功率,超越了之前的越狱方法。大规模实证研究证明了其稳健性和适应性。请注意,本文中包含的模型输出可能具有攻击性或有害性,仅用于展示越狱效果。

Key Takeaways

  1. 大型语言模型(LLMs)随着功能增强,面临更复杂越狱攻击风险。
  2. 开发者在安全防护方面投入大量努力,但研究者仍推出新型攻击方法。
  3. MetaCipher是一个低成本、多智能体的越狱框架,能够应对不同安全措施的LLMs。
  4. MetaCipher使用强化学习,具有模块化和自适应特点。
  5. MetaCipher在少量查询内达到了针对最新恶意提示基准测试的最先进攻击成功率。
  6. MetaCipher经过大规模实证研究证明其稳健性和适应性。

Cool Papers

点此查看论文截图

AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving

Authors:Wentao Zhang, Liang Zeng, Yuzhen Xiao, Yongcong Li, Ce Cui, Yilei Zhao, Rui Hu, Yang Liu, Yahui Zhou, Bo An

Recent advances in agent systems have demonstrated remarkable capabilities in solving both general-purpose and highly complex tasks. However, most current models lack mechanisms for coordinating specialized agents and have limited ability to generalize to new or diverse domains. To this end, we introduce AgentOrchestra, a hierarchical multi-agent framework for general-purpose task solving that integrates high-level planning with modular agent collaboration. Drawing inspiration from a conductor orchestrating a symphony, and grounded in the principles of extensibility, multimodality, modularity, and coordination, it features a central planning agent that decomposes complex objectives and delegates sub-tasks to a team of specialized agents. Each sub-agent is equipped with general programming tools, as well as abilities to tackle a wide range of real-world specific tasks, including data analysis, file operations, web navigation, and interactive reasoning in dynamic multimodal environments. Notably, AgentOrchestra introduces an MCP Manager Agent that enables intelligent evolution through dynamic tool creation, retrieval, and reuse mechanisms, significantly enhancing the system’s adaptability and scalability. AgentOrchestra supports flexible orchestration through explicit sub-goal formulation, inter-agent communication, and adaptive role allocation. We evaluate the framework on three widely used benchmarks for assessing LLM-based agent systems. Experimental results show that AgentOrchestra consistently outperforms flat-agent and monolithic baselines in terms of task success rate and adaptability. On the GAIA benchmark testing dataset, AgentOrchestra achieves an average score of 83.39%, ranking among the top general-purpose agents. These results highlight the effectiveness of hierarchical organization and role specialization in building scalable and general-purpose LLM-based agent systems.

近期代理系统领域的进展在解决通用和高复杂度任务方面表现出了显著的能力。然而,当前大多数模型缺乏协调专业代理的机制,且在新领域或多样领域的泛化能力有限。为此,我们引入了AgentOrchestra,这是一个用于通用任务解决的分层多代理框架,它将高级规划与模块化代理协作集成在一起。它借鉴了指挥协调交响乐团的灵感,并基于可扩展性、多模态性、模块化和协调的原则,拥有一个中央规划代理,可以分解复杂目标并将子任务委派给一组专业代理。每个子代理都配备了通用编程工具,以及处理各种现实世界特定任务的能力,包括数据分析、文件操作、网络导航以及在动态多模式环境中的交互推理。值得一提的是,AgentOrchestra引入了一个MCP管理代理,通过动态的工具创建、检索和再利用机制,实现了智能进化,显著增强了系统的适应性和可扩展性。AgentOrchestra通过明确的子目标制定、代理间通信和自适应角色分配来支持灵活编排。我们在三个广泛使用的评估LLM基于代理系统的基准测试上对框架进行了评估。实验结果表明,在任务成功率和适应性方面,AgentOrchestra持续优于平面代理和单一基准测试。在GAIA基准测试数据集上,AgentOrchestra的平均得分为8_百分之三十三点三(约合百分之八十三),位居通用代理之首。这些结果突出了分层组织和角色专业化在构建可扩展和通用的LLM基于代理系统方面的有效性。

论文及项目相关链接

PDF

Summary

AgentOrchestra是一个用于通用任务解决的多层次多智能体框架,它融合了高级规划与模块化智能体协作。该框架借鉴了指挥交响乐的思维,展现出扩展性、多模态性、模块化和协调的原则。通过中央规划智能体分解复杂目标并委派子任务给专业智能体团队,实现了智能协同。每个子智能体具备通用编程工具以及应对多种现实特定任务的能力。此外,AgentOrchestra引入了MCP管理智能体,通过动态创建、检索和重用工具实现智能进化,增强了系统的适应性和可扩展性。评估结果显示,AgentOrchestra在任务成功率和适应性方面超越扁平智能体和单一基准测试,且在GAIA基准测试数据集中平均得分达83.39%,成为顶尖通用智能体之一。

Key Takeaways

  1. AgentOrchestra是一个多层次多智能体框架,用于解决通用任务。
  2. 融合了高级规划与模块化智能体协作,借鉴指挥交响乐的思维。
  3. 展现出扩展性、多模态性、模块化和协调的原则。
  4. 中央规划智能体负责分解复杂目标并委派子任务给专业智能体团队。
  5. 每个子智能体具备通用编程工具以及应对多种现实特定任务的能力。
  6. AgentOrchestra引入了MCP管理智能体,增强了系统的适应性和可扩展性。
  7. AgentOrchestra在任务成功率和适应性方面表现出色,且在GAIA基准测试中得分高。

Cool Papers

点此查看论文截图

DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments

Authors:Chiyu Zhang, Marc-Alexandre Cote, Michael Albada, Anush Sankaran, Jack W. Stokes, Tong Wang, Amir Abdi, William Blum, Muhammad Abdul-Mageed

Large language model (LLM) agents have shown impressive capabilities in human language comprehension and reasoning, yet their potential in cybersecurity remains underexplored. We introduce DefenderBench, a practical, open-source toolkit for evaluating language agents across offense, defense, and cybersecurity knowledge-based tasks. DefenderBench includes environments for network intrusion, malicious content detection, code vulnerability analysis, and cybersecurity knowledge assessment. It is intentionally designed to be affordable and easily accessible for researchers while providing fair and rigorous assessment. We benchmark several state-of-the-art (SoTA) and popular LLMs, including both open- and closed-weight models, using a standardized agentic framework. Our results show that Claude-3.7-sonnet performs best with a DefenderBench score of 81.65, followed by Claude-3.7-sonnet-think with 78.40, while the best open-weight model, Llama 3.3 70B, is not far behind with a DefenderBench score of 71.81. DefenderBench’s modular design allows seamless integration of custom LLMs and tasks, promoting reproducibility and fair comparisons. An anonymized version of DefenderBench is available at https://github.com/microsoft/DefenderBench.

大型语言模型(LLM)代理在人类语言理解和推理方面展示了令人印象深刻的能力,然而它们在网络安全方面的潜力尚未被充分探索。我们推出了DefenderBench,这是一个实用的开源工具包,可以在进攻、防御和基于网络安全知识的任务中评估语言代理。DefenderBench包括网络入侵、恶意内容检测、代码漏洞分析和网络安全知识评估的环境。它特意为研究者们设计,旨在提供公平严格的评估,同时保持经济实惠和易于访问。我们使用标准化的代理框架,对若干最新技术和流行的LLMs进行基准测试,包括开放和封闭权重模型。我们的结果表明,Claude-3.7-sonnet表现最佳,DefenderBench得分为81.65,其次是Claude-3.7-sonnet-think,得分为78.40,而最好的开放权重模型Llama 3.3 70B紧随其后,DefenderBench得分为71.81。DefenderBench的模块化设计允许无缝集成自定义LLMs和任务,促进结果可重复性和公平比较。DefenderBench的匿名版本可在https://github.com/microsoft/DefenderBench上获得。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)在理解和推理人类语言方面表现出强大的能力,但在网络安全领域的应用潜力尚未得到充分探索。本文介绍了DefenderBench,这是一个用于评估语言模型在攻击、防御和网络安全知识任务上的实用开源工具包。DefenderBench包含网络入侵、恶意内容检测、代码漏洞分析和网络安全知识评估的环境。其旨在成为面向研究人员的负担得起的易于访问的工具,提供公平严谨的评价方法。文章通过标准化的框架评估了一些先进的大型语言模型,发现Claude-3.7-sonnet表现最佳,得分81.65,其次是Claude-3.7-sonnet-think得分78.40,而表现最好的开源模型Llama 3.3 70B得分紧随其后为71.81。DefenderBench的模块化设计允许无缝集成自定义的大型语言模型和任务,促进了研究的可重复性和公平比较。匿名版本的DefenderBench可在https://github.com/microsoft/DefenderBench获取。

Key Takeaways

  1. 大型语言模型(LLM)在网络安全领域的应用潜力尚未充分探索。
  2. DefenderBench是一个用于评估语言模型在网络安全领域的实用开源工具包。
  3. DefenderBench包含网络入侵、恶意内容检测、代码漏洞分析和网络安全知识评估的环境。
  4. DefenderBench旨在成为面向研究人员的负担得起的易于访问的工具,提供公平严谨的评价方法。
  5. Claude-3.7-sonnet在DefenderBench的评估中表现最佳,得分81.65。
  6. DefenderBench允许无缝集成自定义的大型语言模型和任务,促进研究的可重复性和公平比较。

Cool Papers

点此查看论文截图

CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization

Authors:Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang

Although LLM-based agents have attracted significant attention in domains such as software engineering and machine learning research, their role in advancing combinatorial optimization (CO) remains relatively underexplored. This gap underscores the need for a deeper understanding of their potential in tackling structured, constraint-intensive problems – a pursuit currently limited by the absence of comprehensive benchmarks for systematic investigation. To address this, we introduce CO-Bench, a benchmark suite featuring 36 real-world CO problems drawn from a broad range of domains and complexity levels. CO-Bench includes structured problem formulations and curated data to support rigorous investigation of LLM agents. We evaluate multiple agentic frameworks against established human-designed algorithms, revealing the strengths and limitations of existing LLM agents and identifying promising directions for future research. CO-Bench is publicly available at https://github.com/sunnweiwei/CO-Bench.

尽管基于大型语言模型(LLM)的代理在软件工程和机器学习研究等领域引起了广泛关注,但它们在推进组合优化(CO)方面的作用仍然相对未被充分探索。这一差距凸显了深入理解它们解决结构化、约束密集型问题的潜力的重要性,然而目前这一追求受限于缺乏全面的基准测试来进行系统研究。为了解决这一问题,我们引入了CO-Bench,这是一个包含36个来自广泛领域和复杂度级别的实际CO问题的基准测试套件。CO-Bench包括结构化的问题表述和经过筛选的数据,以支持对LLM代理的严格调查。我们评估了多个代理框架与已建立的人工设计算法,揭示了现有LLM代理的优势和局限性,并确定了未来研究的有前途的方向。CO-Bench可在https://github.com/sunnweiwei/CO-Bench公开访问。

论文及项目相关链接

PDF

Summary
LLM在软件工程和机器学习等领域备受关注,但在组合优化领域的应用相对缺乏研究。为此,本文提出CO-Bench,包含从各种领域和复杂度级别中抽取的36个真实世界组合优化问题,以支持对LLM的全面系统研究。文章通过评估多个代理框架与已知人类设计算法,揭示了现有LLM代理的优势和局限性,并指出了未来研究的有前途的方向。CO-Bench已在GitHub上公开可用。

Key Takeaways

  • LLM在组合优化领域的应用受到关注但相对缺乏研究。
  • CO-Bench是一个新的基准测试套件,包含真实世界的组合优化问题,旨在支持对LLM的全面系统研究。
  • CO-Bench包含从各种领域和复杂度级别中抽取的问题。
  • 文章评估了多个代理框架和人类设计算法,揭示了LLM代理的优缺点。
  • CO-Bench为未来的研究指出了有前途的方向。
  • CO-Bench已在GitHub上公开可用,便于研究人员使用。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-08-15 Translation of Text Embedding via Delta Vector to Suppress Strongly Entangled Content in Text-to-Image Diffusion Models
下一篇 
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-08-15 Noise Hypernetworks Amortizing Test-Time Compute in Diffusion Models
2025-08-15
  目录