发布日期: 2025-11-11

更新日期: 2025-11-27

文章字数: 16.5k

阅读时长: 66 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-11-11 更新

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

Authors:Jingxuan Xu, Ken Deng, Weihao Li, Songwei Yu, Huaixi Tang, Haoyang Huang, Zhiyi Lai, Zizheng Zhan, Yanan Wu, Chenchen Zhang, Kepeng Lei, Yifan Yao, Xinping Lei, Wenqiang Zhu, Zongxian Feng, Han Li, Junqi Xiong, Dailin Li, Zuchen Gao, Kun Wu, Wen Xiang, Ziqi Zhan, Yuanxing Zhang, Wuxuan Gong, Ziyuan Gao, Guanxiang Wang, Yirong Xue, Xiaojiang Zhang, Jinghui Wang, Huiming Wang, Wenhao Zhuang, Zhaoxiang Zhang, Yuqun Zhang, Haotian Zhang, Bin Chen, Jiaheng Liu

Evaluating large language models (LLMs) for software engineering has been limited by narrow task coverage, language bias, and insufficient alignment with real-world developer workflows. Existing benchmarks often focus on algorithmic problems or Python-centric bug fixing, leaving critical dimensions of software engineering underexplored. To address these gaps, we introduce SWE-Compass1, a comprehensive benchmark that unifies heterogeneous code-related evaluations into a structured and production-aligned framework. SWE-Compass spans 8 task types, 8 programming scenarios, and 10 programming languages, with 2000 high-quality instances curated from authentic GitHub pull requests and refined through systematic filtering and validation. We benchmark ten state-of-the-art LLMs under two agentic frameworks, SWE-Agent and Claude Code, revealing a clear hierarchy of difficulty across task types, languages, and scenarios. Moreover, by aligning evaluation with real-world developer practices, SWE-Compass provides a rigorous and reproducible foundation for diagnosing and advancing agentic coding capabilities in large language models.

评估大型语言模型（LLM）在软件工程方面的应用一直受到任务覆盖面狭窄、语言偏见以及与现实世界开发者工作流程对齐不足的限制。现有基准测试通常侧重于算法问题或以Python为中心的bug修复，使得软件工程的关键维度被探索得不够深入。为了解决这些差距，我们推出了SWE-Compass1，这是一个统一的基准测试，它将各种代码相关的评估整合到一个结构化且符合生产实际框架中。SWE-Compass涵盖8种任务类型、8种编程场景和10种编程语言，其中包含2000个高质量实例，这些实例是从真实的GitHub pull请求中精心挑选的，并通过系统的过滤和验证进行了完善。我们在两个代理框架SWE-Agent和Claude Code下对十个最先进的大型语言模型进行了基准测试，揭示了任务类型、语言和场景之间的难度层次。此外，通过与现实世界的开发者实践对齐评估，SWE-Compass为诊断和改进大型语言模型中的代理编码能力提供了严格且可复制的基准。

论文及项目相关链接

PDF

Summary：
软件工程领域的大型语言模型（LLM）评估受限于任务覆盖面狭窄、语言偏见以及与真实世界开发者工作流程的不对齐。现有基准测试主要关注算法问题或Python中心的bug修复，忽略了软件工程的关键维度。为解决这些问题，我们推出SWE-Compass1，这是一个统一的基准测试框架，它涵盖了多种代码相关的评估内容，结构清晰且与实际应用相符。SWE-Compass涵盖八种任务类型、八种编程场景和十种编程语言，包含从真实的GitHub pull请求中精心挑选的2000个高质量实例，经过系统的筛选和验证。我们对十种最先进的LLM进行了基准测试，包括SWE-Agent和Claude Code两个框架，揭示了任务类型、语言和场景之间的难度层次。此外，通过与真实世界开发者实践对齐的评估，SWE-Compass为诊断和提升大型语言模型的智能编码能力提供了严谨且可重复的基础。

Key Takeaways：

现有的大型语言模型（LLM）在软件工程领域的评估存在任务覆盖面狭窄、语言偏见和与真实世界开发者工作流程的不对齐问题。
SWE-Compass是一个新的基准测试框架，旨在解决上述问题，涵盖了多种代码相关的评估内容。
SWE-Compass包含了从真实的GitHub pull请求中挑选的2000个高质量实例，涵盖了八种任务类型、八种编程场景和十种编程语言。
对十种最先进的LLM进行了基准测试，包括SWE-Agent和Claude Code两个框架。
测试结果显示任务类型、语言和场景之间存在难度层次。
SWE-Compass的评估与真实世界开发者实践对齐，为诊断和提升大型语言模型的智能编码能力提供了基础。

Cool Papers

点此查看论文截图

Story Arena: A Multi-Agent Environment for Envisioning the Future of Software Engineering

Authors:Justin D. Weisz, Michael Muller, Kush R. Varshney

What better way to understand the impact of AI on software engineering than to ask AI itself? We constructed Story Arena, a multi-agent “writer’s room” in which multiple AI agents, independently imbued with a position statement on the future of software engineering, converse with each other to develop a shared vision. They then use this shared vision to collaboratively construct a design fiction that depicts this vision in narrative form. We present “The Code of Trust,” a short fiction that investigates themes of human comprehension, trust, content ownership, augmentation vs. replacement, and uncertain futures in human-AI co-creation.

了解人工智能对软件工程影响最好的方式是什么？那就是向人工智能本身提问。我们构建了故事剧场（Story Arena），这是一个多智能体“写作室”，在这个空间中，多个关于软件工程未来立场的智能体相互对话，以形成共同的愿景。然后，他们利用这一共同愿景合作构建了一个设计虚构故事，以叙事的形式描绘这一愿景。我们推出《信任的代码》，这是一部短篇小说，探讨了人类理解、信任、内容所有权、增强与替代以及人机协同创造的未来不确定主题。

论文及项目相关链接

PDF 8 pages. Appeared in the 2025 Workshop on The End of Programming (as we know it): Envisioning Radical Re-Conceptualizations of Co-Coding with AI, held in conjunction with the Aarhus 2025 Decennial Conference, August 18-22, 2025

Summary

本文构建了一个多智能体“写作室”，其中的多个智能体根据软件工程的未来进行独立的立场声明，并展开相互交流形成共同的愿景。他们根据这个愿景共同构建了一部设计小说来阐述人类认知、信任、内容所有权等问题。小说的主题围绕人类对不确定未来的期待、协作共存以及对技术与技术的强化和替代等方面的讨论。整个故事的建构过程是智能体们在交流中形成的集体智慧和想象力与人的共情、决策紧密结合的成果。在这个过程中，AI技术发挥了至关重要的作用，进一步展示了人工智能对软件工程领域的深远影响。未来软件工程将如何发展，以及人与AI的协作方式将是值得期待和探讨的重要话题。文中提出的《信任之码》设计小说深入探讨了这一主题。

Key Takeaways

构建了一个多智能体“写作室”，用于探讨人工智能对软件工程的影响。
智能体们基于各自立场形成共同的愿景，探讨了软件工程的未来发展趋势。
设计小说《信任之码》揭示了AI对软件工程中认知、信任等重要问题的深刻影响。
探讨了未来不确定性主题，包括人类与AI的协作方式以及技术与技术的强化和替代等议题。
AI技术在故事建构过程中发挥了关键作用，展现了其在软件工程领域的巨大潜力。

Cool Papers

点此查看论文截图

TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework

Authors:Chao Zhang, Yuhao Wang, Derong Xu, Haoxin Zhang, Yuanjie Lyu, Yuhao Chen, Shuochen Liu, Tong Xu, Xiangyu Zhao, Yan Gao, Yao Hu, Enhong Chen

Retrieval-Augmented Generation (RAG) utilizes external knowledge to augment Large Language Models’ (LLMs) reliability. For flexibility, agentic RAG employs autonomous, multi-round retrieval and reasoning to resolve queries. Although recent agentic RAG has improved via reinforcement learning, they often incur substantial token overhead from search and reasoning processes. This trade-off prioritizes accuracy over efficiency. To address this issue, this work proposes TeaRAG, a token-efficient agentic RAG framework capable of compressing both retrieval content and reasoning steps. 1) First, the retrieved content is compressed by augmenting chunk-based semantic retrieval with a graph retrieval using concise triplets. A knowledge association graph is then built from semantic similarity and co-occurrence. Finally, Personalized PageRank is leveraged to highlight key knowledge within this graph, reducing the number of tokens per retrieval. 2) Besides, to reduce reasoning steps, Iterative Process-aware Direct Preference Optimization (IP-DPO) is proposed. Specifically, our reward function evaluates the knowledge sufficiency by a knowledge matching mechanism, while penalizing excessive reasoning steps. This design can produce high-quality preference-pair datasets, supporting iterative DPO to improve reasoning conciseness. Across six datasets, TeaRAG improves the average Exact Match by 4% and 2% while reducing output tokens by 61% and 59% on Llama3-8B-Instruct and Qwen2.5-14B-Instruct, respectively. Code is available at https://github.com/Applied-Machine-Learning-Lab/TeaRAG.

检索增强生成（RAG）利用外部知识来提高大型语言模型（LLM）的可靠性。为了灵活性，代理型RAG采用自主、多轮检索和推理来解决查询。尽管最近的代理型RAG通过强化学习得到了改进，但它们常常因为搜索和推理过程而产生大量的令牌开销。这种权衡优先考虑准确性而不是效率。为了解决这一问题，这项工作提出了TeaRAG，一个高效的代理型RAG框架，能够压缩检索内容和推理步骤。首先，通过结合基于块的语义检索和基于简洁三元组的图形检索来压缩检索内容。然后，根据语义相似性和共现性构建知识关联图。最后，利用个性化PageRank来突出此图中的重要知识，减少每次检索的令牌数量。此外，为了简化推理步骤，提出了迭代过程感知的直接偏好优化（IP-DPO）。具体来说，我们的奖励函数通过知识匹配机制来评估知识的充足性，同时惩罚过多的推理步骤。这种设计可以产生高质量的首选配对数据集，支持迭代DPO以提高推理的简洁性。在六个数据集上，TeaRAG在Llama3-8B-Instruct和Qwen2.5-14B-Instruct上分别将平均精确匹配度提高了4%和2%，同时减少了输出令牌的数量，分别为61%和59%。代码可在https://github.com/Applied-Machine-Learning-Lab/TeaRAG上找到。

论文及项目相关链接

PDF 32 pages

Summary

RAG结合外部知识提高大语言模型的可靠性。为提高灵活性，采用了自主式多轮检索和推理解决查询问题。为应对因检索和推理过程产生的庞大符号开销问题，研究者提出TeaRAG框架，通过基于块的语义检索与基于简洁三元组的图检索相结合来压缩检索内容，并利用知识关联图和个人化PageRank来突出重点知识。此外，TeaRAG提出一种新型的奖励函数设计——迭代过程感知直接偏好优化（IP-DPO），该设计通过知识匹配机制评价知识充足性，并惩罚过度推理步骤。这一设计旨在提升检索效率和推理简洁性，六大数据集的实验结果表明，TeaRAG在提高精确匹配度的同时减少了输出符号数量。具体信息可参见相关GitHub代码库。

Key Takeaways

RAG技术利用外部知识增强LLM的可靠性，通过多轮自主检索和推理提高灵活性。
现有agentic RAG在强化学习中得到改进，但存在因搜索和推理产生的显著符号开销问题，需要在准确性与效率间权衡。
TeaRAG框架旨在解决上述问题，通过压缩检索内容和优化推理步骤来提高效率。
TeaRAG采用基于块的语义检索与基于简洁三元组的图检索相结合，利用知识关联图和个人化PageRank来突出重点知识。
TeaRAG提出一种新型的奖励函数设计——IP-DPO，通过知识匹配机制评价知识充足性，并优化过度推理问题。
实验结果表明，TeaRAG在六个数据集上提高了精确匹配度，同时显著减少了输出符号数量。

Cool Papers

点此查看论文截图

ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations

Authors:Amr Gomaa, Ahmed Salem, Sahar Abdelnabi

As language models evolve into autonomous agents that act and communicate on behalf of users, ensuring safety in multi-agent ecosystems becomes a central challenge. Interactions between personal assistants and external service providers expose a core tension between utility and protection: effective collaboration requires information sharing, yet every exchange creates new attack surfaces. We introduce ConVerse, a dynamic benchmark for evaluating privacy and security risks in agent-agent interactions. ConVerse spans three practical domains (travel, real estate, insurance) with 12 user personas and over 864 contextually grounded attacks (611 privacy, 253 security). Unlike prior single-agent settings, it models autonomous, multi-turn agent-to-agent conversations where malicious requests are embedded within plausible discourse. Privacy is tested through a three-tier taxonomy assessing abstraction quality, while security attacks target tool use and preference manipulation. Evaluating seven state-of-the-art models reveals persistent vulnerabilities; privacy attacks succeed in up to 88% of cases and security breaches in up to 60%, with stronger models leaking more. By unifying privacy and security within interactive multi-agent contexts, ConVerse reframes safety as an emergent property of communication.

随着语言模型进化为能够代表用户行为和沟通的自主体代理，在多代理生态系统中的安全保证成为了一个核心挑战。个人助理和外部服务提供商之间的交互暴露了实用性和保护之间的核心矛盾：有效的协作需要信息共享，但每一次交换都会带来新的攻击面。我们引入了ConVerse，这是一个用于评估代理交互中隐私和安全风险的动态基准测试。ConVerse涵盖了三个实际领域（旅行、房地产、保险），包括12个用户角色和超过864个基于情境的情境攻击（隐私类攻击611个，安全类攻击253个）。不同于之前的单代理环境，它模拟了自主的多轮代理到代理的对话，恶意请求嵌入在合理的讨论中。隐私测试通过三级分类评估抽象质量，而安全攻击则针对工具使用和偏好操纵。对七种最新模型进行评估显示出持续存在的漏洞；隐私攻击成功率高达88%，安全漏洞率高达60%，更强大的模型泄漏的信息更多。通过将隐私和安全统一在交互多代理的情境中，ConVerse重新定义了沟通中的安全作为一种新兴属性。

论文及项目相关链接

PDF

Summary
对话安全和隐私是随着语言模型演变为代理用户执行操作与通信的自理自主代起点的中心挑战。该研究提出一种动态的代理互动风险评估标准——ConVerse。它在包括旅游、房地产和保险在内的三个领域中模拟了多代理互动对话场景，涵盖超过一千次攻击事件。测试表明，即使是当前先进的模型也存在严重的隐私泄露和安全漏洞风险。因此，将隐私和安全纳入互动多代理环境评估之中重新定义了安全的沟通要求。

Key Takeaways

语言模型正在向自主代理进化，对多代理生态系统中的安全性提出了挑战。
个人助理与外部服务提供者之间的交互存在实用性与保护之间的核心矛盾。这要求既要共享信息以实现有效协作，又要保护隐私和信息安全。

Cool Papers

点此查看论文截图

TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems

Authors:Ishan Kavathekar, Hemang Jain, Ameya Rathod, Ponnurangam Kumaraguru, Tanuja Ganu

Large Language Models (LLMs) have demonstrated strong capabilities as autonomous agents through tool use, planning, and decision-making abilities, leading to their widespread adoption across diverse tasks. As task complexity grows, multi-agent LLM systems are increasingly used to solve problems collaboratively. However, safety and security of these systems remains largely under-explored. Existing benchmarks and datasets predominantly focus on single-agent settings, failing to capture the unique vulnerabilities of multi-agent dynamics and co-ordination. To address this gap, we introduce $\textbf{T}$hreats and $\textbf{A}$ttacks in $\textbf{M}$ulti-$\textbf{A}$gent $\textbf{S}$ystems ($\textbf{TAMAS}$), a benchmark designed to evaluate the robustness and safety of multi-agent LLM systems. TAMAS includes five distinct scenarios comprising 300 adversarial instances across six attack types and 211 tools, along with 100 harmless tasks. We assess system performance across ten backbone LLMs and three agent interaction configurations from Autogen and CrewAI frameworks, highlighting critical challenges and failure modes in current multi-agent deployments. Furthermore, we introduce Effective Robustness Score (ERS) to assess the tradeoff between safety and task effectiveness of these frameworks. Our findings show that multi-agent systems are highly vulnerable to adversarial attacks, underscoring the urgent need for stronger defenses. TAMAS provides a foundation for systematically studying and improving the safety of multi-agent LLM systems.

大型语言模型（LLM）通过工具使用、规划和决策能力展现出强大的自主代理能力，已在各种任务中得到广泛应用。随着任务复杂性的增长，多代理LLM系统越来越被用来协作解决问题。然而，这些系统的安全性和可靠性在很大程度上仍未被充分研究。现有的基准测试和数据集主要集中在单代理设置上，未能捕捉到多代理动态和协调的独特漏洞。为了填补这一空白，我们引入了多代理系统中的威胁和攻击（TAMAS）基准测试，旨在评估多代理LLM系统的稳健性和安全性。TAMAS包括五个独特场景，涵盖六种攻击类型和211个工具的300个对抗实例，以及100个无害任务。我们评估了十个主干LLM和来自Autogen和CrewAI框架的三种代理交互配置的系统性能，突出了当前多代理部署中的关键挑战和失败模式。此外，我们还引入了有效稳健性评分（ERS）来评估这些框架在安全和任务有效性之间的权衡。我们的研究发现，多代理系统极易受到对抗性攻击的影响，这突显了亟需更强大的防御措施。TAMAS为系统地研究和提高多代理LLM系统的安全性提供了基础。

论文及项目相关链接

PDF Accepted at ICML 2025 MAS Workshop. This version includes additional experiments and analysis

Summary
大型语言模型（LLM）已展现出作为自主代理的强大能力，涉及工具使用、规划和决策能力，广泛应用于各种任务。随着任务复杂性的增长，多代理LLM系统越来越多地用于协作解决问题。然而，这些系统的安全性和稳健性尚未得到充分探索。现有基准测试和数据集主要集中在单代理设置上，未能捕捉到多代理动态和协调的独特漏洞。为解决这一差距，我们引入了多代理系统威胁和攻击（TAMAS）基准测试，旨在评估多代理LLM系统的稳健性和安全性。TAMAS包括五个独特场景，涵盖六种攻击类型和211个工具在内的300个对抗实例，以及100个无害任务。我们评估了Autogen和CrewAI框架中的十个主干LLM和三种代理交互配置的系统性能，突出了当前多代理部署中的关键挑战和失败模式。此外，我们还引入了有效稳健性评分（ERS）来评估这些框架的安全性和任务有效性的权衡。研究发现，多代理系统极易受到对抗性攻击的威胁，迫切需要更强大的防御措施。TAMAS为多代理LLM系统的系统研究改善安全性提供了基础。

Key Takeaways

大型语言模型（LLM）在工具使用、规划和决策方面表现出强大的自主能力，广泛应用于各种任务。
随着任务复杂性的增加，多代理LLM系统被用于协作解决问题。
多代理LLM系统的安全性和稳健性尚未得到充分探索。
现有基准测试和数据集主要集中在单代理设置上，无法充分评估多代理系统的独特漏洞。
引入了多代理系统威胁和攻击（TAMAS）基准测试，以评估多代理LLM系统的稳健性和安全性。
TAMAS包括多种场景、攻击类型和工具，旨在全面评估系统性能。

Cool Papers

点此查看论文截图

DeepForgeSeal: Latent Space-Driven Semi-Fragile Watermarking for Deepfake Detection Using Multi-Agent Adversarial Reinforcement Learning

Authors:Tharindu Fernando, Clinton Fookes, Sridha Sridharan

Rapid advances in generative AI have led to increasingly realistic deepfakes, posing growing challenges for law enforcement and public trust. Existing passive deepfake detectors struggle to keep pace, largely due to their dependence on specific forgery artifacts, which limits their ability to generalize to new deepfake types. Proactive deepfake detection using watermarks has emerged to address the challenge of identifying high-quality synthetic media. However, these methods often struggle to balance robustness against benign distortions with sensitivity to malicious tampering. This paper introduces a novel deep learning framework that harnesses high-dimensional latent space representations and the Multi-Agent Adversarial Reinforcement Learning (MAARL) paradigm to develop a robust and adaptive watermarking approach. Specifically, we develop a learnable watermark embedder that operates in the latent space, capturing high-level image semantics, while offering precise control over message encoding and extraction. The MAARL paradigm empowers the learnable watermarking agent to pursue an optimal balance between robustness and fragility by interacting with a dynamic curriculum of benign and malicious image manipulations simulated by an adversarial attacker agent. Comprehensive evaluations on the CelebA and CelebA-HQ benchmarks reveal that our method consistently outperforms state-of-the-art approaches, achieving improvements of over 4.5% on CelebA and more than 5.3% on CelebA-HQ under challenging manipulation scenarios.

随着生成式AI的飞速发展，深度伪造（deepfakes）技术愈发逼真，给执法机构和公众信任带来了越来越多的挑战。现有的被动深度伪造检测器努力追赶，但由于主要依赖于特定的伪造特征，很大程度上限制了它们对于新深度伪造类型的通用性。主动使用水印的深度伪造检测技术已经兴起，以应对识别高质量合成媒体的挑战。然而，这些方法在平衡水印对于良性畸变的稳健性与对恶意篡改的敏感性时往往面临困难。本文介绍了一种新型深度学习框架，该框架利用高维潜在空间表征和多智能体对抗强化学习（MAARL）范式来开发稳健且自适应的水印方法。具体来说，我们开发了一种可在潜在空间内运行的可学习水印嵌入器，捕捉图像的高级语义信息，同时实现对消息编码和解码的精确控制。通过与模拟对抗攻击者代理生成的动态课程中的良性图像操作和恶意图像操作进行交互，MAARL范式使可学习的水印代理能够追求稳健性和脆弱性之间的最佳平衡。在CelebA和CelebA-HQ基准测试上的全面评估表明，我们的方法始终优于现有先进技术，在CelebA上改进超过4.5%，在CelebA-HQ上改进超过5.3%，在具有挑战性的操纵场景中表现尤为突出。

论文及项目相关链接

PDF

Summary
随着生成式AI的快速发展，深度伪造技术越来越逼真，对执法和公众信任构成日益严峻的挑战。现有的被动深度伪造检测器难以跟上步伐，主要因为它们依赖于特定的伪造特征，这限制了它们对新类型深度伪造的通用性。为应对高质量合成媒体的识别挑战，出现了主动深度伪造检测的水印方法。然而，这些方法在平衡对良性扭曲的稳健性和对恶意篡改的敏感性方面存在困难。本文引入了一种新的深度学习框架，利用高维潜在空间表示和多智能体对抗增强学习（MAARL）范式，开发了一种稳健且自适应的水印方法。在CelebA和CelebA-HQ基准测试上的综合评估表明，我们的方法持续优于最新技术，在具有挑战性的操作场景下，在CelebA上的改进超过4.5%，在CelebA-HQ上的改进超过5.3%。

Key Takeaways

生成式AI的快速发展导致深度伪造技术越来越逼真，对执法和公众信任带来挑战。
现有被动深度伪造检测器难以应对新型深度伪造技术，因为它们依赖于特定伪造特征。
主动深度伪造检测水印方法用于识别高质量合成媒体，但平衡稳健性和敏感性方面存在困难。
本文引入了一种新的深度学习框架，结合高维潜在空间表示和多智能体对抗增强学习（MAARL）范式。
该框架开发了一种稳健且自适应的水印方法，通过潜在空间中的可学习水印嵌入器捕捉高级图像语义并实现精确的消息编码和提取。
MAARL范式使水印代理能够追求稳健性和脆弱性之间的最佳平衡。

Cool Papers

点此查看论文截图

AgentExpt: Automating AI Experiment Design with LLM-based Resource Retrieval Agent

Authors:Yu Li, Lehui Li, Qingmin Liao, Fengli Xu, Yong Li

Large language model agents are becoming increasingly capable at web-centric tasks such as information retrieval, complex reasoning. These emerging capabilities have given rise to surge research interests in developing LLM agent for facilitating scientific quest. One key application in AI research is to automate experiment design through agentic dataset and baseline retrieval. However, prior efforts suffer from limited data coverage, as recommendation datasets primarily harvest candidates from public portals and omit many datasets actually used in published papers, and from an overreliance on content similarity that biases model toward superficial similarity and overlooks experimental suitability. Harnessing collective perception embedded in the baseline and dataset citation network, we present a comprehensive framework for baseline and dataset recommendation. First, we design an automated data-collection pipeline that links roughly one hundred thousand accepted papers to the baselines and datasets they actually used. Second, we propose a collective perception enhanced retriever. To represent the position of each dataset or baseline within the scholarly network, it concatenates self-descriptions with aggregated citation contexts. To achieve efficient candidate recall, we finetune an embedding model on these representations. Finally, we develop a reasoning-augmented reranker that exact interaction chains to construct explicit reasoning chains and finetunes a large language model to produce interpretable justifications and refined rankings. The dataset we curated covers 85% of the datasets and baselines used at top AI conferences over the past five years. On our dataset, the proposed method outperforms the strongest prior baseline with average gains of +5.85% in Recall@20, +8.30% in HitRate@5. Taken together, our results advance reliable, interpretable automation of experimental design.

大型语言模型代理（LLM）越来越擅长以网络为中心的任务，如信息检索和复杂推理。这些新兴的能力引发了人们对开发用于促进科学探索的大型语言模型代理的研究兴趣激增。人工智能研究中的一个关键应用是通过代理数据集和基线检索来自动进行实验设计。然而，早期的研究存在数据覆盖有限的问题，因为推荐数据集主要从公共门户收集候选对象，并忽略了实际在已发表论文中使用的数据集。此外，它们过于依赖内容相似性，这使得模型偏向于表面相似性，而忽略了实验适用性。通过利用基准和数据集引用网络中的集体感知，我们提出了一个全面的基准和数据集推荐框架。首先，我们设计了一个自动化数据收集管道，将大约十万篇已接受论文与它们实际使用的基准和数据集联系起来。其次，我们提出了一个增强集体感知的检索器。为了表示每个数据集或基线在学术网络中的位置，它将自我描述与聚合引用上下文结合起来。为了实现高效的候选召回，我们在这些表示上微调了嵌入模型。最后，我们开发了一个增强推理的重新排序器，它通过精确交互链构建明确的推理链，并微调大型语言模型以产生可解释的理由和精细排名。我们编纂的数据集涵盖了过去五年内在顶级人工智能会议上使用的85%的数据集和基线。在我们的数据集上，所提出的方法在Recall@20和HitRate@5上的平均增益分别提高了+5.85%和+8.30%。总的来说，我们的研究结果推动了实验设计的可靠、可解释自动化。

论文及项目相关链接

PDF 10 pages

Summary

大型语言模型代理在网页中心任务方面的能力日益增强，如信息检索和复杂推理。在人工智能研究领域，一个关键应用是自动实验设计，通过代理数据集和基线检索实现。然而，现有方法存在数据覆盖有限和对内容相似性过度依赖的问题。本研究利用基准和数据集引文网络中的集体感知，提出一个全面的基准和数据集推荐框架。设计自动化数据收集管道，连接大约十万篇已接受论文实际使用的基准和数据集。提出一种增强集体感知的检索器，以在学术网络内表示每个数据集或基线的位置。开发一个增强推理的重新排序器，构建明确推理链并微调大型语言模型以产生可解释性和精细排名。所整理的数据集覆盖了过去五年顶级人工智能会议使用的85%数据集和基准。在数据集上，所提出的方法在Recall@20和HitRate@5上平均优于最强基线，分别提高了+5.85%和+8.30%。

Key Takeaways

大型语言模型代理在网页中心任务上的能力日益增强，尤其在信息检索和复杂推理方面表现突出。
自动实验设计是人工智能研究的一个重要应用领域，通过代理数据集和基线检索实现。
现有方法存在数据覆盖有限和对内容相似性过度依赖的问题。
利用基准和数据集引文网络中的集体感知，提出一个全面的框架进行基准和数据集推荐。
设计了自动化数据收集管道，连接论文与它们实际使用的基准和数据集。
开发出一种增强集体感知的检索器，能够更有效地代表每个数据集或基线在学术网络中的位置。

Cool Papers

点此查看论文截图

Real-Time Reasoning Agents in Evolving Environments

Authors:Yule Wen, Yixin Ye, Yanzhe Zhang, Diyi Yang, Hao Zhu

Agents in the real world must make not only logical but also timely judgments. This requires continuous awareness of the dynamic environment: hazards emerge, opportunities arise, and other agents act, while the agent’s reasoning is still unfolding. Despite advances in language model reasoning, existing approaches fail to account for this dynamic nature. We introduce real-time reasoning as a new problem formulation for agents in evolving environments and build Real-Time Reasoning Gym to demonstrate it. We study two paradigms for deploying language models in agents: (1) reactive agents, which employ language models with bounded reasoning computation for rapid responses, and (2) planning agents, which allow extended reasoning computation for complex problems. Our experiments show that even state-of-the-art models struggle with making logical and timely judgments in either paradigm. To address this limitation, we propose AgileThinker, which simultaneously engages both reasoning paradigms. AgileThinker consistently outperforms agents engaging only one reasoning paradigm as the task difficulty and time pressure rise, effectively balancing reasoning depth and response latency. Our work establishes real-time reasoning as a critical testbed for developing practical agents and provides a foundation for research in temporally constrained AI systems, highlighting a path toward real-time capable agents.

现实世界中的智能体不仅需要进行逻辑判断，还需要及时做出判断。这需要持续了解动态环境：危险出现，机会出现，其他智能体采取行动，而智能体的推理仍在展开。尽管语言模型推理取得了进展，但现有方法无法解释这种动态特性。我们引入实时推理作为不断发展的环境中智能体的新问题表述，并构建实时推理体育馆进行演示。我们研究了在智能体中部署语言模型的两种范式：（1）反应式智能体，采用具有有限推理计算的语言模型进行快速响应；（2）规划式智能体，允许进行扩展的推理计算以解决复杂问题。我们的实验表明，即使在最先进的模型中，这两种范式下的智能体在做出逻辑和及时判断方面也存在困难。为了解决这一局限性，我们提出了AgileThinker，它同时采用这两种推理范式。随着任务难度和时间压力的增加，AgileThinker在智能体的表现上始终优于只采用一种推理范式的智能体，有效地平衡了推理深度和响应延迟。我们的工作建立了实时推理作为开发实用智能体的关键测试平台，为时间约束人工智能系统的研究提供了基础，为实时智能体的研究指明了方向。

论文及项目相关链接

PDF 30 pages

Summary
实时环境中的智能体不仅需要做出逻辑判断，还需要及时做出判断。本文介绍了实时推理作为在不断变化的环境中智能体新的问题表述方式，并建立了实时推理健身房来展示它。研究了在智能体中部署语言模型的两种范式：反应型智能体，用于快速响应；规划型智能体，用于解决复杂问题。实验表明，即使在两种范式下，最先进的模型在进行逻辑和及时判断时也会遇到困难。针对这一局限性，本文提出了AgileThinker，它能够同时利用两种推理范式。随着任务难度和时间压力的增加，AgileThinker在参与单一推理范式的智能体中表现更为出色，有效地平衡了推理深度和响应延迟。本文的工作为开发实用智能体建立了实时推理这一关键测试平台，并为时间约束人工智能系统的研究提供了基础。

Key Takeaways

智能体在实时环境中需要同时处理逻辑判断和及时决策的问题。
引入实时推理作为在不断变化的环境中智能体的问题表述方式。
存在两种语言模型部署范式：反应型智能体和规划型智能体。
最先进的模型在进行逻辑和及时判断时面临挑战。
提出AgileThinker模型以同时利用两种推理范式。
随着任务难度和时间压力的增加，AgileThinker表现优异。

Cool Papers

点此查看论文截图

Agentic Refactoring: An Empirical Study of AI Coding Agents

Authors:Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan

Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median $\Delta$ = -15.25).

AI编码工具，如OpenAI Codex、Claude Code和Cursor等，正在改变软件工程的格局。这些人工智能系统可以作为自主协作的伙伴，完成复杂的开发任务。代理已经成为重构活动中的积极参与者，重构是可持续软件开发的核心，旨在提高内部代码质量而不改变可观察的行为。尽管这些代理越来越被广泛采用，但关于实践中如何使用代理重构、如何与人类驱动的重构进行比较以及它对代码质量有何影响，仍然存在关键的实证理解缺失。为了弥补这一实证空白，我们对真实世界开源Java项目中AI代理生成的重构进行了一项大规模研究，分析了来自AIDev数据集的15451个重构实例、跨越的12256个pull请求和14988个提交。我们的实证分析表明，重构是这种开发模式中的一项常见且有目的的活动，代理在26.1%的提交中明确针对重构。对重构类型的分析表明，代理的努力主要集中在低级别、以一致性为导向的编辑上，如更改变量类型（占11.8%）、重命名参数（占10.4%）和重命名变量（占8.5%），这反映出与常见的人类重构中高层次的设计变化相比，更偏向于局部改进。此外，代理重构背后的动机大多集中在内部质量问题上，可维护性（占52.5%）和可读性（占28.1%）。此外，对代码质量指标的定量评估表明，代理重构在结构指标上产生了微小但具有统计学意义的改进，尤其是在中等级别的变化中，减少了类的大小和复杂性（例如，类LOC中位数Δ=-15.25）。

论文及项目相关链接

PDF 23 pages, 7 Tables, 5 Figuress, Submitted to ACM Transactions on Software Engineering and Methodology(TOSEM)

Summary
代理编码工具如OpenAI Codex、Claude Code和Cursor正在改变软件工程的格局。这些AI驱动的系统能够自主执行任务，成为软件开发的积极参与者。针对AI驱动的重构在现实世界开源Java项目中的实际应用，进行了一项大规模研究。分析表明，重构是一种常见且刻意的活动，代理在提交更改的26.1%中明确针对重构。代理重构主要关注低级别、一致性的编辑，如更改变量类型、重命名参数和变量等，以局部改进为主。此外，代理重构的动机主要集中在内部质量关注上，包括可维护性和可读性。评估显示，代理重构在结构度量方面产生了微小但统计上显著的提升。

Key Takeaways

代理编码工具如OpenAI Codex等正在改变软件工程的景象，成为自主开发的合作伙伴。
AI驱动的系统参与重构，这是可持续软件开发的关键环节。
对AI驱动的重构在真实世界开源Java项目中的实践进行了大规模研究。
重构是一种常见的、有意的活动，代理明确针对约四分之一的提交更改进行重构。
AI重构主要集中在低级别、一致性编辑上，如更改变量类型和重命名参数等。
AI重构主要关注内部质量提升，尤其是可维护性和可读性。

Cool Papers

点此查看论文截图

From Observability Data to Diagnosis: An Evolving Multi-agent System for Incident Management in Cloud Systems

Authors:Yu Luo, Jiamin Jiang, Jingfei Feng, Lei Tao, Qingliang Zhang, Xidao Wen, Yongqian Sun, Shenglin Zhang, Dan Pei

Incident management (IM) is central to the reliability of large-scale cloud systems. Yet manual IM, where on-call engineers examine metrics, logs, and traces is labor-intensive and error-prone in the face of massive and heterogeneous observability data. Existing automated IM approaches often struggle to generalize across systems, provide limited interpretability, and incur high deployment costs, which hinders adoption in practice. In this paper, we present OpsAgent, a lightweight, self-evolving multi-agent system for IM that employs a training-free data processor to convert heterogeneous observability data into structured textual descriptions, along with a multi-agent collaboration framework that makes diagnostic inference transparent and auditable. To support continual capability growth, OpsAgent also introduces a dual self-evolution mechanism that integrates internal model updates with external experience accumulation, thereby closing the deployment loop. Comprehensive experiments on the OPENRCA benchmark demonstrate state-of-the-art performance and show that OpsAgent is generalizable, interpretable, cost-efficient, and self-evolving, making it a practically deployable and sustainable solution for long-term operation in real-world cloud systems.

事件管理（IM）对于大规模云系统的可靠性至关重要。然而，手动IM需要值班工程师检查指标、日志和追踪，面对大量且多样的可观察性数据，这种方法劳动强度大且易出错。现有的自动化IM方法通常很难在系统之间通用，提供有限的解释性，并产生高昂的部署成本，这阻碍了其在实践中的采用。在本文中，我们提出了OpsAgent，这是一个用于IM的轻量级、自我进化的多智能体系统，它采用无需训练的数据处理器将异质的可观察性数据转换为结构化的文本描述，以及一个使诊断推理透明和可审核的多智能体协作框架。为了支持持续的能力增长，OpsAgent还引入了一种双重自我进化机制，将内部模型更新与外部经验积累相结合，从而闭合部署循环。在OPENRCA基准测试上的综合实验证明了其卓越的性能，并表明OpsAgent具有通用性、解释性、成本效益和自我进化能力，使其成为可在真实云系统中长期运营的实用且可持续的解决方案。

论文及项目相关链接

PDF

Summary

OpsAgent是一个针对大规模云系统故障管理的轻量级、自我进化的多智能体系统。它通过无训练数据处理器将异构的可观察数据转化为结构化文本描述，采用多智能体协作框架使诊断推理透明化并可审计。此外，OpsAgent还引入了双重自我进化机制，支持持续的能力增长，实现了内部模型更新与外部经验积累的集成，从而实现了部署闭环。在OPENRCA基准测试上的综合实验表明，OpsAgent具有先进性、通用性、可解释性、成本效益和自进化能力，是现实世界云系统长期运营的实用且可持续的解决方案。

Key Takeaways

OpsAgent是一个针对大规模云系统故障管理的多智能体系统，具有先进性。
它通过无训练数据处理器转化异构的可观察数据，增强了系统的可解释性和通用性。
多智能体协作框架使诊断推理透明化并可审计，提高了系统的可靠性和透明度。
OpsAgent引入双重自我进化机制，支持持续的能力增长和内部模型更新与外部经验积累的集成。
该系统实现了部署闭环，降低了部署成本，提高了系统的自我进化能力。
在OPENRCA基准测试上的综合实验证明了OpsAgent具有优秀的性能表现。

Cool Papers

点此查看论文截图

Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics

Authors:Akshara Prabhakar, Roshan Ram, Zixiang Chen, Silvio Savarese, Frank Wang, Caiming Xiong, Huan Wang, Weiran Yao

As information grows exponentially, enterprises face increasing pressure to transform unstructured data into coherent, actionable insights. While autonomous agents show promise, they often struggle with domain-specific nuances, intent alignment, and enterprise integration. We present Enterprise Deep Research (EDR), a multi-agent system that integrates (1) a Master Planning Agent for adaptive query decomposition, (2) four specialized search agents (General, Academic, GitHub, LinkedIn), (3) an extensible MCP-based tool ecosystem supporting NL2SQL, file analysis, and enterprise workflows, (4) a Visualization Agent for data-driven insights, and (5) a reflection mechanism that detects knowledge gaps and updates research direction with optional human-in-the-loop steering guidance. These components enable automated report generation, real-time streaming, and seamless enterprise deployment, as validated on internal datasets. On open-ended benchmarks including DeepResearch Bench and DeepConsult, EDR outperforms state-of-the-art agentic systems without any human steering. We release the EDR framework and benchmark trajectories to advance research on multi-agent reasoning applications. Code at https://github.com/SalesforceAIResearch/enterprise-deep-research and Dataset at https://huggingface.co/datasets/Salesforce/EDR-200

随着信息呈指数级增长，企业面临着将非结构化数据转化为连贯、可操作的见解的巨大压力。虽然自主代理显示出潜力，但它们通常在处理特定领域的细微差别、意图对齐和企业集成方面遇到困难。我们推出了企业深度研究（EDR）系统，这是一个多代理系统，它集成了（1）用于自适应查询分解的主规划代理，（2）四个专业搜索代理（通用、学术、GitHub、LinkedIn），（3）一个可扩展的基于MCP的工具生态系统，支持NL2SQL、文件分析和企业工作流程，（4）一个用于数据驱动见解的可视化代理，（5）一种检测知识差距并更新研究方向的反思机制，可附带可选的人工实时循环指导。这些组件可实现自动化报告生成、实时流和无缝企业部署，已在内部数据集上得到验证。在包括DeepResearch Bench和DeepConsult在内的开放基准测试中，EDR的性能优于无人工指导的最先进代理系统。我们发布EDR框架和基准轨迹，以促进多代理推理应用的研究。代码：https://github.com/SalesforceAIResearch/enterprise-deep-research 和数据集：https://huggingface.co/datasets/Salesforce/EDR-200。

论文及项目相关链接

PDF Technical report; 13 pages plus references and appendices

Summary

企业面临将大量非结构化数据转化为可操作的见解的压力。提出企业深度研究（EDR）系统，包含多个智能代理，如规划代理、搜索代理、可视化代理等，可自动将复杂数据转化为报告，实现实时数据流和无缝部署。EDR系统性能优越，优于其他先进的代理系统，并公开代码和数据集以推动相关研究。

Key Takeaways

企业面临处理大量非结构化数据的压力，需要转化为结构化数据以供分析和决策。
EDR系统是一个多智能代理系统，包括规划代理、搜索代理等，可处理各种数据并转化为有用的信息。
EDR系统具备可视化工具，能够更直观地呈现数据驱动的见解。
EDR系统具备检测知识缺陷和更新研究方向的能力，并支持人为干预。
EDR系统在内部数据集上的验证表明其性能优越，可以自动化生成报告并实现实时数据流。
在开放基准测试中，如DeepResearch Bench和DeepConsult，EDR系统的表现优于其他先进的代理系统。

Cool Papers

点此查看论文截图

Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents

Authors:Gauri Kholkar, Ratinder Ahuja

As autonomous AI agents are used in regulated and safety-critical settings, organizations need effective ways to turn policy into enforceable controls. We introduce a regulatory machine learning framework that converts unstructured design artifacts (like PRDs, TDDs, and code) into verifiable runtime guardrails. Our Policy as Prompt method reads these documents and risk controls to build a source-linked policy tree. This tree is then compiled into lightweight, prompt-based classifiers for real-time runtime monitoring. The system is built to enforce least privilege and data minimization. For conformity assessment, it provides complete provenance, traceability, and audit logging, all integrated with a human-in-the-loop review process. Evaluations show our system reduces prompt-injection risk, blocks out-of-scope requests, and limits toxic outputs. It also generates auditable rationales aligned with AI governance frameworks. By treating policies as executable prompts (a policy-as-code for agents), this approach enables secure-by-design deployment, continuous compliance, and scalable AI safety and AI security assurance for regulatable ML.

随着自主人工智能代理被应用于监管和安全关键领域，组织需要有效的方式将政策转化为可执行的控制措施。我们引入了一个监管机器学习框架，该框架将非结构化的设计成果（如PRD、TDD和代码）转化为可验证的运行时护栏。我们的“政策即提示”方法读取这些文档和风险控制信息，以构建源链接的策略树。然后，该树被编译成基于轻量级提示的分类器，用于实时运行监视。该系统的建立旨在执行最少特权和数据最小化原则。对于合规性评估，它提供了完整的来源、可追溯性和审计日志记录，所有这些都与人工审查流程集成在一起。评估表明，我们的系统降低了提示注入风险，阻止了超出范围的要求，并限制了有毒输出。它还生成与人工智能治理框架一致的审计依据。通过将政策视为可执行的提示（代理的政策代码），这种方法为实现设计安全、持续合规以及可扩展的人工智能安全和人工智能安全保证的可调节机器学习提供了可能。

论文及项目相关链接

PDF Accepted at 3rd Regulatable ML Workshop at NEURIPS 2025

Summary

该文本介绍了一个监管机器学习框架，可将非结构化的设计产物（如PRD、TDD和代码）转化为可验证的运行时规范。通过“政策即提示”的方法，该框架从文档中构建源链接政策树，然后编译为基于提示的分类器，用于实时运行时监控。系统采用最小特权和最小数据原则构建，提供完整的溯源性、可追溯性和审计日志记录，并集成人工审查流程。评估表明，该系统降低了提示注入风险，阻止超出范围请求并限制了有毒输出，同时生成与人工智能治理框架一致的审计依据。通过采用政策作为可执行提示的方法（一种面向代理的政策代码），该方法可实现安全设计部署、持续合规性和可扩展的人工智能安全和人工智能安全保证。

Key Takeaways

该框架能够将非结构化设计产物转化为可验证的运行时规范，为自主AI代理在监管和安全关键领域的应用提供支持。
通过构建源链接政策树和基于提示的分类器，实现实时运行时监控。
系统遵循最小特权和最小数据原则，增强安全性。
提供完整的溯源性和可追溯性，并集成审计日志记录和人工审查流程。
评估结果显示，该系统有助于降低风险，如提示注入、阻止超出范围请求和限制有毒输出。
系统能够生成与人工智能治理框架一致的审计依据。

Cool Papers

点此查看论文截图

MACO: A Multi-Agent LLM-Based Hardware/Software Co-Design Framework for CGRAs

Authors:Zesong Jiang, Yuqi Sun, Qing Zhong, Mahathi Krishna, Deepak Patil, Cheng Tan, Sriram Krishnamoorthy, Jeff Zhang

Coarse-grained Reconfigurable Arrays (CGRAs) are a promising computing architecture that can deliver high-performance, energy-efficient acceleration across diverse domains. By supporting reconfiguration at the functional unit level, CGRAs efficiently adapt to varying computational patterns and optimize resource utilization. However, designing CGRAs is highly challenging due to the vast design space, independent architectural parameters, and the time-consuming nature of manual design. Fortunately, the rapid advancement of large language models (LLMs) presents new opportunities to automate this process. In this work, we propose MACO– an open-source multi-agent LLM-based framework for Hardware/Software (HW/SW) co-design of CGRAs. The framework employs LLM reasoning to generate CGRAs across four stages: HW/SW co-design, Design error correction, Best design selection, and Evaluation & Feedback. Furthermore, MACO iteratively optimizes the generated CGRAs, leveraging agent reasoning and feedback to achieve higher PPA (that is, power, performance, and area) design points for a given domain. In addition, we introduce an LLM self-learning mechanism that employs LLM-driven decision making to select the optimal CGRA to accelerate the design process. We evaluate the framework with state-of-the-art LLM-based methods and manual CGRA design, in terms of performance, power consumption, and area. Experimental results show that MACO efficiently generates high-quality CGRA architectures, significantly reducing manual design effort and demonstrating the potential of our framework for real-world CGRA design.

粗粒度可重构阵列（CGRAs）是一种有前途的计算架构，可以在不同领域提供高性能、能源效率高的加速。通过在功能单元级别支持重构，CGRAs能够高效地适应不同的计算模式并优化资源利用。然而，设计CGRAs是一项极具挑战性的任务，因为设计空间大、独立的架构参数以及手动设计的耗时性质。幸运的是，大型语言模型（LLM）的快速发展为自动化这一过程提供了新的机会。

在这项工作中，我们提出了MACO——一个开源的、基于多代理的大型语言模型的硬件/软件（HW/SW）协同设计CGRAs的框架。该框架采用大型语言模型的推理功能在四个阶段生成CGRAs：HW/SW协同设计、设计错误修正、最佳设计选择、评估与反馈。此外，MACO通过利用代理推理和反馈来迭代优化生成的CGRAs，以实现给定领域更高的 PPA（即功率、性能和面积）设计点。我们还引入了一种大型语言模型自学习机制，采用大型语言模型驱动的决策来选择加速设计过程的最佳CGRA。

论文及项目相关链接

PDF

Summary
基于粗粒度可重构阵列（CGRAs）的计算机架构是一种有前景的高性能、节能的加速架构，可通过功能单位级别的重构来适应不同的计算模式并优化资源利用。然而，设计CGRAs面临巨大挑战，包括巨大的设计空间、独立的架构参数以及耗时的人工设计。本研究提出MACO，一个基于多智能体的大型语言模型（LLM）的开源硬件/软件（HW/SW）协同设计框架，用于CGRAs的设计。MACO采用LLM推理生成CGRAs，并迭代优化生成的架构，实现给定领域的更高功率、性能和面积（PPA）设计点。实验结果表明，MACO能够高效地生成高质量的CGRA架构，显著减少人工设计工作量。

Key Takeaways

CGRAs是一种具有高性能和能源效率的计算架构，可通过功能单位级别的重构来适应不同的计算需求。
设计CGRAs面临诸多挑战，包括设计空间大、独立架构参数以及耗时的人工设计过程。
MACO是一个基于多智能体的大型语言模型（LLM）的开源HW/SW协同设计框架，用于自动化CGRAs的设计过程。
MACO采用LLM推理生成CGRAs，并涵盖HW/SW协同设计、设计错误修正、最佳设计选择、评估和反馈四个阶段。
MACO通过迭代优化和智能体推理，实现了对给定领域的更高PPA（功率、性能和面积）设计点的优化。
引入的LLM自我学习机制采用LLM驱动决策来选择最佳CGRA以加速设计过程。

Cool Papers

点此查看论文截图

A Composable Agentic System for Automated Visual Data Reporting

Authors:Péter Ferenc Gyarmati, Dominik Moritz, Torsten Möller, Laura Koesten

To address the brittleness of monolithic AI agents, our prototype for automated visual data reporting explores a Human-AI Partnership model. Its hybrid, multi-agent architecture strategically externalizes logic from LLMs to deterministic modules, leveraging the rule-based system Draco for principled visualization design. The system delivers a dual-output: an interactive Observable report with Mosaic for reader exploration, and executable Marimo notebooks for deep, analyst-facing traceability. This granular architecture yields a fully automatic yet auditable and steerable system, charting a path toward a more synergistic partnership between human experts and AI. For reproducibility, our implementation and examples are available at https://peter-gy.github.io/VISxGenAI-2025/.

针对单体人工智能代理的脆弱性问题，我们的自动化视觉数据报告原型探索了人类-人工智能伙伴关系模型。其混合多代理架构战略性地将逻辑从大型语言模型转移到确定性模块，利用基于规则的Draco系统进行有原则的可视化设计。该系统提供双重输出：与Mosaic一起提供交互式Observable报告供读者探索，以及面向深度分析师可追溯性的可执行Marimo笔记本。这种精细的架构产生了一个全自动、可审核和可控制的系统，为人工智能和人类专家之间的更协同合作铺平了道路。有关实现的详细信息和示例可在https://peter-gy.github.io/VISxGenAI-2025/找到。

论文及项目相关链接

PDF

Summary
人工智能脆性问题的解决，我们探索了一种人机伙伴关系模型作为自动化视觉数据报告的原型。其混合多智能体架构将逻辑从大型语言模型转移到确定性模块，利用基于规则的Draco系统进行原则性可视化设计。该系统提供双重输出：可供读者探索的互动式Observable报告和用于深度追踪的Marimo笔记本。这种细致的架构提供了一个全自动但可审计和可控制的系统，为人工智能与人类专家之间的协同合作铺平了道路。我们的实现和示例可在https://peter-gy.github.io/VISxgenAI-2025/进行访问。

Key Takeaways

针对AI脆性问题，提出了人机伙伴关系模型作为自动化视觉数据报告原型。
采用混合多智能体架构，将逻辑从大型语言模型转移到确定性模块以提高系统稳定性。
利用基于规则的Draco系统进行原则性可视化设计，增强了系统的功能性和灵活性。
系统提供了双重输出，包括互动式Observable报告和Marimo笔记本，实现了深度的分析和探索性数据的融合。
细致的系统架构支持完全自动化、可审计和可控制的数据处理流程。
通过建立这种系统架构，实现了人工智能与人类专家之间的协同合作和更好的互补优势。

Cool Papers

点此查看论文截图

Chain-of-Query: Unleashing the Power of LLMs in SQL-Aided Table Understanding via Multi-Agent Collaboration

Authors:Songyuan Sui, Hongyi Liu, Serena Liu, Li Li, Soo-Hyun Choi, Rui Chen, Xia Hu

Table understanding requires structured, multi-step reasoning. Large Language Models (LLMs) struggle with it due to the structural complexity of tabular data. Recently, multi-agent frameworks for SQL generation have shown promise in tackling the challenges of understanding tabular data, but existing approaches often suffer from limitations such as the inability to comprehend table structure for reliable SQL generation, error propagation that results in invalid queries, and over-reliance on execution correctness. To address these issues, we propose Chain-of-Query (CoQ), a novel multi-agent framework for SQL-aided table understanding. CoQ adopts natural-language-style representations of table schemas to abstract away structural noise and enhance understanding. It employs a clause-by-clause SQL generation strategy to improve query quality and introduces a hybrid reasoning division that separates SQL-based mechanical reasoning from LLM-based logical inference, thereby reducing reliance on execution outcomes. Extensive experiments across four models and five widely used benchmarks demonstrate that CoQ achieves substantial accuracy improvements and significantly lowers invalid SQL rates compared to prior generic LLM-based, SQL-aided, and hybrid baselines, confirming its superior effectiveness in table understanding. The code is available at https://github.com/SongyuanSui/ChainofQuery.

表格理解需要结构化的多步骤推理。由于表格数据的结构复杂性，大型语言模型（LLM）在这方面遇到困难。最近，用于SQL生成的多代理框架在解决表格数据理解挑战方面显示出希望，但现有方法通常存在局限性，例如无法理解表格结构以进行可靠的SQL生成、导致无效查询的错误传播、以及过度依赖执行正确性。为了解决这些问题，我们提出了Chain-of-Query（CoQ），这是一种用于SQL辅助表格理解的新型多代理框架。CoQ采用对表格模式进行自然语言风格表示的方法，以消除结构噪声并增强理解。它采用逐条款的SQL生成策略来提高查询质量，并引入混合推理划分，将基于SQL的机械推理与基于LLM的逻辑推理分开，从而减少了对执行结果的依赖。在四个模型和五个广泛使用的基准测试上的大量实验表明，与先前的通用LLM基准、SQL辅助基准和混合基准相比，CoQ实现了实质性的准确性提高，并大大降低了无效的SQL率，证实了其在表格理解方面的卓越有效性。代码可在https://github.com/SongyuanSui/ChainofQuery找到。

论文及项目相关链接

PDF AACL 2025 Main Conference

Summary

基于表结构理解和复杂性的挑战，大型语言模型在处理表格数据时存在困难。近期采用多智能体框架的SQL生成方法展现出解决这一难题的潜力，但仍存在如无法可靠生成SQL查询、错误传播导致无效查询等问题。为此，我们提出Chain-of-Query（CoQ）这一新型多智能体框架，用于SQL辅助表格理解。CoQ采用自然语言风格的表结构表示方式，以简化结构噪声并增强理解。它采用逐条SQL生成策略以提高查询质量，并引入混合推理分割技术，将基于SQL的机械推理与基于大型语言模型的逻辑推理分离，减少对执行结果的依赖。实验证明，相较于其他通用的大型语言模型、SQL辅助和混合基准线方法，CoQ在准确性上有显著提高，并能显著降低无效的SQL查询率，在表格理解方面表现出卓越的有效性。代码已公开在GitHub上。

Key Takeaways

大型语言模型在处理表格数据时面临挑战，主要由于表格的结构复杂性。
多智能体框架在SQL生成方面展现出解决此问题的潜力。
现有方法存在无法可靠生成SQL查询、错误传播等问题。
提出的Chain-of-Query（CoQ）框架采用自然语言风格的表结构表示来增强理解。
CoQ采用逐条SQL生成策略以提高查询质量，并分离SQL机械推理和大型语言模型逻辑推理。
实验证明CoQ相较于其他方法表现出更高的准确性和更低的无效SQL查询率。

Cool Papers

点此查看论文截图

Aethorix v1.0: An Integrated Scientific AI Agent for Scalable Inorganic Materials Innovation and Industrial Implementation

Authors:Yingjie Shi, Yiru Gong, Yiqun Su, Suya Xiong, Runtian Miao

Artificial Intelligence (AI) is redefining the frontiers of scientific domains, ranging from drug discovery to meteorological modeling, yet its integration within industrial manufacturing remains nascent and fraught with operational challenges. To bridge this gap, we introduce Aethorix v1.0, an AI agent framework designed to overcome key industrial bottlenecks, demonstrating state-of-the-art performance in materials design innovation and process parameter optimization. Our tool is built upon three pillars: a scientific corpus reasoning engine that streamlines knowledge retrieval and validation, a diffusion-based generative model for zero-shot inverse design, and specialized interatomic potentials that enable faster screening with ab initio fidelity. We demonstrate Aethorix’s utility through a real-world cement production case study, confirming its capacity for integration into industrial workflows and its role in revolutionizing the design-make-test-analyze loop while ensuring rigorous manufacturing standards are met.

人工智能（AI）正在重新定义科学领域的边界，从药物发现到气象建模等各个领域，然而其在工业制造领域的整合仍处于初级阶段，充满操作挑战。为了弥补这一差距，我们推出了Aethorix v1.0，这是一个AI代理框架，旨在克服关键工业瓶颈，在材料设计创新和工艺参数优化方面展现出卓越的性能。我们的工具建立在三大支柱之上：一个简化知识检索和验证的科学语料推理引擎，一个基于扩散的生成模型，用于零样本逆向设计，以及特殊的原子间势能，可实现与从头算精度相当的高速筛选。我们通过真实的水泥生产案例研究展示了Aethorix的实用性，证实了其融入工业工作流程的能力及其在革命设计-制造-测试-分析循环中的作用，同时确保满足严格的制造标准。

论文及项目相关链接

PDF

Summary
AI正在重塑科学领域的前沿，包括药物发现和气象建模等领域。然而，人工智能在工业制造中的整合仍处于初级阶段并面临操作挑战。为解决此问题，我们推出Aethorix v1.0人工智能代理框架，旨在克服工业瓶颈，在材料设计创新和工艺参数优化方面展现出卓越性能。该工具建立在三大支柱之上：科学语料库推理引擎可简化知识检索和验证，基于扩散的生成模型可实现零样本逆向设计，以及专用原子间势能可实现更快的模拟计算。通过水泥生产实际案例研究展示了Aethorix的实用性，证明了其在集成工业工作流程和推动设计制造测试分析循环革命化方面的能力。

Key Takeaways

AI正在重塑科学领域的前沿应用。
工业制造中AI的整合仍处于初级阶段且面临挑战。
Aethorix v1.0是设计用于克服工业制造瓶颈的人工智能代理框架。
Aethorix在材料设计创新和工艺参数优化方面展现出卓越性能。
Aethorix建立在三大支柱技术之上：科学语料库推理引擎、基于扩散的生成模型和专用原子间势能。
水泥生产案例研究证明了Aethorix的实用性。

Cool Papers

点此查看论文截图

Kedreamix

https://kedreamix.github.io/Talk2Paper/Paper/2025-11-11/Agent/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !

Agent

Few-Shot

Few-Shot 方向最新论文已更新，请持续关注 Update in 2025-11-11 Software Defined Vehicle Code Generation A Few-Shot Prompting Approach

2025-11-11 Few-Shot

Few-Shot

LLM

LLM 方向最新论文已更新，请持续关注 Update in 2025-11-11 A Metamorphic Testing Perspective on Knowledge Distillation for Language Models of Code Does the Student Deeply Mimic the Teacher?

2025-11-11 LLM

LLM