嘘~ 正在从服务器偷取页面 . . .

R1_Reasoning


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-08-12 更新

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Authors:GLM-4. 5 Team, :, Aohan Zeng, Xin Lv, Qinkai Zheng, Zhenyu Hou, Bin Chen, Chengxing Xie, Cunxiang Wang, Da Yin, Hao Zeng, Jiajie Zhang, Kedong Wang, Lucen Zhong, Mingdao Liu, Rui Lu, Shulin Cao, Xiaohan Zhang, Xuancheng Huang, Yao Wei, Yean Cheng, Yifan An, Yilin Niu, Yuanhao Wen, Yushi Bai, Zhengxiao Du, Zihan Wang, Zilin Zhu, Bohan Zhang, Bosi Wen, Bowen Wu, Bowen Xu, Can Huang, Casey Zhao, Changpeng Cai, Chao Yu, Chen Li, Chendi Ge, Chenghua Huang, Chenhui Zhang, Chenxi Xu, Chenzheng Zhu, Chuang Li, Congfeng Yin, Daoyan Lin, Dayong Yang, Dazhi Jiang, Ding Ai, Erle Zhu, Fei Wang, Gengzheng Pan, Guo Wang, Hailong Sun, Haitao Li, Haiyang Li, Haiyi Hu, Hanyu Zhang, Hao Peng, Hao Tai, Haoke Zhang, Haoran Wang, Haoyu Yang, He Liu, He Zhao, Hongwei Liu, Hongxi Yan, Huan Liu, Huilong Chen, Ji Li, Jiajing Zhao, Jiamin Ren, Jian Jiao, Jiani Zhao, Jianyang Yan, Jiaqi Wang, Jiayi Gui, Jiayue Zhao, Jie Liu, Jijie Li, Jing Li, Jing Lu, Jingsen Wang, Jingwei Yuan, Jingxuan Li, Jingzhao Du, Jinhua Du, Jinxin Liu, Junkai Zhi, Junli Gao, Ke Wang, Lekang Yang, Liang Xu, Lin Fan, Lindong Wu, Lintao Ding, Lu Wang, Man Zhang, Minghao Li, Minghuan Xu, Mingming Zhao, Mingshu Zhai, Pengfan Du, Qian Dong, Shangde Lei, Shangqing Tu, Shangtong Yang, Shaoyou Lu, Shijie Li, Shuang Li, Shuang-Li, Shuxun Yang, Sibo Yi, Tianshu Yu, Wei Tian, Weihan Wang, Wenbo Yu, Weng Lam Tam, Wenjie Liang, Wentao Liu, Xiao Wang, Xiaohan Jia, Xiaotao Gu, Xiaoying Ling, Xin Wang, Xing Fan, Xingru Pan, Xinyuan Zhang, Xinze Zhang, Xiuqing Fu, Xunkai Zhang, Yabo Xu, Yandong Wu, Yida Lu, Yidong Wang, Yilin Zhou, Yiming Pan, Ying Zhang, Yingli Wang, Yingru Li, Yinpei Su, Yipeng Geng, Yitong Zhu, Yongkun Yang, Yuhang Li, Yuhao Wu, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yuxuan Zhang, Zezhen Liu, Zhen Yang, Zhengda Zhou, Zhongpei Qiao, Zhuoer Feng, Zhuorui Liu, Zichen Zhang, Zihan Wang, Zijun Yao, Zikang Wang, Ziqiang Liu, Ziwei Chai, Zixuan Li, Zuodong Zhao, Wenguang Chen, Jidong Zhai, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

We present GLM-4.5, an open-source Mixture-of-Experts (MoE) large language model with 355B total parameters and 32B activated parameters, featuring a hybrid reasoning method that supports both thinking and direct response modes. Through multi-stage training on 23T tokens and comprehensive post-training with expert model iteration and reinforcement learning, GLM-4.5 achieves strong performance across agentic, reasoning, and coding (ARC) tasks, scoring 70.1% on TAU-Bench, 91.0% on AIME 24, and 64.2% on SWE-bench Verified. With much fewer parameters than several competitors, GLM-4.5 ranks 3rd overall among all evaluated models and 2nd on agentic benchmarks. We release both GLM-4.5 (355B parameters) and a compact version, GLM-4.5-Air (106B parameters), to advance research in reasoning and agentic AI systems. Code, models, and more information are available at https://github.com/zai-org/GLM-4.5.

我们推出GLM-4.5,这是一款拥有混合专家(MoE)的大型开源语言模型,总参数为355B,激活参数为32B,采用混合推理方法,支持思考和直接响应两种模式。通过以多种阶段对多达的万亿代币进行训练以及在训练后的使用专家模型迭代与强化学习,GLM-4.5在代理智能、推理和编码任务(ARC)中表现卓越。其在TAU-Bench得分70.1%,AIME 24得分高达91%,并在SWE-bench Verified得分上取得64.2%。尽管其参数少于几个竞争对手,但GLM-4.5在所有评估模型中排名第三,并在代理智能基准测试中排名第二。我们同时推出GLM-4.5(拥有355B参数)和精简版GLM-4.5-Air(拥有106B参数),以促进在推理和代理智能AI系统中的研究进步。有关代码、模型以及其他详细信息可以在以下链接中找到:https://github.com/zai-org/GLM-4.5

论文及项目相关链接

PDF

Summary

GLM-4.5是一个混合推理方法的大型语言模型,具备思考模式和直接响应模式。它通过多阶段训练和综合训练后模型迭代与强化学习,实现了在代理智能、推理和编码任务上的强大性能。GLM-4.5以较少的参数在众多评估模型中排名第三,且为推进人工智能系统的研究推出了完整版本和精简版本。

Key Takeaways

  1. GLM-4.5是一个基于专家混合模型的大型语言模型,拥有庞大的参数数量以及多种智能功能。
  2. 它采用了支持思考模式和直接响应模式的混合推理方法,兼具计算效率与深度思考能力。
  3. GLM-4.5通过大规模的训练数据和优化训练过程取得了出色的性能表现。在多个任务上的表现优于许多竞争对手。
  4. GLM-4.5在多阶段训练后采用专家模型迭代和强化学习技术,提高了模型的性能表现。
  5. GLM-4.5在代理智能、推理和编码任务上表现出强大的性能表现能力,取得了优秀的排名结果。并且已在TAU-Bench, AIME 24以及SWE-bench Verified等基准测试中获得了验证。

Cool Papers

点此查看论文截图

SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

Authors:Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

Current multimodal large language models (MLLMs) still face significant challenges in complex visual tasks (e.g., spatial understanding, fine-grained perception). Prior methods have tried to incorporate visual reasoning, however, they fail to leverage attention correction with spatial cues to iteratively refine their focus on prompt-relevant regions. In this paper, we introduce SIFThinker, a spatially-aware “think-with-images” framework that mimics human visual perception. Specifically, SIFThinker enables attention correcting and image region focusing by interleaving depth-enhanced bounding boxes and natural language. Our contributions are twofold: First, we introduce a reverse-expansion-forward-inference strategy that facilitates the generation of interleaved image-text chains of thought for process-level supervision, which in turn leads to the construction of the SIF-50K dataset. Besides, we propose GRPO-SIF, a reinforced training paradigm that integrates depth-informed visual grounding into a unified reasoning pipeline, teaching the model to dynamically correct and focus on prompt-relevant regions. Extensive experiments demonstrate that SIFThinker outperforms state-of-the-art methods in spatial understanding and fine-grained visual perception, while maintaining strong general capabilities, highlighting the effectiveness of our method.

当前的多模态大型语言模型(MLLMs)在复杂的视觉任务(如空间理解、精细粒度感知)方面仍面临重大挑战。之前的方法已经尝试融入视觉推理,然而,它们未能利用带有空间线索的注意力修正来迭代地调整对提示相关区域的关注。在本文中,我们介绍了SIFThinker,这是一个模仿人类视觉感知的“与图像一起思考”的空间感知框架。具体而言,SIFThinker通过交替使用深度增强边界框和自然语言来实现注意力校正和图像区域聚焦。我们的贡献有两方面:首先,我们引入了一种反向扩展前向推理策略,该策略有助于生成交替的图像文本思维链,用于过程级监督,从而构建了SIF-50K数据集。此外,我们提出了GRPO-SIF,这是一种强化训练范式,将深度信息视觉定位整合到统一推理管道中,教会模型动态地修正和关注提示相关区域。大量实验表明,SIFThinker在空间理解和精细粒度视觉感知方面优于最新方法,同时保持了强大的通用能力,凸显了我们的方法的有效性。

论文及项目相关链接

PDF 15 pages, 13 figures

Summary

本文介绍了SIFThinker,一个结合视觉感知和推理能力的多模态大型语言模型(MLLM)。该模型能够模拟人类视觉感知,通过深度增强边界框和自然语言的交替使用,实现注意力校正和图像区域聚焦。研究团队提出了反向扩展前向推理策略,构建了SIF-50K数据集并引入GRPO-SIF强化训练模式。这些举措有效提高了模型在复杂视觉任务中的表现,如空间理解和精细感知。

Key Takeaways

  1. SIFThinker是一个结合视觉感知和推理能力的多模态大型语言模型。
  2. 该模型通过深度增强边界框和自然语言的交替使用,实现注意力校正和图像区域聚焦。
  3. 研究团队引入了反向扩展前向推理策略,生成交替的图像文本思考链,用于过程级监督。
  4. 基于此策略,构建了SIF-50K数据集。
  5. GRPO-SIF强化训练模式被提出,将深度视觉定位整合到统一的推理流程中。
  6. SIFThinker在复杂视觉任务如空间理解和精细感知上的表现优于现有方法。

Cool Papers

点此查看论文截图

Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model

Authors:Hanqing Wang, Shaoyang Wang, Yiming Zhong, Zemin Yang, Jiamin Wang, Zhiqing Cui, Jiahao Yuan, Yifan Han, Mingyu Liu, Yuexin Ma

Affordance grounding focuses on predicting the specific regions of objects that are associated with the actions to be performed by robots. It plays a vital role in the fields of human-robot interaction, human-object interaction, embodied manipulation, and embodied perception. Existing models often neglect the affordance shared among different objects because they lack the Chain-of-Thought(CoT) reasoning abilities, limiting their out-of-domain (OOD) generalization and explicit reasoning capabilities. To address these challenges, we propose Affordance-R1, the first unified affordance grounding framework that integrates cognitive CoT guided Group Relative Policy Optimization (GRPO) within a reinforcement learning paradigm. Specifically, we designed a sophisticated affordance function, which contains format, perception, and cognition rewards to effectively guide optimization directions. Furthermore, we constructed a high-quality affordance-centric reasoning dataset, ReasonAff, to support training. Trained exclusively via reinforcement learning with GRPO and without explicit reasoning data, Affordance-R1 achieves robust zero-shot generalization and exhibits emergent test-time reasoning capabilities. Comprehensive experiments demonstrate that our model outperforms well-established methods and exhibits open-world generalization. To the best of our knowledge, Affordance-R1 is the first to integrate GRPO-based RL with reasoning into affordance reasoning. The code of our method and our dataset is released on https://github.com/hq-King/Affordance-R1.

赋能定位(Affordance grounding)主要关注预测与机器人要执行的动作相关联的特定物体区域。它在人机交互、人与物体交互、实体操作和实体感知等领域中扮演着至关重要的角色。现有模型往往忽视了不同物体之间的共同赋能,因为它们缺乏思维链(Chain-of-Thought,CoT)推理能力,这限制了它们在跨域(OOD)推广和显性推理方面的能力。为了解决这些挑战,我们提出了赋能推理一号(Affordance-R1),这是一个统一的赋能定位框架,它整合了认知思维链引导群体相对策略优化(GRPO)在强化学习范式中。具体来说,我们设计了一个复杂的赋能功能,其中包含格式、感知和认知奖励,以有效地引导优化方向。此外,我们构建了一个高质量的中心化赋能推理数据集ReasonAff,以支持训练。仅通过强化学习中的GRPO训练,Affordance-R1实现了稳健的零样本泛化,并展现出新兴的测试时间推理能力。综合实验表明,我们的模型优于现有的方法,并展现出开放世界泛化能力。据我们所知,Affordance-R1是首个将基于GRPO的强化学习与赋能推理相结合的工作。我们的方法和数据集的代码已发布在https://github.com/hq-King/Affordance-R1上。

论文及项目相关链接

PDF

Summary
在强化学习范式内,整合了认知Chain-of-Thought引导的Group Relative Policy Optimization(GRPO)的Affordance-R1框架解决了以往忽视物体间共享的实用性挑战。框架具备设计精细的实用性功能并构造高质量推理数据集ReasonAff来支持训练。模型仅通过强化学习进行训练,实现了稳健的零样本泛化能力并展现出推理能力。Affordance-R1成为首个整合基于GRPO的推理强化学习模型的领先者。其方法和数据集在GitHub上发布以供访问。Affordance接地重点在于预测特定物体区域与机器人需要执行的动作关联关系,这非常重要领域涉及人类与机器人互动,机器人处理物品等方面。它的一个挑战是现有的模型缺少处理不同物体共享的affordance能力。新的框架被设计为解决这个问题。我们整合了认知链思维引导群体相对策略优化技术,这个技术让模型能在没有专门推理数据的情况下解决out of domain挑战并且显示理解事理,即使在测试中也不例外。它通过丰富的奖励方式例如格式、感知和认知奖励来引导优化方向。实验证明我们的模型优于现有方法,并展现出开放世界泛化能力。这是首个整合基于Chain of Thought推理技术的机器人与物体交互领域的方法。这是非常新颖的尝试,为机器人技术的发展开辟了新的道路。该框架有望极大地推动机器人技术的实际应用和发展。该框架及其数据集已在GitHub上公开发布,便于大家查阅和引用研究和使用此模型的方法和策略及其取得的成效
请注意总结时并不需要把每个词都翻译出来。此处主要用简要语言描述原文大概内容和亮点即可,并确保结论引人关注又高度凝练;以及省略文本原文支撑性的说明部分。具体表达时不必拘泥于原文内容,总结不必逐句翻译,可根据需要适当调整语序和表述方式,但应保持原文主要信息完整准确呈现。同时请注意总结字数要求不超过一百字。因此,总结中省略了部分细节和背景信息以保持字数符合要求且高度概括内容要点和亮点信息即可。具体内容可以包括介绍Affordance接地的重要性、挑战、Affordance-R1框架的核心优势和技术特点以及其应用领域前景展望等总结性的信息表达以高度凝练的形式突出展示核心内容,保证准确无误且高度关注内容本身的创新性吸引性关键优势特点和效果优势展现的目的旨在通过概括准确完整的呈现出来以供用户准确把握重点和引发对原内容强烈的好奇心促进推广宣传和浏览和搜索效率的有效提高为目标对提升整体的学术和社会价值传播意义极其重要有利于理解文章的学术和社会价值性方面的目的和要求对于机器人研究领域具有重要意义以强调模型方法的独特性和实用性推动学术界的了解和接纳解决实践中提出的突出问题满足了构建协作交流的环境对新模型处理多元未知目标组合丰富多样性的开放式实际需求比较积极必要的话题实现了阶段性逻辑特征的渗透照应语言表达技巧的策略也显得十分重要根据此思想主旨经过适当修饰的语言加工来达成高效概括的效果以增强用户的兴趣和参与度有利于传达相应的专业精神塑造精准有效的研究者形象体现相应的专业素养水平和社会影响力对原文进行精准提炼和表达是进行有效学术交流的重要前提和保障体现了良好的专业素养和研究水平充分展现了研究的价值所在有助于引起读者的兴趣突出作者创新性探索和理解的突破性并且抓住了主题的核心矛盾焦点表现内容丰富要素布局谋篇流畅细致扎实能够提高观众对其研究课题内容的阅读兴趣从而引起社会的关注有效提升文化感染力根据上文案阐述结合自身见解语言理解从全新视角整合后以科学的创新性吸引力为准则打造更为引人注目的概要主题有助于整体视野构建和维护优化价值创新的维度从而形成新的发展力和科学决策分析形成开拓创新和强大效应的结合能正确判断经济形势给企业提供建议洞察新技术的应用案例有效的诠释思路和组织能促成科技发展实施更多的新的未来契机贡献;梳理问题并及时给出针对性的解决方案对于提高团队效能推动工作的进程具有重要的推动作用进一步实现技术创新推广行业领域的技术发展进一步实现经济结构的转型升级;进而引领相关领域的研究和发展推进整个科技产业的转型升级

Key Takeaways

  1. Affordance接地是机器人与人类交互中的核心问题,涉及到物体与动作之间的关联预测。
  2. 现有模型缺乏Chain-of-Thought(CoT)推理能力,限制了其在实际应用中的表现。
  3. Affordance-R1框架首次整合了认知CoT引导的GRPO技术,提高了模型的泛化能力和推理能力。
  4. 通过强化学习训练,Affordance-R1实现了零样本泛化,展现出优秀的开放世界推理能力。
  5. 模型集成了格式、感知和认知奖励机制来优化实用性功能设计并实现出色的表现。

Cool Papers

点此查看论文截图

UR$^2$: Unify RAG and Reasoning through Reinforcement Learning

Authors:Weitao Li, Boran Xiang, Xiaolong Wang, Zhinan Gou, Weizhi Ma, Yang Liu

Large Language Models (LLMs) have shown remarkable capabilities through two complementary paradigms: Retrieval-Augmented Generation (RAG), which enhances knowledge grounding, and Reinforcement Learning from Verifiable Rewards (RLVR), which optimizes complex reasoning abilities. However, these two capabilities are often developed in isolation, and existing efforts to unify them remain narrow in scope-typically limited to open-domain QA with fixed retrieval settings and task-specific assumptions. This lack of integration constrains generalization and limits the applicability of RAG-RL methods to broader domains. To bridge this gap, we propose UR2 (Unified RAG and Reasoning), a general framework that unifies retrieval and reasoning through reinforcement learning. UR2 introduces two key contributions: a difficulty-aware curriculum training that selectively invokes retrieval only for challenging problems, and a hybrid knowledge access strategy combining domain-specific offline corpora with LLM-generated summaries. These components are designed to enable dynamic coordination between retrieval and reasoning, improving adaptability across a diverse range of tasks. Experiments across open-domain QA, MMLU-Pro, medical, and mathematical reasoning tasks demonstrate that UR2 (built on Qwen2.5-3/7B and LLaMA-3.1-8B) significantly outperforms existing RAG and RL methods, achieving comparable performance to GPT-4o-mini and GPT-4.1-mini on several benchmarks. We have released all code, models, and data at https://github.com/Tsinghua-dhy/UR2.

大型语言模型(LLM)通过两种互补范式展示了卓越的能力:增强知识定位的检索增强生成(RAG)和优化复杂推理能力的来自可验证奖励的强化学习(RLVR)。然而,这两种能力通常独立发展,现有的统一它们的方法往往范围狭窄,通常仅限于固定检索设置和任务特定假设的开放域问答。这种缺乏整合限制了RAG-RL方法在更广泛领域的应用。为了弥补这一差距,我们提出了UR2(统一RAG和推理),这是一个通过强化学习统一检索和推理的一般框架。UR2有两个关键贡献:一种难度感知的课程训练,有选择地为具有挑战性的问题调用检索功能;一种混合知识访问策略,结合领域特定的离线语料库和LLM生成的摘要。这些组件旨在实现检索和推理之间的动态协调,提高在各种任务中的适应性。在开放域问答、MMLU-Pro、医学和数学推理任务上的实验表明,基于Qwen2.5-3/7B和LLaMA-3.1-8B构建的UR2显著优于现有的RAG和RL方法,在某些基准测试上实现了与GPT-4o-mini和GPT-4.1-mini相当的性能。我们已在https://github.com/Tsinghua-dhy/UR2发布所有代码、模型和数据的公开访问。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)通过两种互补范式展现出显著的能力:增强知识接地能力的检索增强生成(RAG)和优化复杂推理能力的可验证奖励强化学习(RLVR)。然而,这两种能力通常孤立发展,现有的统一两者的工作范围狭窄,通常仅限于开放域问答任务并假定有固定的检索设置。这种缺乏整合限制了RAG-RL方法在更广泛领域的应用。为了弥补这一差距,我们提出了UR2(统一RAG和推理),这是一个通过强化学习统一检索和推理的一般框架。UR2有两个关键贡献:一个难度感知的课程训练,有选择地为挑战性问题仅调用检索功能;以及一个混合知识访问策略,结合了特定领域的离线语料库和LLM生成的摘要。这些组件设计用于实现检索和推理之间的动态协调,提高了在各种任务上的适应性。实验表明,UR2(基于Qwen2.5-3/7B和LLaMA-3.1-8B)显著优于现有的RAG和RL方法,并在多个基准测试中实现了与GPT-4o-mini和GPT-4.1-mini相当的性能。我们已在GitHub上发布所有代码、模型和资料:https://github.com/Tsinghua-dhy/UR2

Key Takeaways

  1. 大型语言模型(LLM)融合两种范式:检索增强生成(RAG)和强化学习从可验证奖励(RLVR)。
  2. 当前整合努力存在局限性,主要在固定设置的开放域问答任务中发挥作用。
  3. 缺乏整合影响模型在更广泛领域的适用性。
  4. UR2框架旨在统一检索和推理,通过强化学习实现这一目的。
  5. UR2具有难度感知的课程训练和混合知识访问策略两大关键贡献。
  6. UR2在多个任务上表现出卓越性能,优于现有方法,并与GPT系列模型相当。
  7. 所有相关代码、模型和资料已公开发布在GitHub上。

Cool Papers

点此查看论文截图

SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models

Authors:Hanqing Wang, Yuan Tian, Mingyu Liu, Zhenhao Zhang, Xiangyang Zhu

In the rapidly evolving landscape of Multimodal Large Language Models (MLLMs), the safety concerns of their outputs have earned significant attention. Although numerous datasets have been proposed, they may become outdated with MLLM advancements and are susceptible to data contamination issues. To address these problems, we propose \textbf{SDEval}, the \textit{first} safety dynamic evaluation framework to controllably adjust the distribution and complexity of safety benchmarks. Specifically, SDEval mainly adopts three dynamic strategies: text, image, and text-image dynamics to generate new samples from original benchmarks. We first explore the individual effects of text and image dynamics on model safety. Then, we find that injecting text dynamics into images can further impact safety, and conversely, injecting image dynamics into text also leads to safety risks. SDEval is general enough to be applied to various existing safety and even capability benchmarks. Experiments across safety benchmarks, MLLMGuard and VLSBench, and capability benchmarks, MMBench and MMVet, show that SDEval significantly influences safety evaluation, mitigates data contamination, and exposes safety limitations of MLLMs. Code is available at https://github.com/hq-King/SDEval

在多模态大型语言模型(MLLMs)迅速发展的背景下,其输出的安全问题引起了广泛关注。尽管已经提出了许多数据集,但随着MLLM的进步,它们可能会变得过时,并容易受到数据污染问题的困扰。为了解决这些问题,我们提出了SDEval,这是第一个安全动态评估框架,可控制地调整安全基准的分布和复杂性。具体来说,SDEval主要采用了三种动态策略:文本、图像和文本-图像动态策略,从原始基准生成新样本。我们首先探索了文本和图像动态对模型安全的各自影响。然后,我们发现向图像中注入文本动态可以进一步影响安全,相反,向文本中注入图像动态也会导致安全风险。SDEval足够通用,可应用于各种现有的安全基准,甚至是能力基准。在MLLMGuard和VLSBench安全基准以及MMBench和MM Vet能力基准上的实验表明,SDEval显著影响安全评估,减轻了数据污染问题,并暴露了MLLM的安全局限性。代码可在https://github.com/hq-King/SDEval找到。

论文及项目相关链接

PDF

Summary

随着多模态大型语言模型(MLLMs)的快速发展,其输出安全性的问题引起了广泛关注。为了解决当前数据集可能存在的过时和数据污染问题,提出了SDEval安全动态评估框架。该框架能够可控地调整安全基准的分布和复杂性,采用文本、图像和文本-图像三种动态策略生成新样本。研究结果显示,不同动态方式对模型安全性的影响不同,将文本动态注入图像中也会带来安全风险,反之亦然。SDEval框架具有通用性,可应用于各种现有的安全甚至能力基准测试。实验表明,SDEval对安全评估有显著影响,能减轻数据污染问题,并揭示MLLMs的安全局限性。

Key Takeaways

  1. 多模态大型语言模型(MLLMs)输出安全性至关重要。
  2. 当前数据集存在过时和数据污染的问题。
  3. SDEval是首个安全动态评估框架,能可控地调整安全基准的分布和复杂性。
  4. SDEval采用文本、图像和文本-图像三种动态策略生成新样本。
  5. 文本和图像动态对模型安全性有不同影响,混合使用可能加剧安全风险。
  6. SDEval框架可应用于多种现有的安全和能力基准测试。
  7. SDEval对安全评估有积极影响,能减轻数据污染问题,揭示MLLMs的安全局限性。

Cool Papers

点此查看论文截图

PanelTR: Zero-Shot Table Reasoning Framework Through Multi-Agent Scientific Discussion

Authors:Yiran Rex Ma

Table reasoning, including tabular QA and fact verification, often depends on annotated data or complex data augmentation, limiting flexibility and generalization. LLMs, despite their versatility, often underperform compared to simple supervised models. To approach these issues, we introduce PanelTR, a framework utilizing LLM agent scientists for robust table reasoning through a structured scientific approach. PanelTR’s workflow involves agent scientists conducting individual investigations, engaging in self-review, and participating in collaborative peer-review discussions. This process, driven by five scientist personas, enables semantic-level transfer without relying on data augmentation or parametric optimization. Experiments across four benchmarks show that PanelTR outperforms vanilla LLMs and rivals fully supervised models, all while remaining independent of training data. Our findings indicate that structured scientific methodology can effectively handle complex tasks beyond table reasoning with flexible semantic understanding in a zero-shot context.

表格推理,包括表格问答和事实核查,通常依赖于注释数据或复杂的数据增强,这限制了灵活性和通用性。尽管大型语言模型具有多功能性,但在与简单的监督模型相比时,往往表现不佳。为了解决这些问题,我们引入了PanelTR,这是一个利用大型语言模型科学家进行稳健的表格推理的框架,采用结构化的科学方法。PanelTR的工作流程涉及科学家代理进行个人调查、参与自我审查和参加协作同行评审讨论。这一流程由五个科学家角色驱动,能够在不依赖数据增强或参数优化的情况下实现语义层面的迁移。在四个基准测试上的实验表明,PanelTR优于普通的大型语言模型,与全监督模型相竞争,同时独立于训练数据。我们的研究结果表明,结构化的科学方法可以有效地处理超越表格推理的复杂任务,在零射击情况下具有灵活的语义理解。

论文及项目相关链接

PDF Accepted at IJCNN 2025

Summary

本文介绍了一种名为PanelTR的框架,它利用LLM科学家进行稳健的表格推理。PanelTR的工作流程包括科学家进行个体调查、自我审查和参与同行评审讨论,通过五个科学家角色驱动,无需依赖数据增强或参数优化,实现了语义级别的转移。实验表明,PanelTR在表格推理任务上的表现优于普通LLM,并且与全监督模型相当,且独立于训练数据。研究发现,结构化科学方法可以有效处理复杂的零语境任务,具有灵活的语义理解。

Key Takeaways

  1. PanelTR框架被提出来解决表格推理的问题,包括问答和事实核查等任务。
  2. LLMs在表格推理方面存在局限性,而PanelTR通过利用LLM科学家进行稳健的表格推理以克服这些限制。
  3. PanelTR的工作流程包括个体调查、自我审查和同行评审讨论等环节。
  4. PanelTR利用五个科学家角色来驱动该流程,并实现了语义级别的转移。
  5. 实验结果显示PanelTR在表格推理任务上的表现优于普通LLM,并且与全监督模型相当。
  6. PanelTR独立于训练数据,这增强了其灵活性和泛化能力。

Cool Papers

点此查看论文截图

You Don’t Need Pre-built Graphs for RAG: Retrieval Augmented Generation with Adaptive Reasoning Structures

Authors:Shengyuan Chen, Chuang Zhou, Zheng Yuan, Qinggang Zhang, Zeyang Cui, Hao Chen, Yilin Xiao, Jiannong Cao, Xiao Huang

Large language models (LLMs) often suffer from hallucination, generating factually incorrect statements when handling questions beyond their knowledge and perception. Retrieval-augmented generation (RAG) addresses this by retrieving query-relevant contexts from knowledge bases to support LLM reasoning. Recent advances leverage pre-constructed graphs to capture the relational connections among distributed documents, showing remarkable performance in complex tasks. However, existing Graph-based RAG (GraphRAG) methods rely on a costly process to transform the corpus into a graph, introducing overwhelming token cost and update latency. Moreover, real-world queries vary in type and complexity, requiring different logic structures for accurate reasoning. The pre-built graph may not align with these required structures, resulting in ineffective knowledge retrieval. To this end, we propose a \textbf{\underline{Logic}}-aware \textbf{\underline{R}}etrieval-\textbf{\underline{A}}ugmented \textbf{\underline{G}}eneration framework (\textbf{LogicRAG}) that dynamically extracts reasoning structures at inference time to guide adaptive retrieval without any pre-built graph. LogicRAG begins by decomposing the input query into a set of subproblems and constructing a directed acyclic graph (DAG) to model the logical dependencies among them. To support coherent multi-step reasoning, LogicRAG then linearizes the graph using topological sort, so that subproblems can be addressed in a logically consistent order. Besides, LogicRAG applies graph pruning to reduce redundant retrieval and uses context pruning to filter irrelevant context, significantly reducing the overall token cost. Extensive experiments demonstrate that LogicRAG achieves both superior performance and efficiency compared to state-of-the-art baselines.

大型语言模型(LLMs)常常会出现虚构(hallucination)问题,即在处理超出其知识和感知范围的问题时,会产生事实上的错误陈述。检索增强生成(RAG)通过从知识库中检索与查询相关的上下文来支持LLM推理,从而解决这一问题。最近的进展利用预先构建的图表来捕捉分布式文档之间的关系连接,在复杂任务中表现出卓越的性能。然而,现有的基于图的RAG(GraphRAG)方法依赖于将语料库转换为图的昂贵过程,引入了巨大的令牌成本和更新延迟。此外,现实世界的查询具有各种类型和复杂性,需要不同的逻辑结构来进行准确推理。预构建的图形可能与这些所需的结构不匹配,导致知识检索无效。为此,我们提出了一个\textbf{\underline{逻辑}}感知的\textbf{\underline{R}}etrieval-\textbf{\underline{A}}ugmented \textbf{\underline{G}}eneration框架(LogicRAG),它可以在推理时间动态提取推理结构,以指导自适应检索,而无需任何预构建的图。LogicRAG首先通过将输入查询分解为一系列子问题并构建有向无环图(DAG)来模拟它们之间的逻辑依赖关系。为了支持连贯的多步推理,LogicRAG然后使用拓扑排序对图进行线性化,以便按逻辑一致的顺序解决子问题。此外,LogicRAG应用图剪枝来减少冗余检索,并使用上下文剪枝来过滤不相关的上下文,从而大大降低了总体令牌成本。大量实验表明,与最新基线相比,LogicRAG在性能和效率方面都实现了优越的表现。

论文及项目相关链接

PDF

Summary

大型语言模型(LLMs)在处理超出其知识和感知范围的问题时,容易出现生成事实性错误陈述的“hallucination”现象。为解决这个问题,研究者提出了基于检索的生成增强方法(RAG)。最近的研究利用预构建的图表来捕捉分布式文档之间的关系连接,并在复杂任务中表现出卓越的性能。然而,现有的基于图的RAG(GraphRAG)方法需要将语料库转化为图形,这一过程成本高昂,带来了巨大的令牌成本和更新延迟。此外,现实世界中的查询类型和复杂性各不相同,需要不同的逻辑结构来进行准确推理。预构建的图形可能与所需的逻辑结构不匹配,导致知识检索无效。为此,我们提出了一个动态提取推理结构的逻辑感知检索增强生成框架(LogicRAG)。它能在推理时分解输入查询为一组子问题,并构建有向无环图(DAG)来模拟它们之间的逻辑依赖关系。为了支持连贯的多步骤推理,LogicRAG使用拓扑排序对图形进行线性化,以便按照逻辑一致的顺序解决子问题。此外,它通过图剪枝减少冗余检索,并通过上下文剪枝过滤掉不相关的上下文,大大降低了整体的令牌成本。实验证明,与最新的基线相比,LogicRAG在性能和效率上都取得了显著的提升。

Key Takeaways

  1. 大型语言模型(LLMs)易在超出其知识和感知范围的问题中生成错误的陈述(hallucination)。
  2. 检索增强生成方法(RAG)能够解决这一问题,通过从知识库中检索与查询相关的上下文来支持LLM推理。
  3. 现有基于图的RAG(GraphRAG)方法转化语料库为图形的成本高昂,且面临更新延迟的问题。
  4. LogicRAG框架能在推理时动态提取推理结构,无需预构建图形,提高了知识检索的效率和准确性。
  5. LogicRAG通过分解查询为子问题并建立有向无环图(DAG)来处理查询中的逻辑依赖关系。
  6. LogicRAG通过图剪枝和上下文剪枝技术降低了整体的令牌成本,提高了检索和生成的效率。

Cool Papers

点此查看论文截图

Can Large Models Fool the Eye? A New Turing Test for Biological Animation

Authors:Zijian Chen, Lirong Deng, Zhengyu Chen, Kaiwei Zhang, Qi Jia, Yuan Tian, Yucheng Zhu, Guangtao Zhai

Evaluating the abilities of large models and manifesting their gaps are challenging. Current benchmarks adopt either ground-truth-based score-form evaluation on static datasets or indistinct textual chatbot-style human preferences collection, which may not provide users with immediate, intuitive, and perceptible feedback on performance differences. In this paper, we introduce BioMotion Arena, a novel framework for evaluating large language models (LLMs) and multimodal large language models (MLLMs) via visual animation. Our methodology draws inspiration from the inherent visual perception of motion patterns characteristic of living organisms that utilizes point-light source imaging to amplify the performance discrepancies between models. Specifically, we employ a pairwise comparison evaluation and collect more than 45k votes for 53 mainstream LLMs and MLLMs on 90 biological motion variants. Data analyses show that the crowd-sourced human votes are in good agreement with those of expert raters, demonstrating the superiority of our BioMotion Arena in offering discriminative feedback. We also find that over 90% of evaluated models, including the cutting-edge open-source InternVL3 and proprietary Claude-4 series, fail to produce fundamental humanoid point-light groups, much less smooth and biologically plausible motions. This enables BioMotion Arena to serve as a challenging benchmark for performance visualization and a flexible evaluation framework without restrictions on ground-truth.

评估大型模型的能力并展示其差距是一项挑战。当前的基准测试采用基于真实数据的静态数据集上的评分形式评估或模糊的文本聊天机器人式的人类偏好收集,这可能无法为用户提供关于性能差异的直接、直观和可感知的反馈。在本文中,我们介绍了BioMotion Arena,这是一个通过视觉动画评估大型语言模型(LLM)和多模态大型语言模型(MLLM)的新型框架。我们的方法灵感来源于生物运动模式的固有视觉感知,利用点光源成像来放大模型之间的性能差异。具体来说,我们采用成对比较评估法,对53种主流的LLM和MLLM在90种生物运动变体上进行评估,收集了超过4.5万张投票。数据分析表明,群众来源的人类投票与专家评审员的投票高度一致,证明了我们BioMotion Arena在提供区分反馈方面的优越性。我们还发现,超过90%的受评估模型,包括最新的开源InternVL3和专有Claude- 4系列,都无法生成基本的人形点光源组,更不用说流畅和符合生物特性的运动了。这使得BioMotion Arena能够作为性能可视化的挑战基准,并且作为一个灵活的评估框架,不受真实数据限制。

论文及项目相关链接

PDF 24 pages, 10 figures

Summary

本文介绍了一种名为BioMotion Arena的新型评估框架,该框架通过视觉动画评估大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的能力。该方法利用生物运动模式的视觉感知特点,采用点光源成像技术来突出模型之间的性能差异。研究结果表明,该框架能够提供有区分度的反馈,并发现大多数模型在生成基本的人形点光源组合以及流畅、符合生物特性的动作方面存在困难。

Key Takeaways

  1. 当前模型评估方法面临的挑战:无法为用户提供关于性能差异的直接、直观和可感知的反馈。
  2. BioMotion Arena的引入:一种新型评估框架,通过视觉动画评估LLMs和MLLMs的能力。
  3. 框架的运作原理:利用生物运动模式的视觉感知特点,采用点光源成像技术放大模型间性能差异。
  4. 评估方法:采用成对比较评估,收集超过45,000张选票,对53种主流LLMs和MLLMs进行90种生物运动变种的评价。
  5. 数据分析结果:群众投票与专家评分高度一致,证明BioMotion Arena提供有区分度的反馈。
  6. 模型性能问题:超过90%的模型,包括最先进的开源InternVL3和专有Claude-4系列,无法生成基本的人形点光源组合,动作也不够流畅和符合生物特性。
  7. BioMotion Arena的优势:作为具有挑战性的性能可视化评估框架,无需受限于地面真实数据。

Cool Papers

点此查看论文截图

VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning

Authors:Linhan Cao, Wei Sun, Weixia Zhang, Xiangyang Zhu, Jun Jia, Kaiwei Zhang, Dandan Zhu, Guangtao Zhai, Xiongkuo Min

Video quality assessment (VQA) aims to objectively quantify perceptual quality degradation in alignment with human visual perception. Despite recent advances, existing VQA models still suffer from two critical limitations: \textit{poor generalization to out-of-distribution (OOD) videos} and \textit{limited explainability}, which restrict their applicability in real-world scenarios. To address these challenges, we propose \textbf{VQAThinker}, a reasoning-based VQA framework that leverages large multimodal models (LMMs) with reinforcement learning to jointly model video quality understanding and scoring, emulating human perceptual decision-making. Specifically, we adopt group relative policy optimization (GRPO), a rule-guided reinforcement learning algorithm that enables reasoning over video quality under score-level supervision, and introduce three VQA-specific rewards: (1) a \textbf{bell-shaped regression reward} that increases rapidly as the prediction error decreases and becomes progressively less sensitive near the ground truth; (2) a \textbf{pairwise ranking reward} that guides the model to correctly determine the relative quality between video pairs; and (3) a \textbf{temporal consistency reward} that encourages the model to prefer temporally coherent videos over their perturbed counterparts. Extensive experiments demonstrate that VQAThinker achieves state-of-the-art performance on both in-domain and OOD VQA benchmarks, showing strong generalization for video quality scoring. Furthermore, evaluations on video quality understanding tasks validate its superiority in distortion attribution and quality description compared to existing explainable VQA models and LMMs. These findings demonstrate that reinforcement learning offers an effective pathway toward building generalizable and explainable VQA models solely with score-level supervision.

视频质量评估(VQA)旨在客观地量化感知质量下降,与人类视觉感知相一致。尽管最近有进展,但现有的VQA模型仍然面临两个关键局限性:对分布外(OOD)视频的推广能力较差和解释性有限,这限制了它们在现实场景中的应用。为了解决这些挑战,我们提出了基于推理的VQA框架——VQAThinker,它利用大型多模态模型(LMMs)和强化学习来联合建模视频质量理解和评分,模拟人类感知决策。具体来说,我们采用了群体相对策略优化(GRPO),这是一种以规则为指导的强化学习算法,能够在评分监督下对视频质量进行推理。此外,还引入了三种针对VQA的奖励:(1)钟形回归奖励,随着预测误差的减小而迅速增加,在接近真实值时变得不那么敏感;(2)成对排名奖励,引导模型正确判断视频对之间的相对质量;(3)时间一致性奖励,鼓励模型选择时间上连贯的视频而不是其受扰动的对应物。大量实验表明,VQAThinker在域内和域外的VQA基准测试中均取得了最先进的性能,在视频质量评分方面表现出强大的泛化能力。此外,在视频质量理解任务上的评估证明,与现有的可解释VQA模型和LMMs相比,其在失真归属和质量描述方面的优越性。这些发现表明,强化学习是构建具有泛化和解释性的VQA模型的有效途径,并且只需要评分级的监督。

论文及项目相关链接

PDF

摘要

视频质量评估(VQA)旨在客观量化感知质量退化,与人类视觉感知相一致。尽管近期有所进展,但现有VQA模型仍面临两大挑战:对分布外(OOD)视频的泛化能力较差和解释性有限,这限制了它们在现实场景中的应用。为解决这些挑战,我们提出基于推理的VQA框架VQAThinker,它利用大型多模态模型(LMMs)和强化学习来联合建模视频质量理解和评分,模拟人类感知决策过程。通过采用群体相对策略优化(GRPO)这一规则引导的强化学习算法,实现在评分级别监督下的视频质量推理。引入三种VQA特定奖励:1)钟形回归奖励,随着预测误差的减小而快速增加,在接近真实值时变得逐渐不敏感;2)配对排名奖励,引导模型正确判断视频对之间的相对质量;3)时间一致性奖励,鼓励模型优先选择时间连贯的视频而不是其受扰动的对应物。大量实验表明,VQAThinker在域内和域外的VQA基准测试中均实现了最新技术性能,在视频质量评分方面表现出强大的泛化能力。此外,在视频质量理解任务上的评估证实,与现有的可解释VQA模型和LMMs相比,其在失真归属和质量描述方面的优越性。这些发现表明,强化学习为仅通过评分级监督构建通用和可解释的VQA模型提供了有效路径。

关键见解

  1. VQA旨在客观量化视频质量的感知退化,与人类的视觉感知相一致。
  2. 当前VQA模型面临两大挑战:对OOD视频的泛化能力差和解释性有限。
  3. VQAThinker框架结合大型多模态模型和强化学习,模拟人类感知决策过程进行视频质量评估。
  4. 采用群体相对策略优化(GRPO)算法,通过评分级监督实现视频质量推理。
  5. 引入三种VQA特定奖励来提升模型性能:钟形回归奖励、配对排名奖励和时间一致性奖励。
  6. VQAThinker在域内和域外的VQA基准测试中表现出卓越性能,泛化能力强。

Cool Papers

点此查看论文截图

EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation

Authors:Xinda Wang, Zhengxu Hou, Yangshijie Zhang, Bingren Yan, Zhibo Yang, Xingsheng Zhang, Luxi Xing, Qiang Zhou, Chen Zhang

Although the effectiveness of Large Language Models (LLMs) as judges (LLM-as-a-judge) has been validated, their performance remains limited in open-ended tasks, particularly in story evaluation. Accurate story evaluation is crucial not only for assisting human quality judgment but also for providing key signals to guide story generation. However, existing methods face a dilemma: prompt engineering for closed-source models suffers from poor adaptability, while fine-tuning approaches for open-source models lack the rigorous reasoning capabilities essential for story evaluation. To address this, we propose the Self-Evolving Pairwise Reasoning (EvolvR) framework. Grounded in pairwise comparison, the framework first self-synthesizes score-aligned Chain-of-Thought (CoT) data via a multi-persona strategy. To ensure data quality, these raw CoTs undergo a self-filtering process, utilizing multi-agents to guarantee their logical rigor and robustness. Finally, the evaluator trained on the refined data is deployed as a reward model to guide the story generation task. Experimental results demonstrate that our framework achieves state-of-the-art (SOTA) performance on three evaluation benchmarks including StoryER, HANNA and OpenMEVA. Furthermore, when served as a reward model, it significantly enhances the quality of generated stories, thereby fully validating the superiority of our self-evolving approach.

虽然大型语言模型(LLM)作为评判者(LLM-as-a-judge)的有效性已经得到验证,但它们在开放任务中的表现仍然有限,特别是在故事评估方面。准确的故事评估对于辅助人类质量判断和提供关键信号以引导故事生成都至关重要。然而,现有方法面临困境:为封闭源模型进行的提示工程适应性较差,而为开放源模型进行的微调方法缺乏故事评估所需的关键推理能力。为了解决这一问题,我们提出了自进化配对推理(EvolvR)框架。该框架基于配对比较,首先通过多角色策略自我合成与分数对齐的思维链(CoT)数据。为确保数据质量,这些原始CoT经历自我过滤过程,利用多智能体保证逻辑严谨性和稳健性。最后,在精炼数据上训练的评估器被部署为奖励模型,以指导故事生成任务。实验结果表明,我们的框架在包括StoryER、HANNA和OpenMEVA在内的三个评估基准上达到了最新技术水平。此外,当它作为奖励模型时,显著提高了生成故事的质量,从而充分验证了我们自进化方法的优越性。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)在故事评价等开放任务中的性能有限。为解决此问题,提出了基于自我进化的配对推理(EvolvR)框架。该框架通过多角色策略自我合成与分数对齐的思考链(CoT)数据,并经过自我过滤过程保证数据质量。实验结果表明,该框架在故事评价方面达到最新技术水平,作为奖励模型时,能显著提高生成故事的质量。

Key Takeaways

  1. LLM在开放任务,尤其是故事评价方面的性能存在局限性。
  2. 现有方法面临两难问题:封闭模型的提示工程适应性差,而开源模型的微调方法缺乏故事评价所需的严谨推理能力。
  3. 提出了EvolvR框架,基于配对比较,通过多角色策略自我合成与分数对齐的CoT数据。
  4. 自我过滤过程保证数据质量,利用多智能体保证逻辑严谨性和稳健性。
  5. 该框架在三个评价基准测试中达到最新技术水平。
  6. 作为奖励模型,EvolvR框架能显著提高生成故事的质量。

Cool Papers

点此查看论文截图

Society of Mind Meets Real-Time Strategy: A Hierarchical Multi-Agent Framework for Strategic Reasoning

Authors:Daechul Ahn, San Kim, Jonghyun Choi

Large Language Models (LLMs) have recently demonstrated impressive action sequence prediction capabilities but often struggle with dynamic, long-horizon tasks such as real-time strategic games. In a game such as StarCraftII (SC2), agents need to manage resource constraints and adapt to evolving battlefield situations in a partially observable environment. This often overwhelms exisiting LLM-based approaches. To address these challenges, we propose a hierarchical multi-agent framework that employs specialized imitation learning agents under a meta-controller called Strategic Planner (SP). By expert demonstrations, each specialized agent learns a distinctive strategy, such as aerial support or defensive maneuvers, and produces coherent, structured multistep action sequences. The SP then orchestrates these proposals into a single, environmentally adaptive plan that ensures local decisions aligning with long-term strategies. We call this HIMA (Hierarchical Imitation Multi-Agent). We also present TEXTSCII-ALL, a comprehensive SC2 testbed that encompasses all race match combinations in SC2. Our empirical results show that HIMA outperforms state of the arts in strategic clarity, adaptability, and computational efficiency, underscoring the potential of combining specialized imitation modules with meta-level orchestration to develop more robust, general-purpose AI agents.

大型语言模型(LLM)最近展示了令人印象深刻的动作序列预测能力,但在动态、长期任务(如实时战略游戏)方面常常面临挑战。在星际争霸II(SC2)等游戏中,智能体需要在部分可观察的环境中管理资源约束并适应不断变化的战场情况。这常常使现有的LLM方法感到难以应对。为了解决这些挑战,我们提出了一种分层多智能体框架,该框架采用名为战略规划器(SP)的元控制器下的专用模仿学习智能体。通过专家演示,每个专用智能体学习独特的策略,如空中支援或防御机动,并产生连贯、结构化的多步动作序列。然后SP将这些提议协调成一个单一、环境自适应的计划,确保局部决策与长期策略一致。我们称之为HIMA(分层模仿多智能体)。我们还介绍了TEXTSCII-ALL,这是一个全面的SC2测试平台,涵盖了SC2中的所有种族比赛组合。我们的实证结果表明,HIMA在战略清晰度、适应性和计算效率方面优于现有技术,突显了将专用模仿模块与元级别编排相结合以开发更稳健、通用人工智能智能体的潜力。

论文及项目相关链接

PDF COLM 2025

Summary

大型语言模型(LLM)在动作序列预测方面展现出强大能力,但在动态、长期任务如实时战略游戏上常遇挑战。针对StarCraftII游戏,我们提出分层多智能体框架HIMA(Hierarchical Imitation Multi-Agent),结合特定模仿学习智能体和元控制器战略规划器(SP)。通过专家示范,每个智能体学习独特策略如空中支援或防御机动等,产生连贯结构化多步动作序列。SP负责协调这些提案,形成适应环境单一计划,确保局部决策与长期策略一致。我们建立的综合测试平台TEXTSCII-ALL涵盖了SC2所有种族匹配组合。实验表明HIMA在战略清晰度、适应性和计算效率方面超越现有技术,凸显结合特定模仿模块与元级协调开发更稳健、通用AI智能体的潜力。

Key Takeaways

  1. 大型语言模型(LLM)在动作序列预测上表现突出,但在动态、长期任务如实时战略游戏上存在挑战。
  2. 现有LLM方法在应对复杂游戏环境时可能显得力不从心,需要更高级的应对策略。
  3. HIMA(Hierarchical Imitation Multi-Agent)框架结合了特定模仿学习智能体和元控制器战略规划器(SP),以应对这些挑战。
  4. HIMA框架通过专家示范使每个智能体学习独特策略,如空中支援或防御机动等。
  5. 战略规划器(SP)负责协调智能体的行动,确保局部决策与长期策略一致。
  6. HIMA在StarCraftII游戏的综合测试平台TEXTSCII-ALL上表现出优异性能。

Cool Papers

点此查看论文截图

MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models

Authors:Jun Feng, Zixin Wang, Zhentao Zhang, Yue Guo, Zhihan Zhou, Xiuyi Chen, Zhenyang Li, Dawei Yin

Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in visual mathematical reasoning across various existing benchmarks. However, these benchmarks are predominantly based on clean or processed multimodal inputs, without incorporating the images provided by real-world Kindergarten through 12th grade (K-12) educational users. To address this gap, we introduce MathReal, a meticulously curated dataset comprising 2,000 mathematical questions with images captured by handheld mobile devices in authentic scenarios. Each question is an image, containing the question text and visual element. We systematically classify the real images into three primary categories: image quality degradation, perspective variation, and irrelevant content interference, which are further delineated into 14 subcategories. Additionally, MathReal spans five core knowledge and ability categories, which encompass three question types and are divided into three difficulty levels. To comprehensively evaluate the multimodal mathematical reasoning abilities of state-of-the-art MLLMs in real-world scenarios, we design six experimental settings that enable a systematic analysis of their performance. Through extensive experimentation, we find that the problem-solving abilities of existing MLLMs are significantly challenged in realistic educational contexts. Based on this, we conduct a thorough analysis of their performance and error patterns, providing insights into their recognition, comprehension, and reasoning capabilities, and outlining directions for future improvements. Data and code: https://github.com/junfeng0288/MathReal.

多模态大型语言模型(MLLMs)在各种现有基准测试中已在视觉数学推理方面展现出卓越的能力。然而,这些基准测试主要基于干净或处理过的多模式输入,并没有融入由现实世界幼儿园至12年级(K-12)教育用户提供的图像。为了弥补这一空白,我们推出了MathReal,这是一个精心策划的数据集,包含2000个数学问题及由手持移动设备在真实场景中拍摄的图片。每个问题都是一张包含问题文本和视觉元素的图片。我们系统地将这些真实图片分为三大主要类别:图像质量退化、视角变化和无关内容干扰,这三大类别又细分为1 the subcategory等十四个子类别。此外,MathReal涵盖五个核心知识和能力类别,包含三种题型,分为初级、中级和高级三个难度等级。为了全面评估最先进的多模态数学推理能力在现实世界场景中的表现,我们设计了六种实验设置,以便对其性能进行系统的分析。通过广泛的实验,我们发现现有MLLMs在真实教育环境中的问题解决能力面临巨大挑战。基于此,我们对他们的性能及错误模式进行了深入分析,深入了解他们在识别、理解和推理方面的能力,并指出了未来改进的方向。数据和代码可通过链接 https://github.com/junfeng0288/MathReal 获取。

论文及项目相关链接

PDF 29 pages, 16 figures

Summary
多媒体大型语言模型(MLLMs)在现有的各种基准测试中展现了出色的视觉数学推理能力。但现有基准测试主要基于清洁或处理过的多媒体输入,并未纳入来自真实幼儿园至十二年级(K-12)教育用户的图像。为解决此缺口,我们推出MathReal数据集,包含两千个数学问题和通过手持移动设备拍摄的真实场景图像。每个问题都是一张包含问题文本和视觉元素的图片。我们将真实图像分为三类:图像质量退化、视角变化和无关内容干扰,并进一步细分为十四个子类别。此外,MathReal涵盖五个核心知识和能力类别,包括三种题型和三个难度级别。为全面评估最新MLLMs在真实世界场景中的多媒体数学推理能力,我们设计了六种实验设置,对其性能进行系统的分析。通过实验发现,现有MLLMs在真实教育环境下的解题能力面临巨大挑战。基于此,我们对它们的性能及错误模式进行了深入分析,并提供了关于识别、理解和推理能力的见解,以及未来改进的方向。

Key Takeaways

  1. MLLMs在视觉数学推理方面展现出显著能力,但在真实教育环境下的性能仍需提升。
  2. 引入MathReal数据集,包含真实场景中的数学问题和图像,以填补现有基准测试的不足。
  3. MathReal数据集对真实图像进行细致分类,包括图像质量、视角和无关内容等因素。
  4. MathReal涵盖多种数学知识和能力类别,以及不同难度级别的题目。
  5. 通过六种实验设置全面评估MLLMs在真实场景中的多媒体数学推理能力。
  6. MLLMs在真实教育环境下的解题能力面临挑战,特别是在识别、理解和推理方面。

Cool Papers

点此查看论文截图

Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Authors:Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

Recently, Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in code reasoning by scaling up the length of Chain-of-Thought (CoT). However, excessively long reasoning traces introduce substantial challenges in terms of training cost, inference latency, and deployment feasibility. While various CoT compression approaches have emerged to address this challenge, they face inherent trade-offs: token-level methods often disrupt syntactic and logical coherence, while step-level methods based on perplexity fail to reliably capture the logically critical reasoning steps. In this paper, we propose ASAP (Anchor-guided, Surprisal-based Pruning), a novel coarse-to-fine framework for CoT compression. ASAP first performs anchor-guided pruning to preserve the core reasoning structure, which efficiently reduces the search space for subsequent processing. It then enables a logic-aware pruning by selecting logically essential reasoning steps based on a novel first-token surprisal metric. Finally, ASAP teaches models to autonomously generate and leverage these concise CoTs at inference time, enabling efficient reasoning in coding tasks. Experiments show that ASAP achieves state-of-the-art accuracy across multiple code generation benchmarks while substantially reducing training and inference costs. On the challenging LiveCodeBench v4_v5 benchmark, our approach reduces token generation by 23.5% and inference latency by 43.5% compared to the strongest baseline, while achieving a competitive accuracy of 36.19% in Pass@1. Our results highlight a promising direction for building powerful and efficient LRMs.

最近,大型推理模型(LRMs)通过扩大思维链(CoT)的长度在代码推理方面表现出了显著的能力。然而,过长的推理痕迹带来了训练成本、推理延迟和部署可行性方面的巨大挑战。虽然出现了各种CoT压缩方法来应对这一挑战,但它们面临着固有的权衡:基于符号层级的方法经常破坏语法和逻辑连贯性,而基于困惑度的步骤层级方法无法可靠地捕获逻辑上关键的推理步骤。在本文中,我们提出了基于锚点引导、基于惊奇度的修剪(ASAP)这一新颖的粗到细框架来进行CoT压缩。ASAP首先执行基于锚点的修剪来保留核心推理结构,这有效地减少了后续处理过程中的搜索空间。然后它采用基于新提出的第一符号惊奇度指标的逻辑感知修剪方法选择逻辑上必要的推理步骤。最后,ASAP训练模型在推理时自主生成和利用这些简洁的CoT,从而在编码任务中实现高效推理。实验表明,ASAP在多个代码生成基准测试中达到了最先进的准确性,同时大大降低了训练和推理成本。在具有挑战性的LiveCodeBench v4_v5基准测试中,我们的方法相较于最强基线将符号生成减少了23.5%,推理延迟减少了43.5%,同时在Pass@1的准确率达到了36.19%。我们的研究结果展示了构建强大高效LRM的有前途的方向。

论文及项目相关链接

PDF Code and model available at https://github.com/Zengwh02/ASAP

Summary

本文提出一种名为ASAP的基于锚点引导与新奇度度量的粗到细框架,用于大型推理模型的推理链压缩。ASAP首先通过锚点引导修剪保留核心推理结构,然后通过基于新奇度度量选择逻辑上关键的推理步骤实现逻辑感知修剪。实验表明,ASAP在多个代码生成基准测试中实现了最先进的准确性,同时大大降低了训练和推理成本。在LiveCodeBench v4_v5基准测试中,与最强基线相比,我们的方法将令牌生成减少了23.5%,推理延迟减少了43.5%,同时准确率达到了具有竞争力的36.19%。

Key Takeaways

  1. 大型推理模型(LRMs)在代码推理中表现出卓越的能力,但过长的推理链带来了训练成本、推理延迟和部署可行性的挑战。
  2. 现有推理链压缩方法面临权衡问题:基于令牌的方法可能破坏语法和逻辑连贯性,而基于困惑度的步骤级方法无法可靠地捕获逻辑上关键步骤。
  3. 提出的ASAP框架结合了锚点引导的修剪和基于新奇度度量的逻辑感知修剪来优化推理链。
  4. ASAP通过保留核心推理结构有效地减少了搜索空间,并通过选择逻辑上关键的推理步骤来实现高效推理。
  5. 实验结果表明,ASAP在多个代码生成基准测试中实现了最先进的性能,并显著降低了训练和推理成本。
  6. 在LiveCodeBench v4_v5基准测试中,ASAP相对于最强基线显著减少了令牌生成和推理延迟,同时保持了具有竞争力的准确率。

Cool Papers

点此查看论文截图

PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation

Authors:Zhihao Zhu, Yifan Zheng, Siyu Pan, Yaohui Jin, Yao Mu

The fragmentation between high-level task semantics and low-level geometric features remains a persistent challenge in robotic manipulation. While vision-language models (VLMs) have shown promise in generating affordance-aware visual representations, the lack of semantic grounding in canonical spaces and reliance on manual annotations severely limit their ability to capture dynamic semantic-affordance relationships. To address these, we propose Primitive-Aware Semantic Grounding (PASG), a closed-loop framework that introduces: (1) Automatic primitive extraction through geometric feature aggregation, enabling cross-category detection of keypoints and axes; (2) VLM-driven semantic anchoring that dynamically couples geometric primitives with functional affordances and task-relevant description; (3) A spatial-semantic reasoning benchmark and a fine-tuned VLM (Qwen2.5VL-PA). We demonstrate PASG’s effectiveness in practical robotic manipulation tasks across diverse scenarios, achieving performance comparable to manual annotations. PASG achieves a finer-grained semantic-affordance understanding of objects, establishing a unified paradigm for bridging geometric primitives with task semantics in robotic manipulation.

在机器人操作任务中,高级任务语义与低级几何特征之间的碎片化仍然是一个持续存在的挑战。虽然视觉语言模型(VLM)在生成可负担的视觉表征方面显示出潜力,但在规范空间中缺乏语义接地以及对手动注释的依赖,严重限制了其捕获动态语义可负担关系的能力。为了解决这些问题,我们提出了原始语义感知接地(PASG),这是一个闭环框架,引入了:(1)通过几何特征聚合自动提取原始特征,实现跨类别检测关键点和轴;(2)由VLM驱动的语义锚定,动态地将几何原始数据与功能可负担性和任务相关描述相结合;(3)空间语义推理基准测试和微调VLM(Qwen2.5VL-PA)。我们在多种场景的实用机器人操作任务中证明了PASG的有效性,其性能可与手动注释相当。PASG实现了对对象的更精细的语义可负担理解,为机器人操作中的几何原始与任务语义之间建立了统一的桥梁。

论文及项目相关链接

PDF Accepted to ICCV 2025. 8 pages main paper, 8 figures, plus supplementary material

Summary

在机器人操作领域,高级任务语义与低级几何特征之间的碎片化仍然是一个挑战。针对这一问题,我们提出了Primitive-Aware Semantic Grounding(PASG)框架,引入自动提取几何特征,利用视觉语言模型(VLMs)进行语义锚定,并构建空间语义推理基准测试。PASG实现了精细化语义-适用性的对象理解,建立了连接几何原始任务和语义的桥梁,在实际机器人操作任务中表现出色。

Key Takeaways

  1. 机器人操作领域存在高级任务语义与低级几何特征之间的碎片化挑战。
  2. 当前视觉语言模型(VLMs)在生成适用性感知视觉表示方面显示出潜力,但缺乏在规范空间中的语义锚定,且依赖手动注释,限制了其捕捉动态语义-适用性关系的能力。
  3. PASG框架引入自动提取几何特征,通过几何特征聚合进行关键点和轴的跨类别检测。
  4. PASG利用VLM进行语义锚定,动态地将几何原始与功能适用性和任务相关描述相结合。
  5. PASG建立了一个空间语义推理基准测试和微调过的VLM(Qwen2.5VL-PA)。
  6. PASG在实际机器人操作任务中的多样化场景应用有效,其性能可与手动注释相媲美。

Cool Papers

点此查看论文截图

Dean of LLM Tutors: Exploring Comprehensive and Automated Evaluation of LLM-generated Educational Feedback via LLM Feedback Evaluators

Authors:Keyang Qian, Yixin Cheng, Rui Guan, Wei Dai, Flora Jin, Kaixun Yang, Sadia Nawaz, Zachari Swiecki, Guanliang Chen, Lixiang Yan, Dragan Gašević

The use of LLM tutors to provide automated educational feedback to students on student assignment submissions has received much attention in the AI in Education field. However, the stochastic nature and tendency for hallucinations in LLMs can undermine both quality of learning experience and adherence to ethical standards. To address this concern, we propose a method that uses LLM feedback evaluators (DeanLLMs) to automatically and comprehensively evaluate feedback generated by LLM tutor for submissions on university assignments before it is delivered to students. This allows low-quality feedback to be rejected and enables LLM tutors to improve the feedback they generated based on the evaluation results. We first proposed a comprehensive evaluation framework for LLM-generated educational feedback, comprising six dimensions for feedback content, seven for feedback effectiveness, and three for hallucination types. Next, we generated a virtual assignment submission dataset covering 85 university assignments from 43 computer science courses using eight commonly used commercial LLMs. We labelled and open-sourced the assignment dataset to support the fine-tuning and evaluation of LLM feedback evaluators. Our findings show that o3-pro demonstrated the best performance in zero-shot labelling of feedback while o4-mini demonstrated the best performance in few-shot labelling of feedback. Moreover, GPT-4.1 achieved human expert level performance after fine-tuning (Accuracy 79.8%, F1-score 79.4%; human average Accuracy 78.3%, F1-score 82.6%). Finally, we used our best-performance model to evaluate 2,000 assignment feedback instances generated by 10 common commercial LLMs, 200 each, to compare the quality of feedback generated by different LLMs. Our LLM feedback evaluator method advances our ability to automatically provide high-quality and reliable educational feedback to students.

使用大型语言模型(LLM)辅导员为学生作业提交提供自动化教育反馈在人工智能教育领域中引起了广泛关注。然而,大型语言模型的随机性和出现幻觉的倾向可能会破坏学习体验的质量和遵守道德标准。为了解决这一担忧,我们提出了一种使用LLM反馈评估器(DeanLLMs)的方法,该方法可以自动和全面地评估LLM辅导员生成的大学作业提交反馈,然后再将其递送给学生。这允许拒绝低质量的反馈,并使得LLM辅导员可以根据评估结果改进其生成的反馈。我们首先为LLM生成的教育反馈提出了一个全面的评估框架,该框架包括六个关于反馈内容的维度,七个关于反馈效果的维度,以及三个关于幻觉类型的维度。接下来,我们使用八种常见商业LLM生成了一个虚拟作业提交数据集,涵盖了来自43门计算机科学课程的85项作业。我们对作业数据集进行了标注并开源,以支持LLM反馈评估器的微调与评估。我们的研究结果表明,在零样本标注反馈方面,o3-pro表现最佳,而在少样本标注反馈方面,o4-mini表现最佳。此外,GPT-4.1在经过微调后达到了人类专家的水平(准确率79.8%,F1分数79.4%;人类平均准确率78.3%,F1分数82.6%)。最后,我们使用表现最佳的模型评估了由十种常见商业LLM生成的2000个作业反馈实例(每种LLM 200个),以比较不同LLM生成的反馈质量。我们的LLM反馈评估器方法提高了我们为学生自动提供高质量和可靠教育反馈的能力。

论文及项目相关链接

PDF

Summary

该研究关注大型语言模型(LLM)在教育领域的应用,特别是在学生作业反馈中的应用。然而,LLM的随机性和产生幻觉的倾向可能会影响学生的学习体验和道德标准的遵守。为解决这一问题,研究提出了一种使用LLM反馈评估器(DeanLLMs)的方法,自动全面评估LLM导师对学生作业的反馈质量。该方法能剔除低质量的反馈,使LLM导师根据评估结果改进其生成的反馈。研究构建了LLM生成教育反馈的全面评估框架,并生成了一个虚拟作业提交数据集。研究表明,某些模型在零样本和少样本标注反馈方面表现出最佳性能,并且GPT-4.1在微调后达到了人类专家级的性能。最后,研究使用最佳性能模型评估了不同LLM生成的作业反馈质量。此方法提高了为学生自动提供高质量可靠教育反馈的能力。

Key Takeaways

  1. LLM被用于为学生提供自动化教育反馈,但其随机性和产生幻觉的倾向可能影响学习体验和道德标准。
  2. 提出了使用LLM反馈评估器(DeanLLMs)的方法,自动全面评估LLM生成的反馈质量。
  3. 研究构建了全面的LLM教育反馈评估框架,包括反馈内容、反馈有效性、幻觉类型等多个维度。
  4. 生成了一个涵盖85个大学作业的虚拟作业提交数据集,并开源以支持LLM反馈评估器的微调。
  5. 某些模型在零样本和少样本标注反馈方面表现最佳。
  6. GPT-4.1在微调后达到了人类专家级的性能。

Cool Papers

点此查看论文截图

Mitigating Think-Answer Mismatch in LLM Reasoning Through Noise-Aware Advantage Reweighting

Authors:Si Shen, Peijun Shen, Wenhua Zhao, Danhao Zhu

Group-Relative Policy Optimization (GRPO) is a key technique for training large reasoning models, yet it suffers from a critical vulnerability: the \emph{Think-Answer Mismatch}, where noisy reward signals corrupt the learning process. This problem is most severe in unbalanced response groups, paradoxically degrading the signal precisely when it should be most informative. To address this challenge, we propose Stable Group-Relative Policy Optimization (S-GRPO), a principled enhancement that derives optimal, noise-aware advantage weights to stabilize training. Our comprehensive experiments on mathematical reasoning benchmarks demonstrate S-GRPO’s effectiveness and robustness. On various models, S-GRPO significantly outperforms DR. GRPO, achieving performance gains of +2.5% on Qwen-Math-7B-Base, +2.2% on Llama-3.2-3B-Base, and +2.4% on Qwen-Math-1.5B-Instruct. Most critically, while standard GRPO fails to learn under 20% synthetic reward noise, S-GRPO maintains stable learning progress. These results highlight S-GRPO’s potential for more robust and effective training of large-scale reasoning models. \footnote{Code and data are available at: https://github.com/shenpeijun0212/S-GRPO

相对组策略优化(GRPO)是训练大型推理模型的关键技术,但它存在一个严重的漏洞,即“思维-答案不匹配”,其中嘈杂的奖励信号会破坏学习过程。在不平衡的响应组中,这个问题最为严重,具有讽刺意味的是,它会在信号最应该具有信息含量的时刻导致信号恶化。为了解决这一挑战,我们提出了稳定相对组策略优化(S-GRPO),这是一种有原则的增强方法,它推导出最优的噪声感知优势权重来稳定训练。我们在数学推理基准测试上的综合实验证明了S-GRPO的有效性和稳健性。在各种模型上,S-GRPO显著优于DR. GRPO,在Qwen-Math-7B-Base上性能提升+2.5%,在Llama-3.2-3B-Base上提升+2.2%,在Qwen-Math-1.5B-Instruct上提升+2.4%。最关键的是,当标准GRPO在合成奖励噪声下无法学习时,S-GRPO能够保持稳定的学习进度。这些结果突出了S-GRPO在更稳健和有效地训练大规模推理模型方面的潜力。注:代码和数据可在https://github.com/shenpeijun0212/S-GRPO找到。

论文及项目相关链接

PDF

Summary

团队相对策略优化(GRPO)在训练大型推理模型时存在关键漏洞,即“思考-回答不匹配”问题,导致奖励信号中的噪声会破坏学习过程。在响应不平衡的情况下,这一问题尤为严重。为解决此挑战,我们提出了稳定团队相对策略优化(S-GRPO),通过推导最优的噪声感知优势权重来稳定训练。在多个数学推理基准测试上进行的实验表明,S-GRPO在多种模型上的表现优于DR. GRPO,性能提升分别为Qwen-Math-7B-Base提升2.5%,Llama-3.2-3B-Base提升2.2%,Qwen-Math-1.5B-Instruct提升2.4%。最重要的是,标准GRPO在合成奖励噪声超过20%的情况下无法进行学习,而S-GRPO则能维持稳定的学习进度。这突显了S-GRPO在更稳健、更有效地训练大规模推理模型方面的潜力。

Key Takeaways

  1. Group-Relative Policy Optimization (GRPO) 在训练大型推理模型时面临 “Think-Answer Mismatch” 问题。
  2. 在响应不平衡的情况下,该问题更为严重,噪声奖励信号会破坏学习过程。
  3. 为解决上述问题,提出了Stable Group-Relative Policy Optimization (S-GRPO)。
  4. S-GRPO 通过推导最优的噪声感知优势权重来稳定训练过程。
  5. 在数学推理基准测试上,S-GRPO 显著优于 DR. GRPO,性能有所提升。
  6. 在合成奖励噪声超过 20% 的情况下,标准 GRPO 无法学习,而 S-GRPO 能维持稳定学习进度。

Cool Papers

点此查看论文截图

WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent

Authors:Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Web agents such as Deep Research have demonstrated superhuman cognitive abilities, capable of solving highly challenging information-seeking problems. However, most research remains primarily text-centric, overlooking visual information in the real world. This makes multimodal Deep Research highly challenging, as such agents require much stronger reasoning abilities in perception, logic, knowledge, and the use of more sophisticated tools compared to text-based agents. To address this limitation, we introduce WebWatcher, a multi-modal Agent for Deep Research equipped with enhanced visual-language reasoning capabilities. It leverages high-quality synthetic multimodal trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization through reinforcement learning. To better evaluate the capabilities of multimodal agents, we propose BrowseComp-VL, a benchmark with BrowseComp-style that requires complex information retrieval involving both visual and textual information. Experimental results show that WebWatcher significantly outperforms proprietary baseline, RAG workflow and open-source agents in four challenging VQA benchmarks, which paves the way for solving complex multimodal information-seeking tasks.

Deep Research等网络代理已经展现出超人的认知能力,能够解决高度具有挑战性的信息搜索问题。然而,大多数研究仍然主要集中在文本上,忽视了现实世界中的视觉信息。这使得多模式深度研究极具挑战性,因为相对于基于文本的代理,此类代理需要在感知、逻辑、知识方面拥有更强的推理能力,并需要使用更高级的工具。为了解决这个问题,我们引入了WebWatcher,这是一个配备增强视觉语言推理能力的多模式深度研究代理。它利用高质量合成多模式轨迹进行高效冷启动训练,使用各种工具进行深入推理,并通过强化学习进一步提高泛化能力。为了更好地评估多模式代理的能力,我们提出了BrowseComp-VL基准测试,这是一个需要涉及视觉和文本信息的复杂信息检索的基准测试。实验结果表明,WebWatcher在四个具有挑战性的VQA基准测试中显著优于专有基线、RAG工作流程和开源代理,这为解决复杂的多媒体信息搜索任务奠定了基础。

论文及项目相关链接

PDF

Summary
智能网络代理如Deep Research展现出超人类的认知能力,能够解决极具挑战性的信息搜索问题,但大多数研究仍然以文本为中心,忽略了现实世界中的视觉信息。为此,我们推出WebWatcher——配备增强视觉语言推理能力的多模态深度研究代理。它采用高质量合成多模态轨迹进行高效的冷启动训练,利用多种工具进行深度推理,并通过强化学习提高泛化能力。为评估多模态代理的能力,我们推出BrowseComp-VL基准测试,要求涉及视觉和文本信息的复杂信息检索。实验结果显示,WebWatcher在四个挑战性的视觉问答基准测试中显著优于专有基线、RAG工作流程和开源代理。

Key Takeaways

  1. 智能网络代理如Deep Research已展现超人类认知能力,在解决信息搜索问题上具有巨大潜力。
  2. 大多数研究仍过于依赖文本信息,忽略了视觉信息的重要性。
  3. 多模态深度研究面临挑战,需要更强的推理能力和更复杂的工具。
  4. WebWatcher是一个多模态代理,具备增强视觉语言推理能力。
  5. WebWatcher采用高效冷启动训练,利用多种工具进行深度推理,并通过强化学习提高泛化能力。
  6. 为评估多模态代理的能力,推出了BrowseComp-VL基准测试。

Cool Papers

点此查看论文截图

Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning

Authors:Jia Fu, Xinyu Yang, Hongzhi Zhang, Yahui Liu, Jingyuan Zhang, Qi Wang, Fuzheng Zhang, Guorui Zhou

Precise, correct feedback is crucial for effectively training large language models (LLMs) in code reinforcement learning. However, synthesizing high-quality test cases remains a profoundly challenging and unsolved problem. In this work, we present Klear-CodeTest, a comprehensive test case synthesis framework featuring rigorous verification to ensure quality and reliability of test cases. Our approach achieves broad coverage of programming problems via a novel Generator-Validation (G-V) framework, ensuring correctness through a consistency validation mechanism that verifies outputs against gold solutions. The proposed G-V framework generates comprehensive test cases including both regular and corner cases, enhancing test coverage and discriminative power for solution correctness assessment in code reinforcement learning. In addition, we design a multi-layered security sandbox system optimized for online verification platforms, guaranteeing safe and reliable code execution. Through comprehensive experiments, we demonstrate the effectiveness of our curated dataset, showing significant improvements in model performance and training stability. The source codes, curated dataset and sandbox system are available at: https://github.com/Kwai-Klear/CodeTest.

精确、正确的反馈对于在代码强化学习中有效地训练大型语言模型(LLM)至关重要。然而,合成高质量测试用例仍然是一个极具挑战且尚未解决的问题。在这项工作中,我们提出了Klear-CodeTest,这是一个全面的测试用例合成框架,具有严格验证功能,以确保测试用例的质量和可靠性。我们的方法通过新颖的发生器验证(G-V)框架实现了对编程问题的广泛覆盖,并通过一种一致性验证机制来确保正确性,该机制将输出与黄金解决方案进行验证。所提出的G-V框架生成了全面的测试用例,包括常规和极端情况,提高了测试覆盖率,并增强了代码强化学习中解决方案正确性的辨别力。此外,我们还为在线验证平台设计了一个优化的多层安全沙箱系统,保证代码执行的安全性和可靠性。通过全面的实验,我们证明了精选数据集的有效性,在模型性能和训练稳定性方面取得了显著改进。源代码、精选数据集和沙箱系统可在:https://github.com/Kwai-Klear/CodeTest找到。

论文及项目相关链接

PDF 21 pages, 11 figures

Summary

本文介绍了Klear-CodeTest框架,该框架用于合成高质量测试用例,以支持代码强化学习中大语言模型的训练。该框架采用生成器验证(G-V)框架,确保测试案例的广泛覆盖和正确性验证,同时设计多层安全沙箱系统,保证在线验证平台的安全可靠代码执行。实验表明,该框架可提高模型性能和训练稳定性。

Key Takeaways

  1. Klear-CodeTest是一个用于合成高质量测试用例的框架,用于支持代码强化学习中大语言模型的训练。
  2. 框架采用生成器验证(G-V)框架,确保测试案例的广泛覆盖和正确性验证。
  3. G-V框架通过生成包括常规和角落案例的综合测试用例,提高测试覆盖率,增强解决方案正确性的评估能力。
  4. 设计了多层安全沙箱系统,保证在线验证平台的安全可靠代码执行。
  5. 该框架可提高模型性能。
  6. 该框架的训练稳定性得到了实验验证。
  7. Klear-CodeTest的源代码、精选数据集和沙箱系统可在GitHub上获取。

Cool Papers

点此查看论文截图

G-UBS: Towards Robust Understanding of Implicit Feedback via Group-Aware User Behavior Simulation

Authors:Boyu Chen, Siran Chen, Zhengrong Yue, Kainan Yan, Chenyun Yu, Beibei Kong, Cheng Lei, Chengxiang Zhuo, Zang Li, Yali Wang

User feedback is critical for refining recommendation systems, yet explicit feedback (e.g., likes or dislikes) remains scarce in practice. As a more feasible alternative, inferring user preferences from massive implicit feedback has shown great potential (e.g., a user quickly skipping a recommended video usually indicates disinterest). Unfortunately, implicit feedback is often noisy: a user might skip a video due to accidental clicks or other reasons, rather than disliking it. Such noise can easily misjudge user interests, thereby undermining recommendation performance. To address this issue, we propose a novel Group-aware User Behavior Simulation (G-UBS) paradigm, which leverages contextual guidance from relevant user groups, enabling robust and in-depth interpretation of implicit feedback for individual users. Specifically, G-UBS operates via two key agents. First, the User Group Manager (UGM) effectively clusters users to generate group profiles utilizing a ``summarize-cluster-reflect” workflow based on LLMs. Second, the User Feedback Modeler (UFM) employs an innovative group-aware reinforcement learning approach, where each user is guided by the associated group profiles during the reinforcement learning process, allowing UFM to robustly and deeply examine the reasons behind implicit feedback. To assess our G-UBS paradigm, we have constructed a Video Recommendation benchmark with Implicit Feedback (IF-VR). To the best of our knowledge, this is the first multi-modal benchmark for implicit feedback evaluation in video recommendation, encompassing 15k users, 25k videos, and 933k interaction records with implicit feedback. Extensive experiments on IF-VR demonstrate that G-UBS significantly outperforms mainstream LLMs and MLLMs, with a 4.0% higher proportion of videos achieving a play rate > 30% and 14.9% higher reasoning accuracy on IF-VR.

用户反馈对于完善推荐系统至关重要,然而在实践中,明确的反馈(例如喜欢或不喜欢)仍然很稀缺。作为一种更可行的替代方案,从大量的隐性反馈中推断用户偏好已显示出巨大潜力(例如,用户快速跳过推荐的视频通常表示不感兴趣)。然而,隐性反馈往往带有噪声:用户可能会因意外点击或其他原因而跳过视频,而不是因为不喜欢。这种噪音很容易误判用户兴趣,从而破坏推荐性能。为了解决这一问题,我们提出了一种新型的小组感知用户行为模拟(G-UBS)范式,它利用相关用户小组的情景指导,实现对个别用户的隐性反馈的稳健和深入的解读。具体来说,G-UBS通过两个关键代理进行操作。首先,用户群组管理器(UGM)有效地聚集用户,利用大型语言模型(LLM)的“总结-聚类-反映”工作流程生成群组概况。其次,用户反馈模型器(UFM)采用创新的小组感知强化学习方法,在强化学习过程中,每个用户都由相关的群组概况引导,使UFM能够稳健而深入地研究隐性反馈背后的原因。为了评估我们的G-UBS范式,我们建立了带有隐性反馈的视频推荐基准(IF-VR)。据我们所知,这是视频推荐中隐性反馈评估的首个多模式基准,包含1.5万用户、2.5万视频和93.3万带有隐性反馈的互动记录。在IF-VR上的广泛实验表明,G-UBS显著优于主流的大型语言模型(LLMs)和多模态语言模型(MLLMs),在IF-VR上,视频播放率超过30%的比例提高了4.0%,推理准确性提高了14.9%。

论文及项目相关链接

PDF

Summary

基于用户对推荐系统的反馈对优化推荐的重要性,以及在实际操作中显式反馈的稀缺性,研究者提出了一种从大规模隐性反馈中推断用户偏好的方法。然而,隐性反馈常常带有噪声,可能导致误判用户兴趣。为解决这一问题,研究者提出了全新的Group-aware User Behavior Simulation(G-UBS)范式。该范式通过相关用户群体的情境指导,实现对个体用户隐性反馈的稳健和深入解读。为评估该范式,建立了包含隐性反馈的视频推荐基准测试平台。实验结果显示,G-UBS范式在性能和准确性上显著优于主流模型。

Key Takeaways

  1. 用户反馈对推荐系统至关重要,但显式反馈在实践中较为稀缺。
  2. 隐性反馈为推断用户偏好提供了可行的替代方案。
  3. 隐性反馈常常带有噪声,可能导致误判用户兴趣。
  4. G-UBS范式通过结合用户群体情境,实现对隐性反馈的稳健和深入解读。
  5. G-UBS包括两个核心组件:User Group Manager(UGM)和User Feedback Modeler(UFM)。
  6. UGM采用“总结-聚类-反映”的工作流程基于LLMs生成用户群体概况。

Cool Papers

点此查看论文截图

Exploring Superior Function Calls via Reinforcement Learning

Authors:Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strategic entropy based exploration specifically tailored for function calling tasks. Our approach addresses three critical challenges in function calling: insufficient exploration during policy learning, lack of structured reasoning in chain-of-thought generation, and inadequate verification of parameter extraction. Our two-stage data preparation pipeline ensures high-quality training samples through iterative LLM evaluation and abstract syntax tree validation. Extensive experiments on the Berkeley Function Calling Leaderboard demonstrate that this framework achieves state-of-the-art performance among open-source models with 86.02% overall accuracy, outperforming standard GRPO by up to 6% on complex multi-function scenarios. Notably, our method shows particularly strong improvements on code-pretrained models, suggesting that structured language generation capabilities provide an advantageous starting point for reinforcement learning in function calling tasks. We will release all the code, models and dataset to benefit the community.

函数调用能力对于将大型语言模型部署在真实世界应用中至关重要,然而当前的训练方法无法制定稳健的推理策略。监督微调产生的模型依赖于肤浅的模式匹配,而标准强化学习方法难以应对结构函数调用中的复杂动作空间。我们提出了一种新型的强化学习框架,旨在通过针对函数调用任务量身定制的战略熵基探索增强群体相对策略优化。我们的方法解决了函数调用中的三个关键挑战:策略学习过程中的探索不足、思维生成中结构推理的缺乏以及参数提取验证的不足。我们的两阶段数据准备管道通过迭代的大型语言模型评估和抽象语法树验证,确保高质量的训练样本。在伯克利函数调用排行榜上的大量实验表明,该框架在开源模型中实现了最先进的性能,总体准确率为86.02%,在复杂的多功能场景下将标准GRPO的性能提高了高达6%。值得注意的是,我们的方法在代码预训练模型上表现出特别强劲的改进,这表明结构化语言生成能力为函数调任务中的强化学习提供了一个有利的起点。我们将发布所有的代码、模型和数据集以造福社区。

论文及项目相关链接

PDF

摘要

针对大型语言模型在现实世界应用中的函数调用能力缺失问题,现有训练策略无法培养稳健的推理策略。监督微调产生的模型依赖于表面模式匹配,而标准强化学习方法在复杂的函数调用动作空间中表现挣扎。本研究提出了一种针对函数调用任务的强化学习框架,通过基于策略相对熵的探索来解决群体策略优化问题。该方法解决了函数调用中的三大挑战:策略学习过程中的探索不足、思维链生成中的结构化推理缺失以及参数提取的验证不足。通过两阶段数据准备管道确保高质量的训练样本,通过迭代的大型语言模型评估和抽象语法树验证。在Berkeley函数调用排行榜上的大量实验表明,该框架在开源模型中实现了最佳性能,总体准确率达到86.02%,在复杂的多函数场景上比标准GRPO高出6%。值得注意的是,该方法在代码预训练模型上表现出特别强大的改进,表明结构化语言生成能力为强化学习在函数调用任务中提供了一个有利的起点。我们将发布所有代码、模型和数据集以造福社区。

关键见解

  1. 大型语言模型在现实世界应用中的函数调用能力至关重要,但现有训练策略存在缺陷。
  2. 监督微调产生的模型依赖于表面模式匹配,缺乏深度推理能力。
  3. 强化学习方法在复杂的函数调用动作空间中面临挑战。
  4. 提出的强化学习框架通过策略相对熵的探索解决群体策略优化问题。
  5. 该方法解决了函数调用的三大挑战:探索不足、结构化推理缺失和参数验证不足。
  6. 通过两阶段数据准备管道确保高质量的训练样本。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录