嘘~ 正在从服务器偷取页面 . . .

R1_Reasoning


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-10 更新

Authors:Joseph Enguehard, Morgane Van Ermengem, Kate Atkinson, Sujeong Cha, Arijit Ghosh Chowdhury, Prashanth Kallur Ramaswamy, Jeremy Roghair, Hannah R Marlowe, Carina Suzana Negreanu, Kitty Boxall, Diana Mincu

Evaluating large language model (LLM) outputs in the legal domain presents unique challenges due to the complex and nuanced nature of legal analysis. Current evaluation approaches either depend on reference data, which is costly to produce, or use standardized assessment methods, both of which have significant limitations for legal applications. Although LLM-as-a-Judge has emerged as a promising evaluation technique, its reliability and effectiveness in legal contexts depend heavily on evaluation processes unique to the legal industry and how trustworthy the evaluation appears to the human legal expert. This is where existing evaluation methods currently fail and exhibit considerable variability. This paper aims to close the gap: a) we break down lengthy responses into ‘Legal Data Points’ (LDPs), self-contained units of information, and introduce a novel, reference-free evaluation methodology that reflects how lawyers evaluate legal answers; b) we demonstrate that our method outperforms a variety of baselines on both our proprietary dataset and an open-source dataset (LegalBench); c) we show how our method correlates more closely with human expert evaluations and helps improve inter-annotator agreement; and finally d) we open source our Legal Data Points for a subset of LegalBench used in our experiments, allowing the research community to replicate our results and advance research in this vital area of LLM evaluation on legal question-answering.

评估法律领域的大型语言模型(LLM)输出结果面临着独特的挑战,这是由于法律分析的复杂性和细微差别。当前的评估方法要么依赖于参考数据(成本高昂),要么使用标准化的评估方法,两者在法律应用中都有显著局限性。虽然“LLM作为法官”已成为一种有前景的评估技术,但其在法律环境中的可靠性和有效性在很大程度上取决于法律行业特有的评估流程以及人类法律专家对评估的信任度。这正是现有评估方法目前失败并表现出相当大的可变性的地方。本文旨在缩小这一差距:a)我们将冗长的回应分解为“法律数据点”(LDPs),即独立的信息单元,并引入了一种新的无参考评估方法,该方法反映了律师如何评估法律答案;b)我们证明我们的方法在我们的专有数据集和开源数据集(LegalBench)上优于各种基线;c)我们展示了我们的方法如何更紧密地与人类专家评估相关,并有助于提高跨注释器的一致性;最后d)我们公开了实验中使用的LegalBench子集的Legal Data Points,让研究界能够复制我们的结果并推动这一领域的LLM评估研究。

论文及项目相关链接

PDF Published in Natural Legal Language Processing - EMNLP Workshop 2025

Summary

这篇论文针对法律领域大语言模型输出的评估难题,提出了一种新颖的、无需参考的评估方法。该方法将冗长的答案分解为“法律数据点”(LDPs),反映律师如何评估法律答案,并在自有数据集和开源数据集(LegalBench)上表现出优于多种基线方法的性能。此外,该方法更贴近人类专家评估,提高了标注者间的一致性,并公开实验中使用的一部分LegalBench的法律数据点,供研究社区复制结果并推动该领域的研究进展。

Key Takeaways

  1. 法律领域大语言模型(LLM)输出的评估面临独特挑战,因法律分析具有复杂性和细微差别。
  2. 当前评估方法依赖于昂贵的参考数据或使用标准化评估方法,在法律应用中具有显著局限性。
  3. LLM-as-a-Judge技术虽然具有前景,但其可靠性和有效性取决于法律行业独特的评估过程以及评估结果对人类社会法律专家的可信度。
  4. 论文提出了一种新的无需参考的评估方法,将答案分解为“法律数据点”(LDPs),以反映律师如何评估法律答案。
  5. 该方法在自有数据集和开源数据集(LegalBench)上的性能优于多种基线方法。
  6. 该方法更贴近人类专家评估,提高了标注者间的一致性。

Cool Papers

点此查看论文截图

Hybrid Reinforcement: When Reward Is Sparse, It’s Better to Be Dense

Authors:Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu

Post-training for reasoning of large language models (LLMs) increasingly relies on verifiable rewards: deterministic checkers that provide 0-1 correctness signals. While reliable, such binary feedback is brittle–many tasks admit partially correct or alternative answers that verifiers under-credit, and the resulting all-or-nothing supervision limits learning. Reward models offer richer, continuous feedback, which can serve as a complementary supervisory signal to verifiers. We introduce HERO (Hybrid Ensemble Reward Optimization), a reinforcement learning framework that integrates verifier signals with reward-model scores in a structured way. HERO employs stratified normalization to bound reward-model scores within verifier-defined groups, preserving correctness while refining quality distinctions, and variance-aware weighting to emphasize challenging prompts where dense signals matter most. Across diverse mathematical reasoning benchmarks, HERO consistently outperforms RM-only and verifier-only baselines, with strong gains on both verifiable and hard-to-verify tasks. Our results show that hybrid reward design retains the stability of verifiers while leveraging the nuance of reward models to advance reasoning.

大语言模型(LLM)推理训练越来越依赖于可验证的奖励:提供0-1正确性信号的确定性检查器。虽然可靠,但这样的二元反馈是脆弱的——许多任务接受部分正确或替代答案,这些答案会被验证器低估,而由此产生的全有全无的监督限制了学习。奖励模型提供了更丰富的连续反馈,可以作为验证器的补充监督信号。我们引入了HERO(混合集成奖励优化),这是一个强化学习框架,以结构化的方式将验证器信号与奖励模型分数进行集成。HERO采用分层归一化,在验证器定义的组内部对奖励模型分数进行约束,在保持正确性的同时提高质量区分度,并采用方差感知加权法来强调密集信号最重要的具有挑战性的提示。在多种数学推理基准测试中,HERO始终优于仅使用RM和仅使用验证器的基线,在可验证和难以验证的任务上都有显著的提升。我们的结果表明,混合奖励设计既保留了验证器的稳定性,又利用奖励模型的细微差别来提高推理能力。

论文及项目相关链接

PDF 20 pages

Summary

大型语言模型的推理后训练越来越依赖于可验证的奖励,即提供0-1正确性的确定性检查器。虽然可靠,但二进制反馈是脆弱的——许多任务存在部分正确或替代答案,验证器无法给予充分认可,而且全有全无的监督方式限制了学习。奖励模型提供丰富的连续反馈,可以作为验证器的辅助监督信号。本文介绍了HERO(混合集成奖励优化)框架,这是一个强化学习框架,以结构化的方式将验证器信号与奖励模型分数进行集成。HERO采用分层归一化,在验证器定义的组内部对奖励模型分数进行约束,既保持正确性又细化质量差异,并采用方差感知加权法,强调提示密集信号最为关键的难题。在多种数学推理基准测试中,HERO始终优于仅使用奖励模型或仅使用验证器的基准测试,在可验证和难以验证的任务上都有显著的提升。我们的结果表明,混合奖励设计在保持验证器稳定性的同时,利用奖励模型的细微差别来提高推理能力。

Key Takeaways

  1. 大型语言模型推理后训练依赖可验证的奖励来提供确定性检查。
  2. 二进制反馈虽然可靠,但存在对部分正确或替代答案的忽视问题。
  3. 奖励模型提供丰富的连续反馈,作为验证器的辅助监督信号。
  4. HERO框架集成了验证器信号与奖励模型分数,通过分层归一化和方差感知加权法优化学习。
  5. HERO在多种数学推理测试中表现优越,对可验证和难以验证的任务都有显著提升。
  6. 混合奖励设计在保持验证器稳定性的同时,利用奖励模型的细微差别提高推理能力。

Cool Papers

点此查看论文截图

Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships

Authors:Donggyu Lee, Sungwon Park, Yerin Hwang, Hyunwoo Oh, Hyoshin Kim, Jungwon Kim, Meeyoung Cha, Sangyoon Park, Jihee Kim

Causal reasoning is fundamental for Large Language Models (LLMs) to understand genuine cause-and-effect relationships beyond pattern matching. Existing benchmarks suffer from critical limitations such as reliance on synthetic data and narrow domain coverage. We introduce a novel benchmark constructed from casually identified relationships extracted from top-tier economics and finance journals, drawing on rigorous methodologies including instrumental variables, difference-in-differences, and regression discontinuity designs. Our benchmark comprises 40,379 evaluation items covering five task types across domains such as health, environment, technology, law, and culture. Experimental results on eight state-of-the-art LLMs reveal substantial limitations, with the best model achieving only 57.6% accuracy. Moreover, model scale does not consistently translate to superior performance, and even advanced reasoning models struggle with fundamental causal relationship identification. These findings underscore a critical gap between current LLM capabilities and demands of reliable causal reasoning in high-stakes applications.

因果推理对于大型语言模型(LLM)理解超越模式匹配的真正因果关系至关重要。现有基准测试存在关键局限性,例如依赖合成数据和领域覆盖范围狭窄。我们引入了一个新的基准测试,该测试是从顶级经济学和金融期刊中提取的因果关系构建的,借鉴了包括工具变量、差异中的差异和回归断点设计在内的严格方法。我们的基准测试包含40379个评估项目,涵盖健康、环境、技术、法律和文化等领域的五种任务类型。在八种最先进的LLM上的实验结果表明,存在显著局限性,最佳模型准确率仅为57.6%。此外,模型规模并不一致地转化为更好的性能,即使是先进的推理模型在基本因果关系识别方面也面临困难。这些发现突显了当前LLM能力与高风险应用中可靠因果推理需求之间的巨大差距。

论文及项目相关链接

PDF

Summary
大型语言模型(LLMs)在理解真实的因果关系而非简单的模式匹配方面存在根本性的挑战。现有的评估基准测试存在严重缺陷,如依赖合成数据和领域覆盖有限。本研究推出了一种基于经济学和顶尖金融期刊中经过因果分析验证的关系的新基准测试,采用仪器变量、差异差异和回归断裂点设计等严谨方法。该基准测试涵盖了健康、环境、技术、法律和文化等五个任务类型,共包含评估项目40,379项。对八种最新的大型语言模型的实验结果表明,即使最先进的模型也只能达到约一半的准确性(仅为大约半数)。而且模型规模并不一定导致性能提高,即使在复杂的推理模型中,对基本因果关系的识别也有很大的困难。这表明当前的大型语言模型在高风险应用中的可靠因果推理能力还存在很大的差距。该总结从整个文本的角度概括了主要内容和核心观点。

Key Takeaways

  1. 大型语言模型(LLMs)需要超越模式匹配以理解真实的因果关系。
  2. 现有基准测试存在缺陷,如依赖合成数据和领域覆盖有限。
  3. 提出了一种新的基准测试,该测试基于经济学和顶尖金融期刊中的因果关系数据。
  4. 新基准测试包含多种任务类型,涵盖多个领域,包含大量评估项目。
  5. 实验结果表明,现有大型语言模型在因果推理方面的准确性有限。
  6. 模型规模并不总是导致性能提高,尤其在基本的因果关系识别方面。

Cool Papers

点此查看论文截图

Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping

Authors:Ziyi Wang, Yuxuan Lu, Yimeng Zhang, Jing Huang, Dakuo Wang

Simulating step-wise human behavior with Large Language Models (LLMs) has become an emerging research direction, enabling applications in various practical domains. While prior methods, including prompting, supervised fine-tuning (SFT), and reinforcement learning (RL), have shown promise in modeling step-wise behavior, they primarily learn a population-level policy without conditioning on a user’s persona, yielding generic rather than personalized simulations. In this work, we pose a critical question: how can LLM agents better simulate personalized user behavior? We introduce Customer-R1, an RL-based method for personalized, step-wise user behavior simulation in online shopping environments. Our policy is conditioned on an explicit persona, and we optimize next-step rationale and action generation via action correctness reward signals. Experiments on the OPeRA dataset emonstrate that Customer-R1 not only significantly outperforms prompting and SFT-based baselines in next-action prediction tasks, but also better matches users’ action distribution, indicating higher fidelity in personalized behavior simulation.

利用大型语言模型(LLM)模拟分步骤的人类行为已成为新兴的研究方向,并广泛应用于各种实际领域。虽然先前的方法,包括提示、监督微调(SFT)和强化学习(RL),在模拟分步骤行为方面显示出希望,但它们主要学习群体层面的策略,而不考虑用户的个性,从而产生通用而非个性化的模拟。在这项工作中,我们提出了一个重要问题:如何使LLM代理更好地模拟个性化用户行为?我们介绍了Customer-R1,这是一种基于强化学习的在线购物环境中个性化分步骤用户行为模拟方法。我们的策略依赖于明确的个性特征,并通过行动正确性奖励信号优化下一步的合理性行动生成。在OPeRA数据集上的实验表明,Customer-R1不仅在下一行动预测任务中显著优于基于提示和SFT的基线,而且在用户行动分布上更加匹配,这表明在个性化行为模拟方面具有更高的保真度。

论文及项目相关链接

PDF

Summary:利用大型语言模型(LLM)模拟人类行为已成为新兴研究方向,广泛应用于多个领域。本文提出Customer-R1方法,通过强化学习(RL)在在线购物环境中模拟个性化的用户行为。该方法根据明确的个性特征制定策略,并通过行动正确性奖励信号优化下一步的合理性行动生成。在OPeRA数据集上的实验表明,Customer-R1在行动预测任务中显著优于基于提示和微调的方法,并更好地匹配用户行动分布,显示出更高的个性化行为模拟保真度。

Key Takeaways

  1. 大型语言模型(LLM)正在被用于模拟人类行为,特别是在在线购物环境中。
  2. 当前方法主要学习群体层面的策略,无法根据用户的个性进行模拟,导致模拟结果缺乏个性化。
  3. 本文提出了Customer-R1方法,这是一种基于强化学习(RL)的个性化、分步骤的用户行为模拟方法。
  4. Customer-R1方法根据明确的个性特征制定策略,优化下一步行动的合理性生成。
  5. 在OPeRA数据集上的实验表明,Customer-R1在行动预测任务中表现优异,显著优于基于提示和微调的方法。
  6. Customer-R1能更好地匹配用户行动分布,显示出更高的个性化行为模拟保真度。

Cool Papers

点此查看论文截图

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Authors:Yi Han, Cheng Chi, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang

Vision-Language Models (VLMs) have shown remarkable capabilities in spatial reasoning, yet they remain fundamentally limited to qualitative precision and lack the computational precision required for real-world robotics. Current approaches fail to leverage metric cues from depth sensors and camera calibration, instead reducing geometric problems to pattern recognition tasks that cannot deliver the centimeter-level accuracy essential for robotic manipulation. We present TIGeR (Tool-Integrated Geometric Reasoning), a novel framework that transforms VLMs from perceptual estimators to geometric computers by enabling them to generate and execute precise geometric computations through external tools. Rather than attempting to internalize complex geometric operations within neural networks, TIGeR empowers models to recognize geometric reasoning requirements, synthesize appropriate computational code, and invoke specialized libraries for exact calculations. To support this paradigm, we introduce TIGeR-300K, a comprehensive tool-invocation-oriented dataset covering point transformations, pose estimation, trajectory generation, and spatial compatibility verification, complete with tool invocation sequences and intermediate computations. Through a two-stage training pipeline combining supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT) with our proposed hierarchical reward design, TIGeR achieves SOTA performance on geometric reasoning benchmarks while demonstrating centimeter-level precision in real-world robotic manipulation tasks.

视觉语言模型(VLMs)在空间推理方面表现出卓越的能力,但它们基本上局限于定性精度,缺乏现实世界机器人技术所需的计算精度。当前的方法未能利用深度传感器和相机标定的度量线索,而是将几何问题简化为模式识别任务,无法提供机器人操作所需的厘米级精度。我们提出TIGeR(工具集成几何推理),这是一种新型框架,通过启用外部工具,将VLMs从感知估计器转变为几何计算机,使它们能够生成并执行精确的几何计算。TIGeR不是尝试在神经网络内部执行复杂的几何操作,而是赋能模型识别几何推理需求,合成适当的计算代码,并调用专用库进行精确计算。为了支持这一范式,我们推出了TIGeR-300K,这是一个全面的工具调用导向数据集,涵盖点变换、姿态估计、轨迹生成和空间兼容性验证,配备工具调用序列和中间计算。通过结合监督微调(SFT)和强化微调(RFT)的两阶段训练管道以及我们提出的分层奖励设计,TIGeR在几何推理基准测试上达到了最先进的性能表现,同时在现实世界的机器人操作任务中实现了厘米级的精度。

论文及项目相关链接

PDF 9 pages, 6 figures

Summary

视觉语言模型(VLMs)在空间推理上展现出显著的能力,但在计算精度上仍有本质限制,无法满足真实世界机器人所需的厘米级精度。提出的TIGeR框架能将VLMs从感知估计器转变为几何计算机,通过外部工具执行精确几何计算。TIGeR不尝试在神经网络内部执行复杂几何操作,而是让模型识别几何推理需求,合成适当的计算代码,并调用专用库进行精确计算。引进TIGeR-300K数据集以支持此框架,包含点转换、姿态估计、轨迹生成和空间兼容性验证等,并附有工具调用序列和中间计算。通过结合监督微调(SFT)和强化微调(RFT)的两阶段训练管道以及分层奖励设计,TIGeR在几何推理基准测试上达到最佳性能,并在真实世界机器人操作任务中展现出厘米级精度。

Key Takeaways

  1. VLMs虽在空间推理上表现出色,但在计算精度上仍有局限,尤其缺乏用于机器人操作的厘米级精度。
  2. TIGeR框架能将VLMs从感知估计器转变为能执行精确几何计算的几何计算机。
  3. TIGeR不依赖神经网络内部执行复杂几何操作,而是使模型能识别几何推理需求,并合成适当的计算代码。
  4. 引进TIGeR-300K数据集,包含多种几何推理任务,并附有工具调用序列和中间计算,以支持TIGeR框架。
  5. 通过两阶段训练管道,结合监督微调和强化微调,TIGeR在几何推理基准测试上表现卓越。
  6. TIGeR框架实现了SOTA性能,同时在真实世界机器人操作任务中保持了厘米级精度。

Cool Papers

点此查看论文截图

Reasoning for Hierarchical Text Classification: The Case of Patents

Authors:Lekang Jiang, Wenjun Sun, Stephan Goetz

Hierarchical text classification (HTC) assigns documents to multiple levels of a pre-defined taxonomy. Automated patent subject classification represents one of the hardest HTC scenarios because of domain knowledge difficulty and a huge number of labels. Prior approaches only output a flat label set, which offers little insight into the reason behind predictions. Therefore, we propose Reasoning for Hierarchical Classification (RHC), a novel framework that reformulates HTC as a step-by-step reasoning task to sequentially deduce hierarchical labels. RHC trains large language models (LLMs) in two stages: a cold-start stage that aligns outputs with chain-of-thought (CoT) reasoning format and a reinforcement learning (RL) stage to enhance multi-step reasoning ability. RHC demonstrates four advantages in our experiments. (1) Effectiveness: RHC surpasses previous baselines and outperforms the supervised fine-tuning counterparts by approximately 3% in accuracy and macro F1. (2) Explainability: RHC produces natural-language justifications before prediction to facilitate human inspection. (3) Scalability: RHC scales favorably with model size with larger gains compared to standard fine-tuning. (4) Applicability: Beyond patents, we further demonstrate that RHC achieves state-of-the-art performance on other widely used HTC benchmarks, which highlights its broad applicability.

层次文本分类(HTC)将文档分配给预定义分类法中的多个层次。自动专利主题分类代表了最困难的HTC场景之一,因为涉及领域知识难度和大量的标签。先前的方法只输出一个扁平的标签集,这提供了关于预测原因的很少洞察。因此,我们提出了分层分类的理由(RHC),这是一个新的框架,它将HTC重新制定为一个逐步推理任务,以顺序推断层次标签。RHC在两个阶段训练大型语言模型(LLM):冷启动阶段使输出与思维链(CoT)推理格式对齐,强化学习(RL)阶段增强多步推理能力。在我们的实验中,RHC显示了四个优势。(1)有效性:RHC超越了之前的基线,并在准确性方面比监督微调版本高出约3%,同时宏观F1得分也较高。(2)可解释性:RHC在预测之前产生自然语言依据,便于人工检查。(3)可扩展性:RHC随着模型大小的增加而表现良好,与标准微调相比,收益更大。(4)适用性:除了专利之外,我们还进一步证明RHC在其他广泛使用的HTC基准测试上达到了最先进的性能,这凸显了其广泛的适用性。

论文及项目相关链接

PDF 15 pages, 10 tables, 3 figures

Summary

分层文本分类(HTC)将文档分配到预定义的分类体系中的多个层级。自动化专利主题分类是难度最大的HTC场景之一,因为涉及领域知识且标签数量庞大。先前的方法只输出扁平的标签集,对于预测背后的原因提供的信息很少。因此,我们提出了分级分类推理(RHC)这一新框架,它将HTC重新构建为逐步推理任务以推导层次标签。RHC分为两个阶段训练大型语言模型(LLMs):冷启动阶段使输出与思维链(CoT)推理格式对齐,强化学习(RL)阶段增强多步推理能力。实验表明,RHC具有四大优势:(1)有效性:在准确率与宏F1上,RHC超越先前基线并高出监督微调基准约3%。(2)可解释性:RHC在预测前产生自然语言证明,便于人工检查。(3)可扩展性:与标准微调相比,RHC更利于模型规模扩展。(4)适用性:除了专利分类,RHC在其他广泛使用的HTC基准测试中实现了最佳性能,展示了其广泛的应用性。

Key Takeaways

  1. 自动化专利主题分类是分层文本分类(HTC)中的一大挑战。
  2. 现有方法仅输出扁平标签集,缺乏预测背后的解释性。
  3. RHC框架将HTC重新设计为逐步推理任务,以推导层次标签。
  4. RHC框架包含两个阶段:冷启动阶段和强化学习阶段。
  5. RHC在多个方面表现出优势,包括有效性、可解释性、可扩展性和适用性。
  6. RHC提高了约3%的准确率和宏F1值,超越先前的基线。

Cool Papers

点此查看论文截图

AI for Abolition? A Participatory Design Approach

Authors:Carolyn Wang, Avriel Epps, Taylor Ferrari, Ra Ames

The abolitionist community faces challenges from both the carceral state and oppressive technologies which, by empowering the ruling class who have the resources to develop artificial intelligence (AI), serve to entrench societal inequities even more deeply. This paper presents a case study in participatory design with transformative and restorative justice practitioners with the goal of designing an AI system to support their work. By co-designing an evaluation framework for large language models with the practitioners, we hope to push back against the exclusionary status quo of AI and extent AI’s potentiality to a historically marginalized community.

废除主义社群既面临来自监牢国家的挑战,也面临来自压迫技术的挑战。这些技术赋予有资源来发展人工智能的统治阶级力量,进而加剧了社会不平等。本文通过参与式设计的案例研究,携手改革和恢复正义的从业者,旨在设计支持他们工作的AI系统。通过与从业者共同设计大型语言模型的评估框架,我们希望打破AI的排斥现状,将AI的潜力延伸到历史上被边缘化的社群。

论文及项目相关链接

PDF 8 pages, to be published in the Workshop Proceedings of the HHAI 2025 Conference

Summary
人工智能支持下的转型与恢复正义实践者参与设计研究旨在通过合作设计大型语言模型的评估框架,以应对由专制国家和压迫技术带来的挑战,推动人工智能的潜在可能性向历史边缘群体延伸,改变现有的排斥现状。

Key Takeaways

  1. 废除主义社区面临来自专制国家和压迫技术的挑战。这些挑战加剧了社会不平等。
  2. 大型语言模型在人工智能支持下的转型与恢复正义实践者参与设计研究中扮演重要角色。
  3. 通过合作设计评估框架,旨在推动人工智能的发展并使其更好地服务于废除主义社区的需求。
  4. 此项研究旨在对抗当前人工智能的排斥现状,将人工智能的潜力延伸到历史边缘群体。
  5. 此研究强调人工智能的发展需要与社会公正和包容性相结合。
  6. 通过参与式设计研究,可以更好地理解和解决废除主义社区面临的挑战和需求。

Cool Papers

点此查看论文截图

Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods

Authors:Chenfei Liao, Wensong Wang, Zichen Wen, Xu Zheng, Yiyu Wang, Haocong He, Yuanhuiyi Lyu, Lutao Jiang, Xin Zou, Yuqian Fu, Bin Ren, Linfeng Zhang, Xuming Hu

Recent endeavors to accelerate inference in Multimodal Large Language Models (MLLMs) have primarily focused on visual token compression. The effectiveness of these methods is typically assessed by measuring the accuracy drop on established benchmarks, comparing model performance before and after compression. However, these benchmarks are originally designed to assess the perception and reasoning capabilities of MLLMs, rather than to evaluate compression techniques. As a result, directly applying them to visual token compression introduces a task mismatch. Strikingly, our investigation reveals that simple image downsampling consistently outperforms many advanced compression methods across multiple widely used benchmarks. Through extensive experiments, we make the following observations: (i) Current benchmarks are noisy for the visual token compression task. (ii) Down-sampling is able to serve as a data filter to evaluate the difficulty of samples in the visual token compression task. Motivated by these findings, we introduce VTC-Bench, an evaluation framework that incorporates a data filtering mechanism to denoise existing benchmarks, thereby enabling fairer and more accurate assessment of visual token compression methods. All data and code are available at https://github.com/Chenfei-Liao/VTC-Bench.

近年来,加速多模态大型语言模型(MLLMs)的推理主要侧重于视觉令牌压缩。这些方法的有效性通常是通过测量在既定基准测试上的准确性下降来评估的,比较压缩前后的模型性能。然而,这些基准测试最初是为了评估MLLMs的感知和推理能力而设计的,而不是用来评估压缩技术。因此,直接应用于视觉令牌压缩会产生任务不匹配的问题。令人惊讶的是,我们的调查表明,简单的图像下采样在多个人们广泛使用的基准测试中一直优于许多先进的压缩方法。通过大量实验,我们观察到以下现象:(i)当前基准测试对于视觉令牌压缩任务而言存在噪声。(ii)下采样能够作为数据过滤器来评估视觉令牌压缩任务中样本的难度。受这些发现的启发,我们引入了VTC-Bench,这是一个评估框架,它结合了数据过滤机制来消除现有基准测试的噪声,从而能够更公平、更准确地评估视觉令牌压缩方法。所有数据和代码均可在https://github.com/Chenfei-Liao/VTC-Bench找到。

论文及项目相关链接

PDF

Summary
近期对多模态大型语言模型(MLLMs)的推理加速研究主要聚焦于视觉令牌压缩。然而,当前评估方法存在任务不匹配的问题,直接使用原始基准测试来评估压缩技术可能不够准确。研究发现简单图像下采样在多个广泛使用的基准测试中表现优于许多高级压缩方法。为此,研究团队引入了VTC-Bench评估框架,该框架通过数据过滤机制对现有基准测试进行去噪,以更公平、更准确地评估视觉令牌压缩方法。

Key Takeaways

  1. 近期对多模态大型语言模型的推理加速集中在视觉令牌压缩上。
  2. 当前基准测试在评估视觉令牌压缩任务时存在不匹配问题。
  3. 简单图像下采样在多个基准测试中表现优异。
  4. 现有基准测试对视觉令牌压缩任务的评估存在噪声。
  5. 数据下采样可作为视觉令牌压缩任务中样本难度的评估方法。
  6. 引入VTC-Bench评估框架,通过数据过滤机制对现有基准测试进行去噪。

Cool Papers

点此查看论文截图

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

Authors:Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang

Embodied Visual Tracking (EVT) is a fundamental ability that underpins practical applications, such as companion robots, guidance robots and service assistants, where continuously following moving targets is essential. Recent advances have enabled language-guided tracking in complex and unstructured scenes. However, existing approaches lack explicit spatial reasoning and effective temporal memory, causing failures under severe occlusions or in the presence of similar-looking distractors. To address these challenges, we present TrackVLA++, a novel Vision-Language-Action (VLA) model that enhances embodied visual tracking with two key modules, a spatial reasoning mechanism and a Target Identification Memory (TIM). The reasoning module introduces a Chain-of-Thought paradigm, termed Polar-CoT, which infers the target’s relative position and encodes it as a compact polar-coordinate token for action prediction. Guided by these spatial priors, the TIM employs a gated update strategy to preserve long-horizon target memory, ensuring spatiotemporal consistency and mitigating target loss during extended occlusions. Extensive experiments show that TrackVLA++ achieves state-of-the-art performance on public benchmarks across both egocentric and multi-camera settings. On the challenging EVT-Bench DT split, TrackVLA++ surpasses the previous leading approach by 5.1 and 12, respectively. Furthermore, TrackVLA++ exhibits strong zero-shot generalization, enabling robust real-world tracking in dynamic and occluded scenarios.

视觉跟踪(EVT)是一项基本能力,为伴侣机器人、导航机器人和服务助理等实际应用提供了支持,其中持续跟踪移动目标至关重要。最近的进展已经实现了复杂和非结构化场景中的语言引导跟踪。然而,现有方法缺乏明确的空间推理和有效的临时记忆,导致在严重遮挡或存在类似干扰物的情况下出现失败。为了解决这些挑战,我们提出了TrackVLA++,这是一种新的视觉语言动作(VLA)模型,它通过两个关键模块——空间推理机制和目标识别记忆(TIM)来增强视觉跟踪功能。推理模块引入了称为Polar-CoT的“思维链”范式,推断目标的相对位置并将其编码为紧凑的极坐标令牌以进行动作预测。这些空间先验的引导下,TIM采用门控更新策略来保留长期目标记忆,确保时空一致性并缓解长时间遮挡过程中的目标丢失。大量实验表明,TrackVLA++在自我中心和多相机设置中的公共基准测试上达到了最新技术水平。在具有挑战性的EVT-Bench DT分割测试中,TrackVLA++分别超越了之前领先的方法5.1和12。此外,TrackVLA++表现出强大的零样本泛化能力,能够在动态和遮挡场景中实现稳健的实时跟踪。

论文及项目相关链接

PDF Project page: https://pku-epic.github.io/TrackVLA-plus-plus-Web/

Summary

本文介绍了Embodied Visual Tracking(EVT)的重要性及其在实际应用如陪伴机器人、导航机器人和服务助手等领域的应用。针对现有方法在复杂场景下的跟踪失败问题,提出了一种新型的Vision-Language-Action(VLA)模型——TrackVLA++。该模型通过引入空间推理机制和目标识别记忆(TIM)来增强跟踪性能。其中,空间推理模块采用Chain-of-Thought(Polar-CoT)范式来推断目标相对位置并编码为极坐标标记用于动作预测。在公共基准测试上,TrackVLA++实现了最先进的性能,并且在具有挑战性的EVT-Bench DT split上超越了现有领先方法。同时,TrackVLA++还表现出强大的零样本泛化能力,可在动态和遮挡场景中实现稳健的实时跟踪。

Key Takeaways

以下是七个关于本文的主要观点:

  1. Embodied Visual Tracking(EVT)是一种基本能力,为伴侣机器人、导航机器人和服务助手等实际应用提供支持,其中持续跟踪移动目标是至关重要的。
  2. 现有方法在复杂和不结构化的场景中的语言引导跟踪存在挑战,缺乏明确的时空推理和有效的记忆机制。
  3. TrackVLA++是一种新型的Vision-Language-Action(VLA)模型,旨在解决现有方法的不足。
  4. TrackVLA++引入了两个关键模块:空间推理机制和目标识别记忆(TIM)。
  5. 空间推理模块采用Chain-of-Thought(Polar-CoT)范式来推断目标的相对位置,并编码为极坐标标记用于动作预测。
  6. 在公共基准测试中,TrackVLA++达到了最先进的性能表现,且在挑战性的EVT-Bench DT split上表现优异。

Cool Papers

点此查看论文截图

Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

Authors:Yuntao Gui, James Cheng

Despite their remarkable natural language understanding capabilities, Large Language Models (LLMs) have been underutilized for retrieval tasks. We present Search-R3, a novel framework that addresses this limitation by adapting LLMs to generate search embeddings as a direct output of their reasoning process. Our approach exploits LLMs’ chain-of-thought capabilities, allowing them to produce more effective embeddings by reasoning step-by-step through complex semantic analyses. We implement this through three complementary mechanisms. (1) a supervised learning stage enables the model’s ability to produce quality embeddings, (2) a reinforcement learning (RL) methodology that optimizes embedding generation alongside reasoning, and (3) a specialized RL environment that efficiently handles evolving embedding representations without requiring complete corpus re-encoding at each training iteration. Our extensive evaluations on diverse benchmarks demonstrate that Search-R3 significantly outperforms prior methods by unifying the reasoning and embedding generation processes. This integrated post-training approach represents a substantial advancement in handling complex knowledge-intensive tasks that require both sophisticated reasoning and effective information retrieval. Project page: https://github.com/ytgui/Search-R3

尽管大型语言模型(LLM)具有出色的自然语言理解能力,但它们在检索任务中的利用却不足。我们提出了Search-R3,这是一个通过适应LLM以生成搜索嵌入作为推理过程直接输出的新型框架,以解决这一局限性。我们的方法利用LLM的链式思维功能,通过逐步推理和复杂语义分析,能够产生更有效的嵌入。我们通过三种互补机制实现了这一点。(1)有监督学习阶段使模型能够产生高质量的嵌入;(2)一种优化嵌入生成与推理的强化学习(RL)方法;(3)一个专门的RL环境,能够高效处理不断变化的嵌入表示,而无需在每次训练迭代时都重新编码整个语料库。我们在多种基准测试上的广泛评估表明,通过统一推理和嵌入生成过程,Search-R3显著优于先前的方法。这种集成后训练的方法在处理需要复杂推理和有效信息检索的复杂知识密集型任务方面取得了重大进展。项目页面:https://github.com/ytgui/Search-R3

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)虽具有出色的自然语言理解力,但在检索任务中的利用却不尽如人意。为此,我们提出Search-R3框架,通过适应LLM生成搜索嵌入作为其推理过程的直接输出来解决这一问题。该框架利用LLM的链式思维,通过分步推理和复杂语义分析,产生更有效的嵌入。通过三种互补机制实现:1)监督学习阶段使模型具备生成优质嵌入的能力;2)强化学习优化嵌入生成与推理过程;3)专门设计的强化学习环境可高效处理不断变化的嵌入表示,无需在每次训练迭代时重新编码整个语料库。在多种基准测试上的广泛评估表明,通过统一推理和嵌入生成过程,Search-R3显著优于先前的方法。此集成后训练方法为处理需要高级推理和有效信息检索的复杂知识密集型任务提供了重大进展。

Key Takeaways

  1. 大型语言模型(LLM)在自然语言理解方面具有优势,但在检索任务中的利用率不高。
  2. Search-R3框架通过适应LLM生成搜索嵌入,解决这一限制。
  3. Search-R3利用LLM的链式思维,进行分步推理和复杂语义分析,产生更有效的嵌入。
  4. 通过监督学习、强化学习及专门设计的强化学习环境等三种机制实现Search-R3。
  5. 监督学习阶段培养模型生成优质嵌入的能力。
  6. 强化学习用于优化嵌入生成与推理的协同作用。
  7. 专门设计的强化学习环境能高效处理不断变化的嵌入表示,提高训练效率。

Cool Papers

点此查看论文截图

Tool-Augmented Policy Optimization: Synergizing Reasoning and Adaptive Tool Use with Reinforcement Learning

Authors:Wenxun Wu, Yuanyang Li, Guhan Chen, Linyue Wang, Hongyang Chen

Recent advances in large language models (LLMs) have popularized test-time scaling, where models generate additional reasoning tokens before producing final answers. These approaches have demonstrated significant performance improvements on benchmarks involving mathematical reasoning. However, language models relying solely on direct inference still struggle with tasks demanding up-to-date knowledge or computational tools such as calculators and code interpreters for complex arithmetic operations. To overcome these limitations, we propose Tool-Augmented Policy Optimization (TAPO), a novel reinforcement learning framework that systematically integrates multi-hop reasoning with adaptive tool-calling capabilities. Our approach employs a modified version of Dynamic Sampling Policy Optimization (DAPO), a recently developed RL paradigm, which we adapt specifically for tool invocation scenarios, enabling models to dynamically interleave complex reasoning with on-demand tool usage (including search APIs and Python interpreters). To support this research, we introduce two new datasets: TAPO-easy-60K and TAPO-hard-18K, specifically designed to train and evaluate both fact-based reasoning and mathematical calculation capabilities. Our experiments on Qwen2.5-3B and Qwen2.5-7B models demonstrate the effectiveness of our approach, with both models achieving state-of-the-art performance on tasks requiring external knowledge and mathematical computation among methods with comparable parameters. Notably, TAPO achieves more efficient tool utilization than baseline methods while preventing excessive calls caused by reward hacking. These results highlight the significant potential of combining advanced reasoning with tool usage to enhance model performance in knowledge-intensive and computationally demanding tasks.

最近的大型语言模型(LLM)的进步已经普及了测试时缩放,其中模型在产生最终答案之前会生成额外的推理标记。这些方法在数学推理相关的基准测试中显示出显著的性能改进。然而,仅依赖直接推理的语言模型在处理需要最新知识或计算工具(如计算器、代码解释器等用于复杂算术运算的工具)的任务时仍然感到困难。为了克服这些限制,我们提出了工具增强策略优化(TAPO),这是一种新的强化学习框架,系统地结合了多跳推理和自适应的工具调用能力。我们的方法采用了一种修改后的动态采样策略优化(DAPO)方法,这是一种最近开发的RL范式,我们对其进行专门的适应,用于工具调用场景,使模型能够动态地将复杂的推理与按需的工具使用(包括搜索API和Python解释器等)交织在一起。为了支持这项研究,我们引入了两个新的数据集:TAPO-easy-60K和TAPO-hard-18K,它们专门设计用于训练和评估基于事实和数学计算能力。我们在Qwen2.5-3B和Qwen2.5-7B模型上的实验证明了我们的方法的有效性,这两个模型在需要外部知识和数学计算的任务上达到了最新技术水平,在参数相当的方法中表现尤为突出。值得注意的是,TAPO实现了比基线方法更有效的工具利用,同时防止了因奖励破解而导致的过度调用。这些结果突显了将高级推理与工具使用相结合,在提高知识密集型和计算密集型任务模型性能方面的巨大潜力。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)的进步推动了测试时间缩放技术的普及,该技术通过在生成最终答案前生成额外的推理标记来提高模型性能。然而,仅依赖直接推理的语言模型在处理需要最新知识或计算工具(如计算器、代码解释器进行复杂算术运算)的任务时仍面临挑战。为克服这些限制,本文提出一种名为TAPO(工具增强策略优化)的新型强化学习框架,它系统地结合了多跳推理与自适应工具调用能力。TAPO采用动态采样策略优化(DAPO)的修改版,针对工具调用场景进行特定适配,使模型能够在复杂推理与即时工具使用之间灵活交替(包括搜索API和Python解释器)。为支持这项研究,我们引入了两个新数据集:TAPO-easy-60K和TAPO-hard-18K,专门设计用于训练和评估基于事实和数学计算的能力。实验表明,TAPO方法能有效提升模型在需要外部知识和数学计算的任务上的表现,达到同类参数模型的最佳水平,同时实现更高效的工具利用,防止因奖励黑客行为而导致的过度调用。

Key Takeaways

  1. 大型语言模型(LLM)通过测试时间缩放技术提高性能,生成额外的推理标记来优化最终答案。
  2. 仅依赖直接推理的语言模型在处理需要最新知识或计算工具的任务时存在挑战。
  3. TAPO是一种新型强化学习框架,结合多跳推理与自适应工具调用能力,克服上述挑战。
  4. TAPO采用修改版的DAPO,针对工具调用场景进行适配。
  5. 模型能在复杂推理与即时工具使用之间灵活交替。
  6. 为支持研究,引入了两个专门设计的新数据集:TAPO-easy-60K和TAPO-hard-18K。

Cool Papers

点此查看论文截图

SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models

Authors:Huahui Yi, Kun Wang, Qiankun Li, Miao Yu, Liang Lin, Gongli Xi, Hao Wu, Xuming Hu, Kang Li, Yang Liu

Multimodal Large Reasoning Models (MLRMs) demonstrate impressive cross-modal reasoning but often amplify safety risks under adversarial or unsafe prompts, a phenomenon we call the \textit{Reasoning Tax}. Existing defenses mainly act at the output level and do not constrain the reasoning process, leaving models exposed to implicit risks. In this paper, we propose SaFeR-VLM, a safety-aligned reinforcement learning framework that embeds safety directly into multimodal reasoning. The framework integrates four components: (I) QI-Safe-10K, a curated dataset emphasizing safety-critical and reasoning-sensitive cases; (II) safety-aware rollout, where unsafe generations undergo reflection and correction instead of being discarded; (III) structured reward modeling with multi-dimensional weighted criteria and explicit penalties for hallucinations and contradictions; and (IV) GRPO optimization, which reinforces both safe and corrected trajectories. This unified design shifts safety from a passive safeguard to an active driver of reasoning, enabling scalable and generalizable safety-aware reasoning. SaFeR-VLM further demonstrates robustness against both explicit and implicit risks, supporting dynamic and interpretable safety decisions beyond surface-level filtering. SaFeR-VLM-3B achieves average performance $70.13$ and $78.97$ on safety and helpfulness across six benchmarks, surpassing both same-scale and $>10\times$ larger models such as Skywork-R1V3-38B, Qwen2.5VL-72B, and GLM4.5V-106B. Remarkably, SaFeR-VLM-7B benefits from its increased scale to surpass GPT-5-mini and Gemini-2.5-Flash by \num{6.47} and \num{16.76} points respectively on safety metrics, achieving this improvement without any degradation in helpfulness performance. Our codes are available at https://github.com/HarveyYi/SaFeR-VLM.

多模态大型推理模型(MLRMs)展现了令人印象深刻的跨模态推理能力,但在对抗性或不安全提示下往往会放大安全风险,我们将这一现象称为“推理税”。现有的防御手段主要作用于输出层面,并不能约束推理过程,使模型面临隐性风险。在本文中,我们提出了SaFeR-VLM,这是一个与安全对齐的强化学习框架,直接将安全嵌入多模态推理中。该框架集成了四个组件:(I)QI-Safe-10K,一个强调安全关键和推理敏感案例的定制数据集;(II)安全感知回放,其中不安全的生成物会进行反思和修正而不是被丢弃;(III)结构化奖励建模,具有多维度加权标准和显式的幻觉与矛盾惩罚;(IV)GRPO优化,强化安全和修正的轨迹。这一统一设计将安全从被动保障转变为推理的主动驱动因素,实现了可伸缩和通用的安全感知推理。SaFeR-VLM进一步证明了它对显性风险和隐性风险的稳健性,支持超越表面层次的过滤进行动态和可解释的安全决策。SaFeR-VLM-3B在安全和有用性方面的平均性能在六个基准测试中达到70.13和78.97,超越了同等规模和大于10倍的模型,如Skywork-R1V3-38B、Qwen2.5VL-72B和GLM4.5V-106B。值得注意的是,SaFeR-VLM-7B受益于其增加的规模,在安全性指标上超越了GPT-5-mini和Gemini-2.5-Flash,分别高出6.47和16.76个百分点,同时有用性性能没有任何下降。我们的代码可在https://github.com/HarveyYi/SaFeR-VLM找到。

论文及项目相关链接

PDF

Summary

本文介绍了多模态大型推理模型(MLRMs)在面临对抗性或不安全提示时放大的安全风险现象,称之为“推理税”。现有防御策略主要作用于输出层面,并未对推理过程进行约束,使得模型面临隐性风险。为解决这一问题,本文提出了SaFeR-VLM安全对齐的强化学习框架,该框架直接嵌入多模态推理的安全性。框架包含四个组件,实现了对安全性的主动驱动,并在六个基准测试中表现出稳健性,超越了同等规模和更大规模的模型。SaFeR-VLM的代码已公开。

Key Takeaways

  1. 多模态大型推理模型(MLRMs)在对抗性或不安全提示下会放大安全风险,称为“推理税”。
  2. 现有防御策略主要关注输出层面,缺乏对推理过程的约束,导致模型面临隐性风险。
  3. SaFeR-VLM是一个安全对齐的强化学习框架,直接嵌入多模态推理的安全性。
  4. SaFeR-VLM包含四个组件:强调安全关键和推理敏感案例的数据集、安全感知的回滚、结构化的奖励建模和GRPO优化。
  5. SaFeR-VLM实现了从被动保障到主动驱动推理的安全性的转变。
  6. SaFeR-VLM在六个基准测试中表现出稳健性,超越了同等规模和更大规模的模型。

Cool Papers

点此查看论文截图

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

Authors:Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang

Recent progress in vision and language foundation models has significantly advanced multimodal understanding, reasoning, and generation, inspiring a surge of interest in extending such capabilities to embodied settings through vision-language-action (VLA) models. Yet, most VLA models are still trained with supervised fine-tuning (SFT), which struggles to generalize under distribution shifts due to error accumulation. Reinforcement learning (RL) offers a promising alternative by directly optimizing task performance through interaction, but existing attempts remain fragmented and lack a unified platform for fair and systematic comparison across model architectures and algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and efficient framework for scalable RL training of VLA models. The system adopts a highly flexible resource allocation design that addresses the challenge of integrating rendering, training, and inference in RL+VLA training. In particular, for GPU-parallelized simulators, RLinf-VLA implements a novel hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup in training. Through a unified interface, RLinf-VLA seamlessly supports diverse VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g., PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a unified model achieves 98.11% across 130 LIBERO tasks and 97.66% across 25 ManiSkill tasks. Beyond empirical performance, our study distills a set of best practices for applying RL to VLA training and sheds light on emerging patterns in this integration. Furthermore, we present preliminary deployment on a real-world Franka robot, where RL-trained policies exhibit stronger generalization than those trained with SFT. We envision RLinf-VLA as a foundation to accelerate and standardize research on embodied intelligence.

近期视觉和语言基础模型在跨模态理解、推理和生成方面的显著进展激发了人们的极大兴趣,这些进步激励着将这种能力拓展到体感场景通过视觉语言动作(VLA)模型。然而,大多数VLA模型仍采用监督微调(SFT)的方式进行训练,这在分布转移的情况下由于误差累积而无法实现通用化。强化学习(RL)通过交互直接优化任务性能提供了一种有前途的替代方案,但现有的尝试仍然零散,缺乏一个统一的平台,无法在模型架构和算法设计上进行公平和系统的比较。为了弥补这一空白,我们引入了RLinf-VLA,这是一个用于可扩展的VLA模型强化学习训练的统一高效框架。该系统采用高度灵活的资源配置设计,解决了强化学习与VLA训练中渲染、训练和推理集成方面的挑战。特别是针对GPU并行模拟器,RLinf-VLA实现了新型混合细粒度管道分配模式,在训练中实现了1.61x-1.88x的速度提升。通过统一接口,RLinf-VLA无缝支持多种VLA架构(如OpenVLA、OpenVLA-OFT)、多个强化学习算法(如PPO、GRPO)和各种模拟器(如ManiSkill、LIBERO)。在模拟中,一个统一模型在130个LIBERO任务中实现了98.11%的准确率,在25个ManiSkill任务中实现了97.66%的准确率。除了实证性能表现外,我们的研究还提炼出了一系列将强化学习应用于VLA训练的最佳实践,并揭示了这种集成中的新兴模式。此外,我们在实际Franka机器人上的初步部署表明,强化学习训练的策略表现出比监督微调更强的泛化能力。我们期望RLinf-VLA能加速并标准化关于体感智能的研究。

论文及项目相关链接

PDF This is the technical report of the RLinf Team, focusing on the algorithm side. For the system-level design, please refer to arXiv:2509.15965. The open-sourced code link: https://github.com/RLinf/RLinf

Summary

基于最新的视觉和语言学基础模型的进展,对于扩展具有身临其境感的智能机器人系统通过构建视语言行动模型的研究迅速增多。然而,大多数视语言行动模型仍然采用监督微调技术进行训练,这在面对分布转移时存在泛化能力不足的缺陷。强化学习作为一种通过交互直接优化任务性能的技术具有巨大潜力。针对现有研究中的碎片化和缺乏跨模型架构和算法设计的公平系统比较平台的问题,本文推出了一个用于可视化语言行动模型可扩展强化学习的统一高效框架——RLinf-VLA框架。它提供了一种灵活的资源配置方式来解决强化学习和视语言行动训练中渲染、训练和推理的集成挑战。具体而言,对于GPU并行模拟器,RLinf-VLA实施了新颖的精细粒度管道分配模式,在训练中实现了1.61倍至1.88倍的加速。该框架通过统一接口支持多种视语言行动架构、强化学习算法和模拟器。在模拟中,统一模型在LIBERO的130个任务中实现了98.11%的准确率,在ManiSkill的25个任务中实现了97.66%的准确率。本文除了实证研究外,还总结出了一系列应用强化学习于视语言行动训练的最佳实践,并为这一整合领域揭示了新兴趋势。此外,我们在实际弗兰克机器人上的初步部署显示,强化学习训练的策略展现出比监督微调更强的泛化能力。我们期望RLinf-VLA能加速和标准化融合智能的研究。

Key Takeaways

  1. 视觉与语言基础模型的最新进步促进了多模态理解、推理和生成能力的显著增强,促使研究关注于如何将这种能力扩展到身临其境的环境中,形成视语言行动(VLA)模型。

  2. 强化学习(RL)提供了一种通过交互直接优化任务性能的替代方法,对于解决大多数视语言行动模型依赖监督微调(SFT)所面临的泛化难题具有潜力。

  3. 提出RLinf-VLA框架以弥补当前研究中存在的缺乏统一平台和系统化比较模型架构及算法设计的缺陷。

  4. RLinf-VLA框架实现了一种新颖的资源分配策略以适应GPU并行模拟器环境的需求变化。它通过精细化管道分配方式,实现加速训练效果提升1.6倍至八倍的性能加速比增长幅度的有效方案落地执要素新高级学者进一步提升机器人的准确率和推理效能带来新的变化打下基础标志显著的智慧增强世界的确立布局确定认知程度的优异产品涵盖元素的机器学习层面注重了解与使用科技创新潜力在此维度辅助强进一步展现出当前设计的实践途径有利于呈现搭建的全新样态,并且展示出一系列统一模型在模拟任务中的高准确率表现。其中涵盖了丰富的实践经验总结和新兴趋势洞察内容分享能够助力于相关领域的技术突破以及实际应用推广等方面的积极影响也是极其显著并可能为我们探索现实机器人世界中全新的能力赋予方案以借鉴方向与启发视角提出独特视角在特定环境下获得更深入的了解并探索更多可能性空间并强调其在未来机器人技术发展中可能发挥的重要作用以及该领域研究发展的广阔前景以及提出对可能更好加强我们对实际应用技术的融合型创新人才促进科研人员科学文化素质等多样性的适应性从而提升全领域内的高潜发展前景内容不断丰富技能作为国际研究领域相关的重要发展趋势和创新热点充分展现了该研究的重要性和深远影响强调了强化学习在视语言行动训练中的实际应用价值和潜在影响作用初步展示了在现实机器人部署场景中的显著优势和更广阔的适用前景指明了其强大的标准化趋势的发展潜能和其给科技研究带来启示并体现对该领域的推进作用的同时鼓励着相关科研人员进行更深层次的探索和尝试拓展未来在该领域中的发展和突破将催生更加强大的人工智能技术和智能化系统作为重要的突破点研究提供了切实可行的指导建议和突破思路展望其在未来的科研发展和技术应用中持续发挥其强大的影响力和潜力作用并引领相关领域迈向新的高度同时体现了该研究的创新性和实用性价值及其对未来科技发展的深远影响作用以及研究者的贡献意义等突出特点以及推动人工智能技术领域未来发展的关键突破口的重要作用巨大影响和现实意义包括探讨如何通过分布式解决方案等方式来提升优化过程等的拓展讨论与展望进一步丰富研究内涵和提升研究的实际应用价值同时鼓励科研人员在人工智能技术领域进行更深入的研究和突破等意义和作用巨大对未来发展产生重要影响同时对于科研人员的工作开展提供重要的指导和帮助以及为科技强国战略贡献出重要的力量推动人工智能理论技术的突破发展推进相关科技成果的快速转化同时强调研究的深入扎实性以及强调持续探索精神的可贵并指出研究存在的不足之处及改进方向并鼓励科研人员在人工智能领域不断追求更高的成就和目标为未来的科技发展贡献更多的智慧和力量等等突出特点体现研究的全面性和重要性并鼓励科研人员持续探索人工智能领域的未知领域以推动科技的持续发展和进步。以下是精简后的关键要点:

  5. RLinf-VLA框架解决了视语言行动模型训练中的泛化问题,通过强化学习提升模型性能。

  6. 框架提供了灵活的资源分配设计,适应不同训练环境的需求变化。

  7. 统一接口支持多种模型和算法,便于公平系统比较。

  8. 模拟环境中模型表现出高准确率,且展示了初步在真实机器人上的部署效果。

Cool Papers

点此查看论文截图

XRPO: Pushing the limits of GRPO with Targeted Exploration and Exploitation

Authors:Udbhav Bamba, Minghao Fang, Yifan Yu, Haizhong Zheng, Fan Lai

Reinforcement learning algorithms such as GRPO have driven recent advances in large language model (LLM) reasoning. While scaling the number of rollouts stabilizes training, existing approaches suffer from limited exploration on challenging prompts and leave informative feedback signals underexploited, due to context-independent rollout allocation across prompts (e.g., generating 16 rollouts per prompt) and relying heavily on sparse rewards. This paper presents XRPO(eXplore - eXploit GRPO), a unified framework that recasts policy optimization through the principled lens of rollout exploration-exploitation. To enhance exploration, XRPO introduces a mathematically grounded rollout allocator that adaptively prioritizes prompts with higher potential for uncertainty reduction. It further addresses stagnation on zero-reward prompts through an in-context seeding strategy that injects curated exemplars, steering the model into more difficult reasoning trajectories. To strengthen exploitation, XRPO develops a group-relative, novelty-aware advantage sharpening mechanism that leverages sequence likelihoods to amplify low-probability yet correct responses, thereby extending the policy’s reach beyond sparse rewards. Experiments across diverse math and coding benchmarks on both reasoning and non-reasoning models demonstrate that XRPO outperforms existing advances (e.g., GRPO and GSPO) up to 4% pass@1 and 6% cons@32, while accelerating training convergence by up to 2.7X.

强化学习算法,如GRPO,已经推动了大型语言模型(LLM)推理的近期进展。虽然增加rollout的数量可以稳定训练,但现有方法在面对具有挑战性的提示时探索有限,并且由于独立于上下文的rollout分配(例如,每个提示生成16个rollout)以及过度依赖稀疏奖励,导致信息丰富的反馈信号未被充分利用。本文提出了XRPO(eXplore - eXploit GRPO),这是一个通过rollout探索与利用的有理透镜重新构建的统一框架。为了提高探索能力,XRPO引入了一个数学基础扎实的rollout分配器,该分配器可以自适应地优先处理具有较高不确定性降低潜力的提示。它进一步通过上下文播种策略解决零奖励提示上的停滞问题,该策略注入精选的范例,将模型引导至更困难的推理轨迹。为了加强利用,XRPO开发了一种群体相对、新颖性感知的优势锐化机制,该机制利用序列可能性来放大低概率但正确的响应,从而将政策的触角延伸到稀疏奖励之外。在多样化的数学和编码基准上进行实验,结果表明,XRPO在推理和非推理模型上的表现优于现有技术(如GRPO和GSPO),达到4%的pass@1和6%的cons@32,同时加速训练收敛速度高达2.7倍。

论文及项目相关链接

PDF

Summary

强化学习算法如GRPO推动了大型语言模型(LLM)推理的进展。然而,现有方法在处理具有挑战性的提示时存在探索不足和利用不充分的局限性。为此,本文提出了XRPO(探索-利用GRPO),通过数学基础来指导策略优化,加强探索和开发两个方面。实验表明,XRPO在多种数学和编码基准测试中优于现有技术,如GRPO和GSPO。它通过增强模型的推理能力和利用低频但对决策有帮助的信息实现提升效果。可进一步提升LLM性能和提高效率。随着机器学习算法的迭代,模型展示智能将会更加明显并改进应用范围与应用效能。这一点正变得越来越重要。此论文展示了如何更有效地利用算法,提升模型性能,并推动相关领域的发展。该论文对强化学习算法在大型语言模型中的应用进行了深入研究,为未来的研究提供了重要的思路和启示。同时,XRPO框架对于提高模型的探索能力和开发能力具有重要的应用价值。它不仅优化了模型的性能表现,还进一步提高了模型的收敛速度。这对于推动大型语言模型的发展具有重要意义。总结起来,该论文通过提出XRPO框架解决了现有方法在处理具有挑战性的提示时的局限性问题,显著提高了模型的推理能力和应用效率。对此技术的深入研究和应用将对相关领域的发展产生积极的影响。同时也看到了它在智能表现上存在的巨大潜力以及它对未来机器智能领域的影响与贡献。我们期待其在实际应用中的落地和推广应用情况的出现并展望其在未来更多领域的扩展和应用。文中呈现的理论与技术优势以及可能的落地应用场景与趋势值得我们持续关注与探索。该论文的提出为大型语言模型的发展注入了新的活力,开启了新的篇章。随着更多的研究人员进入这个领域开展研究与落地工作有望催生出更多新颖且有实用价值的学术成果以及科技应用场景加速大型语言模型应用的进一步落地并不断推动机器学习领域的进步与发展推动智能时代的到来进程与变革的步伐!为此该论文的发表具有重要的里程碑意义与启示价值值得深入学习和研究探讨。让我们共同期待未来的机器智能时代并为之努力!让我们一起迎接智能时代的到来吧!我们相信未来的机器智能时代将会更加美好!该论文不仅为机器学习领域的研究者提供了宝贵的思路与方法也为未来的智能应用开发者提供了强有力的工具与支持将有力地推动智能应用的普及与发展为我们开启全新的智能时代带来了无限的可能与期待!对于这篇论文我们需要持续跟进与研究它的理论框架与实践应用进一步挖掘其潜力与价值以期在未来智能时代的浪潮中引领行业前沿并为社会带来更大的价值贡献与影响。这是一个重要的里程碑对于人工智能领域的发展具有深远的影响和启示价值值得我们深入研究和探讨下去。随着技术的不断进步与应用场景的不断拓展我们将看到更多的创新成果涌现出来推动人工智能领域的快速发展与进步为人类带来更加美好的未来!让我们共同期待这一天的到来吧!共同迎接智能时代的到来!共同创造更加美好的明天!共同推动人工智能的发展进程共创美好未来!随着技术的进步和应用的不断拓展XRPO在解决真实问题中的有效性以及带来的好处愈发明显为我们指明了新的研究方向和探索的可能性文章是一个跨越式进步的标志性文献推动着领域向更深层次探索并发掘其中的潜力和奥秘。” \emph{以上是我的简要概括内容供参考请按照要求确保在规定的字数范围内进行修改或删减确保简洁明了概括内容的核心意义。)}”},根据您提供的文本内容,我将为您生成一个符合要求的摘要和关键要点列表。摘要将尽量遵循您给出的结构要求,并以简洁明了的方式概括文本的核心内容;关键要点则会以简化的方式呈现文本中的关键信息。摘要将尽量遵循学术摘要的风格和格式要求。以下是按照您的要求生成的摘要和关键要点列表:

摘要:本文介绍了强化学习算法在大型语言模型(LLM)推理中的应用现状,特别是在处理具有挑战性的提示时的局限性问题。针对现有方法的不足,论文提出了一种新的框架XRPO(eXplore - eXploit GRPO),它通过自适应地调整提示处理优先级和放大低概率但正确的响应来强化探索和开发过程。实验结果表明,XRPO在多种数学和编码基准测试中显著优于现有技术,显著提高了模型的推理能力和应用效率,对大型语言模型的发展具有里程碑意义。

关键要点列表

  • 强化学习算法在大型语言模型(LLM)推理中发挥了重要作用,但仍面临探索和利用的挑战性问题。
  • XRPO框架通过自适应调整提示处理优先级强化探索过程,通过放大低概率响应强化开发过程。
  • 实验结果表明XRPO在多种基准测试中显著优于现有技术,提高了模型的推理能力和应用效率。
  • XRPO框架对于大型语言模型的发展具有里程碑意义,开启了新的研究与应用方向。

Cool Papers

点此查看论文截图

PIKA: Expert-Level Synthetic Datasets for Post-Training Alignment from Scratch

Authors:Shangjian Yin, Shining Liang, Wenbiao Ding, Yuli Qian, Zhouxing Shi, Hongzhi Li, Yutao Xie

Reinforcement Learning from Human Feedback (RLHF) has become a cornerstone for aligning large language models (LLMs). However, its effectiveness depends on high-quality instruction data. Most existing alignment datasets are either private or require costly human annotation, which limits reproducibility and scalability. Even with Reinforcement Learning from AI Feedback (RLAIF), concerns about data quality remain. Moreover, it is unclear how much data is actually required to fine-tune a base model into a strong instruction-following model. Current approaches often rely on over 300k examples even at the supervised fine-tuning (SFT) stage, yet they still underperform compared to proprietary models, creating barriers for academic and resource-limited communities. To address this gap, we introduce PiKa, a data-efficient family of expert-level alignment datasets. In particular, the PiKa-SFT dataset uses only 30k SFT examples, far fewer than state-of-the-art datasets like Magpie. Through evaluations by fine-tuning Llama-3-8B-Base on PiKa and other public datasets, we show that PiKa-SFT outperforms models trained on much larger data. On AlpacaEval 2.0 and Arena-Hard benchmarks, PiKa-SFT fine-tuning even surpasses the official Llama-3-8B-Instruct model trained on over 10 million proprietary examples. We further extend our study by training the Qwen2.5 series (0.5B to 7B) on PiKa-SFT, achieving consistent gains. These findings demonstrate that high-quality alignment can be achieved with significantly less data, offering a scalable path for open-source LLM alignment. Code and data: https://github.com/SJY8460/PiKa.

强化学习从人类反馈(RLHF)已成为对齐大型语言模型(LLM)的核心。但其有效性取决于高质量的教学数据。现有的大多数对齐数据集都是私有的,或者需要昂贵的人工标注,这限制了可重复性和可扩展性。即使使用来自AI反馈的强化学习(RLAIF),人们对数据质量的担忧仍然存在。此外,尚不清楚实际上需要多少数据才能将基础模型微调为强大的指令遵循模型。当前的方法即使在监督微调(SFT)阶段也通常依赖于超过30万个示例,但它们仍然不如专有模型的表现,为学术和资源有限的社区设置了障碍。为解决这一差距,我们推出了PiKa,这是一个数据高效的专家级对齐数据集系列。特别是PiKa-SFT数据集只使用3万个SFT示例,远远少于如Magpie等最先进的数据集。通过对Llama-3-8B-Base在PiKa和其他公共数据集上进行微调评估,我们展示了PiKa-SFT优于在更大数据上训练的模型的表现。在AlpacaEval 2.0和Arena-Hard基准测试中,PiKa-SFT微调甚至超越了官方在超过1亿个专有示例上训练的Llama-3-8B-Instruct模型。我们通过对Qwen2.5系列(从0.5B到7B)在PiKa-SFT上进行训练,进一步扩展了我们的研究,取得了一致的收益。这些发现表明,用显著更少的数据就可以实现高质量的对齐,为开源LLM对齐提供了一条可扩展的路径。代码和数据:https://github.com/SJY846 0/PiKa。

论文及项目相关链接

PDF

Summary

本文介绍了PiKa数据集在大型语言模型(LLM)对齐方面的应用。针对现有对齐数据集成本高、质量不一、需要大量数据的问题,PiKa数据集实现了高效的数据利用。通过精细调整Llama-3-8B-Base模型,发现PiKa数据集在数据需求量少的情况下仍表现出优异的性能,甚至超越了使用大量私有数据的官方Llama模型。这为开源LLM对齐提供了可扩展的路径。

Key Takeaways

  1. PiKa数据集是解决大型语言模型(LLM)对齐问题的重要工具。
  2. 现有对齐数据集存在成本高、质量不一的问题,限制了模型的推广和应用。
  3. PiKa数据集通过高效利用数据,减少了模型对齐所需的数据量,解决了大规模数据需求的问题。
  4. PiKa数据集的性能表现优异,甚至超越了使用大量私有数据的官方Llama模型。
  5. PiKa数据集的引入为开源LLM对齐提供了更可持续和可扩展的解决方案。
  6. PiKa数据集的性能通过精细调整Llama-3-8B-Base模型得到了验证。

Cool Papers

点此查看论文截图

Aligning Large Language Models via Fully Self-Synthetic Data

Authors:Shangjian Yin, Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Yu Meng

Traditional reinforcement learning from human feedback (RLHF) for large language models (LLMs) relies on expensive human-annotated datasets, while Reinforcement Learning from AI Feedback (RLAIF) also incurs significant costs, requiring the collection of diverse prompts and corresponding responses, often necessitating external reward models or proprietary models like GPT-4 to annotate preference pairs. In this work, we introduce Self-Alignment Optimization (SAO), a fully self-synthetic framework for LLM alignment, where all training data, including prompts (i.e., user queries), responses, and preferences, are generated by the model itself. Specifically, SAO first instructs the LLM to engage in persona role-play and generate diverse prompts and responses, which are then self-evaluated for preference optimization. Extensive experiments demonstrate that SAO effectively enhances the model’s chat capabilities on standard benchmarks like AlpacaEval~2.0, while maintaining strong performance on downstream objective tasks (e.g., question-answering, math reasoning). Our work provides a practical solution for self-improvement in aligning LLMs, and the code for reproducing our results is available at: https://github.com/SJY8460/SAO.

传统的基于人类反馈的强化学习(RLHF)针对大型语言模型(LLM)依赖于昂贵的人工标注数据集,而基于AI反馈的强化学习(RLAIF)也会产生显著的成本,需要收集各种提示和相应响应,通常需要外部奖励模型或专有模型(如GPT-4)来标注偏好对。在这项工作中,我们介绍了自我对齐优化(SAO),这是一种针对LLM对齐的全自我合成框架,其中所有训练数据,包括提示(即用户查询)、响应和偏好,都是由模型本身生成的。具体来说,SAO首先指导LLM进行人格角色扮演,生成各种提示和响应,然后对其进行自我评估以进行偏好优化。大量实验表明,SAO在AlpacaEval~2.0等标准基准测试上有效增强了模型的聊天能力,同时在下游客观任务(如问答、数学推理)上保持了强大的性能。我们的工作提供了一种自我改进的对齐LLM的实际解决方案,重现我们结果的代码可在以下网址找到:https://github.com/SJY8460/SAO。

论文及项目相关链接

PDF

Summary
传统强化学习依赖于人类反馈和标注数据,AI反馈也存在高成本问题。本文提出一种全新的自我合成框架——自我对齐优化(SAO),用于大型语言模型(LLM)的对齐。该框架完全由模型自身生成训练数据,包括提示(用户查询)、响应和偏好。实验证明,SAO能有效提升模型在AlpacaEval等标准基准测试上的聊天能力,同时保持下游目标任务的强大性能。

Key Takeaways

  1. 传统强化学习依赖于昂贵的人类标注数据集,而AI反馈也存在成本问题。
  2. 自我对齐优化(SAO)是一种全新的LLM对齐框架,完全由模型自身生成训练数据。
  3. SAO通过指导LLM进行人格角色扮演,生成多样的提示和响应,然后进行自我偏好优化。
  4. 实验证明SAO在标准基准测试上提升了模型的聊天能力。
  5. SAO在保持下游目标任务性能的同时,实现了LLM的自我改进。
  6. SAO框架提供了实用的解决方案,用于LLM的自我对齐和自我提升。

Cool Papers

点此查看论文截图

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Authors:Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao

Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a training-generation gap and limits robust reasoning. Reinforcement learning (RL) offers a more data-efficient solution capable of bridging this gap, yet its application has been constrained by a critical data bottleneck: existing RL datasets are orders of magnitude smaller and less diverse than web-scale pre-training corpora. To address this, we introduce the Webscale-RL pipeline, a scalable data engine that systematically converts large-scale pre-training documents into millions of diverse, verifiable question-answer pairs for RL. Using this pipeline, we construct the Webscale-RL dataset, containing 1.2 million examples across more than 9 domains. Our experiments show that the model trained on this dataset significantly outperforms continual pretraining and strong data refinement baselines across a suite of benchmarks. Notably, RL training with our dataset proves substantially more efficient, achieving the performance of continual pre-training with up to 100$\times$ fewer tokens. Our work presents a viable path toward scaling RL to pre-training levels, enabling more capable and efficient language models.

大型语言模型(LLM)通过在海量文本语料库上进行模仿学习取得了显著的成功,但这一范式造成了训练与生成之间的鸿沟,并限制了稳健的推理能力。强化学习(RL)提供了更高效的数据解决方案,能够弥合这一鸿沟,但其应用受到了关键数据瓶颈的制约:现有RL数据集在规模和多样性上都远小于网页规模预训练语料库。为了解决这一问题,我们引入了Webscale-RL管道,这是一个可扩展的数据引擎,能够系统地转换大规模预训练文档为数百万多种可验证的问答对,用于强化学习。使用该管道,我们构建了Webscale-RL数据集,包含超过9个领域的120万个样本。我们的实验表明,在该数据集上训练的模型在一系列基准测试中显著优于持续预训练和强大的数据细化基线。值得注意的是,使用我们的数据集的强化学习训练证明了其实质上的效率更高,在减少高达数百倍代币的情况下达到持续预训练的性能。我们的研究为将强化学习扩展到预训练规模开辟了一条可行的道路,为实现更强大和更高效的语言模型提供了可能。

论文及项目相关链接

PDF

Summary
大型语言模型通过模仿学习在大量文本语料库上取得了显著的成功,但这一模式产生了训练与生成之间的差距并限制了其推理能力。强化学习作为一种更数据高效的方法,可以弥合这一鸿沟。然而,其实施受到数据瓶颈的制约:现有的强化学习数据集规模远小于且多样性不如预训练语料库。为此,我们引入了Webscale-RL管道,这是一个可大规模扩展的数据引擎,能够将大规模预训练文档系统地转化为数百万个多样化的可验证问答对,用于强化学习。利用该管道,我们构建了Webscale-RL数据集,包含超过9个领域的120万个样本。实验表明,在该数据集上训练的模型在一系列基准测试中显著优于持续预训练和强大的数据精炼基线。值得注意的是,使用我们的数据集的强化学习训练证明了其实质上更加高效,使用高达100倍的更少令牌就能达到持续预训练的性能。我们的工作展示了一条实现强化学习规模化预训练的可行之路,能够开发出更加强大和高效的语言模型。

Key Takeaways

  1. 大型语言模型通过模仿学习在大量文本语料库上取得了成功,但存在训练与生成间的差距。
  2. 强化学习可缩小这一差距,但其应用受限于数据瓶颈。
  3. 现有强化学习数据集规模小且多样性不足,限制了其实用性。
  4. 引入Webscale-RL管道和Webscale-RL数据集来解决数据瓶颈问题。
  5. Webscale-RL数据集包含超过9个领域的120万个样本,为强化学习提供大规模和多样化的资源。
  6. 实验表明,在Webscale-RL数据集上训练的模型性能优于其他方法。

Cool Papers

点此查看论文截图

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

Authors:Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Agents based on large language models (LLMs) struggle with brainless trial-and-error and generating hallucinatory actions due to a lack of global planning in long-horizon tasks. In this paper, we introduce a plan-and-execute framework and propose EAGLET, an efficient and effective planner training method to enhance the executor agent’s planning abilities without human effort. Specifically, we train a plug-and-play global planner through a two-step process: we first synthesize high-quality plans from an advanced LLM using our proposed homologous consensus filtering strategy, and apply fine-tuning as a cold start. Moreover, we further improve the planner with a rule-based reinforcement learning stage using a novel executor capability gain reward, ensuring it can handle task instructions of varying difficulty. Experiments on three long-horizon agent tasks show that executor agents equipped with our planner outperform existing methods, achieving new state-of-the-art performance. Meanwhile, EAGLET reduces training costs by 8x compared to RL-based baselines, and it does not require manual effort or extra training data, offering an efficient and effective solution.

基于大型语言模型(LLM)的代理在进行无脑的试错和生成幻觉行为时遇到了困难,因为在长期任务中缺乏全局规划。在本文中,我们引入了一个计划执行框架,并提出了一种高效且有效的计划训练方法EAGLET,以提高执行代理的规划能力,而无需人工努力。具体来说,我们通过两步过程训练了一个即插即用的全局规划器:首先,我们使用提出的同源共识过滤策略,从先进的LLM中合成高质量计划,并将其作为冷启动进行微调。此外,我们还使用基于规则强化学习阶段进一步改进规划器,采用了一种新型的执行能力增益奖励,确保它能够处理不同难度的任务指令。在三个长期代理任务上的实验表明,配备了我们规划器的执行代理优于现有方法,取得了最新性能水平。同时,与基于RL的基准测试相比,EAGLET将训练成本降低了8倍,并且无需人工努力或额外的训练数据,提供了一种高效且有效的解决方案。

论文及项目相关链接

PDF

Summary

该文本主要介绍了基于大语言模型的代理在面对长期任务时存在的缺陷,并提出了EAGLET框架来改善这些问题。通过使用两步过程训练一个可插拔的全球规划器,结合使用提出的同源共识过滤策略来合成高质量计划,并采用基于规则的强化学习阶段进行微调,使执行者能够处理不同难度的任务指令。实验证明,使用此规划器的执行者在长期任务上的表现优于现有方法,并且EAGLET框架在训练成本上降低了8倍,无需额外的人工努力或训练数据。

Key Takeaways

  1. 基于大语言模型的代理在面临长期任务时面临全球规划不足的问题,导致他们倾向于进行无脑的试错和产生幻觉行为。
  2. 引入了一种名为EAGLET的计划和执行框架,旨在增强执行者在长期任务中的规划能力。
  3. EAGLET通过两步过程训练一个全球规划器:首先使用提出的同源共识过滤策略从先进的LLM合成高质量计划,然后进行微调作为冷启动。
  4. EAGLET采用基于规则的强化学习阶段进一步提高规划器性能,使用新颖的执行力增益奖励确保它能够处理不同难度的任务指令。
  5. 实验表明,配备EAGLET规划器的执行者在三种长期任务上的表现达到了新的先进水平。
  6. EAGLET在训练成本上降低了8倍,相较于基于强化学习的方法更具效率。

Cool Papers

点此查看论文截图

In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

Authors:Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu

Outcome-driven reinforcement learning has advanced reasoning in large language models (LLMs), but prevailing tool-augmented approaches train a single, monolithic policy that interleaves thoughts and tool calls under full context; this scales poorly with long horizons and diverse tools and generalizes weakly to new scenarios. Agentic systems offer a promising alternative by decomposing work across specialized modules, yet most remain training-free or rely on offline training decoupled from the live dynamics of multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow agentic framework that coordinates four modules (planner, executor, verifier, generator) through an evolving memory and directly optimizes its planner inside the multi-turn loop. To train on-policy in live environments, we propose Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles long-horizon, sparse-reward credit assignment by converting multi-turn optimization into a sequence of tractable single-turn policy updates. It broadcasts a single, verifiable trajectory-level outcome to every turn to align local planner decisions with global success and stabilizes learning with group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale backbone outperforms top-performing baselines with average accuracy gains of 14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on scientific tasks, even surpassing larger proprietary models like GPT-4o. Further analyses confirm the benefits of in-the-flow optimization, showing improved planning, enhanced tool-calling reliability, and positive scaling with model size and reasoning turns.

结果导向型强化学习已经提升了大型语言模型(LLM)中的推理能力,但现有的工具增强方法训练单一、整体的策略,在完整语境下交织思考和工具调用;这在长周期和多样化工具的情境下扩展性较差,对新场景的泛化能力较弱。自主系统通过分解工作到专业模块提供了一种有前景的替代方案,但大多数系统仍然无需训练或者依赖于与多轮互动的实时动态相脱离的离线训练。我们推出了AgentFlow,这是一种可训练的、实时自主框架,通过不断进化的内存协调四个模块(规划器、执行器、验证器、生成器),并在多轮循环中直接优化其规划器。为了在实时环境中进行策略性训练,我们提出了基于流的群体精细化策略优化(Flow-GRPO),通过转换多轮优化为可行的单轮策略更新,解决长期视野下的稀疏奖励信用分配问题。它将可验证的轨迹级结果广播到每一轮,使局部规划器决策与全局成功相一致,并用群体归一化的优势来稳定学习。在十个基准测试中,使用7B规模背书的AgentFlow超越了顶级基准测试,在搜索任务上平均准确度提高14.9%,在自主任务上提高14.0%,在数学任务上提高14.5%,在科学任务上提高4.1%,甚至超越了如GPT-4等大型专有模型。进一步的分析证实了实时优化的好处,显示出规划能力有所提升,工具调用的可靠性增强,并且随着模型大小和推理轮次的增加而积极扩展。

论文及项目相关链接

PDF 45 pages, 12 figures. Project website: https://agentflow.stanford.edu/

Summary

本文介绍了AgentFlow框架在大型语言模型(LLM)中的推理应用。针对现有工具辅助方法的不足,AgentFlow通过分解工作到专门的模块(规划器、执行器、验证器、生成器)来协调,并通过不断进化的内存进行优化。它提出了Flow-GRPO训练方法,解决了长周期、稀疏奖励的信用分配问题,通过将多轮优化转化为可控制的单轮策略更新来解决。在十个基准测试中,AgentFlow与规模为7B的后端配合使用,表现出超越顶尖基准线的性能,平均准确率在搜索任务上提高14.9%,在智能体任务上提高14.0%,在数学任务上提高14.5%,在科学任务上提高4.1%,甚至超越了如GPT-4o等大型专有模型。

Key Takeaways

  1. AgentFlow是一个可训练的智能体框架,适用于大型语言模型(LLM),旨在解决现有工具辅助方法的局限性。
  2. AgentFlow通过分解工作到专门的模块(规划器、执行器等)来协调,并通过内存进行优化。
  3. Flow-GRPO训练方法解决了长周期和稀疏奖励的信用分配问题。
  4. AgentFlow在多个基准测试中表现出超越顶尖基准线的性能。
  5. AgentFlow提高了规划能力,增强了工具调用的可靠性。
  6. 随着模型规模和推理回合的增加,AgentFlow显示出积极扩展的趋势。

Cool Papers

点此查看论文截图

Provably Mitigating Corruption, Overoptimization, and Verbosity Simultaneously in Offline and Online RLHF/DPO Alignment

Authors:Ziyi Chen, Junyi Li, Peiran Yu, Heng Huang

Reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) are important techniques to align large language models (LLM) with human preference. However, the quality of RLHF and DPO training is seriously compromised by \textit{\textbf{C}orrupted} preference, reward \textit{\textbf{O}veroptimization}, and bias towards \textit{\textbf{V}erbosity}. To our knowledge, most existing works tackle only one of these important issues, and the few other works require much computation to estimate multiple reward models and lack theoretical guarantee of generalization ability. In this work, we propose RLHF-\textbf{COV} and DPO-\textbf{COV} algorithms that can simultaneously mitigate these three issues, in both offline and online settings. This ability is theoretically demonstrated by obtaining length-regularized generalization error rates for our DPO-COV algorithms trained on corrupted data, which match the best-known rates for simpler cases with clean data and without length regularization. Moreover, our DPO-COV algorithm is simple to implement without reward estimation, and is proved to be equivalent to our RLHF-COV algorithm, which directly implies the equivalence between the vanilla RLHF and DPO algorithms. Experiments demonstrate the effectiveness of our DPO-COV algorithms under both offline and online settings.

强化学习从人类反馈(RLHF)和直接偏好优化(DPO)是使大型语言模型(LLM)符合人类偏好的重要技术。然而,RLHF和DPO训练的质量受到严重损害,因为存在被篡改的偏好、过度优化的奖励和对冗长的偏见。据我们所知,大多数现有工作只解决其中一个重要问题,其他少数工作需要大量计算来估计多个奖励模型,并且缺乏泛化能力的理论保证。在这项工作中,我们提出了RLHF-COV和DPO-COV算法,可以同时缓解这三个问题,适用于离线和在线环境。这一能力通过在我们用损坏数据训练的DPO-COV算法上获得长度正则化泛化误差率得到理论证明,该误差率与干净数据且没有长度正则化的简单情况的已知最佳误差率相匹配。此外,我们的DPO-COV算法无需奖励估计即可轻松实现,并且证明与我们RLHF-COV算法相当,这直接暗示了普通RLHF和DPO算法之间的等效性。实验证明,我们的DPO-COV算法在离线环境和在线环境下都有效。

论文及项目相关链接

PDF

Summary
强化学习与人类反馈(RLHF)和直接偏好优化(DPO)是使大型语言模型(LLM)符合人类偏好的重要技术。然而,RLHF和DPO训练的质量受到腐败偏好、奖励过度优化和偏向冗长的严重影响。在研究中,我们提出能同时解决这三个问题的RLHF-COV和DPO-COV算法,适用于离线与在线环境。我们的DPO-COV算法无需复杂的奖励估计,简单实用,并与RLHF-COV算法等效。实验证明了我们的算法在离线与在线环境下的有效性。

Key Takeaways

  1. RLHF和DPO对于对齐LLM与人类偏好至关重要。
  2. RLHF和DPO训练受到腐败偏好、奖励过度优化和偏向冗长的影响。
  3. 现有研究大多只能解决其中一个问题,且需要大量计算来估计多个奖励模型,缺乏泛化能力的理论保证。
  4. 提出的RLHF-COV和DPO-COV算法能同时解决上述问题,适用于离线与在线环境。
  5. DPO-COV算法无需复杂的奖励估计,简单实用,且与RLHF-COV算法等效。
  6. 在理论层面证明,DPO-COV算法在受污染数据上训练的泛化错误率与清洁数据上训练的简单情况的最佳已知率相匹配。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录