⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-05 更新
MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval
Authors:Qi Luo, Xiaonan Li, Yuxin Wang, Tingshuo Fan, Yuan Li, Xinchi Chen, Xipeng Qiu
Large Language Models (LLMs) excel at reasoning and generation but are inherently limited by static pretraining data, resulting in factual inaccuracies and weak adaptability to new information. Retrieval-Augmented Generation (RAG) addresses this issue by grounding LLMs in external knowledge; However, the effectiveness of RAG critically depends on whether the model can adequately access relevant information. Existing RAG systems rely on a single retriever with fixed top-k selection, restricting access to a narrow and static subset of the corpus. As a result, this single-retriever paradigm has become the primary bottleneck for comprehensive external information acquisition, especially in tasks requiring corpus-level reasoning. To overcome this limitation, we propose MARAG-R1, a reinforcement-learned multi-tool RAG framework that enables LLMs to dynamically coordinate multiple retrieval mechanisms for broader and more precise information access. MARAG-R1 equips the model with four retrieval tools – semantic search, keyword search, filtering, and aggregation – and learns both how and when to use them through a two-stage training process: supervised fine-tuning followed by reinforcement learning. This design allows the model to interleave reasoning and retrieval, progressively gathering sufficient evidence for corpus-level synthesis. Experiments on GlobalQA, HotpotQA, and 2WikiMultiHopQA demonstrate that MARAG-R1 substantially outperforms strong baselines and achieves new state-of-the-art results in corpus-level reasoning tasks.
大型语言模型(LLM)擅长推理和生成,但受到静态预训练数据本身的固有限制,导致事实不准确和对新信息的适应能力较弱。检索增强生成(RAG)通过使LLM以外部知识为基础来解决这个问题;然而,RAG的有效性关键在于模型是否能充分访问相关信息。现有的RAG系统依赖于单个检索器,并使用固定的前k个选项选择,这限制了模型访问语料库的狭窄且静态的子集范围。因此,单一检索器模式已成为全面获取外部信息的主要瓶颈,特别是在需要语料库级别推理的任务中。为了克服这一局限性,我们提出了MARAG-R1,这是一种强化学习驱动的多工具RAG框架,它使LLM能够动态协调多种检索机制,以获取更广泛和更精确的信息。MARAG-R1为模型配备了四种检索工具,包括语义搜索、关键词搜索、过滤和聚合,并通过两阶段训练过程学习何时以及如何使用它们:首先是监督微调,然后是强化学习。这种设计允许模型在推理和检索之间交替进行,逐步收集足够的证据进行语料库级别的综合。在全球问答(GlobalQA)、HotpotQA和2WikiMultiHopQA上的实验表明,MARAG-R1显著优于强大的基线模型,并在语料库级别的推理任务中取得了最新的最佳结果。
论文及项目相关链接
Summary
大型语言模型(LLM)在推理和生成方面表现出色,但由于静态预训练数据的固有局限性,存在事实性不准确和适应新信息能力弱的问题。检索增强生成(RAG)通过使LLM以外部知识为基础来解决这个问题。然而,RAG的有效性取决于模型获取相关信息的充分性。现有的RAG系统依赖于单一检索器,且只选择固定的前k个结果,这限制了从语料库中获取信息的范围。因此,单一检索器已成为全面获取外部信息的主要瓶颈,特别是在需要语料库级推理的任务中。为了克服这一局限性,我们提出了MARAG-R1,这是一个强化学习的多工具RAG框架,使LLM能够动态协调多种检索机制,以获取更广泛、更精确的信息。MARAG-R1配备了四种检索工具——语义搜索、关键词搜索、过滤和聚合,并通过两阶段训练过程学习何时以及如何使用这些工具:监督微调后跟着强化学习。这种设计允许模型在推理和检索之间交替进行,逐步收集足够的证据进行语料库级综合。在GlobalQA、HotpotQA和2WikiMultiHopQA上的实验表明,MARAG-R1显著优于强大的基线,并在语料库级推理任务中达到了新的技术水平。
Key Takeaways
- 大型语言模型(LLMs)在推理和生成方面表现出色,但受限于静态预训练数据,存在事实性不准确和适应新信息能力弱的问题。
- 检索增强生成(RAG)通过使LLM以外部知识为基础来解决LLM的局限性。
- 现有RAG系统依赖单一检索器,限制了从语料库中获取信息的范围,成为全面获取外部信息的主要瓶颈。
- MARAG-R1是一个强化学习的多工具RAG框架,动态协调多种检索机制,以获取更广泛、更精确的信息。
- MARAG-R1配备了语义搜索、关键词搜索、过滤和聚合四种检索工具,并通过两阶段训练过程学习使用这些工具。
- MARAG-R1允许模型在推理和检索之间交替进行,逐步收集证据进行语料库级综合。
点此查看论文截图
Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval
Authors:Yulong Hui, Chao Chen, Zhihang Fu, Yihao Liu, Jieping Ye, Huanchen Zhang
Retrieval-Augmented Generation (RAG) has significantly enhanced LLMs by incorporating external information. However, prevailing agentic RAG approaches are constrained by a critical limitation: they treat the retrieval process as a black-box querying operation. This confines agents’ actions to query issuing, hindering its ability to tackle complex information-seeking tasks. To address this, we introduce Interact-RAG, a new paradigm that elevates the LLM agent from a passive query issuer into an active manipulator of the retrieval process. We dismantle the black-box with a Corpus Interaction Engine, equipping the agent with a set of action primitives for fine-grained control over information retrieval. To further empower the agent on the entire RAG pipeline, we first develop a reasoning-enhanced workflow, which enables both zero-shot execution and the synthesis of interaction trajectories. We then leverage this synthetic data to train a fully autonomous end-to-end agent via Supervised Fine-Tuning (SFT), followed by refinement with Reinforcement Learning (RL). Extensive experiments across six benchmarks demonstrate that Interact-RAG significantly outperforms other advanced methods, validating the efficacy of our reasoning-interaction strategy.
检索增强生成(RAG)通过融入外部信息显著增强了大型语言模型(LLM)。然而,当前流行的RAG方法受到一个关键限制:它们将检索过程视为黑箱查询操作。这限制了代理的操作仅限于查询发布,阻碍了其处理复杂信息检索任务的能力。为了解决这一问题,我们引入了Interact-RAG,这是一种新的范式,它将LLM代理从被动的查询发布者提升为检索过程的主动操纵者。我们通过语料库交互引擎破解了黑箱,为代理提供了一组动作原语,以实现信息检索的精细控制。为了进一步增强代理在整个RAG管道上的能力,我们首先开发了一个增强推理的工作流,它支持零执行合成交互轨迹。然后,我们利用这些合成数据通过监督微调(SFT)训练一个完全自主端到端的代理,随后通过强化学习(RL)进行微调。在六个基准测试上的大量实验表明,Interact-RAG显著优于其他先进方法,验证了我们推理交互策略的有效性。
论文及项目相关链接
Summary
这是一篇关于增强大型语言模型(LLM)的研究论文,主要介绍了Interact-RAG这一新范式。该范式将LLM代理从被动查询发布者提升为检索过程的主动操纵者,解决了现有RAG方法将检索过程视为黑盒查询操作的局限性。通过引入Corpus Interaction Engine,为代理提供了一套精细控制信息检索的动作原语。此外,研究团队还开发了一个增强型推理工作流程,能够在零起点上执行并合成交互轨迹。通过监督微调(SFT)和强化学习(RL)的训练,Interact-RAG在六个基准测试上的表现均显著优于其他先进方法,验证了其推理交互策略的有效性。
Key Takeaways
- Interact-RAG将LLM代理从被动查询发布者转变为积极操纵检索过程的新范式,解决了现有RAG方法的局限性。
- 引入Corpus Interaction Engine,为代理提供精细控制信息检索的动作原语。
- 开发了一个增强型推理工作流程,支持零起点执行和交互轨迹的合成。
- 通过监督微调(SFT)和强化学习(RL)的训练,Interact-RAG在多个基准测试上表现优异。
- Interact-RAG显著优于其他先进方法,验证了其推理交互策略的有效性。
- 研究成果对于提升LLM的信息检索和推理能力具有重要意义。
- 该研究为LLM在未来更广泛的应用奠定了基础。
点此查看论文截图
Mechanics of Learned Reasoning 1: TempoBench, A Benchmark for Interpretable Deconstruction of Reasoning System Performance
Authors:Nikolaus Holzer, William Fishell, Baishakhi Ray, Mark Santolucito
Large Language Models (LLMs) are increasingly excelling and outpacing human performance on many tasks. However, to improve LLM reasoning, researchers either rely on ad-hoc generated datasets or formal mathematical proof systems such as the Lean proof assistant. Whilst ad-hoc generated methods can capture the decision chains of real-world reasoning processes, they may encode some inadvertent bias in the space of reasoning they cover; they also cannot be formally verified. On the other hand, systems like Lean can guarantee verifiability, but are not well-suited to capture the nature of agentic decision chain-based tasks. This creates a gap both in performance for functions such as business agents or code assistants, and in the usefulness of LLM reasoning benchmarks, whereby these fall short in reasoning structure or real-world alignment. We introduce TempoBench, the first formally grounded and verifiable diagnostic benchmark that parametrizes difficulty to systematically analyze how LLMs perform reasoning. TempoBench uses two evaluation benchmarks to break down reasoning ability. First, temporal trace evaluation (TTE) tests the ability of an LLM to understand and simulate the execution of a given multi-step reasoning system. Subsequently, temporal causal evaluation (TCE) tests an LLM’s ability to perform multi-step causal reasoning and to distill cause-and-effect relations from complex systems. We find that models score 65.6% on TCE-normal, and 7.5% on TCE-hard. This shows that state-of-the-art LLMs clearly understand the TCE task but perform poorly as system complexity increases. Our code is available at our \href{https://github.com/nik-hz/tempobench}{GitHub repository}.
大型语言模型(LLMs)在许多任务上越来越超越人类的性能。然而,为了提高LLM的推理能力,研究者们要么依赖于专门生成的数据集,要么依赖于诸如Lean证明助手之类的形式化数学证明系统。虽然专门生成的方法可以捕捉现实世界中推理过程的决策链,但它们可能在所覆盖的推理空间中编码了一些无意识的偏见;同时它们也无法进行形式化验证。另一方面,像Lean这样的系统可以保证可验证性,但不适合捕捉基于代理的决策链任务的性质。这造成了业务代理或代码助手等功能的性能差距,以及LLM推理基准测试的实用性不足,这些基准测试在推理结构或现实世界对齐方面存在缺陷。我们引入了TempoBench,这是第一个有正式依据和可验证的诊断基准,可以通过参数化难度来系统地分析LLMs如何进行推理。TempoBench使用两个评估基准来分解推理能力。首先,时间轨迹评估(TTE)测试LLM理解和模拟给定多步骤推理系统的执行能力。随后,时间因果评估(TCE)测试LLM执行多步骤因果推理的能力,并从复杂系统中提炼因果关系。我们发现模型在TCE-normal上的得分为65.6%,在TCE-hard上的得分为7.5%。这表明最先进的LLMs明显理解TCE任务,但随着系统复杂性的增加,其表现较差。我们的代码可在\href{https://github.com/nik-hz/tempobench}{GitHub仓库}中找到。
论文及项目相关链接
Summary
大型语言模型(LLM)在许多任务上超越了人类的表现,但为了提高其推理能力,研究者们依赖于特定情境生成的数据集或形式化数学证明系统,如Lean证明助手。特定情境生成的方法能够捕捉现实世界的决策过程,但可能引入一些意外的偏见;而形式化系统虽然可以验证,但不擅长捕捉基于代理的决策链任务。因此,存在业务代理或代码助手等功能的性能差距,以及LLM推理基准测试的实用性和结构合理性上的不足。我们引入了TempoBench,这是一个形式化且可验证的诊断基准测试,可以参数化难度,以系统地分析LLM的推理能力。它通过两个评估基准,即时间轨迹评估(TTE)和时间因果评估(TCE),来测试LLM的推理能力。结果显示,模型在TCE正常任务上的得分为65.6%,在困难任务上的得分为7.5%,表明随着系统复杂性的增加,LLM的理解能力有所下降。
Key Takeaways
- 大型语言模型(LLM)在许多任务上表现出超越人类的能力,但在推理方面仍有提升空间。
- 现有提高LLM推理能力的方法包括使用特定情境生成的数据集和形式化数学证明系统,但各有优缺点。
- 存在业务代理或代码助手等功能的性能差距,以及LLM推理基准测试的合理性问题。
- 引入了TempoBench作为首个形式化且可验证的诊断基准测试,以系统地分析LLM的推理能力。
- TempoBench包括两个评估基准:时间轨迹评估(TTE)和时间因果评估(TCE)。
- LLM在TCE正常任务上的表现较好,但在困难任务上的得分较低,表明其处理复杂系统时的理解能力有待提高。
点此查看论文截图
Diffuse Thinking: Exploring Diffusion Language Models as Efficient Thought Proposers for Reasoning
Authors:Chenyang Shao, Sijian Ren, Fengli Xu, Yong Li
In recent years, large language models (LLMs) have witnessed remarkable advancements, with the test-time scaling law consistently enhancing the reasoning capabilities. Through systematic evaluation and exploration of a diverse spectrum of intermediate thoughts, LLMs demonstrate the potential to generate deliberate reasoning steps, thereby substantially enhancing reasoning accuracy. However, LLMs’ autoregressive generation paradigm results in reasoning performance scaling sub-optimally with test-time computation, often requiring excessive computational overhead to propose thoughts while yielding only marginal performance gains. In contrast, diffusion language models (DLMs) can efficiently produce diverse samples through parallel denoising in a single forward pass, inspiring us to leverage them for proposing intermediate thoughts, thereby alleviating the computational burden associated with autoregressive generation while maintaining quality. In this work, we propose an efficient collaborative reasoning framework, leveraging DLMs to generate candidate thoughts and LLMs to evaluate their quality. Experiments across diverse benchmarks demonstrate that our framework achieves strong performance in complex reasoning tasks, offering a promising direction for future research. Our code is open-source at https://anonymous.4open.science/r/Diffuse-Thinking-EC60.
近年来,大型语言模型(LLM)取得了显著的进步,测试时的规模定律持续提高了其推理能力。通过对一系列中间思想的系统评估和探索,LLM展现出产生有意识的推理步骤的潜力,从而大大提高了推理准确性。然而,LLM的自回归生成模式导致推理性能在测试时的计算上无法以最优的方式扩展,通常需要过多的计算开销来提出思想,而获得的性能提升只有轻微。相比之下,扩散语言模型(DLM)可以在单次前向传递过程中通过并行去噪有效地生成各种样本,这启发我们利用它们来提出中间思想,从而在保持质量的同时减轻与自回归生成相关的计算负担。在这项工作中,我们提出了一个高效的协作推理框架,利用DLM生成候选思想,并利用LLM评估其质量。在多个基准测试上的实验表明,我们的框架在复杂推理任务中取得了良好的性能,为未来的研究提供了一个有前途的方向。我们的代码公开在https://anonymous.4open.science/r/Diffuse-Thinking-EC60。
论文及项目相关链接
Summary
大型语言模型(LLMs)在近年来的推理能力上取得了显著进步,测试时间缩放定律增强了其推理能力。然而,LLMs的自回归生成模式导致推理性能在测试时的计算并不理想,常常需要过多的计算开销来提出思考,且仅获得轻微的性能提升。相比之下,扩散语言模型(DLMs)通过单次前向传递中的并行去噪能够高效生成多样化样本。本研究提出了一种利用DLMs生成候选思考、LLMs评估其质量的协作推理框架。实验证明,该框架在复杂推理任务上表现优异,为未来研究提供了有前景的方向。
Key Takeaways
- 大型语言模型(LLMs)在推理能力上有了显著的提升,测试时间缩放定律增强了这一能力。
- LLMs的自回归生成模式在测试时计算效率低下,需要过多的计算资源来产生思考。
- 扩散语言模型(DLMs)可以通过并行去噪高效生成多样化样本。
- 本研究提出了一个协作推理框架,结合DLMs和LLMs的优势,DLMs负责生成候选思考,LLMs负责评估质量。
- 实验证明,该框架在复杂推理任务上实现了强大的性能。
- 该框架的代码已开源,为未来的研究提供了方向。
- 此方法有助于提高语言模型的推理效率和性能,特别是在处理复杂任务时。
点此查看论文截图
VCORE: Variance-Controlled Optimization-based Reweighting for Chain-of-Thought Supervision
Authors:Xuan Gong, Senmiao Wang, Hanbo Huang, Ruoyu Sun, Shiyu Liang
Supervised fine-tuning (SFT) on long chain-of-thought (CoT) trajectories has emerged as a crucial technique for enhancing the reasoning abilities of large language models (LLMs). However, the standard cross-entropy loss treats all tokens equally, ignoring their heterogeneous contributions across a reasoning trajectory. This uniform treatment leads to misallocated supervision and weak generalization, especially in complex, long-form reasoning tasks. To address this, we introduce \textbf{V}ariance-\textbf{C}ontrolled \textbf{O}ptimization-based \textbf{RE}weighting (VCORE), a principled framework that reformulates CoT supervision as a constrained optimization problem. By adopting an optimization-theoretic perspective, VCORE enables a principled and adaptive allocation of supervision across tokens, thereby aligning the training objective more closely with the goal of robust reasoning generalization. Empirical evaluations demonstrate that VCORE consistently outperforms existing token reweighting methods. Across both in-domain and out-of-domain settings, VCORE achieves substantial performance gains on mathematical and coding benchmarks, using models from the Qwen3 series (4B, 8B, 32B) and LLaMA-3.1-8B-Instruct. Moreover, we show that VCORE serves as a more effective initialization for subsequent reinforcement learning, establishing a stronger foundation for advancing the reasoning capabilities of LLMs. The Code will be released at https://github.com/coder-gx/VCORE.
对长链思维轨迹的精细监督微调(SFT)已成为提高大型语言模型(LLM)推理能力的一种关键技术。然而,标准交叉熵损失平等对待所有标记,忽略了它们在推理轨迹中的不同贡献。这种统一的处理方式导致监督分配不当和泛化能力弱,特别是在复杂的长篇推理任务中。为了解决这一问题,我们引入了基于方差控制优化的加权(VCORE),这是一个原则性的框架,将思维轨迹的监督重新表述为一个约束优化问题。通过采用优化理论的角度,VCORE能够原则性和自适应地分配标记间的监督,从而更紧密地将训练目标与稳健推理泛化的目标对齐。经验评估表明,VCORE一致地优于现有的标记加权方法。在领域内外环境下,VCORE在数学和编码基准测试上都实现了显著的性能提升,适用于Qwen3系列(4B、8B、32B)和LLaMA-3.1-8B-Instruct模型。此外,我们证明VCORE为后续强化学习提供了更有效的初始化,为提升LLM的推理能力奠定了坚实基础。代码将发布在https://github.com/coder-gx/VCORE上。
论文及项目相关链接
PDF Under Review
Summary
本文介绍了针对大型语言模型(LLM)的精细监督调整(SFT)技术,特别是在长链思维(CoT)轨迹上的应用。然而,标准交叉熵损失平等对待所有标记,忽略了它们在推理轨迹中的不同贡献,导致监督分配不当和泛化能力弱。为解决这一问题,本文提出了基于优化理论的方差控制优化重加权(VCORE)框架,将CoT监督重新定义为约束优化问题。通过优化理论视角,VCORE实现了对标记的灵活且有针对性的监督分配,更好地符合了推理泛化的目标。经验评估显示,VCORE在多种数学和编码基准测试中表现优异,适用于不同领域和模型规模的大型语言模型。此外,VCORE还为后续的强化学习提供了更有效的初始化。代码将在GitHub上公开。
Key Takeaways
- VCORE框架解决了标准交叉熵损失在大型语言模型中的监督分配问题。
- VCORE通过对推理轨迹中的不同标记贡献进行差异化处理,提高了模型的泛化能力。
- VCORE框架采用优化理论视角进行精细化监督调整。
- VCORE框架在多种数学和编码基准测试中表现优异,且适用于不同规模和领域的大型语言模型。
- VCORE作为有效的初始化方法为后续强化学习打下基础。
- VCORE框架有助于提升大型语言模型的推理能力。
点此查看论文截图
GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language
Authors:Yuhao Zhang, Dingxin Hu, Tinghao Yu, Hao Liu, Yiting Liu
Multi-modal Large Language Models (MLLMs) have gained significant attention in both academia and industry for their capabilities in handling multi-modal tasks. However, these models face challenges in mathematical geometric reasoning due to the scarcity of high-quality geometric data. To address this issue, synthetic geometric data has become an essential strategy. Current methods for generating synthetic geometric data involve rephrasing or expanding existing problems and utilizing predefined rules and templates to create geometric images and problems. However, these approaches often produce data that lacks diversity or is prone to noise. Additionally, the geometric images synthesized by existing methods tend to exhibit limited variation and deviate significantly from authentic geometric diagrams. To overcome these limitations, we propose GeoFM, a novel method for synthesizing geometric data. GeoFM uses formal languages to explore combinations of conditions within metric space, generating high-fidelity geometric problems that differ from the originals while ensuring correctness through a symbolic engine. Experimental results show that our synthetic data significantly outperforms existing methods. The model trained with our data surpass the proprietary GPT-4o model by 18.7% on geometry problem-solving tasks in MathVista and by 16.5% on GeoQA. Additionally, it exceeds the performance of a leading open-source model by 5.7% on MathVista and by 2.7% on GeoQA.
多模态大型语言模型(MLLMs)在学术和业界中都受到了极大的关注,因为它们能够处理多模态任务。然而,这些模型在数学几何推理方面面临着挑战,主要是由于高质量几何数据的稀缺。为了解决这个问题,合成几何数据已经成为一种重要的策略。当前生成合成几何数据的方法包括重新表述或扩展现有问题,以及利用预先定义的规则和模板来创建几何图像和问题。然而,这些方法常常产生的数据缺乏多样性或容易引入噪声。此外,现有方法合成的几何图像往往变化有限,与真实的几何图表存在显著差异。为了克服这些局限性,我们提出了GeoFM,一种合成几何数据的新方法。GeoFM使用形式语言来探索度量空间内的条件组合,生成与原始问题不同的高保真几何问题,并通过符号引擎确保正确性。实验结果表明,我们的合成数据在多个方面显著优于现有方法。使用我们数据的模型在MathVista的几何问题解决任务上超越了专有GPT-4o模型,提高了18.7%,在GeoQA上提高了16.5%。此外,它还超过了一个领先的开源模型在MathVista上的性能提高了5.7%,在GeoQA上的性能提高了2.7%。
论文及项目相关链接
Summary
多模态大型语言模型(MLLMs)在处理多模态任务时表现出强大的能力,但在数学几何推理方面面临挑战,主要由于高质量几何数据的稀缺性。为解决这一问题,合成几何数据已成为一种重要策略。然而,现有方法生成的数据缺乏多样性且易产生噪声。为此,提出GeoFM这一新方法,利用形式语言探索度量空间内的条件组合,生成高保真几何问题,同时确保正确性。实验结果显示,GeoFM合成的数据显著优于现有方法,使用此数据训练的模型在MathVista和GeoQA的几何问题解答任务上的表现超过了GPT-4o模型,并领先开源模型的性能。
Key Takeaways
- 多模态大型语言模型(MLLMs)在处理多模态任务时受到关注,但在数学几何推理方面存在挑战。
- 现有合成几何数据的方法缺乏多样性和易受噪声影响。
- GeoFM是一种利用形式语言生成高保真几何数据的新方法,能探索度量空间内的条件组合。
- GeoFM生成的数据显著提高了模型在几何问题解答任务上的性能。
- 使用GeoFM数据训练的模型表现超过GPT-4o模型和其他领先模型。
- GeoFM确保了生成问题的正确性。
点此查看论文截图
DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains
Authors:Tian Liang, Wenxiang Jiao, Zhiwei He, Jiahao Xu, Haitao Mi, Dong Yu
Large Reasoning Models (LRMs) have demonstrated impressive capabilities but suffer from cognitive inefficiencies like overthinking'' simple problems and underthinking’’ complex ones. While existing methods that use supervised fine-tuning(SFT) or reinforcement learning(RL) with token-length rewards can improve efficiency, they often do so at the cost of accuracy. This paper introduces \textbf{DeepCompress}, a novel framework that simultaneously enhances both the accuracy and efficiency of LRMs. We challenge the prevailing approach of consistently favoring shorter reasoning paths, showing that longer responses can contain a broader range of correct solutions for difficult problems. DeepCompress employs an adaptive length reward mechanism that dynamically classifies problems as Simple'' or Hard’’ in real-time based on the model’s evolving capability. It encourages shorter, more efficient reasoning for Simple'' problems while promoting longer, more exploratory thought chains for Hard’’ problems. This dual-reward strategy enables the model to autonomously adjust its Chain-of-Thought (CoT) length, compressing reasoning for well-mastered problems and extending it for those it finds challenging. Experimental results on challenging mathematical benchmarks show that DeepCompress consistently outperforms baseline methods, achieving superior accuracy while significantly improving token efficiency.
大规模推理模型(LRMs)虽然已经展现出令人印象深刻的能力,但仍存在认知效率低下的问题,如“过度思考”简单问题以及“缺乏深度思考”复杂问题。虽然现有方法使用有监督微调(SFT)或基于标记长度的奖励的强化学习(RL)可以提高效率,但它们通常会在准确性方面有所损失。本文介绍了\textbf{DeepCompress},这是一个新型框架,可以同时提高LRMs的准确性和效率。我们质疑一贯倾向于较短推理路径的流行方法,并表明对于难题,较长的答案可以包含更广泛的正确解决方案。DeepCompress采用自适应长度奖励机制,根据模型的不断进化能力实时将问题分类为“简单”或“困难”。它鼓励对“简单”问题进行简短、高效的推理,同时促进对“困难”问题进行更长时间、更探索性的思考链。这种双重奖励策略使模型能够自主地调整其思维链(CoT)的长度,对已经熟练掌握的问题进行推理压缩,对具有挑战性的问题进行推理扩展。在具有挑战性的数学基准测试上的实验结果表明,DeepCompress始终优于基准方法,在保持较高准确性的同时,显著提高了标记效率。
论文及项目相关链接
PDF Work in progress
Summary
大型推理模型(LRMs)虽然展现出强大的能力,但存在认知效率问题,如过度思考简单问题而忽视复杂问题。现有方法如监督微调(SFT)或强化学习(RL)配合令牌长度奖励可以提高效率,但往往会降低准确性。本文提出DeepCompress框架,旨在同时提高LRMs的准确性和效率。DeepCompress采用自适应长度奖励机制,根据模型的不断进化能力实时将问题分类为“简单”或“困难”。对于简单问题,它鼓励简短高效的推理;对于复杂问题,它促进更长的探索性思维链。这种双重奖励策略使模型能够自主调整其思维链长度,压缩对掌握良好的问题的推理,并扩展对具有挑战性的问题。实验结果表明,DeepCompress在具有挑战性的数学基准测试上持续优于基线方法,实现了高准确性和显著的令牌效率提升。
Key Takeaways
- 大型推理模型(LRMs)面临认知效率问题,如过度思考简单问题和忽视复杂问题。
- 现有方法在提高效率时可能会降低准确性。
- DeepCompress框架被引入,旨在同时提高LRMs的准确性和效率。
- DeepCompress采用自适应长度奖励机制,根据问题的难易程度实时调整推理长度。
- 对于简单问题,DeepCompress鼓励简短高效的推理;对于复杂问题,它促进更长的探索性思维链。
- DeepCompress采用双重奖励策略,使模型能够自主调整思维链长度。
点此查看论文截图
MedCalc-Eval and MedCalc-Env: Advancing Medical Calculation Capabilities of Large Language Models
Authors:Kangkun Mao, Jinru Ding, Jiayuan Chen, Mouxiao Bian, Ruiyao Chen, Xinwei Peng, Sijie Ren, Linyang Li, Jie Xu
As large language models (LLMs) enter the medical domain, most benchmarks evaluate them on question answering or descriptive reasoning, overlooking quantitative reasoning critical to clinical decision-making. Existing datasets like MedCalc-Bench cover few calculation tasks and fail to reflect real-world computational scenarios. We introduce MedCalc-Eval, the largest benchmark for assessing LLMs’ medical calculation abilities, comprising 700+ tasks across two types: equation-based (e.g., Cockcroft-Gault, BMI, BSA) and rule-based scoring systems (e.g., Apgar, Glasgow Coma Scale). These tasks span diverse specialties including internal medicine, surgery, pediatrics, and cardiology, offering a broader and more challenging evaluation setting. To improve performance, we further develop MedCalc-Env, a reinforcement learning environment built on the InternBootcamp framework, enabling multi-step clinical reasoning and planning. Fine-tuning a Qwen2.5-32B model within this environment achieves state-of-the-art results on MedCalc-Eval, with notable gains in numerical sensitivity, formula selection, and reasoning robustness. Remaining challenges include unit conversion, multi-condition logic, and contextual understanding. Code and datasets are available at https://github.com/maokangkun/MedCalc-Eval.
随着大型语言模型(LLM)进入医学领域,大多数基准测试都在问答或描述性推理方面对它们进行评估,忽视了临床决策至关重要的定量推理。现有数据集如MedCalc-Bench涵盖的计算任务较少,无法反映现实世界的计算场景。我们推出MedCalc-Eval,这是评估LLM医疗计算能力的大型基准测试,包含700多个任务,分为两类:基于方程的任务(例如Cockcroft-Gault、BMI、BSA)和基于规则评分系统的任务(例如Apgar、Glasgow昏迷量表)。这些任务涵盖内科、外科、儿科和心脏病学等多个专业,提供更广泛和更具挑战性的评估环境。为了提高性能,我们进一步开发了基于InternBootcamp框架的MedCalc-Env强化学习环境,支持多步骤的临床推理和规划。在此环境中对Qwen2.5-32B模型进行微调,在MedCalc-Eval上达到最新结果,在数字敏感度、公式选择和推理稳健性方面取得了显著进展。剩余的挑战包括单位转换、多条件逻辑和上下文理解。数据集和代码可通过https://github.com/maokangkun/MedCalc-Eval获取。
论文及项目相关链接
Summary:随着大型语言模型(LLM)进入医疗领域,现有的评估基准大多侧重于问答或描述性推理,忽略了临床决策至关重要的定量推理。本文介绍了MedCalc-Eval,这是评估LLM医疗计算能力的新基准,包含700多个任务,涵盖方程和基于规则的计算系统,反映真实世界的计算场景。同时,开发了MedCalc-Env环境,用于提高性能。
Key Takeaways:
- 大型语言模型(LLM)开始进入医疗领域,但评估基准未充分涵盖医疗计算能力。
- MedCalc-Eval是评估LLM医疗计算能力的最新基准,包含700多个任务,涵盖方程和基于规则的计算系统。
- MedCalc-Eval任务涵盖内部医学、外科、儿科和心脏病学等多个专业领域。
- MedCalc-Env环境的开发有助于提高LLM的性能,实现了在MedCalc-Eval上的最佳结果。
- 该环境能提高模型的数值敏感度、公式选择和推理稳健性。
- 目前仍面临单位转换、多条件逻辑和上下文理解等挑战。
点此查看论文截图
GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation
Authors:Tao Liu, Chongyu Wang, Rongjie Li, Yingchen Yu, Xuming He, Bai Song
While Multimodal Large Language Models (MLLMs) have advanced GUI navigation agents, current approaches face limitations in cross-domain generalization and effective history utilization. We present a reasoning-enhanced framework that systematically integrates structured reasoning, action prediction, and history summarization. The structured reasoning component generates coherent Chain-of-Thought analyses combining progress estimation and decision reasoning, which inform both immediate action predictions and compact history summaries for future steps. Based on this framework, we train a GUI agent, \textbf{GUI-Rise}, through supervised fine-tuning on pseudo-labeled trajectories and reinforcement learning with Group Relative Policy Optimization (GRPO). This framework employs specialized rewards, including a history-aware objective, directly linking summary quality to subsequent action performance. Comprehensive evaluations on standard benchmarks demonstrate state-of-the-art results under identical training data conditions, with particularly strong performance in out-of-domain scenarios. These findings validate our framework’s ability to maintain robust reasoning and generalization across diverse GUI navigation tasks. Code is available at https://leon022.github.io/GUI-Rise.
多模态大型语言模型(MLLMs)虽然在GUI导航代理方面取得了进展,但当前方法在跨域泛化和有效利用历史信息方面存在局限性。我们提出了一种增强推理的框架,系统地融合了结构化推理、动作预测和历史摘要。结构化推理组件生成连贯的“思维链”分析,结合进度估计和决策推理,为即时动作预测和未来步骤的简洁历史摘要提供信息。基于此框架,我们训练了一个GUI代理——GUI-Rise,通过伪标签轨迹的监督微调,并采用带有集团相对策略优化(GRPO)的强化学习。该框架采用特殊奖励,包括一个了解历史的目标,直接将摘要质量与随后的行动表现联系起来。在标准基准测试上的综合评估表明,在相同的训练数据条件下,我们的方法达到了最先进水平,特别是在域外场景下的表现尤为出色。这些发现验证了我们框架在多种GUI导航任务中保持稳健推理和泛化的能力。相关代码可在https://leon022.github.io/GUI-Rise获取。
论文及项目相关链接
PDF Published in NeurIPS 2025
Summary
文章探讨了一种提升多模态大型语言模型跨域泛化和有效历史利用能力的框架。该框架集成了结构化推理、动作预测和历史摘要等功能,通过生成连贯的思考链分析,结合进度估计和决策推理,为即时动作预测和未来步骤的简洁历史摘要提供信息。基于该框架,文章训练了一个GUI代理“GUI-Rise”,在伪标签轨迹上进行监督微调,并通过使用群体相对策略优化的强化学习进行训练。该框架采用特殊奖励,包括历史感知目标,直接将摘要质量与后续行动表现联系起来。在标准基准测试上的综合评估表明,在相同训练数据条件下,该框架达到最新技术水平,尤其在跨域场景中表现尤为出色。这验证了框架在多样化GUI导航任务中保持稳健推理和泛化的能力。
Key Takeaways
- 多模态大型语言模型(MLLMs)在GUI导航代理方面取得进展,但在跨域泛化和有效历史利用方面存在局限性。
- 提出的框架集成了结构化推理、动作预测和历史摘要,提升模型的泛化能力和历史信息利用效果。
- 通过生成连贯的思考链分析,该框架结合进度估计和决策推理,为即时动作预测和未来步骤的简洁历史摘要提供信息。
- 训练了名为“GUI-Rise”的GUI代理,通过监督微调与强化学习进行训练,伪标签轨迹与群体相对策略优化方法被采用。
- 框架采用特殊奖励机制,包括历史感知目标,将摘要质量与后续行动表现直接关联。
- 在标准基准测试上的评估显示,该框架达到最新技术水平,尤其擅长处理跨域场景。
点此查看论文截图
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
Authors:Md Tanvirul Alam, Nidhi Rastogi
Mathematical reasoning is a central challenge for large language models (LLMs), requiring not only correct answers but also faithful reasoning processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising approach for enhancing such capabilities; however, its ability to foster genuine reasoning remains unclear. We investigate RLVR on two combinatorial problems with fully verifiable solutions: \emph{Activity Scheduling} and the \emph{Longest Increasing Subsequence}, using carefully curated datasets with unique optima. Across multiple reward designs, we find that RLVR improves evaluation metrics but often by reinforcing superficial heuristics rather than acquiring new reasoning strategies. These findings highlight the limits of RLVR generalization, emphasizing the importance of benchmarks that disentangle genuine mathematical reasoning from shortcut exploitation and provide faithful measures of progress. Code available at https://github.com/xashru/rlvr-seq-generalization.
数学推理对于大型语言模型(LLM)来说是一个核心挑战,不仅需要正确答案,还需要忠实的推理过程。强化学习通过可验证奖励(RLVR)已成为增强此类能力的一种有前途的方法,但其促进真正推理的能力仍不明确。我们通过在两个具有可验证解决方案的组合问题上调查RLVR来研究其效果,这两个问题分别是“活动调度”和“最长递增子序列”,我们使用精心策划的具有独特最优解的数据集进行研究。在多种奖励设计下,我们发现RLVR虽然提高了评估指标,但往往是通过对表面启发式策略的强化而非获取新的推理策略来实现的。这些发现突出了RLVR泛化的局限性,强调了在衡量真正数学推理与捷径利用之间解开联系和提供忠实进步度量方面,基准测试的重要性。相关代码可访问:https://github.com/xashru/rlvr-seq-generalization。
论文及项目相关链接
Summary
数学推理是大型语言模型(LLM)的核心挑战,不仅需要正确答案,还需要忠实的推理过程。强化学习加可验证奖励(RLVR)方法被提出用于提高LLM的推理能力,但其是否能促进真正的推理尚不清楚。研究者在两个具有可验证解决方案的组合问题上对RLVR进行了调查:活动调度和最长递增子序列,并使用精心策划的具有独特最优解的数据集进行了实验。在多种奖励设计下,研究发现RLVR虽然提高了评估指标,但往往是通过强化表层启发式策略而非获得新的推理策略来改善性能。这凸显了RLVR泛化的局限性,并强调需要基准测试来区分真正的数学推理和捷径利用,以及提供可靠的进步衡量标准。
Key Takeaways
- 数学推理是大型语言模型的核心挑战,需要不仅正确答案,还需忠实推理过程。
- 强化学习加可验证奖励(RLVR)方法被用于提高LLM的推理能力。
- RLVR在解决组合问题上进行了调查,如活动调度和最长递增子序列。
- 使用精心策划的具有独特最优解的数据集进行实验。
- RLVR提高了评估指标,但往往是通过强化表层启发式策略来改善性能,而非获取新的推理策略。
- RLVR泛化存在局限性。
- 需要基准测试来区分真正的数学推理和捷径利用,并提供可靠的进步衡量标准。
点此查看论文截图
Emu3.5: Native Multimodal Models are World Learners
Authors:Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
We introduce Emu3.5, a large-scale multimodal world model that natively predicts the next state across vision and language. Emu3.5 is pre-trained end-to-end with a unified next-token prediction objective on a corpus of vision-language interleaved data containing over 10 trillion tokens, primarily derived from sequential frames and transcripts of internet videos. The model naturally accepts interleaved vision-language inputs and generates interleaved vision-language outputs. Emu3.5 is further post-trained with large-scale reinforcement learning to enhance multimodal reasoning and generation. To improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA), which converts token-by-token decoding into bidirectional parallel prediction, accelerating per-image inference by about 20x without sacrificing performance. Emu3.5 exhibits strong native multimodal capabilities, including long-horizon vision-language generation, any-to-image (X2I) generation, and complex text-rich image generation. It also exhibits generalizable world-modeling abilities, enabling spatiotemporally consistent world exploration and open-world embodied manipulation across diverse scenarios and tasks. For comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image (Nano Banana) on image generation and editing tasks and demonstrates superior results on a suite of interleaved generation tasks. We open-source Emu3.5 at https://github.com/baaivision/Emu3.5 to support community research.
我们介绍了Emu3.5,这是一个大规模的多模态世界模型,它天生就能预测视觉和语言的下一状态。Emu3.5通过在一个包含超过10万亿标记的视听语言交织数据语料库上进行端到端的预训练,以统一的下一个标记预测目标来实现。这些数据主要来源于互联网视频的连续帧和字幕。该模型自然地接受交织的视听语言输入,并产生交织的视听语言输出。为了增强多模态推理和生成能力,Emu3.5还通过大规模强化学习进行了后训练。为提高推理效率,我们提出了离散扩散适应(DiDA)方法,它将逐个标记的解码转换为双向并行预测,在不牺牲性能的情况下将每张图像的推理速度提高了大约20倍。Emu3.5表现出强大的本土多模态能力,包括长期视界视听语言生成、任意图像生成(X2I)和丰富的文本图像生成。它还表现出通用的世界建模能力,能够在各种场景和任务中进行时空一致的世界探索和开放世界操作。相比之下,Emu3.5在图像生成和编辑任务上的表现与Gemini 2.5 Flash Image(Nano Banana)相当,并在一系列交织生成任务上表现出更优越的结果。我们在https://github.com/baaivision/Emu3.5开源了Emu3.5,以支持社区研究。
论文及项目相关链接
PDF project page: https://emu.world
Summary
Emu3.5是一款大规模的多模态世界模型,它能够在视觉和语言之间进行预测下一个状态。该模型通过端到端的预训练,以统一的下一个令牌预测目标,处理超过十亿令牌的视觉语言交织数据。此外,它采用强化学习进行后训练,以提高多模态推理和生成能力。为提高推理效率,提出了离散扩散适应(DiDA)方法,将令牌逐解码转换为双向并行预测,提高每张图像的推理速度约20倍且不影响性能。此外,它在长视界视觉语言生成、任意到图像生成和复杂文本丰富的图像生成方面表现出强大的能力。其在图像生成和编辑任务上的表现与Gemini 2.5 Flash Image(Nano Banana)相当,并在一系列交织生成任务中表现优异。该模型已开源,支持社区研究。
Key Takeaways
- Emu3.5是一款多模态世界模型,能够预测视觉和语言的下一个状态。
- Emu3.5通过端到端的预训练和强化学习后训练,提高多模态推理和生成能力。
- 离散扩散适应(DiDA)方法提高了推理效率,加速推理速度约20倍。
- Emu3.5具有强大的视觉语言生成能力,包括长视界视觉语言生成、任意到图像生成和复杂文本丰富的图像生成。
- Emu3.5在图像生成和编辑任务上的表现优异,与Gemini 2.5 Flash Image相当。
- Emu3.5具有通用世界建模能力,能够在不同的场景和任务中进行时空一致的探索和操作。
点此查看论文截图
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
Authors:Jingran Zhang, Ning Li, Justin Cui
OpenAI’s ChatGPT Atlas introduces new capabilities for web interaction, enabling the model to analyze webpages, process user intents, and execute cursor and keyboard inputs directly within the browser. While its capacity for information retrieval tasks has been demonstrated, its performance in dynamic, interactive environments remains less explored. In this study, we conduct an early evaluation of Atlas’s web interaction capabilities using browser-based games as test scenarios, including Google’s T-Rex Runner, Sudoku, Flappy Bird, and Stein.world. We employ in-game performance scores as quantitative metrics to assess performance across different task types. Our results show that Atlas performs strongly in logical reasoning tasks like Sudoku, completing puzzles significantly faster than human baselines, but struggles substantially in real-time games requiring precise timing and motor control, often failing to progress beyond initial obstacles. These findings suggest that while Atlas demonstrates capable analytical processing, there remain notable limitations in dynamic web environments requiring real-time interaction. The website of our project can be found at https://atlas-game-eval.github.io.
OpenAI的ChatGPT Atlas引入了网页交互的新功能,使模型能够分析网页、处理用户意图,并在浏览器内直接执行光标和键盘输入。虽然其在信息检索任务方面的能力已经得到证明,但在动态、交互式环境中的表现仍然研究较少。本研究通过基于浏览器的游戏测试场景对Atlas的网页交互能力进行了初步评估,包括Google的T-Rex Runner、数独、飞翔鸟和Stein.world。我们采用游戏内绩效得分作为定量指标,评估不同任务类型的性能。结果表明,Atlas在逻辑推理任务(如数独)中表现强劲,完成谜题的速度明显快于人类基准线,但在需要精确计时和动作控制的实时游戏中遇到困难,往往无法克服初始障碍。这些发现表明,虽然Atlas表现出了强大的分析能力,但在需要实时交互的动态网页环境中仍存在明显的局限性。我们项目的网站可在 https://atlas-game-eval.github.io 找到。
论文及项目相关链接
Summary
OpenAI的ChatGPT Atlas通过网页交互能力实现了在浏览器内的直接分析与操作。本研究通过浏览器游戏测试其性能,发现Atlas在逻辑推理任务上表现优异,但在需要实时互动和精确控制的游戏中表现欠佳。
Key Takeaways
- ChatGPT Atlas具备网页交互能力,可直接在浏览器内分析网页、处理用户意图并执行光标和键盘输入。
- 通过浏览器游戏测试,发现Atlas在逻辑推理任务如Sudoku游戏中表现优秀,完成谜题的速度显著快于人类基准测试者。
- 在需要实时互动和精确控制的游戏(如T-Rex Runner、Flappy Bird和Stein.world)中,Atlas表现挣扎,往往无法克服初始障碍。
- Atlas在动态网页环境中的实时交互存在显著局限性。
- Atlas的分析处理能力得到展现,但在应对复杂、多变的实时互动环境时仍需改进。
- 研究结果有助于更好地理解Atlas的优缺点,为未来研究和改进方向提供参考。
点此查看论文截图
Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
Authors:Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
强化学习与可验证奖励(RLVR)最近极大地提升了大型语言模型(LLM)的推理能力。然而,现有的RLVR方法仅仅基于LLM自身生成的响应进行训练,并受到LLM初始能力的限制,因此容易出现探索停滞,即LLM无法解决更多的训练问题,无法从训练数据中进一步学习。一些工作试图通过利用离线策略解决方案来解决这个问题,但需要专家的外部指导,而专家的指导往往有限。在这项工作中,我们提出了LTE(从试错中学习推理),一种通过暗示LLM之前自我生成的错误答案以及过长响应的问题的方法,无需任何外部专家指导。实验验证了LTE的有效性,在Qwen3-4B-Base的六个数学基准测试中,LTE在Pass@1上优于正常组的相对策略优化(GRPO)6.38,在Pass@k上优于9.00。进一步的分析证实,LTE成功地缓解了探索停滞的问题,并在训练中增强了开发和探索。
论文及项目相关链接
PDF Work in progress
Summary
强化学习与可验证奖励(RLVR)最近极大地提升了大型语言模型(LLM)的推理能力。然而,现有的RLVR方法仅基于LLM自身生成的响应进行训练,并受到LLM初始能力的限制,容易出现探索停滞问题,即LLM无法解决更多的训练问题,无法从训练数据中进一步学习。为解决这一问题,一些研究尝试利用非策略解决方案,但需要专家外部指导,存在指导有限的问题。本研究提出了LTE(从试错中学习推理)方法,该方法通过提示LLM之前自我生成的错误答案和过长响应的问题,无需任何外部专家指导。实验验证了LTE的有效性,在六个数学基准测试上,相对于常规群组相对策略优化(GRPO),LTE在Pass@1和Pass@k上的平均表现分别提高了6.38和9.00。进一步分析表明,LTE成功缓解了探索停滞问题,并在训练过程中提高了开发和探索能力。
Key Takeaways
- 强化学习与可验证奖励(RLVR)增强了大型语言模型(LLM)的推理能力。
- 现有RLVR方法受LLM初始能力限制,易陷入探索停滞。
- 非策略解决方案需专家外部指导,但指导资源有限。
- 本研究提出LTE方法,基于LLM自我生成的错误答案进行优化。
- LTE在多个数学基准测试上表现出超越常规方法的性能。
- LTE成功缓解探索停滞问题。
点此查看论文截图
AutoSurvey2: Empowering Researchers with Next Level Automated Literature Surveys
Authors:Siyi Wu, Chiaxin Liang, Ziqian Bi, Leyi Zhao, Tianyang Wang, Junhao Song, Yichao Zhang, Keyu Chen, Xinyuan Song
The rapid growth of research literature, particularly in large language models (LLMs), has made producing comprehensive and current survey papers increasingly difficult. This paper introduces autosurvey2, a multi-stage pipeline that automates survey generation through retrieval-augmented synthesis and structured evaluation. The system integrates parallel section generation, iterative refinement, and real-time retrieval of recent publications to ensure both topical completeness and factual accuracy. Quality is assessed using a multi-LLM evaluation framework that measures coverage, structure, and relevance in alignment with expert review standards. Experimental results demonstrate that autosurvey2 consistently outperforms existing retrieval-based and automated baselines, achieving higher scores in structural coherence and topical relevance while maintaining strong citation fidelity. By combining retrieval, reasoning, and automated evaluation into a unified framework, autosurvey2 provides a scalable and reproducible solution for generating long-form academic surveys and contributes a solid foundation for future research on automated scholarly writing. All code and resources are available at https://github.com/annihi1ation/auto_research.
随着研究文献的快速增长,特别是在大型语言模型(LLMs)领域,撰写全面且最新的综述论文变得越来越困难。本文介绍了autosurvey2,这是一个多阶段的管道,通过增强检索的综合方法和结构化评估来自动化综述生成。该系统结合了并行段落生成、迭代细化和实时检索最新出版物,以确保主题完整性和事实准确性。质量评估采用多LLM评估框架,根据专家评审标准衡量覆盖率、结构和相关性。实验结果表明,autosurvey2持续优于现有的基于检索和自动化的基准测试,在结构连贯性和主题相关性方面得分更高,同时保持高引用保真度。通过将检索、推理和自动评估结合到一个统一框架中,autosurvey2为生成长格式的学术综述提供了一个可扩展和可复制的解决方案,并为未来自动化学术写作的研究奠定了坚实基础。所有代码和资源都可在https://github.com/annihi1ation/auto_research找到。
论文及项目相关链接
PDF TKDD 2025
Summary
文章介绍了名为autosurvey2的多阶段管道系统,该系统通过检索增强合成和结构化评估自动化生成调查报告。系统集成了并行段落生成、迭代优化和最新文献的实时检索,确保主题完整性和事实准确性。质量评估采用多语言模型评估框架,根据专家评审标准衡量覆盖范围、结构和相关性。实验结果表明,autosurvey2在结构连贯性和主题相关性方面始终优于现有的基于检索和自动化的基准测试,同时保持高度的引文保真度。通过将检索、推理和自动评估结合到一个统一框架中,autosurvey2为生成长篇文章提供了可扩展和可复制的解决方案,并为自动化学术写作的未来研究奠定了坚实基础。
Key Takeaways
- autosurvey2是一个多阶段管道系统,用于自动化生成调查报告。
- 系统通过检索增强合成和结构化评估确保报告的主题完整性和事实准确性。
- 系统中集成了并行段落生成、迭代优化和最新文献的实时检索。
- 采用多语言模型评估框架来衡量报告的质量,包括覆盖范围、结构和相关性。
- autosurvey2在结构连贯性和主题相关性方面优于现有方法。
- autosurvey2保持高引文保真度,为长篇文章的自动生成提供了可扩展和可复制的解决方案。
点此查看论文截图
Approximating Human Preferences Using a Multi-Judge Learned System
Authors:Eitán Sprejer, Fernando Avalos, Augusto Bernardi, Jose Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer
Aligning LLM-based judges with human preferences is a significant challenge, as they are difficult to calibrate and often suffer from rubric sensitivity, bias, and instability. Overcoming this challenge advances key applications, such as creating reliable reward models for Reinforcement Learning from Human Feedback (RLHF) and building effective routing systems that select the best-suited model for a given user query. In this work, we propose a framework for modeling diverse, persona-based preferences by learning to aggregate outputs from multiple rubric-conditioned judges. We investigate the performance of this approach against naive baselines and assess its robustness through case studies on both human and LLM-judges biases. Our primary contributions include a persona-based method for synthesizing preference labels at scale and two distinct implementations of our aggregator: Generalized Additive Model (GAM) and a Multi-Layer Perceptron (MLP).
将基于LLM的裁判与人类偏好对齐是一项重大挑战,因为它们难以校准,且经常受到评分标准敏感性、偏见和不稳定性的影响。克服这一挑战有助于推动关键应用的发展,例如建立可靠的奖励模型用于人类反馈强化学习(RLHF),以及构建有效的路由系统来为给定用户查询选择最合适的模型。在这项工作中,我们提出了一个通过学习聚合多个评分标准条件下的裁判输出来建模多样化和个性化偏好的框架。我们研究了该方法相对于简单基准线的性能,并通过关于人类和LLM裁判偏见的案例研究来评估其稳健性。我们的主要贡献包括一种基于个性化的大规模偏好标签合成方法,以及我们聚合器的两种不同实现:广义可加模型(GAM)和多层感知器(MLP)。
论文及项目相关链接
Summary
本文介绍了LLM在与人类偏好对齐方面所面临的挑战,包括校准困难、对评价标准的敏感性、偏见和不稳定等问题。为克服这些挑战,推进关键应用如基于人类反馈的强化学习(RLHF)的可靠奖励模型及针对特定用户查询选择最适合模型的有效路由系统。本文提出一种通过建模多种个性化偏好并学习整合多个基于评价标准的法官输出结果的框架。研究此方法的性能并评估其在应对人为偏见和LLM法官偏见方面的稳健性。主要贡献包括大规模合成偏好标签的个性化方法和两种独特的聚合器实现:广义可加模型(GAM)和多层感知器(MLP)。
Key Takeaways
- LLM与人类偏好对齐存在挑战,包括校准困难、评价标准敏感性、偏见和不稳定等问题。
- 通过建模多种个性化偏好以克服这些挑战,并推进关键应用如强化学习的奖励模型和路由系统。
- 提出一种整合多个基于评价标准的法官输出结果的框架。
- 研究了框架的性能,并通过案例研究评估了其稳健性。
- 主要的贡献包括大规模合成偏好标签的个性化方法。
- 提供了两种独特的聚合器实现:广义可加模型(GAM)和多层感知器(MLP)。
点此查看论文截图
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
Authors:Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
Humans possess spatial reasoning abilities that enable them to understand spaces through multimodal observations, such as vision and sound. Large multimodal reasoning models extend these abilities by learning to perceive and reason, showing promising performance across diverse spatial tasks. However, systematic reviews and publicly available benchmarks for these models remain limited. In this survey, we provide a comprehensive review of multimodal spatial reasoning tasks with large models, categorizing recent progress in multimodal large language models (MLLMs) and introducing open benchmarks for evaluation. We begin by outlining general spatial reasoning, focusing on post-training techniques, explainability, and architecture. Beyond classical 2D tasks, we examine spatial relationship reasoning, scene and layout understanding, as well as visual question answering and grounding in 3D space. We also review advances in embodied AI, including vision-language navigation and action models. Additionally, we consider emerging modalities such as audio and egocentric video, which contribute to novel spatial understanding through new sensors. We believe this survey establishes a solid foundation and offers insights into the growing field of multimodal spatial reasoning. Updated information about this survey, codes and implementation of the open benchmarks can be found at https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
人类拥有空间推理能力,能够通过多模态观察(如视觉和听觉)理解空间。大型多模态推理模型通过学习和感知推理来扩展这些能力,在多种空间任务中表现出有前景的性能。然而,关于这些模型的系统性回顾和公开的基准测试仍然有限。在这篇综述中,我们全面回顾了使用大型模型的多模态空间推理任务,对近期的多模态大型语言模型(MLLM)进展进行分类,并介绍了用于评估的公开基准测试。我们首先概述一般的空间推理,重点关注后训练技术、解释性和架构。除了经典的二维任务外,我们还研究了空间关系推理、场景和布局理解,以及视觉问答和三维空间定位。我们还回顾了嵌入式AI的进展,包括视觉语言导航和动作模型。此外,我们还考虑了新兴的模态,如音频和自我中心视频,这些通过新传感器为新型空间理解做出了贡献。我们相信这篇综述为不断发展的多模态空间推理领域奠定了坚实的基础,并提供了深刻的见解。有关此综述的更新信息、代码和公开基准测试的实施,可以在https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning找到。
论文及项目相关链接
Summary:人类拥有通过多模式观察(如视觉和听觉)理解空间的能力。大型多模式推理模型通过学习和感知扩展这些能力,在各种空间任务中表现出良好的性能。本文全面回顾了使用大型模型的多模式空间推理任务,分类了近期在多模式大型语言模型(MLLMs)方面的进展,并介绍了公开评估的基准测试。文章概述了一般空间推理,重点关注了训练后技术、解释性和架构。除了传统的二维任务外,还探讨了空间关系推理、场景和布局理解以及视觉问答和三维空间定位。此外,本文还回顾了包括视觉语言导航和动作模型在内的嵌入式人工智能的进展,并考虑了音频和第一人称视频等新兴模式,这些新兴模式通过新型传感器为空间理解做出了贡献。本文建立了坚实的理论基础,为不断发展的多模式空间推理领域提供了见解。
Key Takeaways:
- 人类具备通过多模态观察(如视觉和听觉)进行空间推理的能力。
- 大型多模态推理模型通过学习和感知扩展这些能力,在各种空间任务中表现优异。
- 现有对多模态空间推理模型的系统性评价基准相对有限。
- 文章全面回顾了多模态空间推理任务,涉及大型模型的应用和发展。
- 文章讨论了空间推理的关键领域,包括空间关系推理、场景和布局理解等。
- 文章涵盖了除传统二维任务外的更广泛的空间理解挑战。
点此查看论文截图
Scaling Latent Reasoning via Looped Language Models
Authors:Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
Modern LLMs are trained to “think” primarily via explicit text generation, such as chain-of-thought (CoT), which defers reasoning to post-training and under-leverages pre-training data. We present and open-source Ouro, named after the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) that instead build reasoning into the pre-training phase through (i) iterative computation in latent space, (ii) an entropy-regularized objective for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and 2.6B models enjoy superior performance that match the results of up to 12B SOTA LLMs across a wide range of benchmarks. Through controlled experiments, we show this advantage stems not from increased knowledge capacity, but from superior knowledge manipulation capabilities. We also show that LoopLM yields reasoning traces more aligned with final outputs than explicit CoT. We hope our results show the potential of LoopLM as a novel scaling direction in the reasoning era. Our model is available here: http://ouro-llm.github.io.
现代大型语言模型主要通过明确的文本生成来进行“思考”,例如链式思维(CoT),这种思维将推理推迟到训练之后,并且未能充分利用预训练数据。我们推出并开源了名为Ouro的递归Ouroboros系列预训练循环语言模型(LoopLM)。它通过(i)潜在空间中的迭代计算,(ii)用于学习深度分配的熵正则化目标,以及(iii)扩展到7.7万亿个令牌,将推理融入到预训练阶段。Ouro 1.4B和2.6B模型享有卓越的性能,在广泛的基准测试中与高达12B的顶尖大型语言模型的结果相匹配。通过受控实验,我们表明这种优势并非来自增加的知识容量,而是来自卓越的知识操作能力。我们还表明,LoopLM产生的推理痕迹与最终输出更加一致,而不是明确的CoT。我们希望我们的结果能够展示LoopLM作为推理时代新型扩展方向的潜力。我们的模型可在这里访问。
论文及项目相关链接
Summary
训练现代大型语言模型(LLM)主要通过明确的文本生成来进行“思考”,例如链式思维(CoT),这种方式将推理推迟到训练之后,并且未能充分利用预训练数据。我们推出并开源了名为Ouro的预训练循环语言模型(LoopLM),它通过在预训练阶段融入推理能力,包括(i)潜在空间中的迭代计算,(ii)用于深度分配的熵正则化目标,以及(iii)扩展到7.7万亿令牌。Ouro 1.4B和2.6B模型的性能优越,在广泛的基准测试中与多达12B的SOTA LLM相匹配。通过控制实验,我们证明这种优势并非来自增加的知识容量,而是来自卓越的知识操作能力。我们还表明,LoopLM产生的推理轨迹与最终输出更加一致,不同于明确的CoT。我们希望结果展示LoopLM作为推理时代新型扩展方向的潜力。
Key Takeaways
- 现代LLM主要通过文本生成进行“思考”,将推理推迟到训练后。
- Ouro是预训练循环语言模型(LoopLM),将推理融入预训练阶段。
- LoopLM通过潜在空间中的迭代计算、熵正则化目标和扩展到大量令牌来提升性能。
- Ouro 1.4B和2.6B模型性能优越,与SOTA LLM相当。
- 控制实验表明优势来自知识操作能力的提升,而非增加的知识容量。
- LoopLM产生的推理轨迹与最终输出更加一致。
点此查看论文截图
Reasoning-Aware GRPO using Process Mining
Authors:Taekhyun Park, Yongjae Lee, Hyerim Bae
Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model’s reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.
基于强化学习(RL)的后期训练对于实现大型推理模型(LRMs)中的多步推理至关重要。然而,当前的奖励机制大多以结果为中心。我们提出了PM4GRPO,这是一种具有推理意识的群体相对策略优化(GRPO),它除了标准答案/格式奖励外,还增加了对推理过程的信号。为此,采用过程挖掘技术来计算标量一致性奖励,该奖励衡量策略模型的推理与预训练教师模型的契合程度。在五个基准测试上的实证结果表明,PM4GRPO在基于GRPO的后期训练方面显著优于现有方法。这些结果强调,利用过程挖掘进行具有推理意识的GRPO可有效提高策略模型的推理能力。
论文及项目相关链接
Summary
强化学习(RL)对于大型推理模型(LRMs)的多步推理至关重要,但当前奖励机制多以结果为中心。我们提出PM4GRPO,一种推理感知的群体相对策略优化(GRPO),它使用过程挖掘技术来计算政策模型推理与教师模型预训练的一致性程度的标量合规奖励。实证结果表明,PM4GRPO在五个基准测试上显著优于现有的GRPO后训练的方法论。这凸显了利用过程挖掘实现推理感知的GRPO能有效提升策略模型的推理能力。
Key Takeaways
- 强化学习对于大型推理模型的多步推理至关重要。
- 当前奖励机制多以结果为中心,需要一种推理感知的奖励机制。
- PM4GRPO是一种新的推理感知的群体相对策略优化方法。
- PM4GRPO利用过程挖掘技术计算政策模型与教师模型的合规性奖励。
- 实证结果表明PM4GRPO显著优于现有方法。
- 利用过程挖掘实现推理感知的策略优化能提升模型的推理能力。
点此查看论文截图
Repurposing Synthetic Data for Fine-grained Search Agent Supervision
Authors:Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
LLM-based search agents are increasingly trained on entity-centric synthetic data to solve complex, knowledge-intensive tasks. However, prevailing training methods like Group Relative Policy Optimization (GRPO) discard this rich entity information, relying instead on sparse, outcome-based rewards. This critical limitation renders them unable to distinguish informative “near-miss” samples-those with substantially correct reasoning but a flawed final answer-from complete failures, thus discarding valuable learning signals. We address this by leveraging the very entities discarded during training. Our empirical analysis reveals a strong positive correlation between the number of ground-truth entities identified during an agent’s reasoning process and final answer accuracy. Building on this insight, we introduce Entity-aware Group Relative Policy Optimization (E-GRPO), a novel framework that formulates a dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect samples proportional to their entity match rate, enabling the model to effectively learn from these “near-misses”. Experiments on diverse question-answering (QA) and deep research benchmarks show that E-GRPO consistently and significantly outperforms the GRPO baseline. Furthermore, our analysis reveals that E-GRPO not only achieves superior accuracy but also induces more efficient reasoning policies that require fewer tool calls, demonstrating a more effective and sample-efficient approach to aligning search agents.
基于大型语言模型(LLM)的搜索代理越来越多地采用以实体为中心的合成数据进行训练,以解决复杂、知识密集型的任务。然而,流行的训练方法,如群体相对策略优化(GRPO),会丢弃这些丰富的实体信息,转而依赖稀疏的结果导向奖励。这一关键局限使得它们无法区分具有实质性正确推理但最终答案有缺陷的“近似成功”样本和完全失败的样本,从而丢弃了有价值的学习信号。我们通过利用在训练过程中丢弃的实体来解决这个问题。我们的经验分析表明,代理推理过程中识别的真实实体数量与最终答案的准确性之间存在强烈正相关关系。基于这一见解,我们引入了实体感知群体相对策略优化(E-GRPO),这是一个新的框架,它制定了一个密集的实体感知奖励函数。E-GRPO为不正确的样本分配部分奖励,比例与它们的实体匹配率相符,使模型能够有效地从这些“近似成功”的样本中学习。在多种问答(QA)和深度研究基准测试上的实验表明,E-GRPO始终且显著优于GRPO基线。此外,我们的分析表明,E-GRPO不仅实现了更高的准确性,而且还诱导了更有效的推理策略,需要更少的工具调用,显示了一种更有效和样本效率更高的搜索代理对齐方法。
论文及项目相关链接
Summary
大型语言模型(LLM)搜索代理在实体为中心的合成数据上进行训练以解决复杂、知识密集型任务时表现出巨大的潜力。然而,当前普遍采用的训练方法(如群体相对策略优化GRPO)忽视了丰富的实体信息,依赖稀疏的结果导向奖励,导致无法区分信息丰富的“近错样本”(具有正确推理但答案有缺陷的样本)和完全失败的样本。为解决这一问题,我们利用训练过程中丢弃的实体信息,发现代理推理过程中识别的真实实体数量与最终答案的准确性之间存在强烈正相关关系。基于此,我们提出了实体感知群体相对策略优化(E-GRPO)的新框架,构建了一个密集的实体感知奖励函数。E-GRPO为错误样本分配部分奖励,奖励量与实体匹配率成正比,使模型能够从这些“近错样本”中学习。在问答和深度研究基准测试上的实验表明,E-GRPO在效率和准确性方面均显著优于GRPO。此外,我们的分析显示,E-GRPO不仅实现了更高的准确性,还产生了更高效的推理策略,需要较少的工具调用次数。它为我们提供了更有效地优化大型语言模型的方法。
Key Takeaways
- LLM搜索代理通过实体为中心的训练数据解决复杂知识密集型任务。
- 当前训练方法忽略实体信息并依赖稀疏奖励系统,难以区分高质量的错误样本与失败样本。
- 实体感知奖励函数被引入以解决该问题。新提出的E-GRPO框架能有效区分正确与错误样本,并为错误样本分配部分奖励。
- E-GRPO显著提高了模型的准确性和效率,减少了工具调用的需求。这表明其在提高搜索代理的对齐方面取得了进展。
点此查看论文截图
OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning
Authors:Ziyou Hu, Zhengliang Shi, Minghang Zhu, Haitao Li, Teng Sun, Pengjie Ren, Suzan Verberne, Zhaochun Ren
Reward models (RMs) have become essential for aligning large language models (LLMs), serving as scalable proxies for human evaluation in both training and inference. However, existing RMs struggle on knowledge-intensive and long-form tasks, where evaluating correctness requires grounding beyond the model’s internal knowledge. This limitation hinders them from reliably discriminating subtle quality differences, especially when external evidence is necessary. To address this, we introduce OpenRM, a tool-augmented long-form reward model that systematically judges open-ended responses by invoking external tools to gather relevant evidence. We train OpenRM with Group Relative Policy Optimization (GRPO) on over 27K synthesized pairwise examples generated through a controllable data synthesis framework. The training objective jointly supervises intermediate tool usage and final outcome accuracy, incentivizing our reward model to learn effective evidence-based judgment strategies. Extensive experiments on three newly-collected datasets and two widely-used benchmarks demonstrate that OpenRM substantially outperforms existing reward modeling approaches. As a further step, we integrate OpenRM into both inference-time response selection and training-time data selection. This yields consistent gains in downstream LLM alignment tasks, highlighting the potential of tool-augmented reward models for scaling reliable long-form evaluation.
奖励模型(RMs)对于对齐大型语言模型(LLMs)至关重要,已成为训练和推理中人类评估的可扩展代理。然而,现有RMs在知识密集型和长格式任务方面存在困难,这些任务的正确性评估需要超出模型内部知识的基础。这一局限性使他们难以可靠地区分细微的质量差异,尤其是在需要外部证据的情况下。为解决这一问题,我们引入了OpenRM,这是一个工具增强型长格式奖励模型,它通过调用外部工具来收集相关证据,从而系统地判断开放式响应。我们使用群体相对策略优化(GRPO)在超过27000个通过可控数据合成框架合成的配对示例上训练OpenRM。训练目标联合监督中间工具使用和最终结果的准确性,激励我们的奖励模型学习有效的基于证据的判断策略。在三个新收集的数据集和两个广泛使用的基准测试上的大量实验表明,OpenRM显著优于现有的奖励建模方法。作为进一步的一步,我们将OpenRM集成到推理时间的响应选择和训练时间的数据选择中。这在下游LLM对齐任务中产生了持续的收益,突出了工具增强奖励模型在可靠长格式评估中的潜力。
论文及项目相关链接
Summary
一篇关于奖励模型(RMs)的论文指出,RMs在大规模语言模型(LLMs)的应用中已成为关键,作为人类评估的可扩展代理,用于训练和推理。然而,现有RMs在知识密集型和长格式任务上表现不佳,这些任务需要超越模型内部知识的评估正确性。为解决这一问题,论文提出了OpenRM,一个通过调用外部工具来系统地评估开放式响应的工具增强型长格式奖励模型。通过Group Relative Policy Optimization(GRPO)在超过2.7万个合成对示例上进行训练,这些示例通过一个可控的数据合成框架生成。培训目标联合监督中间工具使用和最终结果的准确性,激励奖励模型学习有效的基于证据的判断策略。在三个新收集的数据集和两个广泛使用的基准测试上的大量实验表明,OpenRM显著优于现有的奖励建模方法。作为进一步的研究方向,论文将OpenRM集成到推理时间响应选择和训练时间数据选择中,为下游LLM对齐任务带来了一致的收益,突显了工具增强奖励模型在可靠长格式评估方面的潜力。
Key Takeaways
- 奖励模型(RMs)在大规模语言模型(LLMs)的应用中扮演重要角色,作为人类评估的代理在训练和推理过程中使用。
- 现有RMs在处理知识密集型和长格式任务时存在局限性,难以可靠地区分微妙的品质差异,尤其是在需要外部证据的情况下。
- OpenRM是一个工具增强型长格式奖励模型,通过调用外部工具来系统地评估开放式响应。
- OpenRM通过Group Relative Policy Optimization(GRPO)在合成数据上进行训练,联合监督中间工具使用和最终结果的准确性。
- OpenRM显著优于现有的奖励建模方法,在多个数据集和基准测试上表现出良好的性能。
- OpenRM被集成到推理时间响应选择和训练时间数据选择中,提高了下游LLM对齐任务的性能。
- 工具增强奖励模型在可靠的长格式评估方面具有潜力。