嘘~ 正在从服务器偷取页面 . . .

LLM


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-21 更新

TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference

Authors:Dan Zhang, Min Cai, Jonathan Li, Ziniu Hu, Yisong Yue, Yuxiao Dong, Jie Tang

Reward models are central to both reinforcement learning (RL) with language models and inference-time verification. However, existing reward models often lack temporal consistency, leading to ineffective policy updates and unstable RL training. We introduce TDRM, a method for learning smoother and more reliable reward models by minimizing temporal differences during training. This temporal-difference (TD) regularization produces smooth rewards and improves alignment with long-term objectives. Incorporating TDRM into the actor-critic style online RL loop yields consistent empirical gains. It is worth noting that TDRM is a supplement to verifiable reward methods, and both can be used in series. Experiments show that TD-trained process reward models (PRMs) improve performance across Best-of-N (up to 6.6%) and tree-search (up to 23.7%) settings. When combined with Reinforcement Learning with Verifiable Rewards (RLVR), TD-trained PRMs lead to more data-efficient RL – achieving comparable performance with just 2.5k data to what baseline methods require 50.1k data to attain – and yield higher-quality language model policies on 8 model variants (5 series), e.g., Qwen2.5-(0.5B, 1,5B), GLM4-9B-0414, GLM-Z1-9B-0414, Qwen2.5-Math-(1.5B, 7B), and DeepSeek-R1-Distill-Qwen-(1.5B, 7B). We release all code at https://github.com/THUDM/TDRM.

奖励模型在基于语言模型的强化学习(RL)和推理时间验证中都扮演着核心角色。然而,现有的奖励模型通常缺乏时间一致性,导致策略更新无效和强化学习训练不稳定。我们引入了TDRM方法,通过最小化训练过程中的时间差异来学习更平滑、更可靠的奖励模型。这种时间差分(TD)正则化产生了平滑的奖励,并改善了与长期目标的对齐。将TDRM纳入Actor-Critic风格的在线强化学习循环中,可以获得一致的实证收益。值得注意的是,TDRM是验证奖励方法的一种补充,两者可以串联使用。实验表明,经过TD训练的进程奖励模型(PRM)在Best-of-N(最多提高6.6%)和树搜索(最多提高23.7%)场景中提高了性能。当与具有可验证奖励的强化学习(RLVR)结合时,TD训练的PRM使得强化学习更加数据高效——仅需2.5k数据即可达到与基线方法使用50.1k数据时相当的性能——并在8个模型变体(5个系列)上产生了更高质量的语言模型策略,例如Qwen2.5-(0.5B,1,5B),GLM4-9B-0414,GLM-Z1-9B-0414,Qwen2.5-Math-(1.5B,7B),以及DeepSeek-R1-Distill-Qwen-(1.5B,7B)。我们在https://github.com/THUDM/TDRM上发布了所有代码。

论文及项目相关链接

PDF 9 figures, 7 tables

摘要

本文介绍了在强化学习与语言模型结合中的奖励模型的重要性和现有奖励模型存在的问题,即缺乏时间一致性。为此,作者提出了TDRM方法,通过最小化训练过程中的时间差异来学习更平滑、更可靠的奖励模型。这种方法产生平滑的奖励,改善了与长期目标的对齐。将其纳入演员评论家在线强化学习循环中产生了一致的实证收益。实验结果表明,采用TD训练的进程奖励模型(PRM)在最佳N设置和树搜索设置中均提高了性能。当与可验证奖励的强化学习(RLVR)结合时,TD训练的PRM可实现更高效的数据强化学习,并在多个语言模型变体上产生更高质量的策略。代码已发布在https://github.com/THUDM/TDRM。

关键见解

  1. 奖励模型在强化学习与语言模型的结合以及推理时间验证中起核心作用。
  2. 现有奖励模型缺乏时间一致性,导致策略更新无效和强化学习训练不稳定。
  3. TDRM方法通过学习更平滑、更可靠的奖励模型来解决这个问题,通过最小化训练过程中的时间差异来产生平滑的奖励。
  4. TDRM方法改善了与长期目标的对齐,并纳入演员评论家在线强化学习循环中产生了一致的实证收益。
  5. 实验表明,TD训练的PRM在最佳N和树搜索设置中提高了性能。
  6. 结合RLVR,TD训练的PRM可实现更高效的数据强化学习,达到与基线方法相当的性能只需2.5k数据。

Cool Papers

点此查看论文截图

TextMine: LLM-Powered Knowledge Extraction for Humanitarian Mine Action

Authors:Chenyue Zhou, Gürkan Solmaz, Flavio Cirillo, Kiril Gashteovski, Jonathan Fürst

Humanitarian Mine Action has generated extensive best-practice knowledge, but much remains locked in unstructured reports. We introduce TextMine, an ontology-guided pipeline that uses Large Language Models to extract knowledge triples from HMA texts. TextMine integrates document chunking, domain-aware prompting, triple extraction, and both reference-based and LLM-as-a-Judge evaluation. We also create the first HMA ontology and a curated dataset of real-world demining reports. Experiments show ontology-aligned prompts boost extraction accuracy by 44.2%, cut hallucinations by 22.5%, and improve format conformance by 20.9% over baselines. While validated on Cambodian reports, TextMine can adapt to global demining efforts or other domains, transforming unstructured data into structured knowledge.

人道主义排雷行动已经产生了大量最佳实践知识,但其中大部分仍然存在于非结构化报告中。我们在此介绍TextMine,这是一个由本体引导的管道,使用大型语言模型从人道主义排雷行动文本中提取知识三元组。TextMine集成了文档分块、领域感知提示、三元组提取以及基于参考和LLM作为评判的评价。我们还创建了首个人道主义排雷行动本体以及真实的排雷报告数据集。实验表明,与本体对齐的提示可以提高提取准确率44.2%,减少虚构情况22.5%,并在格式合规方面提高基线水平20.9%。虽然已经在柬埔寨的报告中得到验证,但TextMine可以适应全球排雷行动或其他领域,将非结构化数据转化为结构化知识。

论文及项目相关链接

PDF

Summary:人道主义排雷行动积累了丰富的最佳实践知识,但大量知识仍存在于非结构化报告中。本文介绍了一种名为TextMine的基于本体论的管道,该管道利用大型语言模型从人道主义排雷行动文本中提取知识三元组。TextMine集成了文档分割、域感知提示、三元组提取以及基于参考和LLM作为法官的评价。同时,本文创建了首个人道主义排雷行动本体和一个真实的排雷报告数据集。实验表明,与基线相比,本体对齐的提示提高了提取准确性,减少了虚构现象,并提高了格式一致性。虽然已在柬埔寨的报告中得到验证,但TextMine可以适应全球排雷行动或其他领域,将非结构化数据转化为结构化知识。

Key Takeaways

  1. TextMine是一个基于本体论的管道,可从人道主义排雷行动文本中提取知识三元组。
  2. TextMine集成了文档分割、域感知提示、三元组提取等多种技术。
  3. 创建了人道主义排雷行动的第一个本体和一个真实的排雷报告数据集。
  4. 本体对齐的提示提高了知识提取的准确性、减少了虚构现象并改善了格式一致性。
  5. TextMine已在柬埔寨的报告中进行了实验验证。
  6. TextMine具有广泛的适用性,不仅可以用于人道主义排雷行动,还可以适应全球排雷行动或其他领域。
  7. TextMine可将非结构化数据转化为结构化知识。

Cool Papers

点此查看论文截图

Self-Adapting Language Models

Authors:Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim, Pulkit Agrawal

Large language models (LLMs) are powerful but static; they lack mechanisms to adapt their weights in response to new tasks, knowledge, or examples. We introduce Self-Adapting LLMs (SEAL), a framework that enables LLMs to self-adapt by generating their own finetuning data and update directives. Given a new input, the model produces a self-edit-a generation that may restructure the information in different ways, specify optimization hyperparameters, or invoke tools for data augmentation and gradient-based updates. Through supervised finetuning (SFT), these self-edits result in persistent weight updates, enabling lasting adaptation. To train the model to produce effective self-edits, we use a reinforcement learning loop with the downstream performance of the updated model as the reward signal. Unlike prior approaches that rely on separate adaptation modules or auxiliary networks, SEAL directly uses the model’s own generation to control its adaptation process. Experiments on knowledge incorporation and few-shot generalization show that SEAL is a promising step toward language models capable of self-directed adaptation. Our website and code is available at https://jyopari.github.io/posts/seal.

大型语言模型(LLM)虽然强大但相对静态,缺乏适应新任务、知识或示例的机制来调整其权重。我们引入了自适应大型语言模型(SEAL)框架,该框架能够使LLM通过生成自己的微调数据和更新指令来进行自适应。给定新的输入,模型会产生自我编辑的版本,这个版本可能以不同的方式重组信息,指定优化超参数,或调用数据增强和基于梯度的更新工具。通过有监督的微调(SFT),这些自我编辑会导致持久的权重更新,从而实现持久的适应。为了训练模型产生有效的自我编辑,我们使用强化学习循环,以更新模型的下游性能作为奖励信号。不同于依赖单独适应模块或辅助网络的先前方法,SEAL直接使用模型自身的生成来控制其适应过程。关于知识整合和少量样本泛化的实验表明,SEAL是朝着能够自我指导适应的语言模型迈出的有希望的一步。我们的网站和代码可通过https://jyopari.github.io/posts/seal访问。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)功能强大但静态,缺乏根据新任务、知识或示例调整权重的能力。本文介绍了自适应LLM(SEAL)框架,该框架能够使LLM自我适应,通过生成自己的微调数据和更新指令来实现。对于新输入,模型会产生自我编辑生成的结果,以不同方式重新组织信息,指定优化超参数,或调用数据增强和基于梯度的更新工具。通过监督微调(SFT),这些自我编辑导致持久权重更新,从而实现长期适应。我们用一个强化学习循环来训练模型产生有效的自我编辑,以更新模型后的下游性能作为奖励信号。不同于依赖单独适应模块或辅助网络的方法,SEAL直接使用模型自身的生成来控制其适应过程。实验表明,SEAL在知识整合和少量样本泛化方面展现出巨大潜力,是向能够自我定向适应的语言模型迈进的有希望的一步。

Key Takeaways

  1. LLMs虽然强大,但缺乏自适应能力,无法根据新任务、知识或示例调整自身权重。
  2. SEAL框架使LLMs能够自我适应,通过生成自我编辑的结果来实现。
  3. 自我编辑生成的结果可能包括以不同方式重新组织信息、指定优化超参数、调用数据增强工具等。
  4. 监督微调(SFT)使自我编辑导致的持久权重更新成为可能,从而实现长期适应。
  5. 使用强化学习循环训练模型产生有效的自我编辑,以更新模型后的下游性能作为奖励信号。
  6. 与其他方法不同,SEAL直接使用模型自身的生成来控制其适应过程。
  7. 实验表明SEAL在知识整合和少量样本泛化方面表现出色,是朝着自适应语言模型迈进的重大进步。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录