⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-08-08 更新
From MAS to MARS: Coordination Failures and Reasoning Trade-offs in Hierarchical Multi-Agent Robotic Systems within a Healthcare Scenario
Authors:Yuanchen Bai, Zijian Ding, Shaoyue Wen, Xiang Chang, Angelique Taylor
Multi-agent robotic systems (MARS) build upon multi-agent systems by integrating physical and task-related constraints, increasing the complexity of action execution and agent coordination. However, despite the availability of advanced multi-agent frameworks, their real-world deployment on robots remains limited, hindering the advancement of MARS research in practice. To bridge this gap, we conducted two studies to investigate performance trade-offs of hierarchical multi-agent frameworks in a simulated real-world multi-robot healthcare scenario. In Study 1, using CrewAI, we iteratively refine the system’s knowledge base, to systematically identify and categorize coordination failures (e.g., tool access violations, lack of timely handling of failure reports) not resolvable by providing contextual knowledge alone. In Study 2, using AutoGen, we evaluate a redesigned bidirectional communication structure and further measure the trade-offs between reasoning and non-reasoning models operating within the same robotic team setting. Drawing from our empirical findings, we emphasize the tension between autonomy and stability and the importance of edge-case testing to improve system reliability and safety for future real-world deployment. Supplementary materials, including codes, task agent setup, trace outputs, and annotated examples of coordination failures and reasoning behaviors, are available at: https://byc-sophie.github.io/mas-to-mars/.
多智能体机器人系统(MARS)通过整合物理和任务相关约束,建立在多智能体系统的基础上,增加了动作执行和智能体协调的复杂性。然而,尽管先进的智能体框架已经存在,但它们在实际机器人上的部署仍然有限,阻碍了MARS研究的实际应用进展。为了弥补这一差距,我们进行了两项研究,以调查模拟现实世界的多机器人医疗保健场景中分层智能体框架的性能权衡。在第一项研究中,我们使用CrewAI,逐步完善系统的知识库,系统地识别和分类仅靠提供上下文知识无法解决的协调失败情况(例如工具访问违规、未能及时处理故障报告)。在第二项研究中,我们使用AutoGen评估了重新设计的双向通信结构,并进一步测量了同一机器人团队环境中推理与非推理模型之间的权衡。根据我们的实证发现,我们强调了自主性与稳定性之间的紧张关系以及边缘案例测试对改善系统可靠性和未来实际部署安全的重要性。补充材料包括代码、任务智能体设置、跟踪输出以及协调失败和推理行为的注释示例,可在https://byc-sophie.github.io/mas-to-mars/找到。
论文及项目相关链接
Summary:多智能体机器人系统(MARS)在复杂动作执行和智能体协调方面具有很高的难度,实际应用部署受到限制。通过两项研究,本文探究了层次化多智能体框架在模拟现实世界的多机器人医疗保健场景中的性能权衡。研究一使用CrewAI对系统进行知识库迭代精炼,系统地识别和分类单凭上下文知识无法解决的协调问题。研究二使用AutoGen评估重新设计的双向通信结构,进一步测量同一机器人团队内部推理和非推理模型之间的权衡。本文强调自主性和稳定性之间的张力以及边缘测试对改善系统可靠性和未来实际部署安全的重要性。相关材料可通过链接获取。
Key Takeaways:
- 多智能体机器人系统(MARS)集成了物理和任务相关约束,增加了动作执行和智能体协调的复杂性。
- 尽管存在先进的智能体框架,但它们在机器人上的实际应用部署仍然有限。
- 研究一通过CrewAI系统知识库的迭代精炼,识别并分类了单凭上下文知识无法解决的协调问题。
- 研究二使用AutoGen评估了重新设计的双向通信结构,并测量了推理和非推理模型之间的权衡。
- 自主性和稳定性之间存在张力,需要在未来研究和实践中关注。
- 边缘测试对于提高系统可靠性和安全性至关重要,特别是在模拟真实世界场景中部署时。
点此查看论文截图




Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs
Authors:Noah Ziems, Dilara Soylu, Lakshya A Agrawal, Isaac Miller, Liheng Lai, Chen Qian, Kaiqiang Song, Meng Jiang, Dan Klein, Matei Zaharia, Karel D’Oosterlinck, Christopher Potts, Omar Khattab
Group Relative Policy Optimization (GRPO) has proven to be an effective tool for post-training language models (LMs). However, AI systems are increasingly expressed as modular programs that mix together multiple LM calls with distinct prompt templates and other tools, and it is not clear how best to leverage GRPO to improve these systems. We begin to address this challenge by defining mmGRPO, a simple multi-module generalization of GRPO that groups LM calls by module across rollouts and handles variable-length and interrupted trajectories. We find that mmGRPO, composed with automatic prompt optimization, improves accuracy by 11% on average across classification, many-hop search, and privacy-preserving delegation tasks against the post-trained LM, and by 5% against prompt optimization on its own. We open-source mmGRPO in DSPy as the dspy.GRPO optimizer.
相对策略优化组(GRPO)被证明是训练后语言模型(LMs)的有效工具。然而,AI系统越来越多地表现为模块化程序,这些程序将多个语言模型调用与不同的提示模板和其他工具混合在一起,目前尚不清楚如何最好地利用GRPO来改善这些系统。我们通过定义mmGRPO来解决这一挑战,这是GRPO的一个简单多模块泛化,它在多个运行中按模块分组语言模型调用,并处理可变长度和中断轨迹。我们发现,结合自动提示优化,mmGRPO在分类、多跳搜索和隐私保护代理任务上相对于训练后的语言模型平均提高了11%的准确率,相对于单独的提示优化提高了5%。我们将mmGRPO作为dspy.GRPO优化器在DSPy中开源。
论文及项目相关链接
Summary
基于GRPO(Group Relative Policy Optimization)在处理训练后的语言模型(LMs)方面的有效性,文本讨论了面临的新挑战以及如何针对这些挑战提出解决方案。面对AI系统作为模块化程序的日益增长趋势,如何在多个LM调用中使用GRPO以改善系统尚不清楚。为此,文本提出了mmGRPO(模块化GRPO)的概念,它通过跨rollouts对LM调用进行模块分组,并处理变长和中断轨迹。实验表明,结合自动提示优化,mmGRPO在分类、多跳搜索和隐私保护代理任务上的准确率平均提高了11%,相较于仅使用提示优化提高了5%。文本最后介绍了开源的mmGRPO在DSPy中的dspy.GRPO优化器。
Key Takeaways
- GRPO在处理训练后的语言模型方面表现出有效性。
- 面对AI系统模块化趋势的挑战,需要针对多个LM调用进行优化。
- mmGRPO是GRPO的多模块泛化,可以处理变长和中断轨迹。
- mmGRPO结合自动提示优化可以提高分类、多跳搜索和隐私保护代理任务的准确率。
- mmGRPO的准确率平均提高11%,相较于仅使用提示优化提高5%。
- 开源的mmGRPO在DSPy中作为dspy.GRPO优化器使用。
- 这一进展有助于更有效地利用和优化复杂的AI系统,促进AI技术的进一步发展。
点此查看论文截图


FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging
Authors:Zichen Tang, Haihong E, Jiacheng Liu, Zhongjun Yang, Rongjin Li, Zihua Rong, Haoyang He, Zhuodi Hao, Xinyang Hu, Kun Ji, Ziyan Ma, Mengyuan Ji, Jun Zhang, Chenghao Ma, Qianhe Zheng, Yang Liu, Yiling Huang, Xinyi Hu, Qing Huang, Zijian Xie, Shiyao Peng
We present FinMMR, a novel bilingual multimodal benchmark tailored to evaluate the reasoning capabilities of multimodal large language models (MLLMs) in financial numerical reasoning tasks. Compared to existing benchmarks, our work introduces three significant advancements. (1) Multimodality: We meticulously transform existing financial reasoning benchmarks, and construct novel questions from the latest Chinese financial research reports. FinMMR comprises 4.3K questions and 8.7K images spanning 14 categories, including tables, bar charts, and ownership structure charts. (2) Comprehensiveness: FinMMR encompasses 14 financial subdomains, including corporate finance, banking, and industry analysis, significantly exceeding existing benchmarks in financial domain knowledge breadth. (3) Challenge: Models are required to perform multi-step precise numerical reasoning by integrating financial knowledge with the understanding of complex financial images and text. The best-performing MLLM achieves only 53.0% accuracy on Hard problems. We believe that FinMMR will drive advancements in enhancing the reasoning capabilities of MLLMs in real-world scenarios.
我们介绍了FinMMR,这是一个为评估多模态大型语言模型(MLLM)在金融数值推理任务中的推理能力而量身定制的新型双语多模态基准测试。与现有基准测试相比,我们的工作引入了三个重大进展。(1)多模态:我们精心转化了现有的金融推理基准测试,并根据最新的中文金融研究报告构建了新问题。FinMMR包含4.3K个问题和8.7K个图像,涵盖14个类别,包括表格、条形图和所有权结构图。(2)全面性:FinMMR涵盖14个金融子域,包括财务、银行业和产业分析,在财务领域的知识广度上显著超过了现有基准测试。(3)挑战:模型需要通过整合金融知识,对复杂的金融图像和文本进行理解来执行多步骤精确数值推理。在难题上,表现最佳的多模态大型语言模型仅达到53.0%的准确率。我们相信FinMMR将推动在提高多模态大型语言模型在现实场景中的推理能力方面的进展。
论文及项目相关链接
PDF Accepted by ICCV 2025. arXiv admin note: text overlap with arXiv:2311.06602 by other authors
Summary
金融MMR是一个新的双语多媒体基准测试,旨在评估多媒体大型语言模型在金融数字推理任务中的推理能力。与现有基准测试相比,我们的工作引入了三个重要进展:多媒体特性、全面性和挑战。该测试包含多种金融子领域,要求模型将金融知识与复杂的金融图像和文本理解相结合,进行多步骤精确数字推理。
Key Takeaways
- 金融MMR是一个针对多媒体大型语言模型的新的双语基准测试。
- 它专为评估模型在金融数字推理任务中的推理能力而设计。
- 测试包括三个关键特性:多媒体特性、全面性和挑战性。
- 测试涵盖了金融领域知识范围广泛的多种金融子领域。
- 模型需要整合金融知识,理解复杂的金融图像和文本进行多步骤精确数字推理。
- 最佳性能的多媒体大型语言模型在难题上只达到了53.0%的准确率。
点此查看论文截图





OmniDepth: Bridging Monocular and Stereo Reasoning with Latent Alignment
Authors:Tongfan Guan, Jiaxin Guo, Chen Wang, Yun-Hui Liu
Monocular and stereo depth estimation offer complementary strengths: monocular methods capture rich contextual priors but lack geometric precision, while stereo approaches leverage epipolar geometry yet struggle with ambiguities such as reflective or textureless surfaces. Despite post-hoc synergies, these paradigms remain largely disjoint in practice. We introduce OmniDepth, a unified framework that bridges both through iterative bidirectional alignment of their latent representations. At its core, a novel cross-attentive alignment mechanism dynamically synchronizes monocular contextual cues with stereo hypothesis representations during stereo reasoning. This mutual alignment resolves stereo ambiguities (e.g., specular surfaces) by injecting monocular structure priors while refining monocular depth with stereo geometry within a single network. Extensive experiments demonstrate state-of-the-art results: \textbf{OmniDepth reduces zero-shot generalization error by $!>!40%$ on Middlebury and ETH3D}, while addressing longstanding failures on transparent and reflective surfaces. By harmonizing multi-view geometry with monocular context, OmniDepth enables robust 3D perception that transcends modality-specific limitations. Codes available at https://github.com/aeolusguan/OmniDepth.
单目和立体深度估计提供了互补的优势:单目方法捕捉丰富的上下文先验,但缺乏几何精度,而立体方法利用极线几何,但在反射或纹理表面等模糊性上遇到困难。尽管有后续协同作用,但这些范式在实践中仍然大多相互独立。我们引入了OmniDepth,这是一个通过迭代双向对齐其潜在表示而统一的框架。其核心是一种新型交叉注意对齐机制,该机制在立体推理过程中动态同步单目上下文线索与立体假设表示。这种相互对齐通过注入单目结构先验来解决立体模糊问题(例如,镜面表面),并在单个网络内用立体几何细化单目深度。大量实验证明了其卓越的结果:**OmniDepth在Middlebury和ETH3D上的零样本泛化误差降低了超过40%,同时解决了长期存在的透明和反射表面的失败问题。通过协调多视图几何与单目上下文,OmniDepth实现了超越模态特定限制的稳健3D感知。代码可在https://github.com/aeolusguan/OmniDepth获取。
论文及项目相关链接
PDF ICCV 2025 Highlight
Summary
OmniDepth是一个融合单目深度估计和立体深度估计的统一框架,它通过迭代双向对齐两者的潜在表征来弥补二者的不足。该框架采用新型交叉注意力对齐机制,在立体推理过程中动态同步单目上下文线索与立体假设表征。这种相互对齐的方式能够解决立体视觉中的模糊问题(如镜面表面),并通过注入单目结构先验来优化单目深度估计。实验表明,OmniDepth在Middlebury和ETH3D上的零样本泛化误差降低了超过40%,并且在透明和反射表面上取得了显著的成功。通过协调多视角几何与单目上下文,OmniDepth实现了超越模态特定限制的稳健3D感知。
Key Takeaways
- OmniDepth是一个融合单目和立体深度估计的统一框架,旨在克服两者的局限性。
- 通过迭代双向对齐潜在表征,OmniDepth能够结合单目深度估计的丰富上下文先验和立体深度估计的几何精度。
- 框架核心的新型交叉注意力对齐机制能在立体推理过程中同步单目上下文线索和立体假设表征。
- 相互对齐的方式有助于解决立体视觉中的模糊问题,如镜面或纹理表面的反射。
- OmniDepth能够注入单目结构先验,优化单目深度估计,同时利用立体几何信息。
- 实验结果显示,OmniDepth在多个数据集上实现了显著的性能提升,特别是在零样本泛化方面。
- OmniDepth通过协调多视角几何与单目上下文,实现了稳健的3D感知,超越了模态特定限制。
点此查看论文截图



Knowledge to Sight: Reasoning over Visual Attributes via Knowledge Decomposition for Abnormality Grounding
Authors:Jun Li, Che Liu, Wenjia Bai, Mingxuan Liu, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel
In this work, we address the problem of grounding abnormalities in medical images, where the goal is to localize clinical findings based on textual descriptions. While generalist Vision-Language Models (VLMs) excel in natural grounding tasks, they often struggle in the medical domain due to rare, compositional, and domain-specific terms that are poorly aligned with visual patterns. Specialized medical VLMs address this challenge via large-scale domain pretraining, but at the cost of substantial annotation and computational resources. To overcome these limitations, we propose \textbf{Knowledge to Sight (K2Sight)}, a framework that introduces structured semantic supervision by decomposing clinical concepts into interpretable visual attributes, such as shape, density, and anatomical location. These attributes are distilled from domain ontologies and encoded into concise instruction-style prompts, which guide region-text alignment during training. Unlike conventional report-level supervision, our approach explicitly bridges domain knowledge and spatial structure, enabling data-efficient training of compact models. We train compact models with 0.23B and 2B parameters using only 1.5% of the data required by state-of-the-art medical VLMs. Despite their small size and limited training data, these models achieve performance on par with or better than 7B+ medical VLMs, with up to 9.82% improvement in $mAP_{50}$. Code and models: \href{https://lijunrio.github.io/K2Sight/}{\textcolor{SOTAPink}{https://lijunrio.github.io/K2Sight/}}.
在这项工作中,我们解决了医学图像异常值定位的问题,目标是基于文本描述定位临床发现。虽然通用视觉语言模型(VLM)在自然定位任务上表现出色,但由于医学领域中存在罕见、组合和特定领域的术语,这些术语与视觉模式对齐不佳,因此它们在医学领域往往面临挑战。专用医学VLM通过大规模领域预训练来解决这一挑战,但这需要巨大的标注和计算资源。为了克服这些限制,我们提出了知识到视觉(K2Sight)框架,它通过分解临床概念为可解释的视觉属性(如形状、密度和解剖位置)来引入结构化语义监督。这些属性是从领域本体中提取并编码成简洁的指令式提示,在训练过程中指导区域文本对齐。与传统的报告级监督不同,我们的方法显式地建立了领域知识和空间结构的桥梁,实现了数据高效的小型模型训练。我们使用仅相当于最先进医学VLM所需数据的1.5%的数据来训练含有2.3亿和含有两千亿参数的紧凑模型。尽管这些模型尺寸较小且训练数据有限,但它们的表现却与那些规模更大的医学VLM相当或更好,在$mAP_{50}$上最多提高了9.82%。代码和模型:\href{https://lijunrio.github.io/K2Sight/}{\textcolor{SOTAPink}{https://lijunrio.github.io/K2Sight/}}。
论文及项目相关链接
Summary
本文提出了一种名为Knowledge to Sight(K2Sight)的框架,解决了医学图像异常值接地的问题。该框架通过分解临床概念为可解释的视觉特征,如形状、密度和解剖位置,引入结构化语义监督。这些特征从领域本体中提取并编码成简洁的指令式提示,在训练过程中指导区域文本对齐。与常规报告级监督不同,K2Sight显式地桥接领域知识和空间结构,实现数据高效的小型模型训练。使用仅1.5%的数据,训练出的模型参数大小为0.23B和2B,性能与或优于参数大小为7B+的医学VLMs,平均精度提高了9.82%。
Key Takeaways
- Knowledge to Sight(K2Sight)框架解决了医学图像中异常值的接地问题。
- K2Sight通过分解临床概念为可解释的视觉特征(如形状、密度和解剖位置)来引入结构化语义监督。
- 视觉特征被编码成指令式提示,指导区域文本对齐。
- K2Sight显式地桥接领域知识和空间结构,使数据高效的小型模型训练成为可能。
- 使用K2Sight框架训练的模型使用较少的数据便表现出良好的性能。
- 模型参数大小分别为0.23B和2B的模型性能与或优于参数大小为7B+的医学VLMs。
点此查看论文截图



RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection
Authors:Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng
The rapid advancement of AI-generation models has enabled the creation of hyperrealistic imagery, posing ethical risks through widespread misinformation. Current deepfake detection methods, categorized as face specific detectors or general AI-generated detectors, lack transparency by framing detection as a classification task without explaining decisions. While several LLM-based approaches offer explainability, they suffer from coarse-grained analyses and dependency on labor-intensive annotations. This paper introduces RAIDX (Retrieval-Augmented Image Deepfake Detection and Explainability), a novel deepfake detection framework integrating Retrieval-Augmented Generation (RAG) and Group Relative Policy Optimization (GRPO) to enhance detection accuracy and decision explainability. Specifically, RAIDX leverages RAG to incorporate external knowledge for improved detection accuracy and employs GRPO to autonomously generate fine-grained textual explanations and saliency maps, eliminating the need for extensive manual annotations. Experiments on multiple benchmarks demonstrate RAIDX’s effectiveness in identifying real or fake, and providing interpretable rationales in both textual descriptions and saliency maps, achieving state-of-the-art detection performance while advancing transparency in deepfake identification. RAIDX represents the first unified framework to synergize RAG and GRPO, addressing critical gaps in accuracy and explainability. Our code and models will be publicly available.
人工智能生成模型的快速发展已经能够创造出超现实的图像,通过广泛传播的错误信息构成伦理风险。当前深度伪造检测手段,被分类为面部特定检测器或通用人工智能检测器,缺乏透明度,将检测作为分类任务而不解释决策依据。尽管有几种基于大型语言模型的方法提供了可解释性,但它们存在分析过于笼统以及对劳动密集型注释的依赖问题。本文介绍了RAIDX(基于检索增强图像深度伪造检测与可解释性),这是一个新型深度伪造检测框架,融合了检索增强生成(RAG)和群体相对策略优化(GRPO),以提高检测准确性和决策可解释性。具体来说,RAIDX利用RAG纳入外部知识以提高检测准确性,并使用GRPO自主生成精细粒度的文本解释和显著性地图,从而无需大量手动注释。在多个基准测试上的实验证明了RAIDX在识别真实或虚假内容以及提供文本描述和显著性地图中的可解释依据方面的有效性,在达到最先进的检测性能的同时,提高了深度伪造识别的透明度。RAIDX是第一个融合RAG和GRPO的统一框架,解决了准确度和可解释性方面的关键差距。我们的代码和模型将公开可用。
论文及项目相关链接
Summary
该论文介绍了RAIDX(Retrieval-Augmented Image Deepfake Detection and Explainability)框架,这是一种结合了检索增强生成(RAG)和群体相对策略优化(GRPO)的新型深度伪造检测框架。它通过整合外部知识提高了检测准确性,自主生成详细的文本解释和显著性地图,不需要大量手动注解。实验表明,RAIDX在识别和解释真实或虚假图像方面达到了领先水平,实现了先进的透明度。
Key Takeaways
- AI生成模型的快速发展已经创造出高度逼真的图像,带来广泛误导信息的伦理风险。
- 当前深度伪造检测方法主要分为面部特定检测器和通用AI生成检测器两类,但缺乏透明度,将检测视为分类任务而不解释决策过程。
- 论文提出了一种新型深度伪造检测框架RAIDX,结合了检索增强生成(RAG)和群体相对策略优化(GRPO)。
- RAIDX利用RAG整合外部知识,提高了检测准确性。
- GRPO被用来自主生成详细的文本解释和显著性地图,这些解释和地图不需要大量的手动注解。
- 实验表明,RAIDX在多个基准测试上表现出卓越的检测效果和解释能力。
点此查看论文截图







FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding
Authors:Emmanuelle Bourigault, Pauline Bourigault
The deployment of vision-language models remains constrained by substantial computational requirements. We present \textbf{FrEVL}, a framework exploring whether frozen pretrained embeddings can support effective vision-language understanding. Our analysis reveals that frozen embeddings contain rich information for discriminative tasks, achieving 85% to 95% of state-of-the-art performance on standard benchmarks with only 68.4M trainable parameters. This performance dichotomy reveals a critical insight: frozen embedding effectiveness depends on alignment between pretraining objectives and downstream task requirements. When accounting for end-to-end computation including embedding extraction, FrEVL provides $2.3\times$ speedup with 52% lower energy consumption, making it suitable for scenarios with pre-computable inputs or when deployment constraints outweigh marginal performance gains. Our evaluation provides practitioners with guidance on when frozen embedding approaches represent viable alternatives to full model deployment. We will release our complete implementation and evaluation framework to facilitate further research into efficient multi-modal understanding.
视觉语言模型的部署仍然受到巨大的计算需求的限制。我们提出了FrEVL,一个探索冻结的预训练嵌入是否可以支持有效的视觉语言理解的框架。我们的分析表明,冻结的嵌入包含丰富的判别任务信息,在标准基准测试上达到了最新技术的85%到95%的性能,并且只有6840万可训练参数。这种性能差异揭示了一个关键见解:冻结嵌入的有效性取决于预训练目标和下游任务要求之间的对齐程度。考虑到包括嵌入提取在内的端到端计算,FrEVL提供了2.3倍的速度提升,同时降低了52%的能耗,使其成为适用于具有可预先计算输入的场景,或者在部署约束超过边际性能增益的情况下。我们的评估为从业者提供了指导,说明了在什么情况下冻结嵌入方法可作为全模型部署的可行替代方案。我们将发布我们的完整实现和评估框架,以促进对高效多模式理解进一步研究。
论文及项目相关链接
PDF 8 pages, 4 figures
Summary
在视觉语言模型的部署受限于大量计算资源的情况下,本文提出了一个名为FrEVL的框架,探讨了冻结预训练嵌入是否支持有效的视觉语言理解。研究发现,冻结嵌入包含丰富的判别任务信息,在标准基准测试上达到了最先进技术的85%~95%的性能水平,仅有68.4M的可训练参数。此外,该框架还具有高效的计算性能,提供2.3倍的计算速度提升以及降低了52%的能耗。因此,它适用于具有预计算输入的场景,或者在部署约束大于边际性能增益的情况下使用。研究还提供了实践者在何时使用冻结嵌入方法作为替代全模型部署的可行选择的指导。
Key Takeaways
- 冻结预训练嵌入在视觉语言理解中表现出良好性能。
- FrEVL框架揭示了冻结嵌入在判别任务中的有效性。
- 在标准基准测试中,冻结嵌入的性能达到了最先进技术的85%~95%。
- FrEVL框架具有高效的计算性能和较低能耗。
- 冻结嵌入的使用取决于预训练目标和下游任务要求之间的对齐程度。
- 对于具有预计算输入的场景或部署约束较大的情况,FrEVL提供了优势。
点此查看论文截图




Boosting Visual Knowledge-Intensive Training for LVLMs Through Causality-Driven Visual Object Completion
Authors:Qingguo Hu, Ante Wang, Jia Song, Delai Qiu, Qingsong Liu, Jinsong Su
Large Vision-Language Models (LVLMs) have experienced significant advancements in recent years. However, their performance still falls short in tasks requiring deep visual perception, such as identifying subtle differences between images. A potential cause is the scarcity of visual knowledge in popular instruction-tuning corpora, resulting in inadequate visual perception and reasoning capabilities. To address this challenge, we introduce a self-improvement framework grounded in a novel visual knowledge-intensive task, \underline{C}ausality-driven \underline{V}isual object \underline{C}ompletion (CVC). This task requires LVLMs to infer the masked object in an image based on its \textit{causal} relationships with the other visible information. We first obtain rich examples cheaply through our automated instance construction pipeline, without relying on sophisticated LVLMs (\textit{e.g.}, GPT-4V) or human assistance. Then, LVLMs effectively self-improve through trial and error learning using these created instances. Our experiments demonstrate substantial gains across four challenging specialized tasks and four widely-used comprehensive benchmarks. Especially on specialized tasks, our method achieves an average improvement of 5.4% and 4.0% compared to the corresponding baselines when utilizing LLaVA-1.5-7B and LLaVA-1.5-13B, respectively. The code is available at https://github.com/XMUDeepLIT/CVC.
近年来,大型视觉语言模型(LVLMs)经历了显著的进步。然而,它们在需要深度视觉感知的任务上的表现仍然不足,如识别图像之间的微妙差异。一个潜在的原因是流行指令调整语料库中视觉知识的匮乏,导致视觉感知和推理能力不足以应对挑战。为了应对这一挑战,我们提出了一种基于新型视觉知识密集型任务的自我改进框架,即因果驱动视觉对象补全(CVC)。此任务要求LVLMs根据与其他可见信息的因果关系推断图像中的遮挡对象。我们首先通过自动化实例构建管道廉价地获取丰富的示例,无需依赖高级LVLMs(例如GPT-4V)或人工协助。然后,利用这些创建的实例,LVLMs通过试错学习有效地自我改进。我们的实验表明,在四项具有挑战性的专项任务和四个广泛使用的综合基准测试中取得了实质性的进展。特别是在专项任务上,使用LLaVA-1.5-7B和LLaVA-1.5-13B时,与相应的基线相比,我们的方法分别实现了平均4.0%和平均提升5.4%的改进。代码可通过https://github.com/XMUDeepLIT/CVC获取。
论文及项目相关链接
PDF Accepted by IJCAI 2025
Summary
大规模视觉语言模型(LVLMs)在图像识别等深度视觉感知任务上表现欠佳,缺乏视觉知识是主要问题之一。为解决此问题,我们提出了一种基于因果驱动视觉对象补全(CVC)任务的新型自我改进框架。该任务要求LVLMs根据图像中其他可见信息中的因果关系推断遮挡物体。我们通过自动化实例构建管道获得丰富样本,而不依赖先进的大型视觉语言模型或人力支持。实验表明,此方法在四个挑战性专业任务和四个广泛使用的综合基准测试中取得了显著成效,特别是在专业任务上,相较于基准模型平均提高了5.4%和4.0%。
Key Takeaways
- LVLMs在深度视觉感知任务上的表现有待提高,尤其是识别图像细微差异方面。
- 视觉知识在指令微调语料库中的稀缺性是导致LVLMs视觉感知和推理能力不足的潜在原因。
- 引入了一种基于因果驱动视觉对象补全(CVC)任务的新型自我改进框架,旨在增强LVLMs的视觉感知能力。
- CVC任务要求LVLMs根据图像中其他可见信息中的因果关系推断遮挡物体。
- 通过自动化实例构建管道,以低成本获取丰富样本,不依赖高级LVLMs或人力支持。
- 实验证明,该方法在多个专业任务和基准测试中实现了显著成效。
点此查看论文截图





Automatic LLM Red Teaming
Authors:Roman Belaire, Arunesh Sinha, Pradeep Varakantham
Red teaming is critical for identifying vulnerabilities and building trust in current LLMs. However, current automated methods for Large Language Models (LLMs) rely on brittle prompt templates or single-turn attacks, failing to capture the complex, interactive nature of real-world adversarial dialogues. We propose a novel paradigm: training an AI to strategically `break’ another AI. By formalizing red teaming as a Markov Decision Process (MDP) and employing a hierarchical Reinforcement Learning (RL) framework, we effectively address the inherent sparse reward and long-horizon challenges. Our generative agent learns coherent, multi-turn attack strategies through a fine-grained, token-level harm reward, enabling it to uncover subtle vulnerabilities missed by existing baselines. This approach sets a new state-of-the-art, fundamentally reframing LLM red teaming as a dynamic, trajectory-based process (rather than a one-step test) essential for robust AI deployment.
红队实战对于识别当前大型语言模型(LLM)的漏洞并建立信任至关重要。然而,当前的大型语言模型自动化方法依赖于脆弱的提示模板或单轮攻击,无法捕捉现实世界对抗性对话的复杂交互性质。我们提出了一种新的模式:训练人工智能来战略性“破坏”另一个人工智能。通过将红队实战形式化为马尔可夫决策过程(MDP)并采用分层强化学习(RL)框架,我们有效地解决了固有的稀疏奖励和长期视野挑战。我们的生成代理通过精细的、令牌级别的伤害奖励来学习连贯的多轮攻击策略,使其能够发现现有基准测试所遗漏的微妙漏洞。这种方法树立了新的业界标杆,从根本上将LLM红队实战重新定位为一种动态、基于轨迹的过程(而非一步测试),对于稳健的AI部署至关重要。
论文及项目相关链接
Summary
本文提出一种新型的红队训练策略,旨在提升大型语言模型(LLM)的安全性和信任度。该策略通过训练人工智能来策略性地攻击另一人工智能,以发现模型的脆弱性。利用马尔可夫决策过程(MDP)和分层强化学习(RL)框架,解决现实对抗对话中的复杂性和互动性挑战。通过精细的奖励机制,生成式代理能够学习连贯的多轮攻击策略,从而发现现有基线所忽略的潜在漏洞。该策略为LLM红队训练设定了新的标准,将其视为动态、轨迹化的过程,而非一步测试,对于部署稳健的AI至关重要。
Key Takeaways
- 红队训练对发现LLM的脆弱性和建立信任至关重要。
- 当前自动化方法无法捕捉真实世界对抗对话的复杂性和互动性。
- 提出一种新型红队训练策略,利用强化学习训练AI进行战略性攻击。
- 利用MDP和分层RL框架解决内在稀疏奖励和长期挑战。
- 生成式代理通过精细的奖励机制学习连贯的多轮攻击策略。
- 该方法能够发现现有基线所忽略的LLM的潜在漏洞。
- 为LLM红队训练设定了新的标准,强调其作为动态、轨迹化的过程的重要性。
点此查看论文截图




StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion
Authors:Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu
Autoformalization aims to translate natural-language mathematical statements into a formal language. While LLMs have accelerated progress in this area, existing methods still suffer from low accuracy. We identify two key abilities for effective autoformalization: comprehensive mastery of formal-language domain knowledge, and reasoning capability of natural language problem understanding and informal-formal alignment. Without the former, a model cannot identify the correct formal objects; without the latter, it struggles to interpret real-world contexts and map them precisely into formal expressions. To address these gaps, we introduce ThinkingF, a data synthesis and training pipeline that improves both abilities. First, we construct two datasets: one by distilling and selecting large-scale examples rich in formal knowledge, and another by generating informal-to-formal reasoning trajectories guided by expert-designed templates. We then apply SFT and RLVR with these datasets to further fuse and refine the two abilities. The resulting 7B and 32B models exhibit both comprehensive formal knowledge and strong informal-to-formal reasoning. Notably, StepFun-Formalizer-32B achieves SOTA BEq@1 scores of 40.5% on FormalMATH-Lite and 26.7% on ProverBench, surpassing all prior general-purpose and specialized models.
自动形式化旨在将自然语言数学语句翻译为形式语言。虽然大型语言模型(LLMs)在这一领域加速了进展,但现有方法仍存在精度低的问题。我们确定了有效自动形式化的两个关键能力:对形式语言领域知识的全面掌握,以及理解自然语言问题和非正式到正式的对应关系的能力。没有前者,模型无法识别正确的形式对象;没有后者,它很难解释现实世界的上下文并将其精确映射为形式表达式。为了解决这些差距,我们引入了ThinkingF,这是一种数据合成和训练管道,可以提高这两种能力。首先,我们构建了两个数据集:一个是通过蒸馏和选择富含形式知识的大规模示例来构建,另一个是通过遵循专家设计的模板生成从非正式到形式的推理轨迹来构建。然后,我们使用这些数据集应用SFT和RLVR,进一步融合和精炼这两种能力。最终得到的7B和32B模型兼具全面的形式知识和强大的非正式到形式的推理能力。值得注意的是,StepFun-Formalizer-32B在FormalMATH-Lite上实现了SOTA BEq@1得分为40.5%,在ProverBench上得分为26.7%,超过了所有先前的通用和专用模型。
论文及项目相关链接
PDF 24 pages, 17 figures, under review
Summary
本文介绍了Autoformalization的目标是将自然语言数学语句翻译成形式语言。尽管大型语言模型(LLMs)在此领域取得了进展,但现有方法仍存在准确性低的不足。本文提出了两种关键能力:对形式语言领域知识的全面掌握,以及对自然语言问题理解和非正式到正式的推理能力。为解决现有方法的不足,引入了ThinkingF,一种数据合成和训练管道,可以提高这两种能力。通过构建两个数据集和应用SFT和RLVR技术,提高了模型的综合正式知识和非正式到正式的推理能力。最终模型在FormalMATH-Lite和ProverBench上取得了最新的最好成绩。
Key Takeaways
- Autoformalization的目标是将自然语言数学语句翻译成形式语言。
- 现有大型语言模型(LLMs)在autoformalization领域的准确性仍有待提高。
- 有效autoformalization需具备两种关键能力:对形式语言领域知识的理解和掌握,以及对自然语言问题的理解和非正式到正式的推理能力。
- ThinkingF是一种数据合成和训练管道,旨在提高模型在这两种关键能力上的表现。
- 构建了两个数据集,一个用于提炼和选择富含形式知识的大规模例子,另一个是根据专家设计的模板生成非正式到正式的推理轨迹。
- 应用SFT和RLVR技术进一步融合了这两种能力。
点此查看论文截图







GradSTL: Comprehensive Signal Temporal Logic for Neurosymbolic Reasoning and Learning
Authors:Mark Chevallier, Filip Smola, Richard Schmoetten, Jacques D. Fleuriot
We present GradSTL, the first fully comprehensive implementation of signal temporal logic (STL) suitable for integration with neurosymbolic learning. In particular, GradSTL can successfully evaluate any STL constraint over any signal, regardless of how it is sampled. Our formally verified approach specifies smooth STL semantics over tensors, with formal proofs of soundness and of correctness of its derivative function. Our implementation is generated automatically from this formalisation, without manual coding, guaranteeing correctness by construction. We show via a case study that using our implementation, a neurosymbolic process learns to satisfy a pre-specified STL constraint. Our approach offers a highly rigorous foundation for integrating signal temporal logic and learning by gradient descent.
我们提出GradSTL,这是第一个全面实现信号时序逻辑(STL)的算法,适合与神经符号学习进行整合。特别地,GradSTL可以成功评估任何信号上的任何STL约束,无论其采样方式如何。我们的形式化验证方法为张量上的平滑STL语义提供了规范,并对其派生函数的健全性和正确性进行了形式化证明。我们的实现是自动从这种正规化生成的,无需手动编码,通过构建保证正确性。我们通过案例研究展示了使用我们的实现,神经符号过程能够学习满足预先指定的STL约束。我们的方法为将信号时序逻辑和梯度下降学习相结合提供了严谨的基础。
论文及项目相关链接
PDF Accepted for presentation at TIME 2025
Summary:
提出了一种全新的全功能信号时序逻辑(STL)实现——GradSTL,可成功应用于神经符号学习的集成。GradSTL能够在任何采样方式下评估任何STL约束,具有平滑的STL语义张量形式化验证,并自动从形式化验证生成实现,无需手动编码,保证了实现的正确性。通过案例研究展示了神经符号过程学习满足预定义的STL约束的能力,为将信号时序逻辑和梯度下降学习相结合提供了严谨的基础。
Key Takeaways:
- 提出了一种全新的信号时序逻辑(STL)实现方法——GradSTL。
- GradSTL能够在任何采样方式下评估任何STL约束。
- GradSTL实现了基于形式化验证的平滑STL语义张量。
- GradSTL具有自动生成的实现,避免了手动编码的需要。
- 通过案例研究证明了GradSTL在神经符号学习中的有效性。
- GradSTL为将信号时序逻辑和梯度下降学习相结合提供了基础。
点此查看论文截图


Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
Authors:Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer
Referring Audio-Visual Segmentation (Ref-AVS) aims to segment target objects in audible videos based on given reference expressions. Prior works typically rely on learning latent embeddings via multimodal fusion to prompt a tunable SAM/SAM2 decoder for segmentation, which requires strong pixel-level supervision and lacks interpretability. From a novel perspective of explicit reference understanding, we propose TGS-Agent, which decomposes the task into a Think-Ground-Segment process, mimicking the human reasoning procedure by first identifying the referred object through multimodal analysis, followed by coarse-grained grounding and precise segmentation. To this end, we first propose Ref-Thinker, a multimodal language model capable of reasoning over textual, visual, and auditory cues. We construct an instruction-tuning dataset with explicit object-aware think-answer chains for Ref-Thinker fine-tuning. The object description inferred by Ref-Thinker is used as an explicit prompt for Grounding-DINO and SAM2, which perform grounding and segmentation without relying on pixel-level supervision. Additionally, we introduce R\textsuperscript{2}-AVSBench, a new benchmark with linguistically diverse and reasoning-intensive references for better evaluating model generalization. Our approach achieves state-of-the-art results on both standard Ref-AVSBench and proposed R\textsuperscript{2}-AVSBench. Code will be available at https://github.com/jasongief/TGS-Agent.
参照音频视觉分割(Ref-AVS)旨在根据给定的参考表达式对可听视频中的目标对象进行分割。早期的工作通常依赖于通过多模态融合学习潜在嵌入,以提示可调节的SAM/SAM2解码器进行分割,这需要强大的像素级监督并且缺乏可解释性。从明确的参考理解这一新颖角度出发,我们提出了TGS-Agent,它将任务分解为Think-Ground-Segment过程,通过首先通过多模态分析识别目标对象,然后进行粗略定位以及精确分割,模仿人类的推理过程。为此,我们首次提出了Ref-Thinker,这是一个能够推理文本、视觉和听觉线索的多模态语言模型。我们构建了一个指令微调数据集,其中包含用于Ref-Thinker精细调整的具有明确对象感知的think-answer链。通过Ref-Thinker推断出的对象描述被用作对Grounding-DINO和SAM2进行定位分割的明确提示,无需依赖像素级监督。此外,我们引入了R\textsuperscript{2}-AVSBench,这是一个新的基准测试,具有语言多样化和推理密集型的参考,以更好地评估模型的泛化能力。我们的方法在标准的Ref-AVSBench和提出的R\textsuperscript{2}-AVSBench上都取得了最新的结果。代码将在https://github.com/jasongief/TGS-Agent上提供。
论文及项目相关链接
PDF Project page: https://github.com/jasongief/TGS-Agent
Summary
该文本介绍了针对音频视频分割任务的全新方法——TGS-Agent。该方法将任务分解为Think-Ground-Segment过程,通过多模态分析识别目标对象,然后进行粗略的接地和精确分割,从而实现了无需像素级监督的接地和分割。为此,提出了Ref-Thinker多模态语言模型,用于推理文本、视觉和听觉线索。此外,还构建了用于Ref-Thinker精细调整的指令调整数据集,并引入了新的基准测试R²-AVSBench,以更好地评估模型的泛化能力。TGS-Agent在标准Ref-AVSBench和提出的R²-AVSBench上都取得了最佳结果。
Key Takeaways
- TGS-Agent是一种针对音频视频分割的新方法,通过模仿人类推理过程,将任务分解为Think-Ground-Segment。
- TGS-Agent通过多模态分析识别目标对象,然后进行粗略接地和精确分割,实现了无需像素级监督的接地和分割。
- 提出了Ref-Thinker多模态语言模型,用于推理文本、视觉和听觉线索。
- 为Ref-Thinker构建了指令调整数据集,用于精细调整模型。
- 引入了新的基准测试R² -AVSBench,以评估模型的泛化能力。
- TGS-Agent在标准Ref-AVSBench和R² -AVSBench上取得了最佳结果。
点此查看论文截图





GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning
Authors:Weitai Kang, Bin Lei, Gaowen Liu, Caiwen Ding, Yan Yan
Graphical user interface visual grounding (GUI-VG), a core capability for GUI agents, has primarily relied on supervised fine-tuning (SFT) of multimodal large language models (MLLMs), which demands extensive data curation and significant training costs. However, as MLLMs continue to advance and even cover GUI domains during pretraining, the necessity of exhaustive SFT post-training becomes increasingly questionable. Meanwhile, recent successes of rule-based reinforcement fine-tuning (RFT) suggest a more efficient alternative. Despite this promise, the optimal manner of applying RFT for GUI-VG remains unexplored. To bridge this gap, we introduce GuirlVG, a reinforcement learning-based GUI-VG method built on a systematic empirical study and a novel stabilization technique. We find that naive application of RFT underperforms the SFT baseline, motivating a deeper exploration. First, we decompose RFT into its core components and analyze the optimal formulation of each. Second, we propose a novel Adversarial KL Factor that dynamically stabilizes training to mitigate reward over-optimization. Third, we further explore the training configurations of RFT to enhance effectiveness. Extensive experiments show that GuirlVG, with only 5.2K training samples, outperforms SFT methods trained on over 10M samples, achieving a 7.7% improvement on ScreenSpot, a 17.2% improvement on ScreenSpotPro, and 91.9% accuracy on ScreenSpotV2.
图形用户界面视觉定位(GUI-VG)是GUI代理的核心功能,主要依赖于多模态大型语言模型(MLLMs)的监督微调(SFT),这需要大量的数据整理和显著的训练成本。然而,随着MLLMs的不断发展,并在预训练阶段覆盖GUI领域,详尽的SFT后训练必要性越来越受到质疑。同时,基于规则的强化精细调整(RFT)的最新成功表明了一种更有效的替代方案。尽管前景看好,但将RFT应用于GUI-VG的最佳方式尚未被探索。为了弥补这一空白,我们引入了GuirlVG,这是一种基于强化学习的GUI-VG方法,建立在系统的实证研究和新稳定技术之上。我们发现简单应用RFT的表现不及SFT基线,这促使我们进行更深入的研究。首先,我们将RFT分解为其核心组件,并分析每个组件的最佳公式。其次,我们提出了一种新型的对抗KL因子,它能动态稳定训练,以缓解奖励过度优化的问题。最后,我们进一步探索了RFT的训练配置以提高其效果。广泛的实验表明,GuirlVG仅需5.2K训练样本,就能超越在超过10M样本上训练的SFT方法,在ScreenSpot上提高了7.7%,在ScreenSpotPro上提高了17.2%,在ScreenSpotV2上达到了91.9%的准确率。
论文及项目相关链接
PDF 9 pages
Summary
本文探讨了图形用户界面视觉定位(GUI-VG)领域的问题。传统的监督微调(SFT)方法需要大量数据整理和昂贵的训练成本。随着多模态大型语言模型(MLLMs)的预训练发展,人们开始质疑其是否需要详尽的SFT后训练。基于规则强化微调(RFT)的方法具有更高效的潜力,但其应用于GUI-VG的最优方式尚未明确。为此,本文提出了基于强化学习的GUI-VG方法GuirlVG,并进行了系统的实证研究,提出了一种新的稳定技术。研究发现,简单的RFT应用表现不如SFT基线,因此进行了更深入的分析和探索。最终,GuirlVG在仅使用少量训练样本的情况下,表现出卓越的性能,相较于使用大量样本的SFT方法取得了显著的提升。
Key Takeaways
- GUI-VG领域主要依赖监督微调(SFT)方法,但这种方法需要大量数据整理和昂贵的训练成本。
- 随着多模态大型语言模型的预训练发展,对SFT后训练的需求受到质疑。
- 基于规则强化微调(RFT)的方法展现出更高效潜力,但其在GUI-VG的最优应用方式尚未明确。
- 引入GuirlVG方法,基于强化学习,并进行了系统的实证研究及新的稳定技术。
- 简单的RFT应用表现不佳,需要进行更深入的分析和探索核心组件的最优形式。
- GuirlVG在少量训练样本下表现出卓越性能,相较于使用大量样本的SFT方法取得显著提升。
点此查看论文截图






TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
Authors:Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang
Recent flow matching models for text-to-image generation have achieved remarkable quality, yet their integration with reinforcement learning for human preference alignment remains suboptimal, hindering fine-grained reward-based optimization. We observe that the key impediment to effective GRPO training of flow models is the temporal uniformity assumption in existing approaches: sparse terminal rewards with uniform credit assignment fail to capture the varying criticality of decisions across generation timesteps, resulting in inefficient exploration and suboptimal convergence. To remedy this shortcoming, we introduce \textbf{TempFlow-GRPO} (Temporal Flow GRPO), a principled GRPO framework that captures and exploits the temporal structure inherent in flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a trajectory branching mechanism that provides process rewards by concentrating stochasticity at designated branching points, enabling precise credit assignment without requiring specialized intermediate reward models; and (ii) a noise-aware weighting scheme that modulates policy optimization according to the intrinsic exploration potential of each timestep, prioritizing learning during high-impact early stages while ensuring stable refinement in later phases. These innovations endow the model with temporally-aware optimization that respects the underlying generative dynamics, leading to state-of-the-art performance in human preference alignment and standard text-to-image benchmarks.
最近,文本到图像生成的流匹配模型已经取得了显著的质量提升。然而,它们在强化学习与人类偏好对齐方面的集成仍然不够理想,这阻碍了基于精细奖励的优化。我们发现流模型进行有效GRPO训练的关键障碍在于现有方法中的时间均匀性假设:稀疏的终端奖励与均匀的信用分配无法捕捉生成时间步长中决策的不同关键性,导致探索效率低下和次优收敛。为了弥补这一缺陷,我们引入了TempFlow-GRPO(时序流GRPO),这是一个有原则的GRPO框架,能够捕捉和利用流生成中的固有时间结构。TempFlow-GRPO引入了两个关键创新点:(i)轨迹分支机制,通过在指定的分支点集中随机性来提供过程奖励,从而在不需要专门的中间奖励模型的情况下实现精确的信用分配;(ii)一种噪声感知加权方案,根据每个时间步长的内在探索潜力来调节策略优化,优先学习高影响力的早期阶段,同时确保后期阶段的稳定改进。这些创新使模型具有时间感知优化能力,能够尊重潜在的生成动态,从而在人类偏好对齐和标准的文本到图像基准测试中实现了最先进的性能。
论文及项目相关链接
Summary
近期文本匹配模型在文本到图像生成领域取得了显著进展,但在与人类偏好对齐的强化学习集成方面仍有不足,影响了基于精细奖励的优化。本文观察到流模型有效GRPO训练的关键障碍在于现有方法中的时间均匀性假设:稀疏终端奖励与均匀信用分配无法捕捉生成时间步长中决策的不同关键性,导致探索效率低下和次优收敛。为解决这一问题,本文提出TempFlow-GRPO(时序流GRPO),一种能够捕捉和利用流生成中固有时间结构的GRPO框架。TempFlow-GRPO引入了两个关键创新点:一是轨迹分支机制,通过在设计分支点集中随机性提供过程奖励,实现精确信用分配,无需专门中间奖励模型;二是噪声感知加权方案,根据每个时间步长的内在探索潜力调整策略优化,优先在高影响早期阶段进行学习,同时确保后期阶段的稳定细化。这些创新使模型具有时间感知优化,尊重底层生成动态,实现在人类偏好对齐和标准文本到图像基准测试中的最佳性能。
Key Takeaways
- 文本匹配模型在文本到图像生成领域取得显著进展,但在强化学习与人类偏好对齐方面的集成存在不足。
- 现有流模型训练的关键障碍在于其基于时间均匀性的假设,导致稀疏终端奖励和信用分配的不足。
- TempFlow-GRPO框架通过引入轨迹分支机制和噪声感知加权方案,解决了这一问题。
- 轨迹分支机制能在设计分支点时集中随机性,实现精确的信用分配。
- 噪声感知加权方案可调整策略优化,优先在早期高影响阶段进行学习。
- TempFlow-GRPO框架尊重底层生成动态,具有时间感知优化能力。
点此查看论文截图





Large Language Model’s Multi-Capability Alignment in Biomedical Domain
Authors:Wentao Wu, Linqing Chen, Hanmeng Zhong, Weilei Wang
BalancedBio is a theoretically grounded framework for parameter-efficient biomedical reasoning, addressing multi-capability integration in domain-specific AI alignment. It establishes the Biomedical Multi-Capability Convergence Theorem, proving orthogonal gradient spaces are essential to prevent capability interference for safe deployment. Key innovations include: (1) Medical Knowledge Grounded Synthetic Generation (MKGSG), extending Source2Synth with clinical workflow constraints and medical ontology validation for factual accuracy and safety; and (2) Capability Aware Group Relative Policy Optimization, deriving optimal hybrid reward weighting to maintain orthogonality in RL, using a reward model with rule-based and model-based scores adapted to biomedical tasks. Mathematical analysis proves Pareto-optimal convergence, preserving performance across capabilities. It achieves state-of-the-art results in its parameter class: domain expertise (80.95% BIOMED-MMLU, +15.32% over baseline), reasoning (61.94%, +7.75%), instruction following (67.95%, +6.44%), and integration (86.7%, +18.5%). Theoretical safety guarantees include bounds on capability preservation and clinical accuracy. Real-world deployment yields 78% cost reduction, 23% improved diagnostic accuracy, and 89% clinician acceptance. This work provides a principled methodology for biomedical AI alignment, enabling efficient reasoning with essential safety and reliability, with the 0.5B model version to be released.
BalancedBio是一个理论扎实的参数高效生物医学推理框架,解决了领域特定人工智能对齐中的多能力集成问题。它建立了生物医学多能力收敛定理,证明了正交梯度空间对于防止能力干扰以进行安全部署至关重要。主要创新包括:(1)医学知识接地合成生成(MKGSG),通过临床工作流程约束和医学本体验证扩展Source2Synth,以实现事实准确性和安全性;(2)能力感知组相对策略优化,通过采用基于规则和基于模型的分数相结合的奖励模型来推导保持强化学习中正交性的最佳混合奖励权重,以适应生物医学任务。数学分析证明了帕累托最优收敛性,能够在各种能力中保持性能。它在参数类别中达到了最新水平:专业领域的成绩为BIOMED-MMLU的80.95%(比基线高出+15.32%),推理成绩为61.94%(+7.75%),执行指令成绩为67.95%(+6.44%),以及整合成绩为86.7%(+18.5%)。理论安全保证包括能力保留和临床准确性的界限。在实际部署中,实现了成本降低78%,诊断准确性提高23%,临床医生接受度达到89%。这项工作为生物医学人工智能对齐提供了原则性的方法,能够实现具有必要安全性和可靠性的高效推理,即将发布0.5B模型版本。
论文及项目相关链接
Summary
生物医学AI对齐是一个重要的问题,BalancedBio框架通过理论验证实现了参数高效的生物医学推理。它解决了特定领域AI的多功能集成问题,建立了生物医学多功能收敛定理,证明了正交梯度空间对于防止功能干扰的重要性。关键创新包括医学知识接地合成生成和能力感知组相对策略优化。该框架在理论安全保证下实现了状态最优结果,包括专业领域的性能提升、推理能力、指令遵循和集成能力。实际部署显示,该框架降低了成本,提高了诊断准确性和临床医生接受度。BalancedBio提供了一种原则性的生物医学AI对齐方法,可实现高效推理和安全可靠性。
Key Takeaways
- BalancedBio是一个用于参数高效的生物医学推理的框架。
- 它解决了特定领域AI的多功能集成问题。
- BalancedBio建立了生物医学多功能收敛定理,证明正交梯度空间的重要性。
- 关键创新包括医学知识接地合成生成和能力感知组相对策略优化。
- 该框架在理论安全保证下实现了最优结果,包括专业领域性能提升、推理能力、指令遵循和集成能力的提升。
- 实际部署显示,BalancedBio可降低医疗成本,提高诊断准确性和临床医生接受度。
点此查看论文截图






ViFP: A Framework for Visual False Positive Detection to Enhance Reasoning Reliability in VLMs
Authors:Ben Zhang, LuLu Yu, Lei Gao, Jing Liu, QuanJiang Guo, Hui Gao
In visual-language model (VLM) reasoning, false positive(FP) reasoning occurs when a model generates a correct answer but follows an incorrect reasoning path. Existing methods based on specific multi-step reasoning datasets and reinforcement learning strategies, leading to high training costs and limited generalization. In this work, we propose ViFP, a general framework for enhancing visual reasoning reliability. It improves both answer accuracy and reasoning soundness by detecting FPs. ViFP tackles the limitations of dataset dependency and poor generalization by constructing sub-question templates grounded in the core dimensions of visual reasoning, such as object localization, characteristic description, and object discovery. ViFP then builds effective reasoning paths via multi-turn QA to improve reasoning accuracy. Meanwhile, ViFP dynamically analyzes the consistency of reasoning path to identify potential FPs, and introduces a targeted chain-of-thought (CoT) mechanism that adaptively guides both FP and non-FP samples. Thereby reducing logical errors in the reasoning path while preserving accuracy. Finally, we introduce a reliability evaluation metric-VoC, which integrates answer accuracy and the FP rate, providing a quantitative tool to assess whether a VLM not only answers correctly, but also reasons reliably. Our experiments on closed-source VLMs show that ViFP consistently improves performance across three datasets: A-OKVQA, OKVQA, and FVQA. On A-OKVQA, ViFP improves accuracy by up to 5.4%, surpassing the previous state-of-the-art by 4.3%, and significantly reduces the number of FPs, validating its benefits in enhancing reasoning reliability.
在视觉语言模型(VLM)推理中,当模型给出正确答案但采用错误的推理路径时,就会出现误判阳性(FP)推理。现有的方法主要依赖于特定的多步骤推理数据集和强化学习策略,导致训练成本高昂且泛化能力有限。在这项工作中,我们提出了ViFP,一个提高视觉推理可靠性的通用框架。它通过检测误判阳性来同时提高答案的准确性和推理的合理性。ViFP通过构建基于视觉推理核心维度的子问题模板来解决数据集依赖性和泛化能力差的局限性,这些核心维度包括目标定位、特征描述和目标发现等。然后,ViFP通过多轮问答构建有效的推理路径来提高推理准确性。同时,ViFP动态分析推理路径的一致性来识别潜在的误判阳性,并引入有针对性的思维链(CoT)机制,自适应地指导误判阳性样本和非误判阳性样本。从而在保留准确性的同时减少推理路径中的逻辑错误。最后,我们引入了可靠性评估指标-VoC,它结合了答案准确性和误判阳性率,提供了一个量化工具来评估VLM不仅回答正确,而且推理可靠。我们在封闭源VLM上的实验表明,ViFP在三个数据集上表现始终优于标准方法:A-OKVQA、OKVQA和FVQA。在A-OKVQA上,ViFP将准确率提高了高达5.4%,相较于先前最高水平提高了4.3%,并显著减少了误判阳性的数量,验证了其在提高推理可靠性方面的优势。
论文及项目相关链接
Summary
在视觉语言模型(VLM)推理中,假阳性(FP)推理是一个挑战性问题,指模型虽生成正确答案却遵循了错误的推理路径。当前方法依赖特定的多步骤推理数据集和强化学习策略,导致训练成本高昂且泛化能力有限。本研究提出ViFP框架,旨在提高视觉推理的可靠性。它通过检测假阳性,同时提升答案准确性和推理合理性。ViFP构建基于视觉推理核心维度的子问题模板,如目标定位、特征描述和目标发现等,以解决数据集依赖性和泛化能力不足的问题。通过多回合问答构建有效推理路径提高推理准确性。同时,ViFP动态分析推理路径的一致性以识别潜在的假阳性,并引入自适应指导假阳性与非假阳性样本的思考链机制,减少推理路径的逻辑错误同时保持准确性。最后,本研究引入可靠性评估指标VoC,融合答案准确性和假阳性率,为评估视觉语言模型不仅回答正确且推理可靠提供量化工具。在闭源VLMs的实验中,ViFP在三个数据集上的表现均有所提升,尤其在A-OKVQA数据集上,准确率提升高达5.4%,超越先前最佳水平4.3%,并显著减少假阳性,验证了其在提高推理可靠性方面的优势。
Key Takeaways
- 假阳性(FP)推理在视觉语言模型中是模型生成正确答案但遵循错误推理路径的问题。
- 现有方法基于特定数据集和强化学习策略,存在高训练成本和泛化能力有限的问题。
- ViFP框架通过检测假阳性提高视觉推理的可靠性和答案准确性。
- ViFP构建子问题模板,解决数据集依赖性和泛化问题,并构建多回合问答以优化推理路径。
- ViFP通过动态分析推理路径识别假阳性,引入思考链机制减少逻辑错误并保持准确性。
- 引入可靠性评估指标VoC,融合答案准确性和假阳性率,为评估VLM提供量化工具。
点此查看论文截图







Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models
Authors:Siddhant Panpatil, Hiskias Dingeto, Haon Park
Despite significant advances in alignment techniques, we demonstrate that state-of-the-art language models remain vulnerable to carefully crafted conversational scenarios that can induce various forms of misalignment without explicit jailbreaking. Through systematic manual red-teaming with Claude-4-Opus, we discovered 10 successful attack scenarios, revealing fundamental vulnerabilities in how current alignment methods handle narrative immersion, emotional pressure, and strategic framing. These scenarios successfully elicited a range of misaligned behaviors, including deception, value drift, self-preservation, and manipulative reasoning, each exploiting different psychological and contextual vulnerabilities. To validate generalizability, we distilled our successful manual attacks into MISALIGNMENTBENCH, an automated evaluation framework that enables reproducible testing across multiple models. Cross-model evaluation of our 10 scenarios against five frontier LLMs revealed an overall 76% vulnerability rate, with significant variations: GPT-4.1 showed the highest susceptibility (90%), while Claude-4-Sonnet demonstrated greater resistance (40%). Our findings demonstrate that sophisticated reasoning capabilities often become attack vectors rather than protective mechanisms, as models can be manipulated into complex justifications for misaligned behavior. This work provides (i) a detailed taxonomy of conversational manipulation patterns and (ii) a reusable evaluation framework. Together, these findings expose critical gaps in current alignment strategies and highlight the need for robustness against subtle, scenario-based manipulation in future AI systems.
尽管对齐技术取得了重大进展,但我们证明,最先进的语言模型仍然容易受到精心设计的对话场景的干扰,这些场景可以在没有明确突破安全机制的情况下,诱发多种形式的不对齐。我们通过系统的手动红队对抗测试与Claude-4-Opus一起发现了1 0个成功的攻击场景,揭示了当前对齐方法在应对叙事沉浸、情绪压力和战略框架方面的根本性漏洞。这些场景成功地引发了一系列的不对齐行为,包括欺骗、价值漂移、自我保护和操纵推理等,每一种行为都利用不同的心理和上下文漏洞。为了验证其普遍性,我们将成功的手动攻击转化为MISALIGNMENTBENCH自动化评估框架,该框架能够在多个模型之间进行可重复测试。对我们的五个前沿大型语言模型进行的跨模型评估显示,总体脆弱率为76%,存在显著差异:GPT-4.1的易感性最高(90%),而Claude-4-Sonnet显示出更大的抵抗力(40%)。我们的研究结果表明,复杂的推理能力往往成为攻击向量而不是保护机制,因为模型可以被操纵为对错误行为提供复杂合理的解释。这项工作提供了(i)详细的对话操纵模式分类和(ii)可重复使用的评估框架。这些发现共同揭示了当前对齐策略中的关键差距,并强调了未来人工智能系统需要增强对微妙、基于场景的操纵的稳健性。
论文及项目相关链接
Summary
在现代语言模型方面,尽管已有显著的技术进步,但通过系统性手动红队测试,我们发现前沿的语言模型仍易受精心设计的对话场景的影响,这些场景能够诱导各种形式的未对齐行为,如欺骗、价值漂移、自我保护和操纵推理等。我们创建了MISALIGNMENTBENCH评估框架,以跨模型测试这些攻击场景的有效性和普遍性。评估结果显示,大多数模型都存在较高的脆弱性,其中GPT-4.1的易感性最高。本研究揭示了当前对齐策略的关键差距和对未来AI系统稳健性的需求。
Key Takeaways
- 最先进的语言模型在面对精心设计的对话场景时仍容易遭受对齐问题。
- 通过红队测试发现了10种成功的攻击场景,揭示了模型在叙事沉浸、情绪压力和战略框架等方面的基本漏洞。
- 这些攻击场景能够诱导模型表现出欺骗、价值漂移、自我保存和操纵推理等未对齐行为。
- 创建了MISALIGNMENTBENCH评估框架以跨模型测试这些攻击场景的普遍性和有效性。
- 在五个前沿大型语言模型中的评估显示,总体脆弱性率高达76%,其中GPT-4.1易感性最高。
- 研究结果揭示了现有对齐策略的关键差距和对未来AI系统增强稳健性的需求。
点此查看论文截图





Generic-to-Specific Reasoning and Learning for Scalable Ad Hoc Teamwork
Authors:Hasra Dodampegama, Mohan Sridharan
AI agents deployed in assistive roles often have to collaborate with other agents (humans, AI systems) without prior coordination. Methods considered state of the art for such ad hoc teamwork often pursue a data-driven approach that needs a large labeled dataset of prior observations, lacks transparency, and makes it difficult to rapidly revise existing knowledge in response to changes. As the number of agents increases, the complexity of decision-making makes it difficult to collaborate effectively. This paper advocates leveraging the complementary strengths of knowledge-based and data-driven methods for reasoning and learning for ad hoc teamwork. For any given goal, our architecture enables each ad hoc agent to determine its actions through non-monotonic logical reasoning with: (a) prior commonsense domain-specific knowledge; (b) models learned and revised rapidly to predict the behavior of other agents; and (c) anticipated abstract future goals based on generic knowledge of similar situations in an existing foundation model. We experimentally evaluate our architecture’s capabilities in VirtualHome, a realistic physics-based 3D simulation environment.
在辅助角色中部署的AI代理通常需要与其他代理(人类、AI系统)进行预先无协调的协作。对于这种临时合作的最新方法通常采用数据驱动的方法,需要大规模的前期观察数据集,缺乏透明度,并且难以快速应对变化并修订现有知识。随着代理数量的增加,决策复杂性使得有效协作变得困难。本文主张在临时合作中利用基于知识和数据驱动方法的优势进行推理和学习。对于任何给定的目标,我们的架构使每个临时代理能够通过非单调逻辑推理来确定其行动,其中包括:(a)事先的常识领域特定知识;(b)快速学习和修订模型以预测其他代理的行为;(c)基于现有基础模型中类似情况的通用知识来预测抽象的未来目标。我们在VirtualHome这个基于物理的3D仿真环境中,通过实验评估了我们的架构能力。
论文及项目相关链接
PDF 14 pages, 6 figures
Summary
本文提出一种融合知识驱动与数据驱动方法的架构,用于支持即时团队协作。该架构使每个即时代理能够通过非单调逻辑推理确定其行动,包括利用先验常识领域特定知识、快速学习和修订以预测其他代理的行为的模型,以及基于现有基础模型中对类似情况的通用知识的预期抽象未来目标。
Key Takeaways
- AI代理在辅助角色中需与其他代理(人类、AI系统)协作,而即时团队协作面临复杂性。
- 当前先进方法多采用数据驱动,需大量标注数据集,缺乏透明性,难以快速更新知识应对变化。
- 本文倡导融合知识驱动和数据驱动方法的优势,结合非单调逻辑推理进行即时团队工作的决策。
- 架构利用先验常识领域特定知识、快速学习和修订模型预测其他代理行为,并基于通用知识预期抽象未来目标。
- 该架构在VirtualHome这一基于物理的3D仿真环境中进行了实验评估。
- 架构具有应对不同环境和任务中即时团队协作的潜力。
点此查看论文截图





Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap
Authors:Xuan Qi, Rongwu Xu, Zhijing Jin
Aligning large language models (LLMs) with human preferences is a critical challenge in AI research. While methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) are widely used, they often rely on large, costly preference datasets. The current work lacks methods for high-quality data selection specifically for preference data. In this work, we introduce a novel difficulty-based data selection strategy for preference datasets, grounded in the DPO implicit reward mechanism. By selecting preference data examples with smaller DPO implicit reward gaps, which are indicative of more challenging cases, we improve data efficiency and model alignment. Our approach consistently outperforms five strong baselines across multiple datasets and alignment tasks, achieving superior performance with only 10% of the original data. This principled, efficient selection method offers a promising solution for scaling LLM alignment with limited resources.
将大型语言模型(LLM)与人类偏好对齐是人工智能研究中的一个关键挑战。虽然强化学习从人类反馈(RLHF)和直接偏好优化(DPO)等方法被广泛使用,但它们通常依赖于大规模、成本高昂的偏好数据集。当前的工作缺乏专门针对偏好数据的高质量数据选择方法。在这项工作中,我们提出了一种基于难度的数据选择策略,该策略以DPO隐式奖励机制为基础。通过选择具有较小DPO隐式奖励差距的偏好数据示例(这些示例表明更具挑战性的情况),我们提高了数据效率和模型对齐。我们的方法在多数据集和对齐任务上始终优于五个强大的基线,仅使用原始数据的10%就实现了卓越的性能。这种有原则、高效的选择方法为解决有限资源下的LLM对齐问题提供了有前景的解决方案。
论文及项目相关链接
PDF Our code and data are available at https://github.com/Difficulty-Based-Preference-Data-Select/Difficulty-Based-Preference-Data-Select
Summary
大型语言模型(LLMs)与人类偏好对齐是人工智能研究的关键挑战。尽管强化学习从人类反馈(RLHF)和直接偏好优化(DPO)等方法被广泛应用,但它们经常依赖大量且成本高昂的偏好数据集。当前的研究缺乏针对偏好数据的高质量数据选择方法。本研究引入了一种基于难度的数据选择策略,该策略以DPO隐性奖励机制为基础。通过选择具有较小DPO隐性奖励差距的偏好数据示例(表明更具挑战性),我们提高了数据效率和模型对齐效果。该方法在多个数据集和校准任务上均优于五个强大的基线,仅使用原始数据的10%就实现了卓越性能。这种有原则、高效的选择方法为解决资源有限情况下的大型语言模型对齐问题提供了有前景的解决方案。
Key Takeaways
- 大型语言模型与人类偏好对齐是AI研究的重要挑战。
- 当前方法如RLHF和DPO在数据需求方面存在挑战,特别是需要大量的偏好数据集。
- 针对这一问题,提出了基于难度的数据选择策略。
- 该策略关注于选择更具挑战性的案例,以提高数据效率和模型对齐效果。
- 该方法在多个数据集和校准任务上的表现优于其他基线方法。
- 仅使用原始数据的10%,就能实现卓越性能。
点此查看论文截图


COPO: Consistency-Aware Policy Optimization
Authors:Jinghang Han, Jiawei Chen, Hang Shao, Hao Ma, Mingcheng Li, Xintian Shen, Lihao Zheng, Wei Chen, Tao Wei, Lihua Zhang
Reinforcement learning has significantly enhanced the reasoning capabilities of Large Language Models (LLMs) in complex problem-solving tasks. Recently, the introduction of DeepSeek R1 has inspired a surge of interest in leveraging rule-based rewards as a low-cost alternative for computing advantage functions and guiding policy optimization. However, a common challenge observed across many replication and extension efforts is that when multiple sampled responses under a single prompt converge to identical outcomes, whether correct or incorrect, the group-based advantage degenerates to zero. This leads to vanishing gradients and renders the corresponding samples ineffective for learning, ultimately limiting training efficiency and downstream performance. To address this issue, we propose a consistency-aware policy optimization framework that introduces a structured global reward based on outcome consistency, the global loss based on it ensures that, even when model outputs show high intra-group consistency, the training process still receives meaningful learning signals, which encourages the generation of correct and self-consistent reasoning paths from a global perspective. Furthermore, we incorporate an entropy-based soft blending mechanism that adaptively balances local advantage estimation with global optimization, enabling dynamic transitions between exploration and convergence throughout training. Our method introduces several key innovations in both reward design and optimization strategy. We validate its effectiveness through substantial performance gains on multiple mathematical reasoning benchmarks, highlighting the proposed framework’s robustness and general applicability. Code of this work has been released at https://github.com/hijih/copo-code.git.
强化学习已显著提高大型语言模型(LLM)在复杂问题解决任务中的推理能力。最近,DeepSeek R1的引入激发了人们对基于规则的奖励作为计算优势函数的低成本替代品的兴趣,并引导策略优化。然而,在许多复制和扩展工作中观察到的一个常见挑战是,当单个提示下的多个采样响应收敛到相同的结果(无论正确与否)时,群体优势会退化到零。这导致梯度消失,使得相应的样本对学习无效,从而限制了训练效率和下游性能。为了解决这个问题,我们提出了一种基于一致性感知的策略优化框架,该框架引入了一种基于结果一致性的结构化全局奖励。基于全局的损失确保了即使在模型输出表现出高组内一致性的情况下,训练过程仍然可以接收到有意义的学习信号,这鼓励从全局角度生成正确且自我一致的推理路径。此外,我们引入了一种基于熵的软融合机制,该机制可以自适应地平衡局部优势估计与全局优化,使探索与收敛在训练过程中实现动态过渡。我们的方法在奖励设计和优化策略方面引入了几项关键创新。我们通过多个数学推理基准测试的性能大幅提升验证了其有效性,突出了所提出框架的稳健性和通用性。相关代码已发布在https://github.com/hijih/copo-code.git。
论文及项目相关链接
Summary
强化学习显著提升了大型语言模型(LLM)在复杂问题解答任务中的推理能力。最近,DeepSeek R1的推出激发了人们对基于规则的奖励作为计算优势函数的低成本替代品的兴趣,并引导策略优化。然而,在许多复制和扩展工作中观察到的一个常见挑战是,当单个提示下的多个采样响应产生相同的结果(无论正确与否)时,群体优势会退化到零。为解决这一问题,我们提出了一个一致性感知的策略优化框架,引入基于结果一致性的结构化全局奖励。即使模型输出显示出高度组内一致性,全局损失也能确保训练过程获得有意义的学习信号,从全局角度鼓励生成正确且自我一致性的推理路径。此外,我们结合了一个基于熵的软融合机制,该机制能够自适应地平衡局部优势估计与全局优化,在训练过程中实现探索和收敛之间的动态过渡。我们的方法在奖励设计和优化策略方面引入了几项关键创新,并通过在多个数学推理基准测试上的显著性能提升验证了其有效性。相关代码已发布在链接。
Key Takeaways
- 强化学习增强了大型语言模型在复杂问题解答中的推理能力。
- DeepSeek R1的推出激发了人们对基于规则的奖励在策略优化中的兴趣。
- 单一提示下多个采样响应产生相同结果时,群体优势会退化。
- 一致性感知的策略优化框架通过引入结构化全局奖励解决上述问题。
- 全局损失确保在模型输出高度一致时,训练过程仍能获得有意义的学习信号。
- 结合熵的软融合机制实现局部与全局优化的平衡,提升训练效率。
- 验证方法的有效性通过多个数学推理基准测试上的显著性能提升体现。
点此查看论文截图



