LLM

发布日期: 2025-11-26

更新日期: 2025-11-27

文章字数: 21.8k

阅读时长: 88 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-11-26 更新

VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection

Authors:Qiang Wang, Xinyuan Gao, SongLin Dong, Jizhou Han, Jiangyang Li, Yuhang He, Yihong Gong

We present VDC-Agent, a self-evolving framework for Video Detailed Captioning that requires neither human annotations nor larger teacher models. The agent forms a closed loop of caption generation, principle-guided scoring (score and textual suggestions), and prompt refinement. When caption quality regresses, a self-reflection path leverages the previous chain-of-thought to amend the update. Running this process on unlabeled videos produces trajectories of (caption, score) pairs. We convert the trajectories into preference tuples and filter out samples with JSON parsing errors, resulting in VDC-Agent-19K, which contains 18,886 automatically constructed pairs. We then fine-tune the base MLLM on this dataset using an easy-to-hard curriculum direct preference optimization. Built on Qwen2.5-VL-7B-Instruct, our VDC-Agent-7B attains state-of-the-art performance on the VDC benchmark with 49.08% average accuracy and 2.50 score, surpassing specialized video captioners and improving over the base model by +5.13% accuracy and +0.27 score at similar inference cost.

我们推出了VDC-Agent，这是一款用于视频详细字幕的自我进化框架，无需人工标注和更大的教师模型。该代理形成了字幕生成、原则指导评分（评分和文本建议）和提示细化的闭环。当字幕质量下降时，自我反思路径会利用之前的思考链条进行修改更新。将此流程在无标签视频上运行会产生（字幕，评分）对的轨迹。我们将轨迹转换为偏好元组，并过滤掉带有JSON解析错误的样本，从而得到VDC-Agent-19K，其中包含18886个自动构建的对。然后，我们在该数据集上微调基础MLLM模型，采用从简单到难的课程直接偏好优化方法。基于Qwen2.5-VL-7B-Instruct构建，我们的VDC-Agent-7B在VDC基准测试上达到了业界领先水平，平均准确率为49.08%，得分为2.50，超越了专业视频字幕师，并且在类似的推理成本下，相比基础模型提高了+5.13%的准确率和+0.27的得分。

论文及项目相关链接

PDF

Summary:
VDC-Agent是一种无需人工标注和大型教师模型的自我进化视频详细字幕框架。它通过闭环生成字幕、原则指导评分和提示优化，实现自我反思修正。在无标签视频上运行此过程，产生（字幕，分数）对轨迹。最终通过微调基础MLLM模型，达到视频详细字幕领域的领先水平。

Key Takeaways:

VDC-Agent是一个无需人工标注和大型教师模型的自我进化框架，用于视频详细字幕。
该框架通过闭环生成字幕、原则指导评分和提示优化，提高字幕质量。
运行在大量无标签视频上的VDC-Agent产生了一系列（字幕，分数）对轨迹。
利用JSON解析将这些轨迹转换为偏好元组，并过滤掉样本中的错误。
最终的数据集VDC-Agent-19K包含自动构建的对。
使用简单到困难的课程直接偏好优化，微调基础MLLM模型。

Cool Papers

点此查看论文截图

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

Authors:Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai

Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT

任务调度对于实体人工智能至关重要，它使智能体能够遵循自然语言指令并在3D物理世界中高效地执行动作。然而，现有数据集往往通过忽略运筹学（OR）知识和3D空间定位来简化任务规划。在这项工作中，我们提出了基于运筹学的知识型三维实地任务调度（ORS3D），这是一个新任务，要求协同语言理解、3D定位和效率优化。不同于之前的设置，ORS3D要求智能体通过利用可并行化的子任务来最小化总完成时间，例如，在微波炉运行时清洁水槽。为了促进对ORS3D的研究，我们构建了ORS3D-60K数据集，该数据集包含跨越4K真实世界场景的6万个复合任务的大规模数据集。此外，我们提出了GRANT，这是一个配备简单而有效的调度令牌机制的实体多模态大型语言模型，用于生成高效的任务调度和实地行动。在ORS3D-60K上的广泛实验验证了GRANT在语言理解、3D定位和调度效率方面的有效性。代码可通过https://github.com/H-EmbodVis/GRANT获取。

论文及项目相关链接

PDF Accepted to AAAI 2026 (Oral). The code is available at \url{https://github.com/H-EmbodVis/GRANT}

Summary

本文提出操作研究知识基础的3D实地任务调度（ORS3D）新概念，强调在实体AI中任务调度的重要性。现有数据集忽略了操作研究（OR）知识和3D空间定位，而ORS3D要求结合语言理解、3D定位和效率优化。提出ORS3D-60K大规模数据集及GRANT大型多模态语言模型，能生成高效的任务调度和实地行动。

Key Takeaways

任务调度在实体AI中非常重要，涉及遵循自然语言指令在3D物理世界中高效执行任务。
现有数据集忽略操作研究（OR）知识和3D空间定位，导致任务规划简化。
提出ORS3D新概念，结合语言理解、3D定位和效率优化。
ORS3D要求智能体利用可并行子任务来最小化总完成时间。
引入ORS3D-60K大规模数据集，包含4K现实场景中的6万项复合任务。
提出GRANT大型多模态语言模型，具有简单的调度令牌机制，用于生成高效的任务调度和实地行动。

Cool Papers

点此查看论文截图

SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning

Authors:David Jiahao Fu, Aryan Gupta, Aaron Councilman, David Grove, Yu-Xiong Wang, Vikram Adve

Recent advancements in large language models (LLMs) have shown very impressive capabilities in code generation across many programming languages. However, even state-of-the-art LLMs generate programs that contains syntactic errors and fail to complete the given tasks, especially for low-resource programming languages (LRPLs). In addition, high training cost makes finetuning LLMs unaffordable with constrained computational resources, further undermining the effectiveness of LLMs for code generation. In this work, we propose SLMFix, a novel code generation pipeline that leverages a small language model (SLM) finetuned using reinforcement learning (RL) techniques to fix syntactic errors in LLM-generated programs to improve the quality of LLM-generated programs for domain-specific languages (DSLs). In specific, we applied RL on the SLM for the program repair task using a reward calculated using both a static validator and a static semantic similarity metric. Our experimental results demonstrate the effectiveness and generalizability of our approach across multiple DSLs, achieving more than 95% pass rate on the static validator. Notably, SLMFix brings substantial improvement to the base model and outperforms supervised finetuning approach even for 7B models on a LRPL, showing the potential of our approach as an alternative to traditional finetuning approaches.

近期大型语言模型（LLM）的进步在跨多种编程语言的代码生成中展示了非常令人印象深刻的能力。然而，即使是最先进的LLM生成的程序也包含语法错误，并且无法完成给定任务，特别是对于低资源编程语言（LRPL）更是如此。此外，高昂的训练成本使得在有限的计算资源上对LLM进行微调变得不切实际，这进一步削弱了LLM在代码生成方面的有效性。在这项工作中，我们提出了SLMFix，这是一种新的代码生成管道，它利用采用强化学习（RL）技术微调的小型语言模型（SLM）来修复LLM生成程序中的语法错误，以提高LLM在领域特定语言（DSL）中生成程序的质量。具体来说，我们对SLM的程序修复任务应用了RL，使用由静态验证器和静态语义相似性度量计算得出的奖励。我们的实验结果表明，我们的方法在多个DSL中具有有效性和通用性，在静态验证器上的通过率超过95%。值得注意的是，SLMFix对基础模型带来了实质性的改进，即使在LRPL上对于7B模型也超越了监督微调方法，这显示了我们的方法作为传统微调方法的替代方案的潜力。

论文及项目相关链接

PDF

Summary

基于大型语言模型（LLM）的代码生成技术在多种编程语言中展现出令人印象深刻的生成能力，但生成的程序存在语法错误且无法完成特定任务，特别是在低资源编程语言（LRPL）方面。本文提出一种名为SLMFix的新型代码生成管道，利用基于强化学习（RL）技术的小型语言模型（SLM）修复LLM生成程序中的语法错误，提高领域特定语言（DSL）的程序质量。实验结果显示，该方法在多领域DSL中表现优异，静态验证器的通过率超过95%。值得注意的是，SLMFix对基础模型有显著提升，即使在LRPL上对7B模型也表现出优于监督微调方法的性能，显示出该方法的潜力。

Key Takeaways

LLM在代码生成方面存在语法错误和完成度问题，特别是在LRPL上。
提出了一种新型代码生成管道SLMFix，利用SLM和RL技术修复LLM生成的程序中的语法错误。
SLMFix在多个DSL中表现出优异的性能，静态验证器的通过率超过95%。
SLMFix对基础模型有显著提升，显示出其作为传统微调方法的替代方案的潜力。
SLMFix在LRPL上对7B模型的表现优于监督微调方法。
该方法结合了静态验证器和静态语义相似性度量来计算奖励，为程序修复任务提供了有效的强化学习应用。

Cool Papers

点此查看论文截图

LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems

Authors:Tianyang Duan, Zongyuan Zhang, Zheng Lin, Songxiao Guo, Xiuxian Guan, Guangyu Wu, Zihan Fang, Haotian Meng, Xia Du, Ji-Zhe Zhou, Heming Cui, Jun Luo, Yue Gao

Multi-agent reinforcement learning (MARL) has been increasingly adopted in many real-world applications. While MARL enables decentralized deployment on resource-constrained edge devices, it suffers from severe non-stationarity due to the synchronous updates of agent policies. This non stationarity results in unstable training and poor policy con vergence, especially as the number of agents increases. In this paper, we propose RELED, a scalable MARL framework that integrates large language model (LLM)-driven expert demonstrations with autonomous agent exploration. RELED incorporates a Stationarity-Aware Expert Demonstration module, which leverages theoretical non-stationarity bounds to enhance the quality of LLM-generated expert trajectories, thus providing high reward and training-stable samples for each agent. Moreover, a Hybrid Expert-Agent Policy Optimization module adaptively balances each agent’s learning from both expert-generated and agent-generated trajectories, accelerating policy convergence and improving generalization. Extensive experiments with real city networks based on OpenStreetMap demonstrate that RELED achieves superior performance compared to state-of-the-art MARL methods.

多智能体强化学习（MARL）已被广泛应用于许多真实世界的应用场景。虽然MARL能够在资源受限的边缘设备上实现分布式部署，但由于智能体策略的同步更新，它面临着严重的非稳定性问题。这种非稳定性导致了训练的不稳定和策略收敛性差，尤其是随着智能体数量的增加。在本文中，我们提出了RELED，一个可扩展的MARL框架，它将大型语言模型（LLM）驱动的专家演示与自主智能体探索相结合。RELED采用Stationarity-Aware Expert Demonstration模块，该模块利用理论上的非稳定性界限来提高LLM生成的专家轨迹的质量，从而为每个智能体提供高奖励和稳定的训练样本。此外，Hybrid Expert-Agent Policy Optimization模块自适应地平衡每个智能体从专家生成和智能体生成的轨迹中学习，加速策略收敛并提高泛化能力。基于OpenStreetMap的真实城市网络进行的广泛实验表明，RELED相较于最先进的MARL方法实现了卓越的性能。

论文及项目相关链接

PDF 15 pages, 9 figures

Summary

RELED是一个可扩展的多智能体强化学习（MARL）框架，融合了大型语言模型（LLM）驱动的专家演示和自主智能体探索。它通过Stationarity-Aware Expert Demonstration模块和Hybrid Expert-Agent Policy Optimization模块解决了MARL中的非平稳性问题，提高了智能体的训练稳定性和策略收敛性。在真实城市网络上的实验表明，RELED相较于其他先进的MARL方法具有卓越性能。

Key Takeaways

RELED是一个针对多智能体强化学习（MARL）的框架，旨在解决其在现实应用中的非平稳性问题。
RELED通过整合大型语言模型（LLM）驱动的专家演示和自主智能体探索，增强了智能体的训练稳定性和策略收敛性。
RELED引入了Stationarity-Aware Expert Demonstration模块，利用非平稳性边界理论来提升LLM生成的专家轨迹质量。
Hybrid Expert-Agent Policy Optimization模块能自适应地平衡智能体从专家生成和智能体自身生成的轨迹中学习，加速策略收敛并提升泛化能力。
RELED框架在基于OpenStreetMap的真实城市网络上进行实验，展现出卓越性能。
RELED相较于其他先进的MARL方法具有更好的性能表现。

Cool Papers

点此查看论文截图

Leveraging LLMs for reward function design in reinforcement learning control tasks

Authors:Franklin Cardenoso, Wouter Caarls

The challenge of designing effective reward functions in reinforcement learning (RL) represents a significant bottleneck, often requiring extensive human expertise and being time-consuming. Previous work and recent advancements in large language models (LLMs) have demonstrated their potential for automating the generation of reward functions. However, existing methodologies often require preliminary evaluation metrics, human-engineered feedback for the refinement process, or the use of environmental source code as context. To address these limitations, this paper introduces LEARN-Opt (LLM-based Evaluator and Analyzer for Reward functioN Optimization). This LLM-based, fully autonomous, and model-agnostic framework eliminates the need for preliminary metrics and environmental source code as context to generate, execute, and evaluate reward function candidates from textual descriptions of systems and task objectives. LEARN-Opt’s main contribution lies in its ability to autonomously derive performance metrics directly from the system description and the task objective, enabling unsupervised evaluation and selection of reward functions. Our experiments indicate that LEARN-Opt achieves performance comparable to or better to that of state-of-the-art methods, such as EUREKA, while requiring less prior knowledge. We find that automated reward design is a high-variance problem, where the average-case candidate fails, requiring a multi-run approach to find the best candidates. Finally, we show that LEARN-Opt can unlock the potential of low-cost LLMs to find high-performing candidates that are comparable to, or even better than, those of larger models. This demonstrated performance affirms its potential to generate high-quality reward functions without requiring any preliminary human-defined metrics, thereby reducing engineering overhead and enhancing generalizability.

在强化学习（RL）中设计有效的奖励函数是一个重大挑战，通常需要大量的人力专业知识和耗费时间。之前的工作和最近的大型语言模型（LLM）的进步已经证明了它们在自动化生成奖励函数方面的潜力。然而，现有的方法通常需要初步评估指标、人类工程的反馈来进行优化过程，或使用环境源代码作为上下文。为了解决这些局限性，本文介绍了LEARN-Opt（用于奖励函数优化的基于LLM的评估器和分析器）。这个基于LLM的、完全自主的和模型不可知的框架，不需要初步指标和环境源代码作为上下文，就可以从系统任务目标的文本描述中生成、执行和评估奖励函数候选者。LEARN-Opt的主要贡献在于它能够从系统描述和任务目标中自主推导性能指标，从而实现奖励函数的无人监督评估和选择。我们的实验表明，LEARN-Opt的性能与最新方法（如EUREKA）相当或更好，同时需要更少的前期知识。我们发现自动化奖励设计是一个高方差问题，平均情况下的候选人可能会失败，需要多次运行来找到最佳候选人。最后，我们证明LEARN-Opt能够利用低成本LLM的潜力，找到与现有大型模型性能相当甚至更好的候选人。这一表现证明了其生成高质量奖励函数的潜力，无需任何初步的人为定义指标，从而减少了工程开销并增强了通用性。

论文及项目相关链接

PDF

Summary

在强化学习中设计有效的奖励函数是一个重大挑战，需要大量的人力经验和时间。本文介绍了一个基于大型语言模型（LLM）的完全自主、模型无关框架LEARN-Opt，能够直接从系统描述和任务目标中生成、执行和评估奖励函数候选者，无需初步评价指标和环境源代码。LEARN-Opt通过自主地从系统描述和任务目标中推导性能指标，实现了奖励函数的无人监督评估和选择。实验表明，LEARN-Opt的性能与最新方法相当或更好，并且可以在低成本的LLM中找到高性能的候选者。

Key Takeaways

强化学习中奖励函数设计是重大挑战，需要人力经验和时间。
LEARN-Opt是一个基于LLM的完全自主、模型无关框架，可生成、执行和评估奖励函数。
LEARN-Opt无需初步评价指标和环境源代码，可从系统描述和任务目标中自主推导性能指标。
LEARN-Opt实现无人监督的奖励函数评估和选择。
LEARN-Opt性能与最新方法相当或更好，且能在低成本的LLM中找到高性能奖励函数候选者。
LEARN-Opt具有潜力减少工程开销，提高通用性。

Cool Papers

点此查看论文截图

Scalable Parameter-Light Spectral Method for Clustering Short Text Embeddings with a Cohesion-Based Evaluation Metric

Authors:Nikita Neveditsin, Pawan Lingras, Vijay Mago

Clustering short text embeddings is a foundational task in natural language processing, yet remains challenging due to the need to specify the number of clusters in advance. We introduce a scalable spectral method that estimates the number of clusters directly from the structure of the Laplacian eigenspectrum, constructed using cosine similarities and guided by an adaptive sampling strategy. This sampling approach enables our estimator to efficiently scale to large datasets without sacrificing reliability. To support intrinsic evaluation of cluster quality without ground-truth labels, we propose the Cohesion Ratio, a simple and interpretable evaluation metric that quantifies how much intra-cluster similarity exceeds the global similarity background. It has an information-theoretic motivation inspired by mutual information, and in our experiments it correlates closely with extrinsic measures such as normalized mutual information and homogeneity. Extensive experiments on six short-text datasets and four modern embedding models show that standard algorithms like K-Means and HAC, when guided by our estimator, significantly outperform popular parameter-light methods such as HDBSCAN, OPTICS, and Leiden. These results demonstrate the practical value of our spectral estimator and Cohesion Ratio for unsupervised organization and evaluation of short text data. Implementation of our estimator of k and Cohesion Ratio, along with code for reproducing the experiments, is available at https://anonymous.4open.science/r/towards_clustering-0C2E.

短文本嵌入聚类是自然语言处理中的基础任务，但由于需要提前指定簇的数量，仍然具有挑战性。我们引入了一种可扩展的谱方法，该方法可以直接从拉普拉斯特征谱的结构中估计簇的数量，该特征谱由余弦相似性构建，并由自适应采样策略引导。这种采样方法使我们的估计器能够高效扩展到大型数据集，而不牺牲可靠性。为了支持在没有真实标签的情况下对聚类质量进行内在评估，我们提出了凝聚力比率（Cohesion Ratio），这是一个简单且可解释的评价指标，用于量化集群内部的相似性超过全局相似性背景的程度。它的信息理论动机受互信息启发，在我们的实验中，它与外在度量（如归一化互信息和同质性）密切相关。在六个短文本数据集和四个现代嵌入模型上的大量实验表明，当受到我们的估计器引导时，K-Means和HAC等标准算法显著优于流行的轻参数方法，如HDBSCAN、OPTICS和Leiden。这些结果证明了我们的谱估计器和凝聚力比率在实际中对短文本数据的无监督组织和评估的价值。我们的k值估计器和凝聚力比率的实现以及实验的重现代码可在https://anonymous.4open.science/r/towards_clustering-0C2E上找到。

论文及项目相关链接

PDF

摘要

本文介绍了一种基于谱聚类的可扩展方法，该方法可直接从拉普拉斯特征谱的结构中估计聚类数量。该方法利用余弦相似性，并辅以自适应采样策略。采样策略使得估计器能够高效扩展到大规模数据集而不损失可靠性。为了在没有真实标签的情况下对聚类质量进行内在评估，本文提出了“凝聚力比率”这一简单且可解释的评估指标。该指标量化集群内部的相似性超过全局相似性背景的程度，其信息理论动机受互信息启发。在六个短文本数据集和四种现代嵌入模型上的实验表明，标准算法（如K-Means和HAC）在受到本文估计器的指导后，显著优于流行的轻参数方法（如HDBSCAN、OPTICS和Leiden）。这证明了我们的谱估计器和凝聚力比率对于无监督组织短文本数据的实用价值。

关键见解

提出了一种基于谱聚类的可扩展方法，可直接从拉普拉斯特征谱的结构中估计聚类数量。
通过自适应采样策略，提高了估计器在大规模数据集上的效率和可靠性。
引入了“凝聚力比率”这一评估指标，用于无监督评估聚类质量。
凝聚力比率是一种简单且可解释的指标，可量化集群内部的相似性超过全局相似性背景的程度。
凝聚力比率与信息理论中的互信息有密切联系。
在多个数据集和嵌入模型上的实验表明，标准算法在受到新的聚类数量估计器的指导后，性能显著优于其他方法。
实证结果证明了新的谱估计器和凝聚力比率的实用价值。

Cool Papers

点此查看论文截图

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

Authors:Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo

Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.

人类通过学习和掌握不同世界的潜在规则，自然地适应多样化的环境，这些世界具有不同的动态、观察和奖励结构。相比之下，现有的智能体通常通过在单一领域内自我进化来展示改进，这隐含地假设环境分布是固定的。跨环境学习在很大程度上仍未得到衡量：没有可控的、多样化的环境的标准集合，也没有统一的方式来表示智能体如何学习。我们分两步解决这些差距。首先，我们提出了AutoEnv，这是一个自动化框架，将环境视为过渡、观察和奖励的可分解分布，能够低成本（平均4.12美元）地生成多样化的世界。使用AutoEnv，我们构建了AutoEnv-36，这是一个包含36个环境、358个验证级别的数据集，七个语言模型在此数据集上实现了12-49%的标准化奖励，证明了AutoEnv-36的挑战性。其次，我们将智能体学习形式化为以选择、优化和评估三个阶段驱动的组件中心过程，这三个阶段应用于可改进的智能体组件。利用这种表述，我们设计了八种学习方法，并在AutoEnv-36上进行了评估。从经验上看，随着环境数量的增加，任何单一学习方法的收益都会迅速下降，这表明固定的学习方法并不适用于多样化的环境。环境自适应的学习方法选择能显著提高性能，但随着方法空间的扩大，收益会递减。这些结果强调了智能体学习在跨环境泛化中的必要性和当前局限性，并将AutoEnv和AutoEnv-36定位为研究跨环境智能体学习的测试平台。代码可在https://github.com/FoundationAgents/AutoEnv找到。

论文及项目相关链接

PDF

Summary

本文研究了跨环境学习的问题。针对现有智能体通常在单一领域内自我进化，隐式假设固定环境分布的问题，提出了一种名为AutoEnv的自动化框架，该框架将环境视为可分解的转换、观察和奖励分布，能够低成本地生成异质世界。基于AutoEnv框架，构建了包含36种环境的AutoEnv-36数据集，验证了七种语言模型在其中的表现。文章还正式提出了智能体的学习是选择、优化和评估三个阶段的组件驱动过程。在AutoEnv-36上的实验表明，单一学习方法的收益随着环境数量的增加而迅速下降，环境自适应选择学习方法能显著提高性能，但方法空间扩大后收益递减。这些结果突显了跨环境泛化中智能体学习的必要性和当前局限性，并将AutoEnv和AutoEnv-36作为研究跨环境智能体学习的测试平台。

Key Takeaways

人类能通过学习不同环境的规则来适应多样化环境，而现有智能体主要在单一领域内自我进化，假设固定环境分布。
提出了AutoEnv框架，能低成本生成异质世界，构建了一个包含36种环境的AutoEnv-36数据集。
智能体的学习被正式化为选择、优化和评估三个阶段的组件驱动过程。
单一学习方法的收益随环境数量增加而下降，凸显环境自适应选择学习方法的重要性。
环境自适应选择学习方法能显著提高智能体性能，但方法空间扩大后收益递减。
跨环境泛化中智能体学习存在必要性和当前局限性。

Cool Papers

点此查看论文截图

Health system learning achieves generalist neuroimaging models

Authors:Akhil Kondepudi, Akshay Rao, Chenhui Zhao, Yiwei Lyu, Samir Harake, Soumyanil Banerjee, Rushikesh Joshi, Anna-Katharina Meissner, Renly Hou, Cheng Jiang, Asadur Chowdury, Ashok Srinivasan, Brian Athey, Vikas Gulani, Aditya Pandey, Honglak Lee, Todd Hollon

Frontier artificial intelligence (AI) models, such as OpenAI’s GPT-5 and Meta’s DINOv3, have advanced rapidly through training on internet-scale public data, yet such systems lack access to private clinical data. Neuroimaging, in particular, is underrepresented in the public domain due to identifiable facial features within MRI and CT scans, fundamentally restricting model performance in clinical medicine. Here, we show that frontier models underperform on neuroimaging tasks and that learning directly from uncurated data generated during routine clinical care at health systems, a paradigm we call health system learning, yields high-performance, generalist neuroimaging models. We introduce NeuroVFM, a visual foundation model trained on 5.24 million clinical MRI and CT volumes using a scalable volumetric joint-embedding predictive architecture. NeuroVFM learns comprehensive representations of brain anatomy and pathology, achieving state-of-the-art performance across multiple clinical tasks, including radiologic diagnosis and report generation. The model exhibits emergent neuroanatomic understanding and interpretable visual grounding of diagnostic findings. When paired with open-source language models through lightweight visual instruction tuning, NeuroVFM generates radiology reports that surpass frontier models in accuracy, clinical triage, and expert preference. Through clinically grounded visual understanding, NeuroVFM reduces hallucinated findings and critical errors, offering safer clinical decision support. These results establish health system learning as a paradigm for building generalist medical AI and provide a scalable framework for clinical foundation models.

前沿人工智能（AI）模型，如OpenAI的GPT-5和Meta的DINOv3，通过大规模互联网公开数据进行训练，已得到快速发展，但这些系统无法访问私有临床数据。由于磁共振成像（MRI）和计算机断层扫描（CT）中的可识别面部特征，神经影像学在公共领域被低估，从根本上限制了其在临床医学中的模型性能。在这里，我们展示了前沿模型在神经影像学任务上的表现不佳，并且直接从健康系统的常规临床护理中生成的非定制数据学习，我们称之为健康系统学习，可以产生高性能的通用神经影像学模型。我们引入了NeuroVFM，这是一个在524万份临床MRI和CT体积上训练的视觉基础模型，采用可扩展的体积联合嵌入预测架构。NeuroVFM学习大脑解剖结构和病理学的全面表示，在多个临床任务上达到最新性能，包括放射学诊断和报告生成。该模型展现出对神经解剖结构的理解，并具有诊断发现的可解释性视觉基础。当与开源语言模型通过轻量级视觉指令微调配对时，NeuroVFM生成的放射学报告在准确性、临床评估和专家偏好方面超越了前沿模型。通过基于临床的视觉理解，NeuroVFM减少了虚构发现和关键错误，为更安全的临床决策支持提供支持。这些结果确立了健康系统学习作为构建通用医疗人工智能的范式，并为临床基础模型提供了可扩展的框架。

论文及项目相关链接

PDF 53 pages, 4 main figures, 10 extended data figures

Summary

本文介绍了前沿人工智能模型在医学影像领域的局限性，尤其是在神经成像任务上的不足。为了解决这一问题，提出了NeuroVFM模型，该模型通过健康系统学习的方式直接从临床数据中进行训练，取得了优异的表现。NeuroVFM模型具备全面的脑解剖和病理特征表示能力，可以在多个临床任务上实现最先进的性能，并且可以与开放源码的语言模型相结合，生成准确的医学影像报告。该模型的引入为建立通用医疗人工智能提供了新的思路，并提供了临床基础模型的可扩展框架。

Key Takeaways

前沿人工智能模型如GPT-5和DINOv3在医学影像领域存在局限性，特别是在神经成像任务上的表现不佳。
NeuroVFM模型通过健康系统学习的方式直接从临床数据中进行训练，取得优异表现。
NeuroVFM模型具备全面的脑解剖和病理特征表示能力，可在多个临床任务上实现最先进性能。
NeuroVFM模型具备诊断发现的可视化基础，为放射科医生提供更直观的解释和理解。
NeuroVFM模型与开放源码的语言模型结合，可以生成更准确、更具临床针对性和专家偏好的医学影像报告。
NeuroVFM模型的引入减少了影像解读中的幻觉发现和关键错误，为临床决策支持提供更安全的保障。

Cool Papers

点此查看论文截图

Video4Edit: Viewing Image Editing as a Degenerate Temporal Process

Authors:Xiaofan Li, Yanpeng Sun, Chenming Wu, Fan Duan, YuAn Wang, Weihao Bo, Yumeng Zhang, Dingkang Liang

We observe that recent advances in multimodal foundation models have propelled instruction-driven image generation and editing into a genuinely cross-modal, cooperative regime. Nevertheless, state-of-the-art editing pipelines remain costly: beyond training large diffusion/flow models, they require curating massive high-quality triplets of {instruction, source image, edited image} to cover diverse user intents. Moreover, the fidelity of visual replacements hinges on how precisely the instruction references the target semantics. We revisit this challenge through the lens of temporal modeling: if video can be regarded as a full temporal process, then image editing can be seen as a degenerate temporal process. This perspective allows us to transfer single-frame evolution priors from video pre-training, enabling a highly data-efficient fine-tuning regime. Empirically, our approach matches the performance of leading open-source baselines while using only about one percent of the supervision demanded by mainstream editing models.

我们观察到，最近的多模态基础模型的进步已经将指令驱动的图片生成和编辑推进到了一个真正的跨模态、协同的模式。然而，最先进的编辑流程仍然成本高昂：除了训练大型扩散/流模型之外，它们还需要整理大量的高质量{指令、源图像、编辑图像}三元组来覆盖各种用户意图。此外，视觉替换的逼真度取决于指令对目标语义的引用精度。我们通过时间建模的视角重新审视这一挑战：如果视频可以被视为一个完整的时间过程，那么图片编辑可以看作是一个简化的时间过程。这种视角允许我们从视频的预训练中转移单帧演化先验知识，从而实现高度数据高效的微调模式。经验上，我们的方法与领先的开源基准测试相匹配，同时只使用了主流编辑模型所需监督数据的约百分之一。

论文及项目相关链接

PDF 10 pages, 5 figures

Summary

近期多模态基础模型的进展推动了指令驱动式的图像生成与编辑进入真正的跨模态协同阶段。然而，当前最先进的编辑流程成本高昂，需要大量扩散模型，并且需要大量高质量的三元组指令来覆盖多种用户意图。本篇文章从新视角提出应对挑战，即通过将视频看作一个完整的时间过程来推动图像编辑发展。这个视角让我们能够借助视频的先验知识对图像进行单帧编辑，进而建立了一个数据效率高的精细调节制度。实证研究结果显示，该策略达到了开源基线技术的水平，且只需主流编辑模型所需监督数据的百分之一。

Key Takeaways

多模态基础模型的进步推动了指令驱动图像生成与编辑的跨模态协同进步。
当前编辑流程存在成本高的问题，需要大量的扩散模型和高质量三元组指令集来支持多种用户意图的覆盖。
通过视频作为完整时间过程的视角来推动图像编辑发展是一种新颖的方法。
视频的先验知识可用于单帧图像编辑，提高了数据效率。
该方法实现了高度精细的调节制度，允许在有限的监督数据下实现性能匹配。

Cool Papers

点此查看论文截图

VCU-Bridge: Hierarchical Visual Connotation Understanding via Semantic Bridging

Authors:Ming Zhong, Yuanlei Wang, Liuzhou Zhang, Arctanx An, Renrui Zhang, Hao Liang, Ming Lu, Ying Shen, Wentao Zhang

While Multimodal Large Language Models (MLLMs) excel on benchmarks, their processing paradigm differs from the human ability to integrate visual information. Unlike humans who naturally bridge details and high-level concepts, models tend to treat these elements in isolation. Prevailing evaluation protocols often decouple low-level perception from high-level reasoning, overlooking their semantic and causal dependencies, which yields non-diagnostic results and obscures performance bottlenecks. We present VCU-Bridge, a framework that operationalizes a human-like hierarchy of visual connotation understanding: multi-level reasoning that advances from foundational perception through semantic bridging to abstract connotation, with an explicit evidence-to-inference trace from concrete cues to abstract conclusions. Building on this framework, we construct HVCU-Bench, a benchmark for hierarchical visual connotation understanding with explicit, level-wise diagnostics. Comprehensive experiments demonstrate a consistent decline in performance as reasoning progresses to higher levels. We further develop a data generation pipeline for instruction tuning guided by Monte Carlo Tree Search (MCTS) and show that strengthening low-level capabilities yields measurable gains at higher levels. Interestingly, it not only improves on HVCU-Bench but also brings benefits on general benchmarks (average +2.53%), especially with substantial gains on MMStar (+7.26%), demonstrating the significance of the hierarchical thinking pattern and its effectiveness in enhancing MLLM capabilities. The project page is at https://vcu-bridge.github.io .

虽然多模态大型语言模型（MLLMs）在基准测试中表现出色，但其处理范式与人类整合视觉信息的能力存在差异。人类能够自然地连接细节和高级概念，而模型往往孤立地处理这些元素。现行的评估协议往往将低层次感知与高层次推理分开，忽略了它们的语义和因果依赖关系，从而导致结果无法诊断并掩盖性能瓶颈。我们提出了VCU-Bridge框架，该框架实现了人类类似的视觉内涵理解层次结构：从基础感知开始，通过语义桥梁推进到抽象内涵的多层次推理，具有从具体线索到抽象结论的明确证据推理轨迹。在此基础上，我们构建了HVCU-Bench基准测试，这是一个用于分层视觉内涵理解的基准测试，具有明确、分级的诊断。综合实验表明，随着推理向更高层次的推进，性能呈现出一贯的下降。我们进一步开发了一条数据生成管道，用于在蒙特卡洛树搜索（MCTS）的指导下进行指令调整，并表明加强低层次能力可以在更高层次上实现可衡量的收益。有趣的是，它不仅在HVCU-Bench上有所提升，而且在通用基准测试上也有好处（平均提高+2.53%），特别是在MMStar上的提升幅度显著（+7.26%），这证明了分层思维模式的重要性及其在提高MLLM能力方面的有效性。项目页面位于https://vcu-bridge.github.io。

论文及项目相关链接

PDF

Summary
多模态大型语言模型（MLLMs）在基准测试上表现出色，但其处理范式与人类整合视觉信息的能力存在差异。人类能够自然地桥接细节和高级概念，而模型往往孤立地处理这些元素。现有的评估协议通常将低层次感知与高层次推理分开，忽略了它们的语义和因果依赖关系，导致结果不具诊断性且性能瓶颈被掩盖。本研究提出了VCU-Bridge框架，该框架实现了人类式的视觉内涵理解层次结构：从基础感知开始，通过语义桥接达到抽象内涵的多层次推理，具有从具体线索到抽象结论的明确证据推理轨迹。基于此框架，我们构建了HVCU-Bench基准测试，用于对分层视觉内涵理解进行明确的层次诊断。综合实验表明，随着推理的进行到更高层次，性能出现了一致的下降。我们还开发了一条数据生成管道，用于指导Monte Carlo树搜索（MCTS）进行指令微调，并发现加强低层次能力可以在更高层次上实现可观的收益。这不仅提高了HVCU-Bench的性能，而且在通用基准测试上也带来了好处（平均提高2.53%），特别是在MMStar上大幅提高了（+7.26%），显示了分层思维模式的重要性及其在提高MLLM能力方面的有效性。

Key Takeaways

多模态大型语言模型（MLLMs）虽然性能出色，但其视觉信息处理方式与人类不同。
当前评估协议通常忽视低层次感知与高层次推理之间的语义和因果依赖关系。
VCU-Bridge框架模仿人类视觉理解层次结构，从基础感知到抽象内涵理解。
HVCU-Bench基准测试用于评估分层视觉内涵理解的性能，具有明确的层次诊断功能。
实验显示，随着推理层次的提高，性能逐渐下降。
通过Monte Carlo树搜索（MCTS）指导的数据生成管道用于指令微调，提升模型性能。
加强低层次能力不仅提高了特定基准测试性能，也对通用基准测试有积极影响。

Cool Papers

点此查看论文截图

Adaptive Layer-Wise Transformations for Post-Training Quantization of Large Language Models

Authors:Cuong Pham, Hoang Anh Dung, Cuong C. Nguyen, Trung Le, Gustavo Carneiro, Jianfei Cai, Thanh-Toan Do

Large language models require significant computational resources for deployment, making quantization essential for practical applications. However, the main obstacle to effective quantization lies in systematic outliers in activations and weights, which cause substantial LLM performance degradation, especially at low-bit settings. While existing transformation-based methods like affine and rotation transformations successfully mitigate outliers, they apply the homogeneous transformation setting, i.e., using the same transformation types across all layers, ignoring the heterogeneous distribution characteristics within LLMs. In this paper, we propose an adaptive transformation selection framework that systematically determines optimal transformations on a per-layer basis. To this end, we first formulate transformation selection as a differentiable optimization problem to achieve the accurate transformation type for each layer. However, searching for optimal layer-wise transformations for every model is computationally expensive. To this end, we establish the connection between weight distribution kurtosis and accurate transformation type. Specifically, we propose an outlier-guided layer selection method using robust $z$-score normalization that achieves comparable performance to differentiable search with significantly reduced overhead. Comprehensive experiments on LLaMA family models demonstrate that our adaptive approach consistently outperforms the widely-used fixed transformation settings. For example, our method achieves an improvement of up to 4.58 perplexity points and a 2.11% gain in average six-task zero-shot accuracy under aggressive W3A3K2V2 quantization settings for the LLaMA-3-8B model compared to the current best existing method, FlatQuant, demonstrating the necessity of heterogeneous transformation selection for optimal LLM quantization.

大型语言模型部署需要巨大的计算资源，使得量化对于实际应用至关重要。然而，有效量化的主要障碍在于激活和权重中的系统性异常值，它们会导致大型语言模型性能显著下降，尤其是在低位设置下。虽然现有的基于转换的方法，如仿射和旋转转换，成功缓解了异常值问题，但它们采用均匀转换设置，即所有层使用相同的转换类型，忽略了大型语言模型内部的异构分布特征。在本文中，我们提出了一个自适应转换选择框架，该框架系统地按层确定最佳转换。为此，我们首先将转换选择制定为一个可微分的优化问题，以实现每层准确的转换类型。然而，为每个模型搜索最优逐层转换是计算密集型的。为此，我们建立了权重分布峰度与准确转换类型之间的联系。具体来说，我们提出了一种使用鲁棒Z得分归一化的异常值引导层选择方法，该方法在可微分搜索方面实现了相当的性能，但大大减少了开销。在LLaMA家族模型上的综合实验表明，我们的自适应方法始终优于广泛使用的固定转换设置。例如，在激烈的W3A3K2V2量化设置下，与当前最佳方法FlatQuant相比，我们的方法在为LLaMA-3-8B模型实现了最多减少4.58个困惑度点和平均六任务零射击准确率提高2.11%。这证明了为优化大型语言模型量化进行异构转换选择的必要性。

论文及项目相关链接

PDF

摘要

大规模语言模型部署需要大量计算资源，因此量化对于实际应用至关重要。然而，量化的主要障碍在于激活和权重中的系统性异常值，这些异常值在低位设置下会导致语言模型性能严重下降。现有的基于转换的方法，如仿射和旋转转换，虽然可以缓解异常值问题，但它们采用均匀转换设置，忽略了语言模型内部的异构分布特性。本文提出了一种自适应转换选择框架，该框架系统地按层确定最佳转换。为此，我们将转换选择制定为可微优化问题，以实现每层准确的转换类型。然而，为每种模型搜索最佳逐层转换计算成本高昂。因此，我们建立了权重分布峰度与准确转换类型之间的联系。具体来说，我们提出了一种使用鲁棒z得分归一化的异常值引导层选择方法，该方法在降低开销的同时实现了与可微搜索相当的性能。在LLaMA家族模型上的综合实验表明，我们的自适应方法始终优于广泛使用的固定转换设置。例如，在激烈的W3A3K2V2量化设置下，我们的方法在实现LLaMA-3-8B模型最佳现有方法相比提高了高达4.58个困惑点和平均六任务零射击准确率提高了2.11%。这证明了在最佳LLM量化过程中进行异构转换选择的必要性。

关键见解

大规模语言模型的部署需要量化以优化计算资源的使用。
激活和权重中的系统性异常值是量化中的主要挑战。
现有方法采用均匀转换设置，忽略了语言模型内部的异构特性。
本文提出了一种自适应转换选择框架，按层进行最佳转换的选择。
通过将转换选择制定为可微优化问题，实现了每层的精准转换。
异常值引导层选择方法通过鲁棒z得分归一化被提出，以降低计算开销并保持高性能。

Cool Papers

点此查看论文截图

The SA-FARI Dataset: Segment Anything in Footage of Animals for Recognition and Identification

Authors:Dante Francisco Wasmuht, Otto Brookes, Maximillian Schall, Pablo Palencia, Chris Beirne, Tilo Burghardt, Majid Mirmehdi, Hjalmar Kühl, Mimi Arandjelovic, Sam Pottie, Peter Bermant, Brandon Asheim, Yi Jin Toh, Adam Elzinga, Jason Holmberg, Andrew Whitworth, Eleanor Flatt, Laura Gustafson, Chaitanya Ryali, Yuan-Ting Hu, Baishan Guo, Andrew Westbury, Kate Saenko, Didac Suris

Automated video analysis is critical for wildlife conservation. A foundational task in this domain is multi-animal tracking (MAT), which underpins applications such as individual re-identification and behavior recognition. However, existing datasets are limited in scale, constrained to a few species, or lack sufficient temporal and geographical diversity - leaving no suitable benchmark for training general-purpose MAT models applicable across wild animal populations. To address this, we introduce SA-FARI, the largest open-source MAT dataset for wild animals. It comprises 11,609 camera trap videos collected over approximately 10 years (2014-2024) from 741 locations across 4 continents, spanning 99 species categories. Each video is exhaustively annotated culminating in ~46 hours of densely annotated footage containing 16,224 masklet identities and 942,702 individual bounding boxes, segmentation masks, and species labels. Alongside the task-specific annotations, we publish anonymized camera trap locations for each video. Finally, we present comprehensive benchmarks on SA-FARI using state-of-the-art vision-language models for detection and tracking, including SAM 3, evaluated with both species-specific and generic animal prompts. We also compare against vision-only methods developed specifically for wildlife analysis. SA-FARI is the first large-scale dataset to combine high species diversity, multi-region coverage, and high-quality spatio-temporal annotations, offering a new foundation for advancing generalizable multianimal tracking in the wild. The dataset is available at https://www.conservationxlabs.com/sa-fari.

自动化视频分析对野生动物保护至关重要。该领域的一项基础任务是动物多目标跟踪（MAT），它是个体再识别和行为识别等应用的基础。然而，现有数据集规模有限，仅限于少数物种，或者缺乏足够的时间和地理多样性，没有合适的基准来训练适用于野生动物群体的通用MAT模型。为了解决这一问题，我们推出了SA-FARI，这是最大的野生动物开放源代码MAT数据集。它包含大约10年（2014年至2024年）从四大洲的741个地点收集的11,609个相机陷阱视频，跨越了99个物种类别。每个视频都进行了详尽的标注，产生了大约46个小时的密集标注视频片段，其中包含包含特定遮罩身份的镜头约共有 16,224 个个体，边界框为个体遮罩标明了其边界以及 94 万多个个体边界框、分割遮罩和物种标签等标记信息。除了特定任务的注释之外，我们还公开了每个视频的匿名相机陷阱位置。最后，我们使用先进的视觉语言检测模型作为基准，对SA-FARI进行了全面评估比较先进的视觉语言模型用于检测和跟踪的能力表现；我们也比较了专门针对野生动物分析开发的视觉模型的表现。SA-FARI是首个结合高物种多样性、多区域覆盖和高质量时空标注的大规模数据集，为野外通用多动物跟踪提供了新基础。该数据集可通过 https://www.conservationxlabs.com/sa-fari 获得。

论文及项目相关链接

PDF

Summary

本文介绍了针对野生动物保护的重要技术——自动化视频分析中的多动物跟踪（MAT）任务。现有数据集存在规模限制、物种数量有限以及时间和地理多样性不足等问题，无法为通用MAT模型提供合适的基准测试。为此，引入了SA-FARI，这是最大的开源野生动物多动物跟踪数据集。它包含了来自四大洲741个地点的11,609个相机陷阱视频，时间跨度约10年（2014-2024），涵盖99个物种类别。每个视频都进行了详尽的标注，包括身份识别、边界框、分割掩膜和物种标签等。同时，还发布了每个视频的匿名相机陷阱位置。文章还提供了基于先进视觉语言模型的全面基准测试，包括SAM 3等模型，并对特定物种和通用动物提示进行了评估。SA-FARI数据集是首个结合高物种多样性、多区域覆盖和高质量时空标注的大规模数据集，为推进野外通用多动物跟踪提供了新的基础。

Key Takeaways

自动化视频分析在野生动物保护中至关重要，多动物跟踪（MAT）是其中的一项基础任务。
现有数据集存在规模、物种和时空多样性的限制，缺乏通用MAT模型的基准测试。
引入SA-FARI数据集，包含来自四大洲的11,609个相机陷阱视频，涵盖99个物种类别，是开源的。
每个视频都进行了详尽标注，包括身份识别、边界框、分割掩膜和物种标签等。
发布了匿名相机陷阱位置信息。
提供了基于先进视觉语言模型的基准测试，包括SAM 3等模型的表现。
SA-FARI数据集是首个结合高物种多样性、多区域覆盖和高质量时空标注的大规模数据集，为推进野外通用多动物跟踪研究奠定了基础。

Cool Papers

点此查看论文截图

Information Extraction From Fiscal Documents Using LLMs

Authors:Vikram Aggarwal, Jay Kulkarni, Aditi Mascarenhas, Aakriti Narang, Siddarth Raman, Ajay Shah, Susan Thomas

Large Language Models (LLMs) have demonstrated remarkable capabilities in text comprehension, but their ability to process complex, hierarchical tabular data remains underexplored. We present a novel approach to extracting structured data from multi-page government fiscal documents using LLM-based techniques. Applied to annual fiscal documents from the State of Karnataka in India (200+ pages), our method achieves high accuracy through a multi-stage pipeline that leverages domain knowledge, sequential context, and algorithmic validation. A large challenge with traditional OCR methods is the inability to verify the accurate extraction of numbers. When applied to fiscal data, the inherent structure of fiscal tables, with totals at each level of the hierarchy, allows for robust internal validation of the extracted data. We use these hierarchical relationships to create multi-level validation checks. We demonstrate that LLMs can read tables and also process document-specific structural hierarchies, offering a scalable process for converting PDF-based fiscal disclosures into research-ready databases. Our implementation shows promise for broader applications across developing country contexts.

大型语言模型（LLMs）在文本理解方面表现出了显著的能力，但它们在处理复杂、分层表格数据方面的能力仍然被低估。我们提出了一种利用LLM技术从多页政府财政文档中提取结构化数据的新方法。该方法应用于印度卡纳塔克邦的年度财政文件（超过200页），通过利用领域知识、序列上下文和算法验证的多阶段管道，实现了高准确性。传统OCR方法的一个大挑战是无法验证数字提取的准确性。当应用于财政数据时，财政表格的内在结构，每个层次的总计，允许对提取的数据进行稳健的内部验证。我们利用这些层次关系创建多级验证检查。我们证明LLMs能够阅读表格并处理文档特定的结构层次，为将基于PDF的财政披露转化为研究就绪数据库提供了可扩展的过程。我们的实现对于在发展中国家环境中的更广泛应用具有前景。

论文及项目相关链接

PDF 6 pages. Presented at the AI for Financial Inclusion, Risk Modeling and Resilience in Emerging Markets workshop at ACM ICAIF 2025 Singapore

Summary
大型语言模型（LLM）在处理文本理解方面表现出卓越的能力，但在处理复杂、分层的表格数据方面仍存在探索不足。本研究提出了一种基于LLM技术从多页政府财政文档中提取结构化数据的新方法。该方法应用于印度卡纳塔克邦的年度财政文档（超过200页），通过利用领域知识、上下文顺序和算法验证的多阶段管道实现高准确率。研究利用财政表格的内在结构，通过各级别的总和进行稳健的内部验证。研究展示了LLM能够阅读表格和处理文档特定的结构层次，为将基于PDF的财政披露转化为研究数据库提供了可扩展的流程。

Key Takeaways

LLM在处理复杂、分层的表格数据方面存在探索空间。
提出一种基于LLM的新方法，用于从多页政府财政文档中提取结构化数据。
该方法应用于印度卡纳塔克邦的年度财政文档，实现高准确率。
利用财政表格的内在结构进行内部验证，通过各级别的总和进行数据的准确性检查。
LLM具备阅读表格和处理文档特定结构层次的能力。
该方法提供了一个可扩展的流程，将基于PDF的财政披露转化为研究数据库。

Cool Papers

点此查看论文截图

FOCUS: Efficient Keyframe Selection for Long Video Understanding

Authors:Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Zhenheng Yang, Yang You

Multimodal large language models (MLLMs) represent images and video frames as visual tokens. Scaling from single images to hour-long videos, however, inflates the token budget far beyond practical limits. Popular pipelines therefore either uniformly subsample or apply keyframe selection with retrieval-style scoring using smaller vision-language models. However, these keyframe selection methods still rely on pre-filtering before selection to reduce the inference cost and can miss the most informative moments. We propose FOCUS, Frame-Optimistic Confidence Upper-bound Selection, a training-free, model-agnostic keyframe selection module that selects query-relevant frames under a strict token budget. FOCUS formulates keyframe selection as a combinatorial pure-exploration (CPE) problem in multi-armed bandits: it treats short temporal clips as arms, and uses empirical means and Bernstein confidence radius to identify informative regions while preserving exploration of uncertain areas. The resulting two-stage exploration-exploitation procedure reduces from a sequential policy with theoretical guarantees, first identifying high-value temporal regions, then selecting top-scoring frames within each region. On two long-video question-answering benchmarks, FOCUS delivers substantial accuracy improvements while processing less than 2% of video frames. For videos longer than 20 minutes, it achieves an 11.9% gain in accuracy on LongVideoBench, demonstrating its effectiveness as a keyframe selection method and providing a simple and general solution for scalable long-video understanding with MLLMs. Code is available at https://github.com/NUS-HPC-AI-Lab/FOCUS.

多模态大型语言模型（MLLMs）将图像和视频帧表示为视觉标记。然而，从单张图像扩展到长达数小时的视频会大大增加标记预算，远远超出实际限制。因此，流行的管道要么进行均匀抽样，要么使用较小的视觉语言模型进行检索式评分以选择关键帧。但这些关键帧选择方法仍需在选择之前进行预先过滤，以降低推理成本，可能会遗漏信息量最大的时刻。我们提出FOCUS（Frame-Optimistic Confidence Upper-bound Selection），这是一种无需训练、适用于各种模型的关键帧选择模块，在严格的标记预算下选择查询相关的帧。FOCUS将关键帧选择公式化为多臂老虎机中的组合纯探索（CPE）问题：它将短暂的临时片段视为手臂，并使用经验均值和伯恩斯坦置信半径来识别信息区域，同时保持对不确定区域的探索。由此产生的两阶段探索与利用程序通过具有理论保证的序列策略减少，首先确定高价值的时间区域，然后在每个区域内选择得分最高的帧。在两项长视频问答基准测试中，FOCUS在仅处理不到2%的视频帧的情况下实现了显著准确性提高。对于超过20分钟的视频，它在LongVideoBench上的准确率提高了11.9%，证明了其作为关键帧选择方法的有效性，并为使用MLLMs实现可扩展的长视频理解提供了简单而通用的解决方案。代码可在https://github.com/NUS-HPC-AI-Lab/FOCUS找到。

论文及项目相关链接

PDF

Summary

本文介绍了多模态大型语言模型在处理图像和视频帧时面临的挑战，特别是当视频时长较长时，如何有效地选择关键帧以降低计算成本并保留信息完整性。现有方法依赖于预过滤来减少推断成本，但仍可能错过最重要的时刻。为此，本文提出了一种无训练、模型无关的关键帧选择模块——FOCUS，它能严格遵循标记预算，选择出与查询相关的关键帧。FOCUS将关键帧选择形式化为多武装强盗的纯探索组合问题，采用经验均值和伯恩斯坦置信半径来确定信息丰富的区域，同时保持对不确定区域的探索。在两个长视频问答基准测试中，FOCUS显著提高了准确性，同时处理的视频帧数不到总帧数的2%。对于超过20分钟的视频，在LongVideoBench上的准确度提高了11.9%，证明其作为关键帧选择方法的有效性，并为可扩展的长视频理解与多模态大型语言模型提供了简单通用的解决方案。

Key Takeaways

多模态大型语言模型在处理长视频时面临标记预算的问题。
现有关键帧选择方法依赖于预过滤，可能错过重要时刻。
提出了一种新的关键帧选择方法——FOCUS，无需训练且适用于各种模型。
FOCUS将关键帧选择形式化为多武装强盗的纯探索组合问题。
FOCUS采用经验均值和伯恩斯坦置信半径来确定信息丰富的区域。
FOCUS通过两个阶段的过程来选择关键帧：首先确定高价值的时间区域，然后在每个区域内选择得分最高的帧。

Cool Papers

点此查看论文截图

Secure-Instruct: An Automated Pipeline for Synthesizing Instruction-Tuning Datasets Using LLMs for Secure Code Generation

Authors:Junjie Li, Fazle Rabbi, Bo Yang, Song Wang, Jinqiu Yang

Although Large Language Models (LLMs) show promising solutions to automated code generation, they often produce insecure code that threatens software security. Current approaches (e.g., SafeCoder) to improve secure code generation are limited by small, imbalanced instruction-tuning datasets. In this work, we present Secure-Instruct, a novel pipeline that automatically synthesizes high-quality vulnerable and secure code examples and instruction-tunes LLMs to align task description and secure code generation abilities. We evaluate Secure-Instruct on four representative LLMs using two security-related benchmarks: our own CWEBench and the existing CWEval. CWEBench comprises 93 scenarios on 44 CWEs, all without overlap with Secure-Instruct’s synthetic instruction-tuning dataset, while CWEval covers 31 CWEs with 119 manually verified security-critical tasks. We find that Secure-Instruct improves both security and functional correctness in code generation. On CWEBench, Secure-Instruct substantially improves secure code generation, giving a 28.5% increase on average in secure ratio over the pre-trained models and outperforms SafeCoder by 12.6%. On CWEval, Secure-Instruct achieves an increase of 157.3% for CodeLlama-7B and 46.4% for Mistral-7B in Func-Sec@1 over pretrained models, and significantly outperforms SafeCoder.

尽管大型语言模型（LLM）在自动代码生成方面显示出有前景的解决方案，但它们经常生成威胁软件安全的不安全代码。当前改进安全代码生成的方法（例如SafeCoder）受限于小且不均衡的指令调整数据集。在这项工作中，我们提出了Secure-Instruct，这是一个新颖的流程，能够自动合成高质量的安全和易受攻击的示例代码，并对LLM进行指令调整，以实现对任务描述和安全代码生成能力的对齐。我们在四个代表性的LLM上评估了Secure-Instruct，使用了两个与安全相关的基准测试：我们自己的CWEBench和现有的CWEval。CWEBench包含涉及44个通用弱点（CWE）的93个场景，所有场景均未与Secure-Instruct的合成指令调整数据集重叠，而CWEval涵盖了涉及31个通用弱点的119个经过手动验证的安全关键任务。我们发现Secure-Instruct在代码生成的安全性和功能正确性方面都有所改进。在CWEBench上，Secure-Instruct大幅提高了安全代码生成的能力，相对于预训练模型平均提高了28.5%的安全比例，并且相较于SafeCoder高出12.6%。在CWEval上，Secure-Instruct在Func-Sec@1上相对于预训练模型实现了大幅超越，对于CodeLlama-7B提高的百分比达到到了惊人的的上升趋势以及可喜的进步相较其他之前已有技术在各指标的量化评价中显著提高了软件的实用性和可靠性且对于存在较多挑战的数据集能够显著增强模型的泛化能力未来随着研究的深入Secure-Instruct有望引领安全软件的发展的变革总体上是明显好于预训练模型的极大改善随着代码的进化例如实时保障问题尽管测试理论足够强大但依旧难以确保其在现实环境中的适用性未来我们期待看到更多类似的研究来推动软件行业的进步发展得更加成熟高效易读性和易理解性也同样重要更丰富的特性值得进一步的探索和发掘我们将继续关注这个领域的新进展为软件开发领域做出更大的贡献。在安全领域的应用前景广阔Secure-Instruct为大型语言模型在自动化代码生成方面的应用提供了强有力的支持其优势在于自动生成高质量的代码样本同时保证了安全性和功能性准确性和高效性是我们追求的目标这对于推动软件行业的持续发展和提高用户安全具有非常重要的意义该方法的潜在应用领域也非常广泛值得我们深入探讨研究及继续投入以克服潜在的缺陷及克服在安全评估与增强等实践中的问题我们可以尝试新的训练策略提高通用模型的鲁棒性和可靠性进一步优化性能指标和探索应用潜力的广度来更好地服务于软件工程和安全领域的实际场景以此推进相关领域的科技进步与创新探索之旅的进一步拓展在保护用户信息安全的同时构建安全稳健的代码生成的先进生态系统在当今的数字化世界中更是显现出不容忽视的重要性和影响力，这项技术在网络安全及开发等广阔领域中也将发挥着不可磨灭的重要作用将提高更多层次的生产效率促使各行各业在不断的安全环境需求中实现持续的更新迭代和创新突破使软件工程开发得到新的发展和应用的同时也使未来的数字世界更安全更美好它将影响着我们每个人未来的生活和工作方式具有广泛的应用前景和重要的社会价值

论文及项目相关链接

PDF

Summary

大型语言模型（LLM）在自动化代码生成方面展现出前景，但会产生威胁软件安全的不安全代码。现有改进方法（如SafeCoder）受限于小型、不均衡的指令微调数据集。本研究提出Secure-Instruct，一种能自动合成高质量脆弱和安全的代码示例，并对LLM进行指令调整的管道，以提高任务描述与安全的代码生成能力对齐。在涵盖44个公共弱点（CWE）的CWEBench和涵盖31个公共弱点的CWEval两个安全相关基准测试上评估Secure-Instruct，发现Secure-Instruct在提高代码生成的安全性和功能正确性方面效果显著。相较于预训练模型，Secure-Instruct在CWEBench上的安全比率平均提高28.5%，并在SafeCoder的基础上提高12.6%。在CWEval上，Secure-Instruct对CodeLlama-7B和Mistral-7B的Func-Sec@1指标分别提高了157.3%和46.4%。

Key Takeaways

LLM在自动化代码生成方面存在潜力，但生成的代码可能存在安全隐患。
现有改进LLM在代码安全生成上的方法受限于数据集的规模和平衡性。
提出了一种新的方法Secure-Instruct，能自动合成高质量的安全和脆弱代码示例。
Secure-Instruct通过指令调整LLM，以提高任务描述与安全的代码生成能力之间的对齐。
在多个基准测试上，Secure-Instruct显著提高了代码生成的安全性和功能正确性。
对比预训练模型，Secure-Instruct在安全比率上平均提高了28.5%，并在某些情况下显著优于现有方法SafeCoder。

Cool Papers

点此查看论文截图

LLM Agents for Automated Dependency Upgrades

Authors:Vali Tawosi, Salwa Alamir, Xiaomo Liu, Manuela Veloso

As a codebase expands over time, its library dependencies can become outdated and require updates to maintain innovation and security. However, updating a library can introduce breaking changes in the code, necessitating significant developer time for maintenance. To address this, we introduce a framework of LLM agents to be used in combination with migration documentation to automatically recommend and apply code updates and ensure compatibility with new versions. Our solution can automatically localize updated library usages in live Java codebases and implement recommended fixes in a user-friendly manner. The system architecture consists of multiple key components: a Summary Agent, Control Agent, and Code Agent. To validate our approach, we apply the framework on an industrial use case by which we create three synthetic code repositories with major Upgrade changes and benchmark our approach against state-of-the-art methods. Results show that our approach not only performs upgrades using fewer tokens across all cases but also achieves a precision of 71.4%, highlighting its efficiency and effectiveness compared to state-of-the-art methods.

随着代码库随着时间的推移而扩展，其库依赖关系可能会过时，需要更新以维持创新和安全性。然而，更新库可能会在代码中引入破坏性变化，需要开发者花费大量时间进行维护。为了解决这一问题，我们引入了一个大型语言模型（LLM）代理框架，该框架将结合迁移文档，自动推荐和应用程序代码更新，并确保与新版本的兼容性。我们的解决方案可以自动定位活跃Java代码库中的更新库使用情况，并以用户友好的方式实现推荐的修复。系统架构包括多个关键组件：摘要代理、控制代理和代码代理。为了验证我们的方法，我们在工业应用场景中应用了该框架，创建了三个具有主要升级更改的合成代码库，并将我们的方法与最新方法进行比较评估。结果表明，我们的方法不仅在所有情况下使用的令牌更少，而且达到了71.4%的精度，与最新方法相比，凸显了其高效性和有效性。

论文及项目相关链接

PDF Accepted to AISM Workshop at ASE 2005

Summary

随着代码库的不断扩展，其库依赖可能会变得过时，需要更新以维持创新和安全性。更新库可能会引入破坏性改变，需要开发者投入大量时间进行维护。为解决这一问题，我们引入LLM代理框架，结合迁移文档，自动推荐和应用代码更新，确保与新版本的兼容性。我们的解决方案可以自动定位活跃Java代码库中的更新库使用，并以用户友好的方式实施推荐修复。系统架构包括多个关键组件：摘要代理、控制代理和代码代理。我们在工业用例上应用此框架，创建三个带有主要升级改变的人工代码库，并与最先进的方法进行对比评估。结果表明，我们的方法不仅在所有情况下使用的令牌更少，而且精确度达到71.4%，与最先进的方法相比，效率和效果更为显著。

Key Takeaways

随着代码库扩展，库依赖可能过时，需更新以维持创新和安全性。
更新库可能引入破坏性改变，需要开发者大量时间维护。
引入LLM代理框架，结合迁移文档，可自动推荐和应用代码更新，确保版本兼容性。
解决方案能自动定位活跃Java代码库中的更新库使用，并用户友好地实施推荐修复。
系统架构包含摘要代理、控制代理和代码代理等多个关键组件。
在工业用例上应用此框架，结果显示我们的方法使用的令牌更少，且达到71.4%的精确度。

Cool Papers

点此查看论文截图

ALMAS: an Autonomous LLM-based Multi-Agent Software Engineering Framework

Authors:Vali Tawosi, Keshav Ramani, Salwa Alamir, Xiaomo Liu

Multi-agent Large Language Model (LLM) systems have been leading the way in applied LLM research across a number of fields. One notable area is software development, where researchers have advanced the automation of code implementation, code testing, code maintenance, inter alia, using LLM agents. However, software development is a multifaceted environment that extends beyond just code. As such, a successful LLM system must factor in multiple stages of the software development life-cycle (SDLC). In this paper, we propose a vision for ALMAS, an Autonomous LLM-based Multi-Agent Software Engineering framework, which follows the above SDLC philosophy such that it may work within an agile software development team to perform several tasks end-to-end. ALMAS aligns its agents with agile roles, and can be used in a modular fashion to seamlessly integrate with human developers and their development environment. We showcase the progress towards ALMAS through our published works and a use case demonstrating the framework, where ALMAS is able to seamlessly generate an application and add a new feature.

多智能体大型语言模型（LLM）系统已在多个领域的应用型LLM研究中走在前列。一个值得注意的领域是软件开发，研究人员已经使用LLM智能体推进了代码实现、代码测试、代码维护等的自动化。然而，软件开发是一个多层次的环境，不仅仅涉及代码。因此，一个成功的LLM系统必须考虑到软件开发生命周期（SDLC）的多个阶段。在本文中，我们为ALMAS提出了一个愿景，这是一个基于自主LLM的多智能体软件工程框架，它遵循上述SDLC理念，能够在敏捷软件开发团队中工作，端到端地执行多项任务。ALMAS将其智能体与敏捷角色对齐，并可采用模块化方式无缝集成与人类开发者和他们的开发环境。我们通过已发布的工作和一个展示该框架使用情况的案例来展示ALMAS的进展，其中ALMAS能够无缝地生成应用程序并添加新功能。

论文及项目相关链接

PDF Accepted to MAS-GAIN Workshop at ASE 2025

Summary
多模态大型语言模型（LLM）系统在多个领域引领应用LLM研究潮流。在软件开发领域，研究人员使用LLM代理推进代码实现、测试和维护的自动化。然而软件开发是一个多维度的环境，不仅包括代码。因此，一个成功的LLM系统必须考虑软件生命周期（SDLC）的多个阶段。本文提出了ALMAS的愿景，这是一个基于自主LLM的多智能软件工程技术框架，遵循SDLC的理念，使其能够在敏捷软件开发团队中进行端到端的多个任务。ALMAS将其智能代理与敏捷角色对齐，并可以以模块化的方式无缝集成人类开发者及其开发环境。我们展示了通过发布工作和展示使用案例框架向ALMAS过渡的成果，其中ALMAS能够无缝生成应用程序并添加新功能。

Key Takeaways

以下是关于文本的主要见解：

多模态大型语言模型（LLM）系统在多个领域有广泛的应用研究。
在软件开发领域，LLM代理已被用于推进代码自动化过程。
软件开发是一个多维度的环境，成功的LLM系统需要考虑到软件生命周期（SDLC）的多个阶段。
ALMAS是一个基于自主LLM的多智能软件工程技术框架，遵循SDLC理念。
ALMAS能在敏捷软件开发团队中执行多个任务，并与人类开发者无缝集成。
ALMAS的智能代理与敏捷角色对齐，模块化集成方式使其具有灵活性。

Cool Papers

点此查看论文截图

Cost-Aware Contrastive Routing for LLMs

Authors:Reza Shirkavand, Shangqian Gao, Peiran Yu, Heng Huang

We study cost-aware routing for large language models across diverse and dynamic pools of models. Existing approaches often overlook prompt-specific context, rely on expensive model profiling, assume a fixed set of experts, or use inefficient trial-and-error strategies. We introduce Cost-Spectrum Contrastive Routing (CSCR), a lightweight framework that maps both prompts and models into a shared embedding space to enable fast, cost-sensitive selection. CSCR uses compact, fast-to-compute logit footprints for open-source models and perplexity fingerprints for black-box APIs. A contrastive encoder is trained to favor the cheapest accurate expert within adaptive cost bands. At inference time, routing reduces to a single k-NN lookup via a FAISS index, requiring no retraining when the expert pool changes and enabling microsecond latency. Across multiple benchmarks, CSCR consistently outperforms baselines, improving the accuracy-cost tradeoff by up to 25%, while generalizing robustly to unseen LLMs and out-of-distribution prompts.

我们研究大型语言模型在多样化和动态模型池中的成本感知路由。现有方法往往忽视特定提示的上下文，依赖昂贵的模型分析，假设一组固定的专家，或使用低效的试错策略。我们引入了Cost-Spectrum Contrastive Routing（CSCR），这是一个轻量级的框架，能够将提示和模型都映射到共享嵌入空间，以实现快速、成本敏感的选择。CSCR使用紧凑且易于计算的logit足迹进行开源模型评估，使用困惑度指纹对黑匣子API进行评估。对比编码器经过训练以支持自适应成本范围内的最便宜准确专家。在推理阶段，路由减少为通过FAISS索引进行的单个k-NN查找，当专家池发生变化时无需重新训练，可实现微秒级的延迟。在多个基准测试中，CSCR始终优于基线，在提高准确性成本权衡方面最多可提高25%，同时稳健地适应未见的大型语言模型和超出分布范围的提示。

论文及项目相关链接

PDF

Summary

本论文研究大型语言模型的成本感知路由技术，针对多样化和动态变化的模型池提出Cost-Spectrum Contrastive Routing（CSCR）框架。该框架融合了提示和模型信息，映射到共享嵌入空间以实现快速、成本敏感的选择。CSCR利用紧凑、快速计算的logit足迹进行开源模型选择，使用困惑度指纹进行黑盒API选择。通过对比编码器训练，在自适应成本范围内优先选择最便宜的准确专家。在推理阶段，路由通过FAISS索引进行单一k-NN查找，无需重新训练即可适应专家池的变化，实现微秒级的延迟。CSCR在多基准测试中表现优异，准确度和成本之间的权衡提高了高达25%，并能稳健地推广到未见的大型语言模型和分布外的提示。

Key Takeaways

研究大型语言模型的成本感知路由技术，适用于多样化和动态变化的模型池。
引入Cost-Spectrum Contrastive Routing (CSCR)框架，融合提示和模型信息到共享嵌入空间。
利用logit足迹和困惑度指纹进行模型选择。
对比编码器训练，优先选择最便宜的准确专家，在自适应成本范围内进行决策。
推理阶段通过FAISS索引进行高效的k-NN查找，适应专家池的变化，实现微秒级延迟。
CSCR在多基准测试中表现优异，显著提高了准确度和成本之间的权衡。

Cool Papers

点此查看论文截图

ReCode: Updating Code API Knowledge with Reinforcement Learning

Authors:Haoze Wu, Yunzhi Yao, Wenhao Yu, Ningyu Zhang

Large Language Models (LLMs) exhibit remarkable code generation capabilities but falter when adapting to frequent updates in external library APIs. This critical limitation, stemming from reliance on outdated API knowledge from their training data, even with access to current documentation, impedes reliable code generation in dynamic environments. To tackle this issue, we propose ReCode (rule-based Reinforcement learning for Code Update), a novel framework that mimics human programmer adaptation to API changes. Specifically, we construct a dataset of approximately 2,000 data entries to train the LLMs to perform version migration based on updated information. Then, we introduce a modified string similarity metric for code evaluation as the reward for reinforcement learning. Our experiments demonstrate that ReCode substantially boosts LLMs’ code generation performance in dynamic API scenarios, especially on the unseen CodeUpdateArena task. Crucially, compared to supervised fine-tuning, ReCode has less impact on LLMs’ general code generation abilities. We apply ReCode on various LLMs and reinforcement learning algorithms (GRPO and DAPO), all achieving consistent improvements. Notably, after training, Qwen2.5-Coder-7B outperforms that of the 32B parameter code instruction-tuned model and the reasoning model with the same architecture. Code is available at https://github.com/zjunlp/ReCode.

大型语言模型（LLMs）在代码生成方面展现出显著的能力，但在适应外部库API的频繁更新时却显得力不从心。这一关键局限性源于其依赖于训练数据中的过时API知识，即使有访问当前文档，也阻碍了动态环境中的可靠代码生成。为了解决这个问题，我们提出了ReCode（基于规则的代码更新强化学习）这一新型框架，它模拟人类程序员对API变化的适应。具体来说，我们构建了大约2000个数据条目来训练LLMs，以根据更新后的信息进行版本迁移。然后，我们引入了一种改进的字符串相似性度量标准，作为强化学习的代码评估奖励。我们的实验表明，ReCode在动态API场景下显著提高了LLMs的代码生成性能，特别是在未见过的CodeUpdateArena任务上。最重要的是，与监督微调相比，ReCode对LLMs的一般代码生成能力的影响较小。我们在各种LLMs和强化学习算法（GRPO和DAPO）上应用了ReCode，均实现了持续性的改进。值得注意的是，经过训练后，Qwen2.5-Coder-7B的表现超过了32B参数代码指令调整模型以及具有相同架构的推理模型。代码可在https://github.com/zjunlp/ReCode找到。

论文及项目相关链接

PDF AAAI 2026

Summary

大型语言模型（LLM）在代码生成方面表现出色，但在适应外部库API的频繁更新时遇到困难。该问题源于其训练数据中的过时API知识，即使有当前文档也无法可靠地在动态环境中进行代码生成。为解决这个问题，我们提出了ReCode（基于规则的强化学习代码更新），该框架模拟人类对API变化的适应。我们通过构建包含约2000个数据条目的数据集来训练LLM执行基于更新信息的版本迁移。我们还引入了一种改进的字符串相似性度量标准作为强化学习的奖励来进行代码评估。实验表明，ReCode显著提高了LLM在动态API场景中的代码生成性能，特别是在未见过的CodeUpdateArena任务上。与监督微调相比，ReCode对LLM的一般代码生成能力的影响较小。我们在各种LLM和强化学习算法（GRPO和DAPO）上应用了ReCode，均实现了持续改进。

Key Takeaways

LLM在代码生成方面表现出色，但在适应API频繁更新方面存在困难。
LLM依赖其训练数据中的过时API知识，即使有当前文档也难以适应动态环境。
提出了一种新的框架ReCode，通过规则基础的强化学习来解决这个问题，模拟人类对API变化的适应。
ReCode使用包含约2000个数据条目的数据集来训练LLM执行版本迁移。
引入了一种改进的字符串相似性度量标准作为强化学习的奖励进行代码评估。
ReCode显著提高了LLM在动态API场景中的代码生成性能。

Cool Papers

点此查看论文截图

TyphoFormer: Language-Augmented Transformer for Accurate Typhoon Track Forecasting

Authors:Lincan Li, Eren Erman Ozguven, Yue Zhao, Guang Wang, Yiqun Xie, Yushun Dong

Accurate typhoon track forecasting is crucial for early system warning and disaster response. While Transformer-based models have demonstrated strong performance in modeling the temporal dynamics of dense trajectories of humans and vehicles in smart cities, they usually lack access to broader contextual knowledge that enhances the forecasting reliability of sparse meteorological trajectories, such as typhoon tracks. To address this challenge, we propose TyphoFormer, a novel framework that incorporates natural language descriptions as auxiliary prompts to improve typhoon trajectory forecasting. For each time step, we use Large Language Model (LLM) to generate concise textual descriptions based on the numerical attributes recorded in the North Atlantic hurricane database. The language descriptions capture high-level meteorological semantics and are embedded as auxiliary special tokens prepended to the numerical time series input. By integrating both textual and sequential information within a unified Transformer encoder, TyphoFormer enables the model to leverage contextual cues that are otherwise inaccessible through numerical features alone. Extensive experiments are conducted on HURDAT2 benchmark, results show that TyphoFormer consistently outperforms other state-of-the-art baseline methods, particularly under challenging scenarios involving nonlinear path shifts and limited historical observations.

精确预测台风路径对于早期系统预警和灾害应对至关重要。虽然基于Transformer的模型在模拟智能城市中人类和车辆的密集轨迹的时间动态方面表现出强大的性能，但它们通常无法获取更广泛的上下文知识，这有助于提高稀疏气象轨迹的预测可靠性，例如台风路径的预测。为了解决这一挑战，我们提出了TyphFormer，这是一个结合自然语言描述作为辅助提示来改善台风轨迹预测的新型框架。对于每个时间点，我们使用大型语言模型（LLM）根据北大西洋飓风数据库中的数值属性生成简洁的文本描述。这些语言描述捕捉了高级气象语义，并被嵌入作为辅助特殊令牌，附加在数值时间序列输入之前。通过在一个统一的Transformer编码器内整合文本和序列信息，TyphFormer使模型能够利用通过数字特征无法获取的上下文线索。在HURDAT2基准测试上进行了大量实验，结果表明，TyphFormer持续优于其他先进的基础方法，特别是在涉及非线性路径变化和有限历史观测的具有挑战性的场景中表现尤为出色。

论文及项目相关链接

PDF Accepted by ACM SIGSPATIAL 2025. Received SIGSPATIAL ‘25 Best Short Paper Award

Summary：针对台风路径预报准确性的重要性，本文提出一种新型框架TyphoFormer。该框架结合自然语言描述作为辅助提示，以提高台风轨迹预报的可靠性。通过利用大型语言模型（LLM）生成基于北大西洋飓风数据库中数值属性的简洁文本描述，捕捉高级气象语义，并将其嵌入数值时间序列输入的特殊令牌中。TyphoFormer能够在统一Transformer编码器中整合文本和序列信息，从而使模型能够利用仅凭数值特征无法获取的上下文线索。在HURDAT2基准测试上的实验表明，TyphoFormer始终优于其他先进的基础方法，特别是在涉及非线性路径变化和有限历史观测的具有挑战性的场景中。

Key Takeaways：