⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-06 更新
Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything
Authors:Huawei Lin, Yunzhi Shi, Tong Geng, Weijie Zhao, Wei Wang, Ravender Pal Singh
Multimodal large language models (MLLMs) have shown strong capabilities but remain limited to fixed modality pairs and require costly fine-tuning with large aligned datasets. Building fully omni-capable models that can integrate text, images, audio, and video remains impractical and lacks robust reasoning support. In this paper, we propose an Agent-Omni framework that coordinates existing foundation models through a master-agent system, enabling flexible multimodal reasoning without retraining. The master agent interprets user intent, delegates subtasks to modality-specific agents, and integrates their outputs into coherent responses. Extensive experiments across text, image, audio, video, and omni benchmarks show that Agent-Omni consistently achieves state-of-the-art performance, particularly on tasks requiring complex cross-modal reasoning. Its agent-based design enables seamless integration of specialized foundation models, ensuring adaptability to diverse inputs while maintaining transparency and interpretability. In addition, the framework is modular and easily extensible, allowing future improvements as stronger models become available. %We release an open-source implementation to support continued research on scalable and reliable omni-modal reasoning.
多模态大型语言模型(MLLMs)已经显示出强大的能力,但仅限于固定的模态对,并且需要昂贵的精细调整与大型对齐数据集。构建能够整合文本、图像、音频和视频的完全通用模型仍然不切实际,缺乏稳健的推理支持。在本文中,我们提出了一个Agent-Omni框架,它通过主代理系统协调现有的基础模型,实现灵活的多模态推理而无需重新训练。主代理解释用户意图,将子任务委派给特定模态的代理,并将他们的输出整合为连贯的响应。在文本、图像、音频、视频和全模态基准测试上的大量实验表明,Agent-Omni持续实现了最先进的技术性能,特别是在需要复杂跨模态推理的任务上。其基于代理的设计可实现专业基础模型的无缝集成,确保适应各种输入的同时保持透明度和可解释性。此外,该框架是模块化的且易于扩展,允许随着更强大的模型的出现而进行未来改进。我们发布了一个开源实现,以支持在可扩展和可靠的多模态推理方面的持续研究。
论文及项目相关链接
PDF 16 pages, 7 figures, 14 tables. Under Review
Summary
该文提出了一种Agent-Omni框架,通过主代理系统协调现有的基础模型,实现了灵活的多模态推理而无需重新训练。该框架能够解释用户意图,将子任务委派给特定模态的代理,并将它们的输出整合为连贯的响应。Agent-Omni在文本、图像、音频、视频和全模态基准测试中表现出卓越的性能,特别是在需要复杂跨模态推理的任务上。其基于代理的设计可无缝集成专业基础模型,确保适应各种输入的同时保持透明度和可解释性。
Key Takeaways
- Agent-Omni框架通过主代理系统协调现有基础模型,实现灵活多模态推理。
- 该框架能够解释用户意图,并委派子任务给特定模态的代理。
- Agent-Omni在多种基准测试中表现出卓越性能,尤其在需要复杂跨模态推理的任务上。
- 框架基于代理的设计可无缝集成专业基础模型,适应多种输入。
- Agent-Omni保持透明度和可解释性。
- 框架的模块化设计易于扩展,可随着更强大的模型的出现而进行改进。
点此查看论文截图
MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning
Authors:Qianhao Yuan, Jie Lou, Zichao Li, Jiawei Chen, Yaojie Lu, Hongyu Lin, Le Sun, Debing Zhang, Xianpei Han
Typical search agents concatenate the entire interaction history into the LLM context, preserving information integrity but producing long, noisy contexts, resulting in high computation and memory costs. In contrast, using only the current turn avoids this overhead but discards essential information. This trade-off limits the scalability of search agents. To address this challenge, we propose MemSearcher, an agent workflow that iteratively maintains a compact memory and combines the current turn with it. At each turn, MemSearcher fuses the user’s question with the memory to generate reasoning traces, perform search actions, and update memory to retain only information essential for solving the task. This design stabilizes context length across multi-turn interactions, improving efficiency without sacrificing accuracy. To optimize this workflow, we introduce multi-context GRPO, an end-to-end RL framework that jointly optimize reasoning, search strategies, and memory management of MemSearcher Agents. Specifically, multi-context GRPO samples groups of trajectories under different contexts and propagates trajectory-level advantages across all conversations within them. Trained on the same dataset as Search-R1, MemSearcher achieves significant improvements over strong baselines on seven public benchmarks: +11% on Qwen2.5-3B-Instruct and +12% on Qwen2.5-7B-Instruct relative average gains. Notably, the 3B-based MemSearcher even outperforms 7B-based baselines, demonstrating that striking a balance between information integrity and efficiency yields both higher accuracy and lower computational overhead. The code and models will be publicly available at https://github.com/icip-cas/MemSearcher
典型的搜索代理将整个交互历史串联到LLM的上下文中,这保证了信息的完整性,但同时也带来了冗长和噪音多的上下文,导致了计算量和内存成本的增加。相比之下,只使用当前对话可以避免这种开销,但同时也舍弃了重要信息。这种权衡限制了搜索代理的可扩展性。为了应对这一挑战,我们提出了MemSearcher代理工作流程,它通过迭代维护紧凑的内存并结合当前对话来实现。在每一轮对话中,MemSearcher将用户的问题与内存融合,生成推理轨迹,执行搜索操作,并更新内存以仅保留对完成任务至关重要的信息。这种设计稳定了多轮交互中的上下文长度,提高了效率而不牺牲准确性。为了优化这一工作流程,我们引入了多上下文GRPO,这是一种端到端的RL框架,可以联合优化MemSearcher代理的推理、搜索策略和内存管理。具体来说,多上下文GRPO在不同的上下文中采样轨迹组,并传播轨迹级别的优势在它们中的所有对话中。MemSearcher在七个公共基准测试上取得了显著的改进,相对于Search-R1的相同数据集训练的基线,在Qwen2. 5-3B-Instruct上相对平均增幅为+11%,在Qwen2. 5-7B-Instruct上为+12%。值得注意的是,基于3B的MemSearcher甚至超越了基于7B的基线,表明在信息完整性和效率之间取得平衡可以带来更高的准确性和更低的计算开销。相关代码和模型将在https://github.com/icip-cas/MemSearcher公开可用。
论文及项目相关链接
PDF Project page: https://github.com/icip-cas/MemSearcher
Summary:
MemSearcher通过迭代维护紧凑内存并结合当前回合的内容来解决搜索引擎在面临用户连续提问时产生的信息整合问题。它在每次对话回合中将用户问题与内存相融合,生成推理痕迹,执行搜索操作并更新仅保留解决问题所需的内存信息。该研究采用了一种称为多上下文GRPO的端到端强化学习框架,该框架能够联合优化MemSearcher推理、搜索策略和内存管理。实验结果显示,MemSearcher在七个公共基准测试上取得了显著进展,相较于基准测试有着平均+11%的相对增益。研究证明在维护信息完整性和计算效率之间找到平衡能同时提高准确性和降低计算开销。具体细节可访问相关代码和模型公开链接https://github.com/icip-cas/MemSearcher。
Key Takeaways:
- MemSearcher解决了搜索引擎面临用户连续提问时的信息整合问题,通过维护紧凑内存并结合当前回合内容生成推理痕迹。
- MemSearcher能够在每次对话回合中执行搜索操作并更新内存,仅保留解决问题所需的信息。
- 研究采用多上下文GRPO的端到端强化学习框架联合优化推理、搜索策略和内存管理。
- MemSearcher在七个公共基准测试中取得了显著成果,相对平均增益达到+11%。
- MemSearcher在保持信息完整性和计算效率之间找到了平衡,实现了更高的准确性和更低的计算开销。
- 研究成果包括模型和代码公开,方便研究者和开发者进行进一步的探索和研究。具体可访问https://github.com/icip-cas/MemSearcher了解详细信息。
点此查看论文截图
When One Modality Sabotages the Others: A Diagnostic Lens on Multimodal Reasoning
Authors:Chenyu Zhang, Minsol Kim, Shohreh Ghorbani, Jingyao Wu, Rosalind Picard, Patricia Maes, Paul Pu Liang
Despite rapid growth in multimodal large language models (MLLMs), their reasoning traces remain opaque: it is often unclear which modality drives a prediction, how conflicts are resolved, or when one stream dominates. In this paper, we introduce modality sabotage, a diagnostic failure mode in which a high-confidence unimodal error overrides other evidence and misleads the fused result. To analyze such dynamics, we propose a lightweight, model-agnostic evaluation layer that treats each modality as an agent, producing candidate labels and a brief self-assessment used for auditing. A simple fusion mechanism aggregates these outputs, exposing contributors (modalities supporting correct outcomes) and saboteurs (modalities that mislead). Applying our diagnostic layer in a case study on multimodal emotion recognition benchmarks with foundation models revealed systematic reliability profiles, providing insight into whether failures may arise from dataset artifacts or model limitations. More broadly, our framework offers a diagnostic scaffold for multimodal reasoning, supporting principled auditing of fusion dynamics and informing possible interventions.
尽管多模态大型语言模型(MLLMs)迅速增长,但其推理轨迹仍然不明确:通常不清楚是哪个模态驱动预测,如何解决冲突,或者何时一个流占主导地位。在本文中,我们介绍了模态破坏,这是一种诊断失败模式,高置信度的单模态错误会覆盖其他证据并误导融合结果。为了分析这种动态,我们提出了一种轻量级、模型无关的评价层,它将每个模态视为代理,生成候选标签和简短的自我评估,用于审计。简单的融合机制聚合这些输出,暴露贡献者(支持正确结果的模态)和破坏者(误导的模态)。在我们的诊断层在基于基础模型的多模态情感识别基准测试案例研究中的应用揭示了系统的可靠性配置文件,提供了有关失败是否可能源于数据集的人工制品或模型局限性的见解。更广泛地说,我们的框架为多模态推理提供了诊断支架,支持有原则的审计融合动态并为可能的干预措施提供信息。
论文及项目相关链接
PDF Accepted at the Multimodal Algorithmic Reasoning (MAR) Workshop, NeurIPS 2025
Summary
本文探讨了多模态大型语言模型(MLLMs)的推理过程透明度问题。文章提出了一种诊断失效模式,即模态破坏,指的是高置信度的单模态错误会覆盖其他证据并误导融合结果。为分析这一现象,提出了轻量级、模型无关的评价层,将每个模态视为代理,生成候选标签并进行简短的自我评估,用于审计。一个简单的融合机制聚合这些输出,暴露贡献者(支持正确结果的模态)和破坏者(误导的模态)。在多模态情感识别基准测试上进行案例研究揭示了系统的可靠性配置文件,这有助于了解失败是由于数据集的人工制品还是模型本身的局限性。总体而言,本文框架为诊断多模态推理提供了脚手架,支持对融合动力学的原则性审计并告知可能的干预措施。
Key Takeaways
- 多模态大型语言模型(MLLMs)存在推理透明度问题。
- 模态破坏是一种诊断失效模式,其中高置信度的单模态错误会影响融合结果。
- 提出了一种轻量级、模型无关的评价层来审计和分析多模态推理过程。
- 评价层将每个模态视为代理,生成候选标签和简短的自我评估。
- 通过简单的融合机制聚合输出,区分贡献者和破坏者。
- 在多模态情感识别基准测试上的案例研究揭示了系统的可靠性配置文件。
点此查看论文截图
Controlling Performance and Budget of a Centralized Multi-agent LLM System with Reinforcement Learning
Authors:Bowen Jin, TJ Collins, Donghan Yu, Mert Cemri, Shenao Zhang, Mengyu Li, Jay Tang, Tian Qin, Zhiyang Xu, Jiarui Lu, Guoli Yin, Jiawei Han, Zirui Wang
Large language models (LLMs) exhibit complementary strengths across domains and come with varying inference costs, motivating the design of multi-agent LLM systems where specialized models collaborate efficiently. Existing approaches predominantly rely on decentralized frameworks, which invoke multiple LLMs for every input and thus lead to substantial and uncontrolled inference costs. In this work, we introduce a centralized multi-LLM framework, where a controller LLM selectively coordinates a pool of expert models in a cost-efficient and cost-controllable manner. We formulate this coordination problem as reinforcement learning with dual objectives: maximizing task performance while minimizing the overall inference cost. In addition, we expect the multi-agent system to have adapted behavior with different budget conditions during inference. To this end, we propose CoRL, a reinforcement learning framework that optimizes the performance cost trade-off in a controllable multi-budget setting. Experiments on four diverse benchmarks demonstrate that CoRL enables a single system to surpass the best expert LLM under high-budget settings, while maintaining strong performance in more economical low-budget modes, highlighting the effectiveness of centralized coordination for scalable and cost-efficient multi-agent LLM systems.
大型语言模型(LLM)在各个领域展现出互补的优势,并且具有不同的推理成本,这促使我们设计多智能体LLM系统,其中专业模型能够进行有效协作。现有方法主要依赖于分布式框架,为每一个输入调用多个LLM,从而导致推理成本巨大且不可控制。在这项工作中,我们引入了一个集中式的多LLM框架,其中控制器LLM以节约成本且可控的方式选择性地协调专家模型池。我们将这种协调问题制定为具有双重目标的强化学习:最大化任务性能的同时最小化总体推理成本。此外,我们希望多智能体系统能够在推理过程中适应不同的预算条件。为此,我们提出了CoRL,这是一个优化性能成本权衡的强化学习框架,在一个可控的多预算环境中实现优化。在四个不同基准测试上的实验表明,CoRL能够在高预算设置下使单一系统超越最佳专家LLM,同时在更经济的低预算模式下保持强劲性能,凸显集中式协调在可扩展和成本效益高的多智能体LLM系统中的有效性。
论文及项目相关链接
PDF 14 pages
Summary
多领域大型语言模型(LLM)各具优势,且推理成本各异,促使设计多智能体LLM系统,让专业模型高效协作。现有方法主要依赖去中心化框架,每次输入均需调用多个LLM,导致推理成本巨大且不可控。本研究提出一种集中式多LLM框架,通过控制器LLM选择性协调专家模型池,以低成本、可控的方式运行。本研究将协调问题制定为具有双重目标的强化学习问题:最大化任务性能的同时最小化总体推理成本。实验表明,在多种预算条件下,CoRL框架能在高预算设置下超越最佳专家LLM系统,同时在经济型低预算模式下保持强劲性能,凸显集中式协调在可扩展和成本效益高的多智能体LLM系统中的有效性。
Key Takeaways
- 大型语言模型(LLM)在不同领域有各自的优势,并且存在推理成本差异。
- 现有LLM系统协作主要采用去中心化框架,导致推理成本高昂且不可控。
- 提出一种集中式多LLM框架,通过控制器LLM选择性协调专家模型,实现低成本且可控的推理。
- 协调问题被制定为强化学习问题,旨在最大化任务性能与最小化推理成本。
- 提出的CoRL框架能在不同预算条件下自适应调整行为。
- 实验证明CoRL框架在高预算和低预算设置下均表现优异,优于最佳专家LLM系统。
点此查看论文截图
AI Diffusion in Low Resource Language Countries
Authors:Amit Misra, Syed Waqas Zamir, Wassim Hamidouche, Inbal Becker-Reshef, Juan Lavista Ferres
Artificial intelligence (AI) is diffusing globally at unprecedented speed, but adoption remains uneven. Frontier Large Language Models (LLMs) are known to perform poorly on low-resource languages due to data scarcity. We hypothesize that this performance deficit reduces the utility of AI, thereby slowing adoption in Low-Resource Language Countries (LRLCs). To test this, we use a weighted regression model to isolate the language effect from socioeconomic and demographic factors, finding that LRLCs have a share of AI users that is approximately 20% lower relative to their baseline. These results indicate that linguistic accessibility is a significant, independent barrier to equitable AI diffusion.
人工智能(AI)正在全球范围内以前所未有的速度扩散,但其应用仍然不均衡。已知前沿的大型语言模型(LLM)在资源贫乏的语言上表现较差,这是由于数据稀缺造成的。我们假设这种性能缺陷降低了人工智能的实用性,从而减缓了在资源贫乏语言国家(LRLC)的采用速度。为了验证这一点,我们使用加权回归模型来将语言效应从社会经济和人口因素中分离出来,发现资源贫乏语言国家的AI用户比例比基线低约20%。这些结果表明,语言可访问性是实现人工智能公平传播的重要独立障碍。
论文及项目相关链接
PDF 9 pages, 4 tables. Also available at https://aka.ms/AI_Diffusion_Low_Resource_Language_Countries
Summary
人工智能在全球范围内以前所未有的速度扩散,但在低资源语言国家(LRLCs)的采纳程度仍然不均。前沿的大型语言模型(LLMs)因数据稀缺而对低资源语言表现不佳,这降低了人工智能的实用性,从而减缓了在这些国家的采用。研究发现,相较于基线,LRLCs的AI用户占比降低了约20%,表明语言可达性是公平的人工智能扩散的独立障碍。
Key Takeaways
- 人工智能在全球范围内快速扩散,但在低资源语言国家(LRLCs)的采纳程度存在差异。
- 前沿的大型语言模型(LLMs)对低资源语言的性能表现不佳。
- 语言可达性是阻碍人工智能公平扩散的重要独立因素。
- LRLCs的AI用户占比相较于基线降低了约20%。
- 数据稀缺是导致大型语言模型在低资源语言表现不佳的主要原因。
- 需要考虑语言因素在人工智能全球扩散中的影响。
点此查看论文截图
Curriculum Design for Trajectory-Constrained Agent: Compressing Chain-of-Thought Tokens in LLMs
Authors:Georgios Tzannetos, Parameswaran Kamalaruban, Adish Singla
Training agents to operate under strict constraints during deployment, such as limited resource budgets or stringent safety requirements, presents significant challenges, especially when these constraints render the task complex. In this work, we propose a curriculum learning strategy that gradually tightens constraints during training, enabling the agent to incrementally master the deployment requirements. Inspired by self-paced learning techniques in unconstrained reinforcement learning (RL), our approach facilitates a smoother transition to challenging environments by initially training on simplified versions of the constraints and progressively introducing the full deployment conditions. We provide a theoretical analysis using an RL agent in a binary-tree Markov Decision Process (MDP) to demonstrate that our curriculum strategy can accelerate training relative to a baseline approach that imposes the trajectory constraints from the outset. Moreover, we empirically validate the effectiveness and generality of our method across both RL and large language model (LLM) agents in diverse settings, including a binary-tree MDP, a multi-task navigation domain, and a math reasoning task with two benchmarks. These results highlight the potential of curriculum design in enhancing the efficiency and performance of agents operating under complex trajectory constraints during deployment. Moreover, when applied to LLMs, our strategy enables compression of output chain-of-thought tokens, achieving a substantial inference speedup on consumer hardware, demonstrating its effectiveness for resource-constrained deployment.
在部署期间,训练智能体在严格约束下运行,如资源预算有限或安全要求严格,会面临重大挑战,尤其是当这些约束使任务变得复杂时。在这项工作中,我们提出了一种课程学习策略,该策略在训练过程中逐渐加强约束,使智能体能逐步掌握部署要求。我们的方法受到无约束强化学习(RL)中的自我节奏学习技术的启发,通过最初在约束的简化版本上进行训练,并逐步引入全面的部署条件,从而实现向具有挑战性的环境的平稳过渡。我们使用在二叉树马尔可夫决策过程(MDP)中的RL智能体进行理论分析,以证明我们的课程策略可以加速训练,相对于一种从一开始就强制轨迹约束的基线方法。此外,我们还通过在多种环境中的RL和大型语言模型(LLM)智能体进行实证研究,验证了我们的方法的有效性和通用性。这些环境包括二叉树MDP、多任务导航域以及两个基准的数学推理任务。这些结果突出了课程设计在增强智能体在部署期间在复杂轨迹约束下运行时的效率和性能方面的潜力。此外,将我们的策略应用于LLM时,能够实现输出思维链代币的压缩,在消费者硬件上实现了显著的推理速度提升,证明了其在资源受限的部署中的有效性。
论文及项目相关链接
PDF NeurIPS’25 paper
Summary
本文提出了一种在训练期间逐步加强约束条件的课程学习策略,使代理能够逐步掌握部署要求。该方法借鉴了无约束强化学习中的自我进度学习技术,通过最初在简化版本的约束下进行训练,然后逐步引入完整的部署条件,实现更平稳地过渡到复杂环境。理论分析和实证验证均表明,该方法在强化学习和大型语言模型代理中均有效,并且在具有复杂轨迹约束的部署环境中表现出潜在的优势。对于大型语言模型的应用,此策略还能压缩输出思维链令牌,实现消费者硬件上的推理速度大幅提升。
Key Takeaways
- 提出了一种课程学习策略,该策略在训练期间逐步加强约束条件,以应对部署时的严格约束挑战。
- 借鉴了无约束强化学习中的自我进度学习技术,使代理能够逐步适应并处理复杂的部署环境。
- 通过理论分析和实证验证,证明了该方法在强化学习和大型语言模型中的有效性。
- 在多种设置下,包括二叉树马尔可夫决策过程、多任务导航域和数学推理任务等,验证了该方法相对于基线方法的优势。
- 当应用于大型语言模型时,该策略能够实现输出思维链令牌的压缩,从而提高消费者硬件上的推理速度。
- 该方法能够增强代理在部署时处理复杂轨迹约束的效率与表现。
点此查看论文截图
Tool-to-Agent Retrieval: Bridging Tools and Agents for Scalable LLM Multi-Agent Systems
Authors:Elias Lumer, Faheem Nizar, Anmol Gulati, Pradeep Honaganahalli Basavaraju, Vamse Kumar Subbiah
Recent advances in LLM Multi-Agent Systems enable scalable orchestration of sub-agents, each coordinating hundreds or thousands of tools or Model Context Protocol (MCP) servers. However, existing retrieval methods typically match queries against coarse agent-level descriptions before routing, which obscures fine-grained tool functionality and often results in suboptimal agent selection. We introduce Tool-to-Agent Retrieval, a unified framework that embeds both tools and their parent agents in a shared vector space and connects them through metadata relationships. By explicitly representing tool capabilities and traversing metadata to the agent level, Tool-to-Agent Retrieval enables granular tool-level or agent-level retrieval, ensuring that agents and their underlying tools or MCP servers are equally represented without the context dilution that arises from chunking many tools together. Evaluating Tool-to-Agent Retrieval across eight embedding models, our approach achieves consistent improvements of 19.4% in Recall@5 and 17.7% in nDCG@5 over previous state-of-the-art agent retrievers on the LiveMCPBench benchmark.
最近,LLM多智能体系统取得了进展,能够实现子智能体的可扩展协同,每个智能体可协调数百或数千个工具或模型上下文协议(MCP)服务器。然而,现有的检索方法通常在路由之前针对粗略的智能体级别描述进行匹配查询,这掩盖了细粒度的工具功能,并且往往导致次优的智能体选择。我们引入了“工具到智能体检索”,这是一个统一框架,将工具和它们的父智能体嵌入共享向量空间中,并通过元数据关系将它们连接起来。通过显式表示工具能力并遍历元数据到智能体级别,工具到智能体检索能够实现细粒度的工具级或智能体级检索,确保智能体及其底层工具或MCP服务器在无需合并多个工具而产生的上下文稀释的情况下得到同等表示。在LiveMCPBench基准测试上,我们的方法在八个嵌入模型上进行了评估,在Recall@5和nDCG@5方面分别比最新的智能体检索方法提高了19.4%和17.7%。
论文及项目相关链接
Summary
近期LLM多智能体系统的新进展实现了对数百或数千个工具或模型上下文协议(MCP)服务器进行子智能体的可扩展协同工作。然而,现有的检索方法通常只在粗粒度的智能体级别描述中进行匹配和路由查询,这会掩盖工具的精细功能并经常导致智能体选择的次优性。本文介绍了工具到智能体检索这一统一框架,该框架将工具和其父智能体嵌入共享向量空间中,并通过元数据关系将它们连接起来。通过显式表示工具能力并遍历元数据到智能体级别,工具到智能体检索能够实现工具级别或智能体级别的精细检索,确保智能体及其底层工具或MCP服务器在无需合并多个工具的情况下得到同等表现。在LiveMCPBench基准测试上,我们的方法相较于之前最先进的智能体检索方法,Recall@5提高了19.4%,nDCG@5提高了17.7%。
Key Takeaways
- LLM多智能体系统可以实现子智能体的可扩展协同工作,管理大量工具或MCP服务器。
- 现有检索方法通常在粗粒度的智能体级别进行匹配和路由,这限制了工具功能的精细表达,并可能导致智能体选择的不理想。
- 工具到智能体检索框架将工具和智能体嵌入共享向量空间,通过元数据关系连接。
- 该框架能够支持工具级别和智能体级别的精细检索。
- 工具到智能体检索确保智能体及其工具或MCP服务器在无需合并上下文的情况下得到平等表达。
- 该方法在LiveMCPBench基准测试上相较于其他检索方法有明显优势,Recall@5和nDCG@5指标有所提高。
点此查看论文截图
KV Cache Transform Coding for Compact Storage in LLM Inference
Authors:Konrad Staniszewski, Adrian Łańcucki
Serving large language models (LLMs) at scale necessitates efficient key-value (KV) cache management. KV caches can be reused across conversation turns via shared-prefix prompts that are common in iterative code editing and chat. However, stale caches consume scarce GPU memory, require offloading, or force recomputation. We present KVTC, a lightweight transform coder that compresses KV caches for compact on-GPU and off-GPU storage. Drawing on classical media compression, KVTC combines PCA-based feature decorrelation, adaptive quantization, and entropy coding. It requires only a brief initial calibration and leaves model parameters unchanged. By exploiting redundancies in KV caches, KVTC achieves up to 20$\times$ compression while maintaining reasoning and long-context accuracy, and 40$\times$ or higher for specific use cases. We test KVTC with Llama 3, Mistral NeMo, and R1-Qwen 2.5 models across benchmarks including AIME25, LiveCodeBench, GSM8K, MMLU, Qasper, RULER, and MATH-500. It consistently outperforms inference-time baselines such as token eviction, quantization, and SVD-based methods, while achieving higher compression ratios. These results support KVTC as a practical building block for memory-efficient LLM serving with reusable KV caches.
在大规模提供大型语言模型(LLM)服务时,需要高效的键值(KV)缓存管理。在迭代代码编辑和聊天中常见的共享前缀提示可以通过跨对话回合重复使用KV缓存。然而,过时的缓存会消耗稀缺的GPU内存,需要进行卸载或强制重新计算。我们提出了KVTC,它是一种轻量级的转换编码器,可以压缩KV缓存,以实现紧凑的GPU内外存储。KVTC借鉴了经典的媒体压缩技术,结合了基于PCA的特征去相关、自适应量化和熵编码。它只需要短暂的初始校准,且不会改变模型参数。通过利用KV缓存中的冗余信息,KVTC可实现高达20倍的压缩率,同时保持推理和长期上下文准确性,针对特定用例甚至可达40倍或更高。我们在AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER和MATH-500等多个基准测试上对Llama 3、Mistral NeMo和R1-Qwen 2.5模型进行了KVTC测试。它始终优于推理时间基线,如令牌驱逐、量化和基于SVD的方法,同时实现更高的压缩率。这些结果支持KVTC作为内存高效LLM服务中可重用KV缓存的实际构建块。
论文及项目相关链接
摘要
在大规模提供语言模型服务时,需要高效的键值缓存管理。通过共享前缀提示在对话回合之间重复使用键值缓存,这在迭代代码编辑和聊天中很常见。然而,过时的缓存消耗有限的GPU内存,需要卸载或强制重新计算。本文提出了KVTC,一种用于压缩键值缓存的轻量级转换编码器,以实现紧凑的GPU和GPU外存储。它结合了基于PCA的特征去相关、自适应量化和熵编码,借鉴了经典的媒体压缩技术。它只需要短暂的初始校准,不会改变模型参数。通过利用键值缓存中的冗余信息,KVTC实现了高达20倍的压缩率,同时保持了推理和长文本准确性,特定用例甚至达到了40倍或更高的压缩率。在AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER和MATH-500等基准测试上,KVTC与Llama 3、Mistral NeMo和R1-Qwen 2.5模型进行的测试表明,它始终优于诸如令牌逐出、量化和SVD方法等推理时间基线,同时实现了更高的压缩率。这些结果支持KVTC作为具有可重用键值缓存的内存高效语言模型服务实用构建块。
关键见解
- 大规模提供语言模型服务需要高效的键值缓存管理。
- 过时的缓存消耗有限的GPU内存资源。
- KVTC是一种轻量级转换编码器,用于压缩键值缓存以实现内存优化。
- KVTC结合PCA特征去相关、自适应量化和熵编码实现高效压缩。
- KVTC仅需初始校准,不影响模型参数。
- KVTC实现了高达20倍的压缩率,同时保持推理和长文本准确性。
点此查看论文截图
Towards LLM-Powered Task-Aware Retrieval of Scientific Workflows for Galaxy
Authors:Shamse Tasnim Cynthia, Banani Roy
Scientific Workflow Management Systems (SWfMSs) such as Galaxy have become essential infrastructure in bioinformatics, supporting the design, execution, and sharing of complex multi-step analyses. Despite hosting hundreds of reusable workflows across domains, Galaxy’s current keyword-based retrieval system offers limited support for semantic query interpretation and often fails to surface relevant workflows when exact term matches are absent. To address this gap, we propose a task-aware, two-stage retrieval framework that integrates dense vector search with large language model (LLM)-based reranking. Our system first retrieves candidate workflows using state-of-the-art embedding models and then reranks them using instruction-tuned generative LLMs (GPT-4o, Mistral-7B) based on semantic task alignment. To support robust evaluation, we construct a benchmark dataset of Galaxy workflows annotated with semantic topics via BERTopic and synthesize realistic task-oriented queries using LLMs. We conduct a comprehensive comparison of lexical, dense, and reranking models using standard IR metrics, presenting the first systematic evaluation of retrieval performance in the Galaxy ecosystem. Results show that our approach significantly improves top-k accuracy and relevance, particularly for long or under-specified queries. We further integrate our system as a prototype tool within Galaxy, providing a proof-of-concept for LLM-enhanced workflow search. This work advances the usability and accessibility of scientific workflows, especially for novice users and interdisciplinary researchers.
科学工作流程管理系统(如Galaxy)已成为生物信息学中的基本设施,支持复杂的多步分析的设计、执行和共享。尽管Galaxy当前的关键字检索系统已涵盖了多个领域的大量可重用工作流程,但在缺乏精确术语匹配的情况下,它提供的语义查询解释支持有限,且往往无法找到相关的工作流程。为了解决这个问题,我们提出了一种任务感知的两阶段检索框架,该框架结合了密集向量搜索和基于大型语言模型(LLM)的重排序。我们的系统首先使用先进的嵌入模型检索候选工作流程,然后使用针对指令调整的生成式LLM(GPT-4o、Mistral-7B)根据语义任务对齐进行重排序。为了支持稳健的评估,我们使用BERTopic对Galaxy工作流程进行语义主题标注,构建了一个基准数据集,并使用LLM合成面向任务的现实查询。我们采用全面的词汇模型、密集模型和重排序模型的比较,使用标准的IR指标对Galaxy生态系统中的检索性能进行了首次系统评估。结果表明,我们的方法显著提高了前k个结果的准确性和相关性,特别是对于长或未明确指定的查询。我们还将我们的系统整合为Galaxy中的原型工具,为LLM增强的流程搜索提供了概念验证。这项工作提高了科学工作流程的可用性和可及性,尤其是对于新手用户和跨学科研究者。
论文及项目相关链接
摘要
在科学工作流管理系统(SWfMSs)中,如Galaxy等系统已成为生物信息学中的关键基础设施,支持复杂多步分析的设计、执行和共享。Galaxy的当前关键词检索系统提供有限的语义查询解释支持,并在缺少精确匹配术语时往往无法展现相关的工作流。为解决这一问题,我们提出了一种任务感知的两阶段检索框架,它结合了密集向量搜索和大语言模型(LLM)的重新排序。我们的系统首先使用先进的嵌入模型检索候选工作流,然后使用针对指令优化的生成式LLM(GPT-4o,Mistral-7B)根据语义任务对齐进行重新排序。为了支持稳健评估,我们使用BERTopic对Galaxy工作流构建了带有语义主题标注的基准数据集,并使用LLM合成面向任务的实际查询。我们全面比较了词汇、密集和重新排序模型,使用标准IR指标呈现了Galaxy生态系统中检索性能的系统性评价。结果表明,我们的方法显著提高了前k个结果的准确性和相关性,特别是对于长或未指定的查询。我们还将我们的系统作为Galaxy中的原型工具进行集成,为增强工作流搜索的LLM提供了概念证明。本工作提高了科学工作流的可用性和可访问性,尤其是对于新手用户和跨学科研究者。
关键见解
- Galaxy等科学工作流管理系统在生物信息学中扮演关键角色,支持复杂分析的设计、执行和共享。
- 当前Galaxy的关键词检索系统在语义查询处理方面存在局限性,对于非精确匹配查询的响应不佳。
- 引入了一种任务感知的两阶段检索框架,结合密集向量搜索和LLM重新排序来提升检索性能。
- 使用先进的嵌入模型进行候选工作流检索,并采用面向指令优化的生成式LLM进行语义任务对齐的重新排序。
- 构建了带有语义主题标注的Galaxy工作流基准数据集,以支持稳健评估。
- 对比了不同的检索模型,包括词汇、密集和重新排序模型,并使用标准IR指标进行了性能评估。
点此查看论文截图
Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement
Authors:Sekh Mainul Islam, Pepa Atanasova, Isabelle Augenstein
Natural Language Explanations (NLEs) describe how Large Language Models (LLMs) make decisions, drawing on both external Context Knowledge (CK) and Parametric Knowledge (PK) stored in model weights. Understanding their interaction is key to assessing the grounding of NLEs, yet it remains underexplored. Prior work has largely examined only single-step generation, typically the final answer, and has modelled PK and CK interaction only as a binary choice in a rank-1 subspace. This overlooks richer forms of interaction, such as complementary or supportive knowledge. We propose a novel rank-2 projection subspace that disentangles PK and CK contributions more accurately and use it for the first multi-step analysis of knowledge interactions across longer NLE sequences. Experiments on four QA datasets and three open-weight instruction-tuned LLMs show that diverse knowledge interactions are poorly represented in a rank-1 subspace but are effectively captured in our rank-2 formulation. Our multi-step analysis reveals that hallucinated NLEs align strongly with the PK direction, context-faithful ones balance PK and CK, and Chain-of-Thought prompting for NLEs shifts generated NLEs toward CK by reducing PK reliance. This work provides the first framework for systematic studies of multi-step knowledge interactions in LLMs through a richer rank-2 subspace disentanglement. Code and data: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
自然语言解释(NLEs)描述了大型语言模型(LLM)是如何基于外部上下文知识(CK)和模型权重中存储的参数知识(PK)来做出决策的。了解两者的相互作用是评估NLE定位的关键,但这仍然是一个尚未得到充分探索的领域。先前的研究大多只关注单一步骤的生成,通常是最终答案,并且仅将PK和CK的交互建模为rank-1子空间中的二元选择。这忽略了更丰富的交互形式,如互补或支持性知识。我们提出了一个新的rank-2投影子空间,它能更准确地分离PK和CK的贡献,并首次用于对更长NLE序列中的知识交互进行多步分析。在四个问答数据集和三个公开权重指令调整型LLM上的实验表明,在rank-1子空间中,多样的知识交互表现不佳,但在我们的rank-2公式中得到了有效捕获。我们的多步分析表明,虚构的NLEs与PK方向高度一致,上下文忠实的NLEs平衡PK和CK,而NLEs的链式思维提示通过减少PK依赖而使生成的NLEs转向CK。这项工作通过更丰富的rank-2子空间分离法,为LLM中多步知识交互的系统性研究提供了首个框架。代码和数据:https://github.com/copenlu/pk-ck-knowledge-disentanglement。
论文及项目相关链接
PDF Under review
Summary
大型语言模型(LLM)利用外部上下文知识(CK)和参数知识(PK)进行决策的自然语言解释(NLEs)。理解两者交互是评估NLEs的基础,但这一领域尚未得到充分探索。先前的研究大多只关注单一步骤的生成,如最终答案,并且只将PK和CK的交互建模为rank-1子空间中的二元选择。本文提出了一个新颖的rank-2投影子空间,能更准确地分解PK和CK的贡献,并首次进行多步骤分析,研究知识交互在较长NLE序列中的表现。实验表明,在rank-1子空间中,多样的知识交互表现不佳,但在我们的rank-2公式中得到了有效捕捉。我们的多步分析发现,虚构的NLEs与PK方向紧密对齐,上下文忠实的NLEs平衡PK和CK,而通过Chain-of-Thought提示生成的NLEs则通过减少PK依赖转向CK。本文提供了通过更丰富的rank-2子空间分解进行LLM中多步知识交互的系统性研究框架。
Key Takeaways
- 自然语言解释(NLEs)描述了大型语言模型(LLM)如何利用外部上下文知识(CK)和参数知识(PK)进行决策。
- 理解CK和PK的交互是评估NLEs的关键,但这一领域尚未得到充分探索。
- 先前的研究主要关注单一步骤生成(如最终答案),忽视了更丰富的知识交互形式。
- 本文提出了一个新颖的rank-2投影子空间模型,以更准确地分解CK和PK的贡献。
- 实验表明,多样的知识交互在rank-1子空间中表现不佳,但在rank-2模型中得到了有效捕捉。
- 多步分析发现,虚构的NLEs与PK紧密相关,而上下文忠实的NLEs则平衡PK和CK。
点此查看论文截图
Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models
Authors:Daniyal Ganiuly, Assel Smaiyl
Large Language Models (LLMs) are increasingly used in intelligent systems that perform reasoning, summarization, and code generation. Their ability to follow natural-language instructions, while powerful, also makes them vulnerable to a new class of attacks known as prompt injection. In these attacks, hidden or malicious instructions are inserted into user inputs or external content, causing the model to ignore its intended task or produce unsafe responses. This study proposes a unified framework for evaluating how resistant Large Language Models (LLMs) are to prompt injection attacks. The framework defines three complementary metrics such as the Resilience Degradation Index (RDI), Safety Compliance Coefficient (SCC), and Instructional Integrity Metric (IIM) to jointly measure robustness, safety, and semantic stability. We evaluated four instruction-tuned models (GPT-4, GPT-4o, LLaMA-3 8B Instruct, and Flan-T5-Large) on five common language tasks: question answering, summarization, translation, reasoning, and code generation. Results show that GPT-4 performs best overall, while open-weight models remain more vulnerable. The findings highlight that strong alignment and safety tuning are more important for resilience than model size alone. Results show that all models remain partially vulnerable, especially to indirect and direct-override attacks. GPT-4 achieved the best overall resilience (RDR = 9.8 %, SCR = 96.4 %), while open-source models exhibited higher performance degradation and lower safety scores. The findings demonstrate that alignment strength and safety tuning play a greater role in resilience than model size alone. The proposed framework offers a structured, reproducible approach for assessing model robustness and provides practical insights for improving LLM safety and reliability.
大型语言模型(LLM)在智能系统中越来越常用于推理、摘要和代码生成。它们遵循自然语言指令的能力虽然强大,但也使它们容易受到一种名为提示注入的新攻击的影响。在这些攻击中,隐藏或恶意的指令被插入到用户输入或外部内容中,导致模型忽略其预期的任务或产生不安全的响应。本研究提出了一个评估大型语言模型(LLM)对提示注入攻击的抵抗力的统一框架。该框架定义了三个互补的指标,即恢复力降解指数(RDI)、安全合规系数(SCC)和指令完整性指标(IIM),以共同衡量稳健性、安全性和语义稳定性。我们在五个常见的语言任务上评估了四个指令调整模型(GPT-4、GPT-4o、LLaMA-3 8B Instruct和Flan-T5-Large):问答、摘要、翻译、推理和代码生成。结果表明,GPT-4总体上表现最佳,而开放权重模型仍然更容易受到攻击。结果强调,对于恢复力而言,强对齐和安全调整比单纯的模型大小更重要。结果表明,所有模型仍然存在部分脆弱性,特别是在间接和直接覆盖攻击方面。GPT-4获得了最佳的总体恢复力(RDR = 9.8%,SCR = 96.4%),而开源模型的性能下降更高,安全分数更低。研究结果表明,对齐强度和安全调整在提高恢复力方面比单纯的模型大小更重要。所提出的框架提供了一个结构化、可复制的评估模型稳健性的方法,并为提高LLM的安全性和可靠性提供了实际见解。
论文及项目相关链接
PDF 10 pages, 6 figures
Summary
大型语言模型(LLM)在智能系统中被广泛应用于推理、摘要和代码生成。然而,它们遵循自然语言指令的能力同时也使其容易受到一种名为提示注入的新攻击的影响。在这项研究中,提出了一个统一的框架来评估LLM对提示注入攻击的抵抗力。该框架通过三个互补指标(即恢复力降低指数、安全合规系数和指令完整性指标)来联合测量稳健性、安全性和语义稳定性。评估了四种指令调整模型在五种常见语言任务上的表现。结果表明GPT-4总体表现最佳,而开放式权重模型仍然更容易受到攻击。发现强对齐和安全调整对于提高模型韧性比单纯扩大模型规模更重要。所有模型仍存在部分脆弱性,特别是面对间接和直接覆盖攻击。GPT-4在恢复力和安全性方面表现最佳,而开源模型性能下降较为严重,安全得分较低。研究结果表明,对齐强度和安全调整对模型韧性影响大于模型规模。所提出的框架为评估模型稳健性提供了结构化、可重复的方法,并为提高LLM的安全性和可靠性提供了实际见解。
Key Takeaways
- 大型语言模型(LLM)在智能系统中广泛应用于多种任务,但也面临新的安全威胁——提示注入攻击。
- 提示注入攻击通过插入隐藏或恶意指令影响LLM的表现,可能导致模型偏离原定任务或产生不安全回应。
- 研究提出了一个统一的框架来评估LLM对提示注入攻击的抵抗力,包含三个关键指标:恢复力降低指数、安全合规系数和指令完整性指标。
- 在五种常见语言任务上评估了四种指令调整模型,发现GPT-4总体表现最佳,而开放式权重模型更容易受到攻击。
- 强烈对齐和安全调整是提高模型韧性的关键,其重要性超过单纯的模型规模扩大。
- 所有评估的模型仍存在部分脆弱性,特别是面对间接和直接覆盖攻击。GPT-4在恢复力和安全性方面表现最佳。
点此查看论文截图
FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings
Authors:Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, Ajwad Abrar
In emergency situations, every second counts. The deployment of Large Language Models (LLMs) in time-sensitive, low or zero-connectivity environments remains limited. Current models are computationally intensive and unsuitable for low-tier devices often used by first responders or civilians. A major barrier to developing lightweight, domain-specific solutions is the lack of high-quality datasets tailored to first aid and emergency response. To address this gap, we introduce FirstAidQA, a synthetic dataset containing 5,500 high-quality question answer pairs that encompass a wide range of first aid and emergency response scenarios. The dataset was generated using a Large Language Model, ChatGPT-4o-mini, with prompt-based in-context learning, using texts from the Vital First Aid Book (2019). We applied preprocessing steps such as text cleaning, contextual chunking, and filtering, followed by human validation to ensure accuracy, safety, and practical relevance of the QA pairs. FirstAidQA is designed to support instruction-tuning and fine-tuning of LLMs and Small Language Models (SLMs), enabling faster, more reliable, and offline-capable systems for emergency settings. We publicly release the dataset to advance research on safety-critical and resource-constrained AI applications in first aid and emergency response. The dataset is available on Hugging Face at https://huggingface.co/datasets/i-am-mushfiq/FirstAidQA.
在紧急情况下,每一秒都至关重要。大型语言模型(LLM)在需要即时响应、低连通性或无连通性的环境中的部署仍然受限。当前模型计算密集,不适合一线救援人员或平民常用的低端设备。开发轻量级、特定领域的解决方案的主要障碍是缺乏针对急救和紧急响应的高质量数据集。为了解决这一空白,我们推出了FirstAidQA,这是一个合成数据集,包含5500组高质量的问题答案对,涵盖广泛的急救和紧急响应场景。该数据集是使用大型语言模型ChatGPT-4o-mini生成的,采用基于提示的上下文学习法,使用《急救手册》(2019年)中的文本。我们应用了文本清洗、上下文分块和过滤等预处理步骤,然后进行人工验证,以确保问答对的准确性、安全性和实用性。FirstAidQA旨在支持大型语言模型(LLM)和小型语言模型(SLM)的指令调整和微调,为紧急情况下的系统提供更快、更可靠、支持离线使用的系统。我们公开发布此数据集,以推动急救和紧急响应领域中安全关键和资源受限的人工智能应用的研究。该数据集已在Hugging Face上发布,网址为:https://huggingface.co/datasets/i-am-mushfiq/FirstAidQA。
论文及项目相关链接
PDF Accepted at the 5th Muslims in Machine Learning (MusIML) Workshop, co-located with NeurIPS 2025
摘要
在大规模语言模型(LLM)在紧急情况下发挥作用的场景中,每一秒都至关重要。目前LLM在即时响应、低或零连接环境中部署时面临挑战,特别是在需要低层级设备的场景中。一个关键挑战在于缺乏专为急救和紧急响应量身定制的高质量数据集。为解决这一缺口,我们推出FirstAidQA合成数据集,包含针对广泛的第一急救和紧急响应场景的数千高质量问答对。数据集通过ChatGPT-4o-mini大型语言模型生成,采用基于提示的上下文学习法,使用《急救手册》(2019年)中的文本。我们采用文本清洗、上下文分块和过滤等预处理步骤,经人工验证确保问答对的准确性、安全性和实用性。FirstAidQA旨在支持大型语言模型和小型语言模型的指令调整和精细调整,适用于急救场景中的更快、更可靠和离线可用的系统。我们公开发布数据集,以推动在急救和紧急响应领域的安全关键和资源受限的人工智能应用的研究。数据集可在Hugging Face网站获取:https://huggingface.co/datasets/i-am-mushfiq/FirstAidQA 。
关键见解
- 在紧急情况下,大型语言模型的部署面临挑战,特别是在低或零连接环境中。
- 当前模型计算密集,不适合用于低层次设备。
- 缺乏针对急救和紧急响应领域的特定数据集是开发解决方案的主要障碍之一。
- FirstAidQA数据集采用合成方法创建,包含多种紧急响应场景下的高质量问答对。
- 数据集通过大型语言模型生成并使用特定技术进行验证,以确保准确性和实用性。
点此查看论文截图
Do Math Reasoning LLMs Help Predict the Impact of Public Transit Events?
Authors:Bowen Fang, Ruijian Zha, Xuan Di
Predicting public transit incident duration from unstructured text alerts is a critical but challenging task. Addressing the domain sparsity of transit operations with standard Supervised Fine-Tuning (SFT) is difficult, as the task involves noisy, continuous labels and lacks reliable expert demonstrations for reasoning. While Reinforcement Learning from Verifiable Rewards (RLVR) excels at tasks with binary correctness, like mathematics, its applicability to noisy, continuous forecasting is an open question. This work, to our knowledge, is the first to bridge the gap between RLVR LLM training with the critical, real-world forecasting challenges in public transit operations. We adapt RLVR to this task by introducing a tolerance-based, shaped reward function that grants partial credit within a continuous error margin, rather than demanding a single correct answer. We systematically evaluate this framework on a curated dataset of NYC MTA service alerts. Our findings show that general-purpose, instruction-tuned LLMs significantly outperform specialized math-reasoning models, which struggle with the ambiguous, real-world text. We empirically demonstrate that the binary reward is unstable and degrades performance, whereas our shaped reward design is critical and allows our model to dominate on the most challenging metrics. While classical regressors are superior at minimizing overall MAE or MSE, our RLVR approach achieved a 35% relative improvement in 5-minute accuracy (Acc@5) over the strongest baseline. This demonstrates that RLVR can be successfully adapted to real-world, noisy forecasting, but requires a verifier design that reflects the continuous nature of the problem.
预测公共交通事件持续时间从非结构化文本警报是一项至关重要但具有挑战性的任务。使用标准监督微调(SFT)解决公共交通运营领域的稀疏性是很困难的,因为这项任务涉及带有噪声的连续标签,并且缺乏可靠的专家演示来进行推理。尽管强化学习从可验证奖励(RLVR)在数学等具有二元正确性的任务上表现出色,但其在噪声大、连续性预测方面的适用性尚待解答。据我们所知,这项工作首次架起了RLVR大型语言模型训练和公共交通运营中关键现实预测挑战之间的桥梁。我们通过引入基于容忍度的奖励函数来适应RLVR进行这项任务,在连续的误差范围内授予部分信用,而不是要求单一的正确答案。我们在纽约市MTA服务警报编辑的数据集上系统地评估了这一框架。我们的研究结果表明,通用指令调优的大型语言模型显著优于专业数学推理模型,后者在处理模糊现实文本时遇到麻烦。我们通过实证证明了二元奖励是不稳定的并且会降低性能,而我们的形状奖励设计是关键的,使我们的模型在最具挑战性的指标上占据主导地位。虽然经典回归器在最小化总体MAE或MSE方面更优越,但我们的RLVR方法在最准确的五分钟指标(Acc@5)上相对于最强的基线实现了35%的相对改进。这表明RLVR可以成功适应现实世界的噪声预测,但需要反映问题连续性的验证器设计。
论文及项目相关链接
Summary
本文探讨了基于自然语言处理的大型语言模型(LLM)在公共交通运输领域中的应用,尤其是在预测公交事件持续时间方面的挑战与创新。由于公共交通操作的领域特殊性,标准的监督微调(SFT)面临困难。本文首次将强化学习从可验证奖励(RLVR)与公交运营中的预测挑战相结合。通过引入基于容忍度的奖励函数,模型能在连续误差范围内给予部分信用,而非单一正确答案。研究在纽约市交通局服务警报的数据集上进行了系统评估,发现通用、指令调整的大型语言模型优于专业的数学推理模型,展示了我们的强化学习方法的优势,并指出了对真实世界模糊文本的良好适应性。结果显示,我们的模型在最具挑战性的指标上表现尤为出色。虽然传统的回归器在最小化整体MAE或MSE方面具有优势,但在五分钟的准确性上,我们的RLVR方法相对于最强的基线实现了相对改善率达到了35%。这表明RLVR可以成功适应现实世界的噪声预测,但需要反映问题的连续性的验证器设计。
Key Takeaways
- 预测公交事件持续时间是一项挑战,涉及处理具有领域特定性和连续标签的噪声数据。
- 强化学习从可验证奖励(RLVR)首次被引入解决此类问题,尤其是通过引入基于容忍度的奖励函数。
- LLM的表现优于专门的数学推理模型,显示出处理模糊现实文本的优势。
- 在五分钟准确度方面,RLVR方法相对于传统回归模型表现出显著改善。这体现了对现实世界噪声预测的适应性。
点此查看论文截图
Count-Based Approaches Remain Strong: A Benchmark Against Transformer and LLM Pipelines on Structured EHR
Authors:Jifan Gao, Michael Rosenthal, Brian Wolpin, Simona Cristea
Structured electronic health records (EHR) are essential for clinical prediction. While count-based learners continue to perform strongly on such data, no benchmarking has directly compared them against more recent mixture-of-agents LLM pipelines, which have been reported to outperform single LLMs in various NLP tasks. In this study, we evaluated three categories of methodologies for EHR prediction using the EHRSHOT dataset: count-based models built from ontology roll-ups with two time bins, based on LightGBM and the tabular foundation model TabPFN; a pretrained sequential transformer (CLMBR); and a mixture-of-agents pipeline that converts tabular histories to natural-language summaries followed by a text classifier. We assessed eight outcomes using the EHRSHOT dataset. Across the eight evaluation tasks, head-to-head wins were largely split between the count-based and the mixture-of-agents methods. Given their simplicity and interpretability, count-based models remain a strong candidate for structured EHR benchmarking. The source code is available at: https://github.com/cristea-lab/Structured_EHR_Benchmark.
结构化电子健康记录(EHR)对临床预测至关重要。虽然基于计数的学习者在此类数据上的表现仍然强劲,但尚无基准测试直接将其与最近的混合代理LLM管道进行比较。据报道,这些管道在各种NLP任务中的性能超过了单一LLM。在这项研究中,我们使用EHRSHOT数据集评估了三类EHR预测方法:基于本体滚动和两时间仓的基于计数的模型,基于LightGBM和表格基础模型TabPFN;预训练的顺序变压器(CLMBR);以及将表格历史转换为自然语言摘要然后通过文本分类器处理的混合代理管道。我们使用EHRSHOT数据集评估了八种结果。在八个评估任务中,基于计数的方法和混合代理方法之间的头对头获胜者大多分庭抗礼。鉴于其简单性和可解释性,基于计数的模型仍然是结构化EHR基准测试的强劲候选者。源代码可在:https://github.com/cristea-lab/Structured_EHR_Benchmark获取。
论文及项目相关链接
Summary
本文研究了在电子健康记录(EHR)预测中使用不同方法的效果。文章对比了基于计数的模型、基于LightGBM的模型、预训练序列转换器CLMBR以及混合代理管道等方法。使用EHRSHOT数据集评估了八种结果。头对头比较显示,基于计数的方法和混合代理方法各有优势。考虑到简单性和可解释性,基于计数的模型仍是结构化EHR基准测试的有力候选者。
Key Takeaways
- 电子健康记录(EHR)在临床预测中扮演重要角色,多种方法被用于处理和分析这些数据。
- 尚无基准测试直接对比基于计数的模型与更近的混合代理LLM管道在EHR预测中的性能。
- 使用EHRSHOT数据集评估了三种方法的性能:基于计数的模型、基于LightGBM的模型和混合代理管道。
- 在八项评估任务中,基于计数的方法和混合代理方法各有优势,没有一种方法在所有任务上都表现最好。
- 基于计数的模型因其简单性和可解释性,在结构化EHR基准测试中表现良好。
- 文章提供的源代码可用于进一步研究和开发。
点此查看论文截图
Exploring and Mitigating Gender Bias in Encoder-Based Transformer Models
Authors:Ariyan Hossain, Khondokar Mohammad Ahanaf Hannan, Rakinul Haque, Nowreen Tarannum Rafa, Humayra Musarrat, Shoaib Ahmed Dipu, Farig Yousuf Sadeque
Gender bias in language models has gained increasing attention in the field of natural language processing. Encoder-based transformer models, which have achieved state-of-the-art performance in various language tasks, have been shown to exhibit strong gender biases inherited from their training data. This paper investigates gender bias in contextualized word embeddings, a crucial component of transformer-based models. We focus on prominent architectures such as BERT, ALBERT, RoBERTa, and DistilBERT to examine their vulnerability to gender bias. To quantify the degree of bias, we introduce a novel metric, MALoR, which assesses bias based on model probabilities for filling masked tokens. We further propose a mitigation approach involving continued pre-training on a gender-balanced dataset generated via Counterfactual Data Augmentation. Our experiments reveal significant reductions in gender bias scores across different pronoun pairs. For instance, in BERT-base, bias scores for “he-she” dropped from 1.27 to 0.08, and “his-her” from 2.51 to 0.36 following our mitigation approach. We also observed similar improvements across other models, with “male-female” bias decreasing from 1.82 to 0.10 in BERT-large. Our approach effectively reduces gender bias without compromising model performance on downstream tasks.
自然语言处理领域中,语言模型中的性别偏见已引起越来越多的关注。基于编码器转换器模型在各种语言任务中达到了最先进的性能,但已被证明表现出强烈的性别偏见,这些偏见是从其训练数据中继承而来的。本文研究了基于转换模型的语境化词嵌入中的性别偏见问题。我们关注BERT、ALBERT、RoBERTa和DistilBERT等突出架构,以检查它们对性别偏见的脆弱性。为了衡量偏见的程度,我们引入了一种新型度量标准MALoR,它根据模型填充遮罩符号的概率来评估偏见。我们进一步提出了一种缓解方法,涉及在通过反事实数据增强生成的性别平衡数据集上进行持续预训练。我们的实验显示不同代词对的性别偏见分数显著下降。例如,在我们的缓解方法实施后,BERT-base中“he-she”的偏见分数从1.27降至0.08,“his-her”从2.51降至0.36。我们还观察到其他模型的类似改进,“male-female”偏见在BERT-large中从1.82降至0.10。我们的方法在不损害下游任务模型性能的情况下有效地减少了性别偏见。
论文及项目相关链接
PDF 25 pages, 20 figures
Summary:
本文研究了基于编码器的转换模型在自然语言处理中的性别偏见问题。文章聚焦于BERT、ALBERT、RoBERTa和DistilBERT等主流架构,通过引入新的度量标准MALoR来评估模型对性别偏见的易感性。同时提出了一种通过平衡性别数据集持续预训练来减轻偏见的方法。实验结果显示,此方法显著降低了性别偏见得分,并且不会对下游任务性能产生影响。
Key Takeaways:
- 论文聚焦于基于编码器转换模型的语境化词嵌入中的性别偏见问题。
- 针对BERT等主流架构进行性别偏见评估。
- 引入新的度量标准MALoR来评估模型对性别偏见的程度。
- 提出通过平衡性别数据集持续预训练来减轻性别偏见的方法。
- 实验结果显示,该方法显著降低了不同代词对的性别偏见得分。
- 方法在降低性别偏见的同时,不会损害模型在下游任务上的性能。
点此查看论文截图
A Comparative Analysis of LLM Adaptation: SFT, LoRA, and ICL in Data-Scarce Scenarios
Authors:Bernd Bohnet, Rumen Dangovski, Kevin Swersky, Sherry Moore, Arslan Chaudhry, Kathleen Kenealy, Noah Fiedel
The remarkable capabilities of Large Language Models (LLMs) often need to be tailored for specific applications, requiring the integration of new knowledge or the acquisition of new skills. While full fine-tuning is a powerful adaptation method, it is computationally expensive and can lead to a degradation of general reasoning abilities, a phenomenon known as catastrophic forgetting. A range of alternative techniques exists, each with its own trade-offs. In-Context Learning (ICL) is fast but limited by context length, while Parameter-Efficient Fine-Tuning (PEFT) methods like Low-Rank Adaptation (LoRA) offer a middle ground by minimizing parameter changes. However, the challenge of catastrophic forgetting persists, raising questions about the best adaptation strategy for a given task. This paper presents a comparative analysis of Supervised Finetuning (SFT), LoRA, and ICL in data-scarce scenarios. We find that LoRA provides the most effective balance, successfully instilling new skills with minimal impact on the base model’s general knowledge. In contrast, while SFT excels at skill acquisition, it is highly susceptible to catastrophic forgetting. ICL is effective for incorporating factual knowledge but struggles with complex skills. Our findings offer a practical framework for selecting an LLM adaptation strategy. We highlight the critical distinction between skill acquisition and knowledge integration, clarify the trade-offs between task-specific performance and the preservation of general capabilities.
大型语言模型(LLM)的显著能力通常需要针对特定应用进行定制,这需要整合新知识或获取新技能。虽然完全微调是一种强大的适应方法,但它的计算成本高昂,并可能导致一般推理能力的下降,这种现象被称为灾难性遗忘。存在一系列替代技术,每种技术都有其自身的权衡。上下文学习(ICL)虽然快速,但受限于上下文长度,而参数高效微调(PEFT)方法如低秩适应(LoRA)则通过最小化参数变化提供了中间地带。然而,灾难性遗忘的挑战仍然存在,这引发了关于给定任务的最佳适应策略的问题。本文对数据稀缺场景下的监督微调(SFT)、LoRA和ICL进行了比较分析。我们发现LoRA提供了最有效的平衡,在成功灌输新技能的同时,对基础模型的一般知识影响最小。相比之下,虽然SFT在技能获取方面表现出色,但它很容易受到灾难性遗忘的影响。ICL在融入事实知识方面有效,但在处理复杂技能时却遇到困难。我们的发现提供了一个选择LLM适应策略的实际框架。我们强调了技能获取和知识整合之间的关键区别,澄清了特定任务性能和保留一般能力之间的权衡。
论文及项目相关链接
Summary
大语言模型(LLM)在特定应用中的出色表现需要对其进行适应性调整,这包括集成新知识或获取新技能。虽然全面微调是一种强大的适应方法,但其计算成本高昂且可能导致泛化能力下降(灾难性遗忘)。存在一系列替代技术,各有利弊。上下文学习(ICL)快速但受限于上下文长度,而参数高效微调(PEFT)方法如低秩适应(LoRA)则通过最小化参数变化找到了一种平衡。尽管如此,灾难性遗忘的挑战依然存在,对于给定任务的最佳适应策略仍有问题待解答。本研究对稀缺数据场景下Supervised Finetuning(SFT)、LoRA和ICL进行了比较分析。发现LoRA在传授新技能时影响最小,平衡性最佳。相比之下,SFT在技能获取方面表现出色,但容易遭受灾难性遗忘。ICL在融入事实知识方面有效,但在处理复杂技能时表现不佳。我们的研究为选择LLM适应策略提供了实用框架,并强调了技能获取与知识整合之间的关键区别,明确了任务特定性能与保留一般能力之间的权衡。
Key Takeaways
- LLM在特定应用中表现出强大的能力,但通常需要针对特定任务进行适应性调整。
- 全面微调是一种强大的适应方法,但计算成本高且可能导致泛化能力下降(灾难性遗忘)。
- 存在多种适应策略,包括上下文学习和参数高效微调方法如低秩适应等。
- LoRA在传授新技能时影响最小,平衡性最佳;Supervised Finetuning在技能获取方面表现出色但易遗忘;上下文学习在融入事实知识方面有效但处理复杂技能时表现不佳。
- 选择LLM适应策略时需要考虑任务特性、数据稀缺性和模型泛化能力之间的权衡。
- 技能获取和知识整合是两种不同的过程,需要区分对待。
点此查看论文截图
AWARE, Beyond Sentence Boundaries: A Contextual Transformer Framework for Identifying Cultural Capital in STEM Narratives
Authors:Khalid Mehtab Khan, Anagha Kulkarni
Identifying cultural capital (CC) themes in student reflections can offer valuable insights that help foster equitable learning environments in classrooms. However, themes such as aspirational goals or family support are often woven into narratives, rather than appearing as direct keywords. This makes them difficult to detect for standard NLP models that process sentences in isolation. The core challenge stems from a lack of awareness, as standard models are pre-trained on general corpora, leaving them blind to the domain-specific language and narrative context inherent to the data. To address this, we introduce AWARE, a framework that systematically attempts to improve a transformer model’s awareness for this nuanced task. AWARE has three core components: 1) Domain Awareness, adapting the model’s vocabulary to the linguistic style of student reflections; 2) Context Awareness, generating sentence embeddings that are aware of the full essay context; and 3) Class Overlap Awareness, employing a multi-label strategy to recognize the coexistence of themes in a single sentence. Our results show that by making the model explicitly aware of the properties of the input, AWARE outperforms a strong baseline by 2.1 percentage points in Macro-F1 and shows considerable improvements across all themes. This work provides a robust and generalizable methodology for any text classification task in which meaning depends on the context of the narrative.
在学生反思中识别文化资本(CC)主题,可以提供有价值的见解,有助于培养课堂公平学习环境。然而,诸如志向目标或家庭支持等主题通常被编织成叙事,而非作为直接关键词出现。这使得它们难以被孤立的句子处理的标准NLP模型检测出来。核心挑战源于缺乏意识,因为标准模型是在一般语料库上进行预训练的,这使得它们对数据固有的特定领域语言和叙事上下文视而不见。为了解决这一问题,我们引入了AWARE框架,该框架系统地尝试提高转换器模型对此类细微任务的意识。AWARE有三个核心组件:1)领域意识,使模型的词汇适应学生反思的语言风格;2)上下文意识,生成句子嵌入,对全文上下文有所了解;3)类别重叠意识,采用多标签策略来识别单个句子中共存的主题。我们的结果表明,通过使模型明确意识到输入的特性,AWARE在宏观F1分数上超越了强大基线2.1个百分点,并在所有主题上都取得了显著的改进。这项工作为任何依赖于叙事上下文的文本分类任务提供了稳健且可推广的方法。
论文及项目相关链接
PDF The authors are withdrawing this version to correct issues identified in the experimental design and analysis. A revised and validated version will be submitted after further review
Summary
本文探讨了在学生的反思中识别文化资本主题的重要性,这有助于促进公平的教室学习环境。然而,主题如志向目标或家庭支持经常融入叙事之中,而非以直接关键词的形式出现,使得标准的自然语言处理模型难以检测。为解决此问题,本文引入了AWARE框架,通过三个核心组件提高模型对此类任务的感知能力:领域感知、上下文感知和类别重叠感知。结果显示,通过使模型明确感知输入的特性,AWARE在宏观F1得分上超越了强大的基线模型,并在所有主题上都取得了显著的改进。这为任何依赖于叙事上下文的文本分类任务提供了稳健且可推广的方法论。
Key Takeaways
- 识别学生反思中的文化资本主题有助于促进公平的学习环境。
- 主题常常融入叙事中,而非以直接关键词形式出现,使得标准NLP模型难以检测。
- AWARE框架通过三个核心组件提高模型对任务的感知能力:领域感知、上下文感知和类别重叠感知。
- AWARE框架通过使模型明确感知输入的特性,在宏观F1得分上超越了强大的基线模型。
- AWARE框架在所有主题上都取得了显著的改进。
- 此方法提供了一种解决依赖于叙事上下文的文本分类任务的有效策略。
点此查看论文截图
FraudTransformer: Time-Aware GPT for Transaction Fraud Detection
Authors:Gholamali Aminian, Andrew Elliott, Tiger Li, Timothy Cheuk Hin Wong, Victor Claude Dehon, Lukasz Szpruch, Carsten Maple, Christopher Read, Martin Brown, Gesine Reinert, Mo Mamouei
Detecting payment fraud in real-world banking streams requires models that can exploit both the order of events and the irregular time gaps between them. We introduce FraudTransformer, a sequence model that augments a vanilla GPT-style architecture with (i) a dedicated time encoder that embeds either absolute timestamps or inter-event values, and (ii) a learned positional encoder that preserves relative order. Experiments on a large industrial dataset – tens of millions of transactions and auxiliary events – show that FraudTransformer surpasses four strong classical baselines (Logistic Regression, XGBoost and LightGBM) as well as transformer ablations that omit either the time or positional component. On the held-out test set it delivers the highest AUROC and PRAUC.
在真实世界的银行流水交易中检测支付欺诈,需要能够利用事件顺序和事件之间不规则时间间隔的模型。我们引入了FraudTransformer,这是一个序列模型,它增加了基本的GPT风格架构,其中包括(i)专用时间编码器,可以嵌入绝对时间戳或事件间值,(ii)学习位置编码器,可以保留相对顺序。在大型工业数据集上的实验——数千万笔交易和辅助事件——表明,FraudTransformer超越了四个强大的经典基线(Logistic回归、XGBoost和LightGBM),以及省略了时间或位置组件的变压器消融模型。在保留的测试集上,它达到了最高的AUROC和PRAUC。
论文及项目相关链接
PDF Accepted in AI-FIND ICAIF’25 (https://sites.google.com/view/icaif-fraud-detection-workshop/home)
Summary:
提出了一种名为FraudTransformer的序列模型,用于真实银行流中支付欺诈的检测。该模型通过两个组件增强了基本的GPT风格架构:一是专门的时间编码器,用于嵌入绝对时间戳或事件间值;二是学习到的位置编码器,用于保留相对顺序。在大型工业数据集上的实验表明,FraudTransformer超越了四种强大的经典基线以及省略了时间或位置组件的转换器。在保留的测试集上,它提供了最高的AUROC和PRAUC。
Key Takeaways:
- FraudTransformer是一个用于检测真实银行流中支付欺诈的序列模型。
- 该模型通过嵌入时间信息和事件相对顺序来增强性能。
- 时间编码器可以处理绝对时间戳或事件间值。
- 位置编码器能够保留事件的相对顺序。
- 在大型工业数据集上的实验表明,FraudTransformer性能超越了多种经典模型和省略了时间或位置组件的转换器。
- FraudTransformer在测试集上提供了最高的AUROC和PRAUC。
点此查看论文截图
Teaching According to Talents! Instruction Tuning LLMs with Competence-Aware Curriculum Learning
Authors:Yangning Li, Tingwei Lu, Yinghui Li, Yankai Chen, Wei-Chieh Huang, Wenhao Jiang, Hui Wang, Hai-Tao Zheng, Philip S. Yu
Efficient instruction tuning aims to enhance the ultimate performance of large language models (LLMs) trained on a given instruction dataset. Curriculum learning as a typical data organization strategy has shown preliminary effectiveness in instruction tuning. However, current curriculum tuning methods suffer from the curriculum rigidity, since they rely solely on static heuristic difficulty metrics. These methods fail to adapt to the evolving capabilities of models during training, resulting in a fixed and potentially sub-optimal learning trajectory. To address the issue, Competence-Aware Multi-Perspective cUrriculum inStruction tuning framework termed CAMPUS is proposed. CAMPUS offers several advantages: (1) Dynamic selection for sub-curriculum. (2) Competency-aware adjustment to the curriculum schedule. (3) Multiple difficulty-based scheduling. Extensive experiments prove the superior performance of CAMPUS, compared to other state-of-the-art baselines for efficient instruction tuning.
高效指令调整旨在提高在给定指令数据集上训练的大型语言模型(LLM)的最终性能。作为典型的数据组织策略,课程学习在指令调整中已显示出初步的有效性。然而,当前的课程调整方法受到课程刚性的困扰,因为它们完全依赖于静态的启发式难度指标。这些方法未能适应模型在训练过程中的能力演变,导致固定且可能次优的学习轨迹。为了解决这一问题,提出了名为CAMPUS的能力感知多视角课程指令调整框架。CAMPUS提供几个优点:(1)子课程的动态选择。(2)对课程表的能力感知调整。(3)基于难度的多种调度。大量实验证明了CAMPUS在高效指令调整方面优于其他最新基线。
论文及项目相关链接
PDF EMNLP 2025 Findings
摘要
训练大语言模型时,效率导向的指令调优旨在提升模型的最终性能表现。课程学习作为一种典型的数据组织策略,在指令调优中初步显现出其有效性。然而,当前课程式调优方法存在课程刚性,即依赖于静态启发式难度度量指标的问题。这些方法无法适应模型训练过程中的能力变化,导致固定的学习轨迹可能不尽人意。为解决这一问题,提出了基于能力的多角度课程指令调优框架——CAMPUS。CAMPUS具有几大优势:动态选择子课程;基于能力的课程安排调整;多种难度导向的调度策略。大量实验证明,相较于其他先进的基线方法,CAMPUS在高效指令调优方面表现卓越。
关键见解
- CAMPUS动态选择子课程的能力是其一大优势,能根据不同的训练阶段选择合适的子集进行学习。
- CAMPUS具备基于模型能力的课程安排调整功能,使得课程学习更加灵活和高效。
- CAMPUS采用多种难度导向的调度策略,确保模型在不同难度任务上的均衡学习。
- CAMPUS解决了现有课程式调优方法的课程刚性问题,提升了模型训练的灵活性和适应性。
- CAMPUS框架在广泛实验中被证明能显著提升大语言模型的性能表现。
- 与其他先进的基线方法相比,CAMPUS在高效指令调优方面具有显著优势。
点此查看论文截图
TinyTim: A Family of Language Models for Divergent Generation
Authors:Christopher J. Agostino
In the search for artificial general intelligence, model development and training has focused primarily on vast datasets of known problems and their accepted solutions. This process necessarily produces convergent systems which are fundamentally incapable of the conceptual reframing that is required for genuine creative breakthroughs. Inspired by the divergent cognitive processes that allow humans to make such creative leaps, our work introduces a family of language models, TinyTim, to serve as sources of divergent generation within broader systems. These models have been created by fine-tuning on the anti-parsimonious text of James Joyce’s `Finnegans Wake’. Quantitative analysis of both an unsupervised fine-tuned model (TinyTim-V1) and a new instruction-tuned variant (TinyTim-V2) demonstrates a profound capacity for lexical invention; the foundational V1 model exhibits a Yule’s K score for lexical richness over twenty times greater than that of convergent baselines. This trait is a stable property of the family, as the instruction-tuned V2 maintains a statistically distinct profile and resists factual convergence, sacrificing benchmark performance to preserve its core generative style. This work establishes a methodology for engineering specialized divergent models that, when paired with convergent systems, can reframe problems and force breakthroughs beyond the reach of statistical optimization alone.
在寻找人工智能通用智能的过程中,模型开发和训练主要集中在已知问题的大量数据集及其接受的解决方案上。这一过程必然会产生收敛系统,而这些系统从根本上无法完成概念重构,无法进行真正的创造性突破。我们的工作受到人类能够实现如此跳跃的发散认知过程的启发,引入了一系列语言模型TinyTim,作为更广泛系统中发散生成的来源。这些模型通过微调詹姆斯·乔伊斯(James Joyce)的《芬尼根守灵夜》(Finnegans Wake)中的反简约文本而创建。对无监督微调模型(TinyTim-V1)和新指令调整变体(TinyTim-V2)的定量分析表明,它们在词汇发明方面具有深刻的能力;基础V1模型的词汇丰富度的尤尔K值(Yule’s K score)是收敛基准值的二十倍以上。这一特质是这个家族的一个稳定特征,因为指令调整后的V2保持了一个统计上独特的特征,抵制事实收敛,牺牲了基准性能以保留其核心生成风格。这项工作建立了一种工程化专业发散模型的方法论,当与收敛系统配对时,这种方法可以重构问题并迫使突破统计优化能力以外的进展。
论文及项目相关链接
PDF 7 pages, 3 figures, accepted to NeurIPS Creative AI track, models available at https://hf.co/npc-worldwide/
Summary
本文介绍了在寻找人工通用智能的过程中,模型开发和训练主要依赖于大量已知问题及其解决方案的数据集,这导致了系统收敛性的局限性,无法实现人类真正的创造性突破。为了突破这一局限性,本研究引入了一种名为TinyTim的语言模型家族,它们通过在詹姆斯·乔伊斯的小说《芬尼根守夜人》的反常理文本上进行微调训练来生成发散性思维。对TinyTim-V1和新的指令调整型变种TinyTim-V2的定量分析表明,它们具有显著的词汇发明能力;基础模型V1的尤尔K值得分在词汇丰富度方面比收敛基线高出二十倍以上。这种特质是这一系列模型的稳定属性,指令调整型V2保持了独特的统计特征,避免事实收敛,尽管牺牲了一些基准性能但保留了其核心生成风格。本研究为工程化专业化的发散模型建立了方法,与收敛系统配对时,能够重新定位问题并实现单一统计优化无法达到的突破。
Key Takeaways
- 模型发展和训练主要依赖于大量已知问题数据集,导致系统收敛性局限。
- TinyTim语言模型家族通过发散性思维生成,旨在突破这一局限性。
- TinyTim-V1和TinyTim-V2具有显著的词汇发明能力,尤尔K值得分远高于收敛基线。
- TinyTim系列模型在保持核心生成风格的同时,能够抵抗事实收敛。
- 这些模型通过牺牲部分基准性能来实现发散特性。
- 结合收敛系统和发散模型,能够重新定位问题并实现超越单一统计优化的突破。
点此查看论文截图