嘘~ 正在从服务器偷取页面 . . .

LLM


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-27 更新

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Authors:Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu

To act in the world, a model must name what it sees and know where it is in 3D. Today’s vision-language models (VLMs) excel at open-ended 2D description and grounding, yet multi-object 3D detection remains largely missing from the VLM toolbox. We present LocateAnything3D, a VLM-native recipe that casts 3D detection as a next-token prediction problem. The key is a short, explicit Chain-of-Sight (CoS) sequence that mirrors how human reason from images: find an object in 2D, then infer its distance, size, and pose. The decoder first emits 2D detections as a visual chain-of-thought, then predicts 3D boxes under an easy-to-hard curriculum: across objects, a near-to-far order reduces early ambiguity and matches ego-centric utility; within each object, a center-from-camera, dimensions, and rotation factorization ranks information by stability and learnability. This VLM-native interface preserves open-vocabulary and visual-prompting capability without specialized heads. On the challenging Omni3D benchmark, our model achieves state-of-the-art results, with 49.89 AP_3D, surpassing the previous best by +15.51 absolute improvement even when the baseline is given ground-truth 2D boxes. It also generalizes zero-shot to held-out categories with strong robustness. By turning 3D detection into a disciplined next-token problem, LocateAnything3D offers a practical foundation for models to perceive in 3D.

要在世界中行动,模型必须能够命名其所见并知道自己在3D空间中的位置。尽管当前的视觉语言模型(VLM)在开放式的2D描述和定位方面表现出色,但多目标3D检测在VLM工具箱中仍然缺失。我们提出了LocateAnything3D,这是一个基于VLM的方法,将3D检测转化为下一个标记预测问题。关键在于一个简短明确的视线链(CoS)序列,它反映了人类从图像中推理的方式:首先在2D中找到对象,然后推断其距离、大小和姿态。解码器首先发出2D检测作为视觉思维链,然后在一个简单到困难的课程中预测3D框:在对象之间,从近到远的顺序减少了早期的不确定性并匹配了以自我为中心的有用性;在每个对象中,从中心到相机、尺寸和旋转分解的信息排名依据稳定性和可学习性。这种基于VLM的接口保留了开放式词汇表和视觉提示功能,无需特殊头部。在具有挑战性的Omni3D基准测试中,我们的模型达到了最先进的成果,以49.89的AP_3D得分领先之前最好的模型,+15.51的绝对改进,即使在给定真实值2D框的情况下也是如此。它还具有零样本推广到未涵盖类别的强大稳健性。通过将3D检测转化为有纪律的下一个标记问题,LocateAnything3D为模型在三维空间中的感知提供了实用的基础。

论文及项目相关链接

PDF Tech report. Project page: https://nvlabs.github.io/LocateAnything3D/

Summary

在现实世界中进行行动时,模型需要识别所看到的事物并知道自身所处的三维位置。现有的视觉语言模型(VLM)擅长进行开放式的二维描述和定位,但缺乏多目标三维检测的能力。我们提出了LocateAnything3D,这是一种VLM原生方法,将三维检测转化为下一个词预测问题。其关键在于一种简洁明确的视线链(CoS)序列,模拟人类从图像中推理的过程:先在二维空间中找到物体,然后推断其距离、大小和姿态。该模型首先发出二维检测作为视觉思维链,然后在一个易于实施的课程中预测三维框。课程遵循从近到远的顺序,减少早期的不确定性并符合以自我为中心的实用性;在每个物体内部,从中心到相机、尺寸和旋转分解的信息排名依据稳定性和可学习性。这种VLM原生界面保留了开放词汇表和视觉提示功能,无需专用头。在具有挑战性的Omni3D基准测试中,我们的模型实现了业界领先的49.89 AP_3D得分,即使基线给出了真实二维框,也实现了比先前最佳结果高出绝对值+15.51的改进。此外,该模型对未分类的类别具有强大的稳健性。通过将三维检测转化为规范的下一个词问题,LocateAnything3D为模型在三维空间中的感知提供了实际基础。

Key Takeaways

  • 视觉语言模型(VLM)虽然擅长开放式二维描述和定位,但在多目标三维检测方面存在缺失。
  • LocateAnything3D通过将三维检测问题转化为下一个词预测问题来改进VLM的能力。
  • LocateAnything3D利用视线链(CoS)序列进行推理,首先检测二维物体,再推断三维信息。
  • 模型遵循从近到远的顺序进行预测,减少早期的不确定性并提高实用性。
  • LocateAnything3D保留了VLM的开放词汇表和视觉提示功能。
  • 在Omni3D基准测试中,LocateAnything3D实现了业界领先的性能,显著超越了先前的最佳模型。

Cool Papers

点此查看论文截图

Latent Collaboration in Multi-Agent Systems

Authors:Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, Gaotang Li, Katherine Tieu, Pan Lu, Ke Shen, Hanghang Tong, Yejin Choi, Jingrui He, James Zou, Mengdi Wang, Ling Yang

Multi-agent systems (MAS) extend large language models (LLMs) from independent single-model reasoning to coordinative system-level intelligence. While existing LLM agents depend on text-based mediation for reasoning and communication, we take a step forward by enabling models to collaborate directly within the continuous latent space. We introduce LatentMAS, an end-to-end training-free framework that enables pure latent collaboration among LLM agents. In LatentMAS, each agent first performs auto-regressive latent thoughts generation through last-layer hidden embeddings. A shared latent working memory then preserves and transfers each agent’s internal representations, ensuring lossless information exchange. We provide theoretical analyses establishing that LatentMAS attains higher expressiveness and lossless information preservation with substantially lower complexity than vanilla text-based MAS. In addition, empirical evaluations across 9 comprehensive benchmarks spanning math and science reasoning, commonsense understanding, and code generation show that LatentMAS consistently outperforms strong single-model and text-based MAS baselines, achieving up to 14.6% higher accuracy, reducing output token usage by 70.8%-83.7%, and providing 4x-4.3x faster end-to-end inference. These results demonstrate that our new latent collaboration framework enhances system-level reasoning quality while offering substantial efficiency gains without any additional training. Code and data are fully open-sourced at https://github.com/Gen-Verse/LatentMAS.

多智能体系统(MAS)将大型语言模型(LLM)从独立的单模型推理扩展到协同的系统级智能。虽然现有的LLM智能体依赖于文本介导进行推理和通信,但我们通过使模型能够在连续的潜在空间内直接协作,向前迈进了一步。我们介绍了LatentMAS,这是一种端到端无需训练框架,能够实现LLM智能体之间的纯粹潜在协作。在LatentMAS中,每个智能体会首先通过最后一层隐藏嵌入进行自动回归的潜在思想生成。然后,一个共享的潜在工作内存会保存和转移每个智能体的内部表征,确保信息交换无损失。我们提供理论分析证明,LatentMAS在表达性上更高,能够无损地保存信息,并且相比普通的文本型MAS具有更低的复杂性。此外,跨越涵盖数学和科学推理、常识理解和代码生成的9项综合基准测试的经验评估表明,LatentMAS始终优于强大的单模型和基础文本型MAS基准测试,提高了高达14.6%的准确性,减少了70.8%-83.7%的输出令牌使用,并提供了4倍至4.3倍的端到端推理速度。这些结果证明,我们新的潜在协作框架在提高系统级推理质量的同时,无需任何额外训练即可实现显著的效率提升。相关代码和数据已完全开源,地址位于https://github.com/Gen-Verse/LatentMAS。

论文及项目相关链接

PDF Project: https://github.com/Gen-Verse/LatentMAS

Summary

多智能体系统(MAS)将大型语言模型(LLM)从独立单模型推理扩展到协同系统级智能。现有LLM代理依赖于文本介导进行推理和通信,本研究通过使模型直接在连续潜在空间中进行协作来实现突破。引入LatentMAS,这是一种端到端训练免费框架,可实现LLM代理之间的纯粹潜在协作。在LatentMAS中,每个代理首先通过最后一个隐藏嵌入层执行自动回归潜在思想生成。共享潜在工作内存保留并转移每个代理的内部表示,确保无损信息交换。理论分析和实证评估表明,LatentMAS在表达性、无损信息保留和复杂性方面优于基于文本的传统MAS。此外,在涵盖数学和科学推理、常识理解和代码生成的九个综合基准测试上,LatentMAS始终优于强大的单模型和基于文本的MAS基线,准确率提高高达14.6%,输出令牌使用量减少70.8%-83.7%,端到端推理速度提高4倍至4.3倍。此框架在不进行额外训练的情况下提高了系统级推理质量并实现了显著效率提升。

Key Takeaways

  1. 多智能体系统(MAS)扩展了大型语言模型(LLM)至系统级智能协作。
  2. LatentMAS框架实现LLM代理间的纯粹潜在协作,无需文本介导。
  3. LatentMAS包含自动回归潜在思想生成和共享潜在工作内存机制。
  4. 理论分析显示LatentMAS在表达性、信息保留和复杂性方面优于传统文本MAS。
  5. 实证评估表明LatentMAS在多个基准测试中优于单模型和文本MAS基线。
  6. LatentMAS提高了系统级推理质量,并实现了显著效率提升,包括准确率、输出令牌使用量和推理速度。

Cool Papers

点此查看论文截图

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Authors:Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang

The optimization of large language models (LLMs) remains a critical challenge, particularly as model scaling exacerbates sensitivity to algorithmic imprecision and training instability. Recent advances in optimizers have improved convergence efficiency through momentum orthogonalization, but suffer from two key robustness limitations: dimensional fragility in orthogonalization precision and vulnerability to outlier-induced noise. To address these robustness challenges, we introduce ROOT, a Robust Orthogonalized Optimizer that enhances training stability through dual robustness mechanisms. First, we develop a dimension-robust orthogonalization scheme using adaptive Newton iterations with fine-grained coefficients tailored to specific matrix sizes, ensuring consistent precision across diverse architectural configurations. Second, we introduce an optimization-robust framework via proximal optimization that suppresses outlier noise while preserving meaningful gradient directions. Extensive experiments demonstrate that ROOT achieves significantly improved robustness, with faster convergence and superior final performance compared to both Muon and Adam-based optimizers, particularly in noisy and non-convex scenarios. Our work establishes a new paradigm for developing robust and precise optimizers capable of handling the complexities of modern large-scale model training. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/ROOT.

大型语言模型(LLM)的优化仍然是一个关键挑战,尤其是随着模型规模的扩大,对算法不精确和训练不稳定性的敏感性加剧。虽然最近优化器的进展已经通过动量正交化提高了收敛效率,但它们仍面临两个关键的稳健性限制:正交化精度方面的维度脆弱性和由异常值引起的噪声的脆弱性。为了解决这些稳健性挑战,我们引入了ROOT,这是一种稳健的正交优化器,通过双重稳健机制增强训练稳定性。首先,我们开发了一种维度稳健的正交化方案,使用具有针对特定矩阵大小细粒度系数的自适应牛顿迭代,确保在各种架构配置中的精度一致性。其次,我们通过近端优化引入了一个优化稳健框架,该框架在保留有意义梯度方向的同时抑制了异常值噪声。大量实验表明,ROOT实现了显著的稳健性提升,与Muon和基于Adam的优化器相比,具有更快的收敛速度和更优越的最终性能,特别是在嘈杂和非凸场景中。我们的工作为开发能够处理现代大规模模型训练复杂性的稳健且精确的优化器奠定了新范式。代码将在https://github.com/huawei-noah/noah-research/tree/master/ROOT上提供。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)的优化仍然是一个关键挑战,特别是模型规模的扩大加剧了算法不精确和训练不稳定的问题。尽管最近的优化器进展提高了收敛效率,但仍存在两个关键的鲁棒性限制:正交精度的维度脆弱性和异常值引起的噪声的易感性。为了应对这些鲁棒性挑战,我们引入了ROOT优化器,它通过双重鲁棒机制增强训练稳定性。首先,我们开发了一种针对各种架构配置具有一致精度的维度鲁棒正交化方案,使用具有精细系数的自适应牛顿迭代。其次,我们通过近端优化引入了一种优化鲁棒框架,该框架在保持有意义的梯度方向的同时抑制了异常噪声。实验表明,ROOT在鲁棒性方面取得了显著改进,与Muon和基于Adam的优化器相比,具有更快的收敛速度和更优越的最终性能,特别是在噪声和非凸场景中。我们的工作为开发能够应对现代大规模模型训练复杂性的稳健精确优化器奠定了新范式。

Key Takeaways

  1. 大型语言模型(LLM)的优化存在挑战,特别是在模型规模扩大时面临的算法精确和训练稳定性问题。
  2. 现有优化器虽有进展,但仍存在鲁棒性限制,如正交化精度的维度脆弱性和对异常噪声的易感性。
  3. ROOT优化器通过双重鲁棒机制增强训练稳定性,包括维度鲁棒的正交化方案和优化鲁棒的框架。
  4. ROOT采用自适应牛顿迭代和近端优化技术,旨在提高精度并抑制异常噪声。
  5. 实验结果表明,ROOT在鲁棒性、收敛速度和最终性能上优于其他优化器,特别是在噪声和非凸场景中。
  6. ROOT为开发适应现代大规模模型训练复杂性的稳健精确优化器奠定了新范式。

Cool Papers

点此查看论文截图

Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning

Authors:Panayiotis Danassis, Naman Goel

The rapid proliferation of Large Language Models (LLMs) has revolutionized AI-assisted code generation. This rapid development of LLMs has outpaced our ability to properly benchmark them. Prevailing benchmarks emphasize unit-test pass rates and syntactic correctness. Such metrics understate the difficulty of many real-world problems that require planning, optimization, and strategic interaction. We introduce a multi-agent reasoning-driven benchmark based on a real-world logistics optimization problem (Auction, Pickup, and Delivery Problem) that couples competitive auctions with capacity-constrained routing. The benchmark requires building agents that can (i) bid strategically under uncertainty and (ii) optimize planners that deliver tasks while maximizing profit. We evaluate 40 LLM-coded agents (by a wide range of state-of-the-art LLMs under multiple prompting methodologies, including vibe coding) against 17 human-coded agents developed before the advent of LLMs. Our results over 12 double all-play-all tournaments and $\sim 40$k matches demonstrate (i) a clear superiority of human(graduate students)-coded agents: the top 5 spots are consistently won by human-coded agents, (ii) the majority of LLM-coded agents (33 out of 40) are beaten by very simple baselines, and (iii) given the best human solution as an input and prompted to improve upon, the best performing LLM makes the solution significantly worse instead of improving it. Our results highlight a gap in LLMs’ ability to produce code that works competitively in the real-world, and motivate new evaluations that emphasize reasoning-driven code synthesis in real-world scenarios.

大型语言模型(LLM)的迅速增殖已经彻底改变了AI辅助的代码生成。然而,LLM的快速发展已经超出了我们对其进行适当的基准测试的能力。现有的基准测试强调单元测试通过率和语法正确性。这些指标未能充分反映现实世界问题的难度,这些问题需要规划、优化和策略性互动。我们引入了一个基于现实世界物流优化问题(拍卖、提货和交付问题)的多智能体推理驱动的基准测试,该测试将竞争性拍卖与容量受限的路由相结合。基准测试要求构建能够在不确定性条件下进行战略投标和优化任务的智能体,同时在执行任务时实现利润最大化。我们评估了40个由最新LLM编码的智能体(在多种提示方法下,包括震动编码),与在LLM出现之前开发的17个由人类编码的智能体进行比较。在超过12场的所有对所有人比赛和大约4万场比赛中,我们的结果显示:(一)人类(研究生)编码的智能体的明显优势:前五名始终由人类编码的智能体占据;(二)大多数LLM编码的智能体(40个中有33个)被非常简单的基线所击败;(三)以最佳人类解决方案作为输入并提示进行改进时,性能最佳的LLM不仅没有改善解决方案,反而使其变得更糟。我们的研究结果突显了LLM生成具有现实世界竞争力的代码的能力上的差距,并强调了需要在现实世界的场景中强调推理驱动的代码合成进行新的评估。

论文及项目相关链接

PDF

Summary

随着大型语言模型(LLM)的快速发展,AI辅助代码生成也经历了革命性的变革。然而,现有的评估基准测试未能跟上LLM的发展速度。新的基准测试需要重视规划、优化和战略交互等实际问题的难度,而不仅仅是单元测试通过率和语法正确性。本文引入了一个基于现实世界的物流优化问题(拍卖、拣货和配送问题)的多智能体推理驱动基准测试,该测试结合了竞争性拍卖和容量约束路由。评估结果显示,人类编码的智能体在LLM编码的智能体中表现出色,显示出LLM在生成能在现实世界中竞争工作的代码方面存在差距。

Key Takeaways

  1. 大型语言模型(LLM)在AI辅助代码生成方面取得了重大进展。
  2. 现有LLM评估方法未能充分反映其在解决实际问题时的能力。
  3. 引入了一个基于现实世界的物流优化问题的多智能体推理驱动基准测试。
  4. 评估结果显示人类编码的智能体表现优于LLM编码的智能体。
  5. 大多数LLM编码的智能体被简单基线击败。
  6. 即使以最佳人类解决方案为输入并提示其进行改进,最佳性能的LLM也无法改善解决方案,甚至使其变得更糟。

Cool Papers

点此查看论文截图

On Evaluating LLM Alignment by Evaluating LLMs as Judges

Authors:Yixin Liu, Pengfei Liu, Arman Cohan

Alignment with human preferences is an important evaluation aspect of LLMs, requiring them to be helpful, honest, safe, and to precisely follow human instructions. Evaluating large language models’ (LLMs) alignment typically involves directly assessing their open-ended responses, requiring human annotators or strong LLM judges. Conversely, LLMs themselves have also been extensively evaluated as judges for assessing alignment. In this work, we examine the relationship between LLMs’ generation and evaluation capabilities in aligning with human preferences. To this end, we first conduct a comprehensive analysis of the generation-evaluation consistency (GE-consistency) among various LLMs, revealing a strong correlation between their generation and evaluation capabilities when evaluated by a strong LLM preference oracle. Utilizing this finding, we propose a benchmarking paradigm that measures LLM alignment with human preferences without directly evaluating their generated outputs, instead assessing LLMs in their role as evaluators. Our evaluation shows that our proposed benchmark, AlignEval, matches or surpasses widely used automatic LLM evaluation benchmarks, such as AlpacaEval and Arena-Hard, in capturing human preferences when ranking LLMs. Our study offers valuable insights into the connection between LLMs’ generation and evaluation capabilities, and introduces a benchmark that assesses alignment without directly evaluating model outputs.

与人类偏好一致是评估大型语言模型(LLM)的重要方面,要求它们具有帮助性、诚实、安全的特点,并能精确遵循人类的指令。评估大型语言模型的对齐通常涉及直接评估它们的开放式回应,这需要人类注释者或者强大的LLM裁判。相反,LLM本身也已被广泛用作评估对齐的裁判。在这项工作中,我们研究了LLM生成与评估能力在符合人类偏好方面的关系。为此,我们首先对不同LLM的生成-评估一致性(GE-consistency)进行了综合分析,发现当由强大的LLM偏好神谕进行评估时,它们的生成和评估能力之间存在强烈的相关性。利用这一发现,我们提出了一种衡量LLM与人类偏好对齐的基准测试方法,该方法不直接评估其生成输出,而是评估LLM作为评价者的角色。我们的评估显示,我们提出的AlignEval基准测试在排名LLM时能够匹配或超越广泛使用的自动LLM评估基准,如AlpacaEval和Arena-Hard,在捕捉人类偏好方面。我们的研究揭示了LLM生成与评估能力之间的联系,并引入了一个在不直接评估模型输出的情况下评估对齐的基准测试。

论文及项目相关链接

PDF NeurIPS 2025 Camera Ready

Summary

本文探讨了大型语言模型(LLM)与人类偏好对齐的重要性,包括LLM作为评估者的角色。研究发现,LLM的生成和评估能力之间存在强烈的相关性,特别是在由强大的LLM偏好oracle进行评估时。基于此,提出了一种新的评估范式,即AlignEval,该范式通过评估LLM作为评价者的角色来测量其与人类偏好的对齐程度,而无需直接评估其生成输出。研究表明,AlignEval在捕捉人类偏好并排名LLM方面,可与广泛使用的自动LLM评估基准(如AlpacaEval和Arena-Hard)相匹配甚至超越。

Key Takeaways

  1. LLM与人类偏好对齐是重要的评估方面,要求LLM具有帮助性、诚实性、安全性,并精确遵循人类指令。
  2. LLM的生成和评估能力之间存在强烈的相关性。
  3. 强大的LLM偏好oracle在评估LLM的生成和评估能力时起到关键作用。
  4. 提出了一种新的评估范式AlignEval,通过评估LLM作为评价者的角色来测量其与人类偏好的对齐程度。
  5. AlignEval无需直接评估LLM的生成输出,即可捕捉人类偏好并排名LLM。
  6. AlignEval在捕捉人类偏好方面可与其它广泛的自动LLM评估基准相匹配甚至超越。
  7. 该研究为理解LLM的生成和评估能力之间的联系提供了有价值的见解。

Cool Papers

点此查看论文截图

From Words to Wisdom: Discourse Annotation and Baseline Models for Student Dialogue Understanding

Authors:Farjana Sultana Mim, Shuchin Aeron, Eric Miller, Kristen Wendell

Identifying discourse features in student conversations is quite important for educational researchers to recognize the curricular and pedagogical variables that cause students to engage in constructing knowledge rather than merely completing tasks. The manual analysis of student conversations to identify these discourse features is time-consuming and labor-intensive, which limits the scale and scope of studies. Leveraging natural language processing (NLP) techniques can facilitate the automatic detection of these discourse features, offering educational researchers scalable and data-driven insights. However, existing studies in NLP that focus on discourse in dialogue rarely address educational data. In this work, we address this gap by introducing an annotated educational dialogue dataset of student conversations featuring knowledge construction and task production discourse. We also establish baseline models for automatically predicting these discourse properties for each turn of talk within conversations, using pre-trained large language models GPT-3.5 and Llama-3.1. Experimental results indicate that these state-of-the-art models perform suboptimally on this task, indicating the potential for future research.

对于教育研究者来说,识别学生对话中的话语特征是十分重要的,因为这有助于他们认识到课程和教学变量,这些变量能够促使学生进行知识构建而非仅仅完成任务。手动分析学生对话以识别这些话语特征是一项耗时且劳力密集的工作,从而限制了研究的规模和范围。利用自然语言处理(NLP)技术可以促进这些话语特征的自动检测,为教育研究者提供可伸缩和数据驱动的见解。然而,现有专注于对话中话语的NLP研究很少涉及教育数据。在这项工作中,我们通过引入带有知识构建和任务生产话语的学生对话的注释教育对话数据集来解决这一差距。我们还建立了基线模型,使用预训练的的大型语言模型GPT-3.5和Llama-3.1,可以自动预测对话中每一轮谈话的这些话语特征。实验结果表明,这些最新模型在此任务上的表现并不理想,这显示了未来研究的潜力。

论文及项目相关链接

PDF

Summary

本文强调在教育研究中识别学生对话中的话语特征的重要性,以了解导致学生参与知识构建而非仅完成任务的课程和教学变量。然而,手动分析学生对话以识别这些话语特征既耗时又耗劳力,限制了研究的规模和范围。借助自然语言处理(NLP)技术,可以自动检测这些话语特征,为教育工作者提供可伸缩和基于数据的研究见解。然而,现有的NLP研究很少关注教育数据中的对话话语。为解决这一空白,本文介绍了一个学生对话的教育对话数据集,涵盖了知识构建和任务生产话语的标注。此外,我们还建立了基线模型,使用预训练的LLM GPT-3.5和Llama-3.1自动预测对话中每轮谈话的话语属性。实验结果表明,这些尖端模型在此任务上的表现并不理想,这为未来的研究提供了潜力。

Key Takeaways

  1. 识别学生对话中的话语特征对于理解教育和知识构建过程至关重要。
  2. 手动分析学生对话以识别话语特征既耗时又耗劳力,限制了研究的规模。
  3. 自然语言处理技术可用于自动检测学生对话中的话语特征。
  4. 当前NLP研究在对话话语上针对教育数据的研究还存在缺口。
  5. 教育对话数据集标注了知识构建和任务生产话语的学生对话。
  6. 使用预训练的LLM GPT-3.5和Llama-3.1建立的基线模型在自动预测对话中每轮谈话的话语属性方面表现并不理想。

Cool Papers

点此查看论文截图

Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models

Authors:Shamima Hossain

Visual Language Models (VLMs) are powerful generative tools but often produce factually inaccurate outputs due to a lack of robust reasoning capabilities. While extensive research has been conducted on integrating external knowledge for reasoning in large language models (LLMs), such efforts remain underexplored in VLMs, where the challenge is compounded by the need to bridge multiple modalities seamlessly. This work introduces a framework for knowledge-guided reasoning in VLMs, leveraging structured knowledge graphs for multi-hop verification using image-captioning task to illustrate our framework. Our approach enables systematic reasoning across multiple steps, including visual entity recognition, knowledge graph traversal, and fact-based caption refinement. We evaluate the framework using hierarchical, triple-based and bullet-point based knowledge representations, analyzing their effectiveness in factual accuracy and logical inference. Empirical results show that our approach improves factual accuracy by approximately 31% on preliminary experiments on a curated dataset of mixtures from Google Landmarks v2, Conceptual captions and Coco captions revealing key insights into reasoning patterns and failure modes. This work demonstrates the potential of integrating external knowledge for advancing reasoning in VLMs, paving the way for more reliable and knowledgable multimodal systems.

视觉语言模型(VLMs)是强大的生成工具,但由于缺乏强大的推理能力,通常会产出事实上不准确的输出。虽然关于在大规模语言模型中整合外部知识进行推理的研究已经深入展开,但在视觉语言模型中这样的努力仍然探索不足,而视觉语言模型的挑战在于需要无缝地桥接多种模式。这项工作介绍了一个用于视觉语言模型中的知识引导推理的框架,利用结构化知识图谱进行多跳验证,并使用图像描述任务来阐释我们的框架。我们的方法能够进行系统化的多步骤推理,包括视觉实体识别、知识图谱遍历和基于事实的标题优化。我们使用分层、基于三元组和基于要点的方法来表示知识,分析它们在事实准确性和逻辑推断方面的有效性。实证结果表明,我们的方法在Google地标v2、概念描述和Coco标题的精选数据集上初步实验,事实准确性提高了约31%,揭示了关于推理模式和失败模式的深刻见解。这项工作展示了整合外部知识推进视觉语言模型中的推理的潜力,为更可靠和知识丰富的多模式系统铺平了道路。

论文及项目相关链接

PDF Accepted as poster at NewInML Workshop ICML, 2025

摘要

视觉语言模型(VLMs)作为强大的生成工具,常常因缺乏稳健的推理能力而产生事实上不准确的输出。尽管在大型语言模型(LLMs)中整合外部知识以进行推理的研究已经相当丰富,但在VLMs中这方面的研究仍然较少。在VLMs中,需要无缝地跨越多个模态,这一挑战更加复杂。本研究引入了一个知识引导推理的框架,利用结构化的知识图谱进行多跳验证,并通过图像描述任务来阐述我们的框架。我们的方法能够系统地跨越多个步骤进行推理,包括视觉实体识别、知识图谱遍历和基于事实的标题优化。我们使用分层、三元组基础和要点为基础的知识表示来评估该框架,分析它们在事实准确性和逻辑推断方面的有效性。实证结果表明,我们的方法在精选的数据集上,通过在Google Landmarks v2、概念性标题和Coco标题的混合数据集上进行初步实验,事实准确性提高了约31%,揭示了推理模式和失败模式的关键见解。本研究展示了整合外部知识以推进VLMs中推理的潜力,为开发更可靠、更具知识性的多模态系统奠定了基础。

关键见解

  1. VLMs因缺乏稳健推理能力而常产生不准确输出。
  2. 在VLMs中整合外部知识以进行推理是一个未被充分研究的领域。
  3. 研究引入了知识引导推理的框架,利用结构化的知识图谱进行多跳验证。
  4. 该方法能够系统地跨越多个步骤进行推理,包括视觉实体识别、知识图谱遍历和基于事实的标题优化。
  5. 使用了多种知识表示方法来评估框架的有效性,包括分层、三元组基础和要点为基础的知识表示。
  6. 实证结果表明,该框架能够提高事实准确性约31%。

Cool Papers

点此查看论文截图

Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos

Authors:Yayuan Li, Aadit Jain, Filippos Bellos, Jason J. Corso

We introduce Mistake Attribution (MATT), a task for fine-grained understanding of human mistakes in egocentric video. Unlike prior mistake understanding work, which lacks fine-grained output, MATT concretely attributes mistakes to the input instruction text or the attempt video. MATT determines what part of the instruction is violated (semantic role), when the deviation becomes irreversible (the Point-of-No-Return, PNR), and where the mistake appears in the PNR frame. We develop MisEngine, a data engine that automatically constructs attribution-rich mistake samples from existing datasets and inherits their annotations. Applied to large egocentric corpora, MisEngine yields EPIC-KITCHENS-M and Ego4D-M, two datasets that are up to two orders of magnitude larger than prior mistake datasets. We then present MisFormer, a unified attention-based model for mistake attribution across semantic (what), temporal (when), and spatial (where) dimensions, trained using MisEngine supervision. Experiments on our new datasets and prior benchmarks show that MisFormer outperforms strong video-language, temporal localization, hand-object interaction, and mistake-detection baselines.

我们引入了“错误归因”(Mistake Attribution,简称MATT)的任务,这是对于以自我为中心的视频中人类错误的精细理解。与先前的缺乏精细输出的错误理解工作不同,MATT能够具体地将错误归因于输入的指令文本或尝试视频。MATT确定了哪部分指令被违反(语义角色),何时偏差变得不可逆(无返回点PNR),以及错误出现在PNR帧的哪个位置。我们开发了MisEngine数据引擎,它能够自动从现有数据集中构建丰富的错误样本并继承其注释。应用于大型以自我为中心的数据集,MisEngine产生了EPIC-KITCHENS-M和Ego4D-M两个数据集,这两个数据集的大小比先前的错误数据集大两个数量级。然后,我们推出了MisFormer,这是一个统一的基于注意力的模型,用于语义(什么)、时间(何时)和空间(何地)维度的错误归因,使用MisEngine的监督进行训练。在我们新的数据集和先前基准测试上的实验表明,MisFormer超越了强大的视频语言、时间定位、手物交互和错误检测基线。

论文及项目相关链接

PDF 11 pages, 4 figures, 6 tables

摘要

本文介绍了面向以自我为中心的视频中的人的错误理解的细粒度任务——错误归因(MATT)。与先前的缺乏精细输出的错误理解工作不同,MATT能够将错误具体归因于输入的指令文本或尝试的视频。MATT确定了指令中违反的部分(语义角色)、偏差变得不可逆的时间点(不可逆转点,PNR),以及在PNR帧中错误出现的位置。本文开发了MisEngine数据引擎,它能够自动从现有数据集中构建丰富的错误样本并继承其注释。应用于大规模的以自我为中心的数据集,产生了EPIC-KITCHENS-M和Ego4D-M两个数据集,这两个数据集的大小比先前的错误数据集大两个数量级。然后,本文提出了MisFormer模型,这是一个统一的基于注意力的模型,用于语义、时间和空间的错误归因。在新型数据集和先前基准测试上的实验表明,MisFormer优于强大的视频语言、时间定位、手物交互和错误检测基线模型。

关键见解

  1. 介绍了错误归因(MATT)任务,该任务旨在理解以自我为中心的视频中的错误,并能将错误具体归因于输入指令或尝试视频的不同部分。
  2. 定义了语义角色、不可逆转点(PNR)以及错误在PNR帧中的位置,这些都是理解视频中错误的关键要素。
  3. 开发了MisEngine数据引擎,能够从现有数据集中自动构建丰富的错误样本,并继承了其注释,生成了两个新的大型数据集EPIC-KITCHENS-M和Ego4D-M。
  4. 提出了MisFormer模型,一个统一的基于注意力的模型,用于跨语义、时间和空间的错误归因。
  5. MisFormer在新型数据集和先前基准测试上的表现优于其他模型,包括视频语言模型、时间定位模型、手物交互模型和错误检测模型。
  6. 通过错误归因任务,能更好地理解和分析人类在执行任务时的错误行为,有助于提升人机交互的效率和准确性。

Cool Papers

点此查看论文截图

MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology

Authors:Kiril Vasilev, Alexandre Misrahi, Eeshaan Jain, Phil F Cheng, Petros Liakopoulos, Olivier Michielin, Michael Moor, Charlotte Bunne

Multimodal Large Language Models (LLMs) hold promise for biomedical reasoning, but current benchmarks fail to capture the complexity of real-world clinical workflows. Existing evaluations primarily assess unimodal, decontextualized question-answering, overlooking multi-agent decision-making environments such as Molecular Tumor Boards (MTBs). MTBs bring together diverse experts in oncology, where diagnostic and prognostic tasks require integrating heterogeneous data and evolving insights over time. Current benchmarks lack this longitudinal and multimodal complexity. We introduce MTBBench, an agentic benchmark simulating MTB-style decision-making through clinically challenging, multimodal, and longitudinal oncology questions. Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance. We benchmark multiple open and closed-source LLMs and show that, even at scale, they lack reliability – frequently hallucinating, struggling with reasoning from time-resolved data, and failing to reconcile conflicting evidence or different modalities. To address these limitations, MTBBench goes beyond benchmarking by providing an agentic framework with foundation model-based tools that enhance multi-modal and longitudinal reasoning, leading to task-level performance gains of up to 9.0% and 11.2%, respectively. Overall, MTBBench offers a challenging and realistic testbed for advancing multimodal LLM reasoning, reliability, and tool-use with a focus on MTB environments in precision oncology.

多模态大型语言模型(LLM)在生物医学推理方面展现出巨大的潜力,但当前的基准测试未能捕捉到真实世界临床工作流程的复杂性。现有的评估主要侧重于单模态、去语境化的问答,忽视了多智能体决策环境,如分子肿瘤委员会(MTBs)。MTBs汇集了肿瘤学领域的不同专家,其中诊断和预后任务需要随时间整合异质数据和不断发展的见解。当前基准测试缺乏这种纵向和多模态的复杂性。我们引入了MTBBench,这是一个模拟MTB式决策制定的智能体基准测试,通过具有挑战性的临床肿瘤学问题,涉及多模态和纵向分析。通过共同开发的应用程序,临床医师验证了真实标注,确保临床相关性。我们对多个开源和闭源的LLM进行了基准测试,并表明即使在规模上,它们的可靠性也较差——经常虚构信息,难以从时间解析数据中推理,无法调和相互矛盾的证据或不同模态。为了解决这些局限性,MTBBench不仅提供基准测试,而且提供了一个智能框架,基于基础模型工具,增强多模态和纵向推理能力,分别实现了高达9.0%和11.2%的任务级别性能提升。总体而言,MTBBench为推进多模态LLM推理、可靠性和工具使用提供了一个具有挑战性和现实意义的测试平台,重点关注精准肿瘤学领域的MTB环境。

论文及项目相关链接

PDF Accepted to NeurIPS 2025

Summary

多模态大型语言模型(LLM)在生物医学推理中展现潜力,但现有评估标准未能全面反映现实临床工作的复杂性。现有标准主要评估单模态的脱离上下文的问题回答,忽略了多智能体决策环境,如分子肿瘤委员会(MTB)。MTB汇集了肿瘤学领域的不同专家,诊断与预后任务需要整合异质数据和随时间演变的见解。当前标准缺乏这种纵向和多模态的复杂性。本文介绍了MTBBench,这是一个模拟MTB式决策的代理基准测试,通过临床具有挑战性、多模态和纵向的肿瘤学问题进行评估。通过共同开发的应用程序验证临床相关的真实注释,确保临床相关性。我们对多个开源和闭源的LLM进行了基准测试,并显示即使在规模上,它们也缺乏可靠性——经常虚构信息,难以从时间分辨数据中推理,并无法调和相互矛盾的证据或不同模态。为解决这些局限性,MTBBench提供了一个超越基准测试的代理框架,利用基于基础模型的工具增强了多模态和纵向推理能力,分别提高了任务级别的性能高达9.0%和11.2%。总体而言,MTBBench为推进多模态LLM推理、可靠性和工具使用提供了一个具有挑战性的现实测试平台,重点关注MTB在精准肿瘤学环境中的应用。

Key Takeaways

  1. 多模态大型语言模型(LLM)在生物医学推理中具有潜力。
  2. 当前评估标准未能全面反映现实临床工作的复杂性,尤其是多智能体决策环境如分子肿瘤委员会(MTB)。
  3. MTBBench模拟MTB式决策,评估多模态和纵向的肿瘤学问题。
  4. 现有LLM在可靠性和处理复杂任务方面存在局限性,如处理时间分辨数据、调和不同证据和模态等。
  5. MTBBench提供了一个超越基准测试的代理框架,利用基础模型增强多模态和纵向推理。
  6. 在任务级别性能上,该框架可提供高达9.0%和11.2%的提升。

Cool Papers

点此查看论文截图

Universe of Thoughts: Enabling Creative Reasoning with Large Language Models

Authors:Yuto Suzuki, Farnoush Banaei-Kashani

Reasoning based on Large Language Models (LLMs) has garnered increasing attention due to outstanding performance of these models in mathematical and complex logical tasks. Beginning with the Chain-of-Thought (CoT) prompting technique, numerous reasoning methods have emerged that decompose problems into smaller, sequential steps (or thoughts). However, existing reasoning models focus on conventional problem-solving and do not necessarily generate creative solutions by ``creative reasoning’’. In domains where the solution space is expansive and conventional solutions are suboptimal, such as drug discovery or business strategization, creative reasoning to discover innovative solutions is crucial. To address this gap, first we introduce a computational framework for creative reasoning inspired by established cognitive science principles. With this framework, we propose three core creative reasoning paradigms, namely, \textit{combinational}, \textit{exploratory}, and \textit{transformative} reasoning, where each offers specific directions for systematic exploration of the universe of thoughts to generate creative solutions. Next, to materialize this framework using LLMs, we introduce the \textit{Universe of Thoughts} (or \textit{UoT}, for short), a novel set of methods to implement the aforementioned three creative processes. Finally, we introduce three novel tasks that necessitate creative problem-solving, along with an evaluation benchmark to assess creativity from three orthogonal perspectives: feasibility as constraint, and utility and novelty as metrics. With a comparative analysis against the state-of-the-art (SOTA) reasoning techniques as well as representative commercial models with reasoning capability, we show that UoT demonstrates superior performance in creative reasoning.

基于大型语言模型(LLM)的推理已引起越来越多的关注,因为这些模型在数学和复杂逻辑任务中表现出卓越的性能。从思维链(CoT)提示技术开始,出现了许多推理方法,将问题分解为更小、连续的步骤(或思维)。然而,现有的推理模型主要关注传统的问题解决,并不一定通过“创造性推理”产生创造性解决方案。在解决方案空间广阔且传统解决方案不够理想的环境中,如药物发现或业务战略规划,通过创造性推理来发现创新解决方案至关重要。

为了弥补这一空白,我们首先引入了一个受认知科学原则启发的计算框架来进行创造性推理。使用这个框架,我们提出了三种核心创造性推理范式,即组合推理、探索性推理和变革性推理,每一种都为系统地探索思维宇宙以产生创造性解决方案提供了特定的方向。接下来,为了使用LLM实现该框架,我们引入了“思维宇宙”(或简称UoT),这是一组实现上述三种创造性过程的新方法。最后,我们引入了三个需要创造性解决问题的新任务,并制定了评估创造力的基准测试,从可行性作为约束以及效用和新颖性作为指标这三个正交视角进行评估。通过与最新推理技术以及具有推理能力的代表性商业模型的比较分析,我们证明了UoT在创造性推理方面表现出卓越的性能。

论文及项目相关链接

PDF

Summary

基于大型语言模型(LLM)的推理已引起广泛关注,这些模型在数学和复杂逻辑任务中表现出卓越性能。随着思维链(CoT)提示技术的出现,许多推理方法已经涌现,将问题分解为更小、连续的步骤。然而,现有推理模型侧重于传统问题解决,并不一定能通过“创造性推理”发现创新解决方案。在解决方案空间广阔且传统解决方案不佳的领域,如药物发现或业务策略制定中,创造性推理至关重要。为弥补这一空白,我们受到认知科学原则的启发,提出了一个计算创造性推理的框架。在此基础上,我们提出了三种核心创造性推理范式:组合推理、探索性推理和变革性推理。为了利用大型语言模型实现这一框架,我们引入了“思维宇宙”(UoT)。此外,我们还介绍了三种需要创造性解决问题的任务和一个评估创造力的标准。通过与当前的最佳推理技术以及具有推理能力的代表性商业模型进行对比分析,结果表明思维宇宙在创造性推理方面表现出卓越的性能。

Key Takeaways

  1. 大型语言模型(LLM)在数学和复杂逻辑任务中表现出卓越性能,并受到广泛关注。
  2. 思维链(CoT)提示技术为分解问题提供了一种有效方法。
  3. 现有推理模型侧重于传统问题解决,缺乏创造性推理能力。
  4. 在解决方案空间广阔的领域,如药物发现和业务策略制定中,创造性推理至关重要。
  5. 提出了一个计算创造性推理的框架和三种核心创造性推理范式。
  6. 引入了“思维宇宙”(UoT)这一方法来实现上述创造性推理框架。

Cool Papers

点此查看论文截图

DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs

Authors:Yuanhao Li, Mingshan Liu, Hongbo Wang, Yiding Zhang, Yifei Ma, Wei Tan

Large Language Models (LLMs) have shown impressive capabilities in multi-step reasoning and problem-solving.Recent works introduce multi-agent reflection frameworks where multiple LLM agents critique and refine each other’s outputs using reinforcement learning (RL). However, these approaches often rely on single-shot responses and lack structural diversity in reasoning exploration. In this paper, we propose DRAFT-RL, a novel framework that integrates Chain-of-Draft (CoD) reasoning into multi-agent RL training. Instead of generating single responses, each agent produces multiple drafts per query, which are then evaluated by peer agents and a learned reward model to identify the most promising trajectory. These selected drafts are used to refine future reasoning strategies through actor-critic learning.DRAFT-RL enables explicit multi-path exploration, peer-guided reflection, and reward-aligned selection, resulting in more robust and interpretable LLM agent behavior. We evaluate our method on complex reasoning tasks including code synthesis, symbolic math, and knowledge-intensive QA,demonstrating that DRAFT-RL outperforms existing reflective and RL-based agents by significant margins in both accuracy and convergence speed

大型语言模型(LLM)在多步推理和问题解决方面展现出了令人印象深刻的能力。近期的工作引入了多智能体反思框架,其中多个LLM智能体使用强化学习(RL)相互批判和精炼彼此的输出来实现进步。然而,这些方法通常依赖于单轮响应,并且在推理探索中缺乏结构多样性。在本文中,我们提出了DRAFT-RL这一新型框架,它将草稿链(CoD)推理集成到多智能体RL训练中。不同于生成单一响应,每个智能体会针对每个查询生成多个草稿,然后通过同行智能体和学到的奖励模型对这些草稿进行评估,以找出最有前途的轨迹。这些选定的草稿被用来通过actor-critic学习精炼未来的推理策略。DRAFT-RL能够实现明确的多元路径探索、同行引导反思和奖励对齐选择,从而得到更稳健和可解释的大型语言模型智能体行为。我们在包括代码合成、符号数学和知识密集型问答等复杂推理任务上评估了我们的方法,证明在准确率和收敛速度方面,DRAFT-RL显著优于现有的反思和基于RL的智能体。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)在多步推理和问题解决方面展现出令人印象深刻的能力。最新工作引入了多智能体反思框架,其中多个LLM智能体使用强化学习(RL)相互批评和精炼输出。然而,这些方法通常依赖于单步响应,缺乏推理探索的结构多样性。本文提出一种新型框架DRAFT-RL,将草稿链(CoD)推理集成到多智能体RL训练中。每个智能体不是生成单个响应,而是针对每个查询生成多个草稿,然后通过同行智能体和学到的奖励模型进行评估,以识别最有前途的轨迹。这些选定的草稿用于通过actor-critic学习精炼未来的推理策略。DRAFT-RL实现了显式多路径探索、同行引导反思和奖励对齐选择,使LLM智能体行为更加稳健和可解释。在代码合成、符号数学和知识密集型问答等复杂推理任务上,我们的方法表现出显著的优势,在准确性和收敛速度上均优于现有的反思和RL智能体。

Key Takeaways

  1. LLM在多步推理和问题解决方面表现出强大的能力。
  2. 多智能体反思框架允许LLM智能体相互批评和精炼输出。
  3. 现有方法通常局限于单步响应,缺乏推理探索的结构多样性。
  4. DRAFT-RL框架集成了草稿链(CoD)推理和多智能体强化学习(RL)。
  5. 每个智能体生成多个草稿,通过同行评估和奖励模型选择最佳轨迹。
  6. 选定的草稿用于精炼未来的推理策略,通过actor-critic学习。

Cool Papers

点此查看论文截图

The Case for Intent-Based Query Rewriting

Authors:Gianna Lisa Nicolai, Patrick Hansert, Sebastian Michel

With this work, we describe the concept of intent-based query rewriting and present a first viable solution. The aim is to allow rewrites to alter the structure and syntactic outcome of an original query while keeping the obtainable insights intact. This drastically differs from traditional query rewriting, which typically aims to decrease query evaluation time by using strict equivalence rules and optimization heuristics on the query plan. Rewriting queries to queries that only provide a similar insight but otherwise can be entirely different can remedy inaccessible original data tables due to access control, privacy, or expensive data access regarding monetary cost or remote access. In this paper, we put forward INQURE, a system designed for INtent-based QUery REwriting. It uses access to a large language model (LLM) for the query understanding and human-like derivation of alternate queries. Around the LLM, INQURE employs upfront table filtering and subsequent candidate rewrite pruning and ranking. We report on the results of an evaluation using a benchmark set of over 900 database table schemas and discuss the pros and cons of alternate approaches regarding runtime and quality of the rewrites of a user study.

在这项工作中,我们描述了基于意图的查询重写概念,并提出了一种可行的解决方案。我们的目标是允许重写改变原始查询的结构和句法结果,同时保持可获得的见解的完整性。这与传统的查询重写方法有很大的不同,传统的方法通常旨在通过严格的等价规则和查询计划上的优化启发式来减少查询评估时间。将查询重写为只提供类似见解但其他方面可以完全不同的查询,可以补救因访问控制、隐私或涉及货币成本或远程访问的高昂数据访问而导致的原始数据表无法访问的问题。在本文中,我们提出了INQURE系统,这是一个为基于意图的查询重写设计的系统。它使用对大型语言模型的访问来进行查询理解和类似人类的替代查询推导。INQURE围绕大型语言模型进行预先表格过滤,随后进行候选重写修剪和排名。我们使用包含超过900个数据库表模式的基准测试集对结果进行了评估,并讨论了关于运行时间和重写质量的不同方法的优缺点,并进行了用户研究。

论文及项目相关链接

PDF Published in the 2nd International Workshop on Data-driven AI (DATAI) 2025

Summary
本文介绍了基于意图的查询重写概念,并提出了一种可行的解决方案。旨在允许重写改变原始查询的结构和句法结果,同时保持可获得的见解不变。这与传统查询重写不同,传统查询重写主要通过使用严格的等价规则和查询计划的优化启发式来减少查询评估时间。基于意图的查询重写可以修正由于访问控制、隐私或货币成本或远程访问而导致无法访问的原始数据表。本文提出了INQURE系统,用于基于意图的查询重写。它利用大型语言模型(LLM)进行查询理解和人类衍生的替代查询。围绕LLM,INQURE采用前置表过滤和后续候选重写修剪和排名。

Key Takeaways

  1. 引入意图基于的查询重写概念,旨在保持查询见解的同时改变查询的结构和句法。
  2. 与传统查询重写不同,新方法关注于修正无法访问数据表的问题,如访问控制、隐私和成本等。
  3. 提出INQURE系统,利用大型语言模型(LLM)进行基于意图的查询重写。
  4. INQURE系统使用LLM进行前置表过滤和候选重写修剪及排名。
  5. 对超过900个数据库表模式基准测试集进行了评估。
  6. 讨论了不同方法的优缺点,关于运行时间和重写质量。

Cool Papers

点此查看论文截图

Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits

Authors:Areeb Ahmad, Abhinav Joshi, Ashutosh Modi

Transformer-based language models exhibit complex and distributed behavior, yet their internal computations remain poorly understood. Existing mechanistic interpretability methods typically treat attention heads and multilayer perceptron layers (MLPs) (the building blocks of a transformer architecture) as indivisible units, overlooking possibilities of functional substructure learned within them. In this work, we introduce a more fine-grained perspective that decomposes these components into orthogonal singular directions, revealing superposed and independent computations within a single head or MLP. We validate our perspective on widely used standard tasks like Indirect Object Identification (IOI), Gender Pronoun (GP), and Greater Than (GT), showing that previously identified canonical functional heads, such as the name mover, encode multiple overlapping subfunctions aligned with distinct singular directions. Nodes in a computational graph, that are previously identified as circuit elements show strong activation along specific low-rank directions, suggesting that meaningful computations reside in compact subspaces. While some directions remain challenging to interpret fully, our results highlight that transformer computations are more distributed, structured, and compositional than previously assumed. This perspective opens new avenues for fine-grained mechanistic interpretability and a deeper understanding of model internals.

基于Transformer的语言模型展现出复杂且分布式的行为,但其内部计算过程仍然鲜为人知。现有的机械解释方法通常将注意力头和多层感知器层(MLP)(Transformer架构的基本构建块)视为不可分割的单位,忽略了在其中学习功能子结构的可能性。在这项工作中,我们引入了更精细的视角,将这些组件分解成正交奇异方向,揭示单个头部或MLP内部的叠加和独立计算。我们在广泛使用的标准任务(如间接对象识别(IOI)、性别代词(GP)和大于(GT))上验证了我们的观点,表明先前确定的规范功能头部,如名称移动器,编码与不同奇异方向对齐的多个重叠子功能。在计算图中的节点,先前被识别为电路元件的节点在特定的低阶方向上表现出强烈的激活,这表明有意义的计算位于紧凑的子空间中。虽然一些方向仍然完全难以解释,但我们的结果强调,Transformer的计算比以前假设的更加分布式、结构化和组合式。这种视角开辟了精细的机械解释性和对模型内部更深理解的新途径。

论文及项目相关链接

PDF Accepted at NeurIPS 2025

Summary
深度学习中的Transformer模型结构复杂,难以完全理解其内部计算过程。现有解释性方法往往将注意力头和多层感知器层视为不可分割的整体,忽略了其内部可能存在的功能子结构。本研究提出了一种更精细的视角,将注意力头或多层感知器层分解为正交奇异方向,揭示单一头或层内的独立计算。本研究在间接对象识别、性别代词和大于任务上的验证表明,先前发现的典型功能头包含多个与特定奇异方向对齐的重叠子功能。这意味着有意义的计算存在于紧凑的子空间中,尽管一些方向仍难以完全解释。本研究结果揭示了Transformer计算的分布式、结构化和组合性特征比先前假设的更明显,为精细的机械解释性和模型的深层理解提供了新的途径。

Key Takeaways

  1. Transformer模型内部计算复杂,难以完全理解。
  2. 现有解释性方法忽略了注意力头和多层感知器层内的功能子结构。
  3. 本研究提出将注意力头或多层感知器层分解为正交奇异方向,揭示独立计算。
  4. 在多种任务上的验证表明,典型功能头包含多个重叠子功能。
  5. 有意义的计算存在于紧凑的子空间中。
  6. 一些内部计算方向仍难以完全解释。

Cool Papers

点此查看论文截图

In-Context Compositional Learning via Sparse Coding Transformer

Authors:Wei Chen, Jingxi Yu, Zichen Miao, Qiang Qiu

Transformer architectures have achieved remarkable success across language, vision, and multimodal tasks, and there is growing demand for them to address in-context compositional learning tasks. In these tasks, models solve the target problems by inferring compositional rules from context examples, which are composed of basic components structured by underlying rules. However, some of these tasks remain challenging for Transformers, which are not inherently designed to handle compositional tasks and offer limited structural inductive bias. In this work, inspired by the principle of sparse coding, we propose a reformulation of the attention to enhance its capability for compositional tasks. In sparse coding, data are represented as sparse combinations of dictionary atoms with coefficients that capture their compositional rules. Specifically, we reinterpret the attention block as a mapping of inputs into outputs through projections onto two sets of learned dictionary atoms: an encoding dictionary and a decoding dictionary. The encoding dictionary decomposes the input into a set of coefficients, which represent the compositional structure of the input. To enhance structured representations, we impose sparsity on these coefficients. The sparse coefficients are then used to linearly combine the decoding dictionary atoms to generate the output. Furthermore, to assist compositional generalization tasks, we propose estimating the coefficients of the target problem as a linear combination of the coefficients obtained from the context examples. We demonstrate the effectiveness of our approach on the S-RAVEN and RAVEN datasets. For certain compositional generalization tasks, our method maintains performance even when standard Transformers fail, owing to its ability to learn and apply compositional rules.

Transformer架构在语言、视觉和多模态任务中取得了显著的成功,并且对其处理上下文组合学习任务的需求也在日益增长。在这些任务中,模型通过从上下文示例推断组合规则来解决目标问题,这些组合规则由基础组件按照底层规则构成。然而,对于一些任务来说,Transformer仍然面临挑战,因为它们并非天生就设计用于处理组合任务,并且提供的结构性归纳偏见有限。在这项工作中,受到稀疏编码原理的启发,我们提出了对注意力机制的重新表述,以增强其在组合任务上的能力。在稀疏编码中,数据被表示为字典原子的稀疏组合,系数捕捉其组合规则。具体来说,我们重新解释注意力块的作用,即通过投影将输入映射到两组学习到的字典原子上输出:一个编码字典和一个解码字典。编码字典将输入分解成一组系数,这些系数代表输入的组成结构。为了增强结构化表示,我们对这些系数施加了稀疏性。然后,这些稀疏系数用于线性组合解码字典原子以生成输出。此外,为了辅助组合泛化任务,我们提出将目标问题的系数估计为从上下文示例中获得的系数的线性组合。我们在S-RAVEN和RAVEN数据集上展示了我们的方法的有效性。对于某些组合泛化任务,由于能够学习和应用组合规则,我们的方法在标准Transformer失败的情况下仍能保持性能。

论文及项目相关链接

PDF NeurIPS 2025

Summary

本文介绍了Transformer架构在处理上下文组合学习任务时的挑战,并提出了一种基于稀疏编码原理的注意力机制改革方案。文中通过引入编码字典与解码字典,将输入映射为输出,通过分解输入生成系数以表达其组合结构,并在系数上施加稀疏性以增强结构化表示。该方法能够在组合泛化任务中通过估算目标问题的系数与上下文例子的系数线性组合来辅助完成任务。实验在S-RAVEN和RAVEN数据集上验证了方法的有效性,对于某些组合泛化任务,当标准Transformer失效时,该方法仍能维持性能。

Key Takeaways

  1. Transformer架构在处理上下文组合学习任务时面临挑战。
  2. 本文提出了基于稀疏编码原理的注意力机制改革方案,以应对这一挑战。
  3. 通过引入编码字典与解码字典,将输入映射为输出。
  4. 系数代表输入的组合结构,并在系数上施加稀疏性以增强结构化表示。
  5. 方法能够在组合泛化任务中通过估算目标问题的系数与上下文例子的系数线性组合来辅助完成任务。
  6. 实验在S-RAVEN和RAVEN数据集上验证了方法的有效性。

Cool Papers

点此查看论文截图

A Systematic Analysis of Large Language Models with RAG-enabled Dynamic Prompting for Medical Error Detection and Correction

Authors:Farzad Ahmed, Joniel Augustine Jerome, Meliha Yetisgen, Özlem Uzuner

Objective: Clinical documentation contains factual, diagnostic, and management errors that can compromise patient safety. Large language models (LLMs) may help detect and correct such errors, but their behavior under different prompting strategies remains unclear. We evaluate zero-shot prompting, static prompting with random exemplars (SPR), and retrieval-augmented dynamic prompting (RDP) for three subtasks of medical error processing: error flag detection, error sentence detection, and error correction. Methods: Using the MEDEC dataset, we evaluated nine instruction-tuned LLMs (GPT, Claude, Gemini, and OpenAI o-series models). We measured performance using accuracy, recall, false-positive rate (FPR), and an aggregate score of ROUGE-1, BLEURT, and BERTScore for error correction. We also analyzed example outputs to identify failure modes and differences between LLM and clinician reasoning. Results: Zero-shot prompting showed low recall in both detection tasks, often missing abbreviation-heavy or atypical errors. SPR improved recall but increased FPR. Across all nine LLMs, RDP reduced FPR by about 15 percent, improved recall by 5 to 10 percent in error sentence detection, and generated more contextually accurate corrections. Conclusion: Across diverse LLMs, RDP outperforms zero-shot and SPR prompting. Using retrieved exemplars improves detection accuracy, reduces false positives, and enhances the reliability of medical error correction.

目标:临床文档中包含可能影响患者安全的事实、诊断和管理错误。大型语言模型(LLM)有助于检测并纠正这些错误,但在不同的提示策略下其行为尚不清楚。我们评估了零样本提示、带有随机范例的静态提示(SPR)和检索增强动态提示(RDP)在医疗错误处理的三个子任务中的表现:错误标记检测、错误句子检测和错误纠正。

方法:使用MEDEC数据集,我们评估了九个指令微调LLM(GPT、Claude、Gemini和OpenAI o系列模型)。我们使用准确性、召回率、误报率(FPR)以及用于错误纠正的ROUGE-1、BLEURT和BERTScore的综合分数来衡量性能。我们还分析了示例输出来识别LLM和临床医生推理之间的失败模式和差异。

结果:零样本提示在两项检测任务中的召回率均较低,常常无法识别出缩略语繁多或典型的错误。静态提示(SPR)提高了召回率,但增加了误报率。在所有九个LLM中,RDP将FPR降低了约15%,在错误句子检测中的召回率提高了5%至10%,并生成了更具上下文准确性的修正。

论文及项目相关链接

PDF

Summary

基于大规模语言模型(LLM)在不同提示策略下对医疗错误处理的研究表明,检索增强动态提示(RDP)在错误检测、错误句子检测和错误纠正三个子任务中的性能表现最佳。与零样本提示和静态提示相比,RDP能降低误报率(FPR),提高召回率和精确度。这表明使用检索到的示例改进了医疗错误检测与纠正的可靠性。

Key Takeaways

  1. LLMs在医疗错误处理方面有很大潜力,能有效检测并纠正临床文档中的事实性、诊断性和管理性错误。
  2. 研究评估了三种提示策略:零样本提示、带有随机范例的静态提示(SPR)和检索增强动态提示(RDP)。
  3. RDP策略相较于其他策略表现出更高的性能,能降低误报率(FPR),提高召回率和精确度。
  4. RDP通过利用检索到的示例,增强了医疗错误检测的准确性,提高了纠正错误的上下文敏感性。
  5. 零样本提示在检测任务中召回率较低,容易忽略缩写或非常规错误。
  6. 静态提示虽然能提高召回率,但也可能增加误报率。

Cool Papers

点此查看论文截图

When to Think and When to Look: Uncertainty-Guided Lookback

Authors:Jing Bi, Filippos Bellos, Junjia Guo, Yayuan Li, Chao Huang, Yolo Y. Tang, Luchuan Song, Susan Liang, Zhongfei Mark Zhang, Jason J. Corso, Chenliang Xu

Test-time thinking (that is, generating explicit intermediate reasoning chains) is known to boost performance in large language models and has recently shown strong gains for large vision language models (LVLMs). However, despite these promising results, there is still no systematic analysis of how thinking actually affects visual reasoning. We provide the first such analysis with a large scale, controlled comparison of thinking for LVLMs, evaluating ten variants from the InternVL3.5 and Qwen3-VL families on MMMU-val under generous token budgets and multi pass decoding. We show that more thinking is not always better; long chains often yield long wrong trajectories that ignore the image and underperform the same models run in standard instruct mode. A deeper analysis reveals that certain short lookback phrases, which explicitly refer back to the image, are strongly enriched in successful trajectories and correlate with better visual grounding. Building on this insight, we propose uncertainty guided lookback, a training free decoding strategy that combines an uncertainty signal with adaptive lookback prompts and breadth search. Our method improves overall MMMU performance, delivers the largest gains in categories where standard thinking is weak, and outperforms several strong decoding baselines, setting a new state of the art under fixed model families and token budgets. We further show that this decoding strategy generalizes, yielding consistent improvements on five additional benchmarks, including two broad multimodal suites and math focused visual reasoning datasets.

测试时的思考(即生成明确的中间推理链)在大型语言模型中已知可以提升性能,并且最近在大规模视觉语言模型(LVLMs)中显示出强大的增益。然而,尽管这些结果很有希望,但目前仍没有关于思考如何实际影响视觉推理的系统性分析。我们首次进行了这样的分析,对LVLMs的思考进行了大规模、受控的比较,在宽松的令牌预算和多通道解码下,对InternVL3.5和Qwen3-VL系列的十个变体进行了MMMU-val评估。我们展示并不是思考越多越好;长的链条经常会带来忽视图像的错误轨迹,并且在标准指令模式下表现不佳。更深入的分析表明,某些简短回顾短语(明确指回图像)在成功轨迹中大量存在,并与更好的视觉定位相关。基于这一见解,我们提出了不确定性引导回顾,这是一种无需训练即可解码的策略,它将不确定性信号与自适应回顾提示和广度搜索相结合。我们的方法提高了整体的MMMU性能,在标准思考较弱的类别中取得了最大的收益,并超越了多个强大的解码基线,在固定的模型家族和令牌预算下达到了最新的技术水准。我们进一步表明,这种解码策略可以通用化,在五个额外的基准测试中带来了持续不断的改进,包括两个广泛的多模式套件和数学导向的视觉推理数据集。

论文及项目相关链接

PDF

Summary

测试时的思考(即生成明确的中间推理链)已知可以提升大语言模型的性能,并最近显示出对大型视觉语言模型(LVLMs)的强烈增益。然而,尽管结果令人鼓舞,但目前还没有系统的分析思考如何实际影响视觉推理。我们提供了首个这样的分析,对LVLMs的思考进行大规模、受控比较,评估InternVL3.5和Qwen3-VL家族中的十个变体在MMMU-val下的宽裕令牌预算和多通道解码。我们发现更多的思考并不总是更好;长链往往会产生忽视图像的错误轨迹,并且在标准指令模式下表现较差。更深入的分析表明,某些短回指短语,能够明确地回指图像,在成功的轨迹中富集且与更好的视觉定位相关。基于这些见解,我们提出了无培训解码策略——不确定性引导回顾法,该方法结合了不确定性信号与自适应回顾提示和广度搜索。该方法提高了整体MMMU性能,在标准思考薄弱的类别中取得了最大的收益,并超越了多个强大的解码基线,在固定模型家族和令牌预算下树立了新的标杆。此外,该解码策略还可以推广,在另外五个基准测试中均取得了持续的改进,包括两个广泛的多模式套件和数学导向的视觉推理数据集。

Key Takeaways

  1. 测试时的思考可提升大型语言模型和视觉语言模型的性能。
  2. 目前缺乏对思考如何影响视觉推理的系统性分析。
  3. 更多的思考并不总是带来更好的视觉推理性能,长链思考可能忽略图像并导致错误轨迹。
  4. 短回指短语与成功的视觉推理轨迹和更好的视觉定位相关。
  5. 提出了一种新的解码策略——不确定性引导回顾法,结合了不确定性信号、自适应回顾提示和广度搜索。
  6. 该解码策略提高了视觉推理性能,特别是在标准思考薄弱的类别中表现突出。

Cool Papers

点此查看论文截图

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

Authors:Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/

我们对当前的大型推理模型(LRM)进行了一定规模的、几乎无污染(在某种程度上)的评估,并得出了一些初步发现。我们还发布了旨在测试从视觉线索进行推理的面向视觉语言模型的评估基准ROME。关于基准测试、评估数据和其他更新的链接,请访问我们的网站:[https://flageval-baai.github.io/LRM-Eval/]

论文及项目相关链接

PDF Project homepage: https://flageval-baai.github.io/LRM-Eval/ This work will also be presented at NeurIPS 2025 Workshop on Foundations of Reasoning in Language Models (FoRLM); update with trials on Gemini 3 Pro

Summary:
我们对当前的大型推理模型进行了规模适中的无干扰评估,并发现了初步结果。同时,我们发布了旨在测试视觉线索推理能力的视觉语言模型评估基准“ROME”。有关基准测试、评估数据和其他更新的链接,请访问我们的网站:https://flageval-baai.github.io/LRM-Eval/。

Key Takeaways:

  1. 当前大型推理模型(LRMs)的适度规模无干扰评估已经进行,初步发现已经得出。
  2. 发布了新的视觉语言模型评估基准“ROME”,旨在测试基于视觉线索的推理能力。
  3. ROME评估基准、评估数据和其他更新信息可以在特定网站上找到。
  4. 该网站提供了一个链接供用户访问相关资源。
  5. 这些资源对于理解和评估大型推理模型和视觉语言模型的发展具有重要意义。
  6. 这些发现对于未来大型推理模型的改进方向具有指导意义。

Cool Papers

点此查看论文截图

Filtering with Self-Attention and Storing with MLP: One-Layer Transformers Can Provably Acquire and Extract Knowledge

Authors:Ruichen Xu, Kexin Chen

Modern large language models (LLMs) demonstrate exceptional performance on knowledge-intensive tasks, yet the theoretical mechanisms underlying knowledge acquisition (storage and memorization) during pre-training and extraction (retrieval and recall) during inference after fine-tuning remain poorly understood. Although prior theoretical studies have explored these processes through analyses of training dynamics, they overlook critical components essential for a comprehensive theory: (1) the multi-layer perceptron (MLP), empirically identified as the primary module for knowledge storage; (2) out-of-distribution (OOD) adaptivity, which enables LLMs to generalize to unseen scenarios post-pre-training; and (3) next-token prediction, the standard autoregressive objective that encodes knowledge as conditional probabilities. In this work, we introduce, to the best of our knowledge, the first theoretical framework that addresses these limitations by examining the training dynamics of one-layer transformers. Under regularity assumptions, we establish that: (i) transformers attain near-optimal training loss during pre-training, demonstrating effective knowledge acquisition; (ii) given a sufficiently large fine-tuning dataset and appropriate data multiplicity conditions, transformers achieve low generalization error on factual knowledge acquired during pre-training but not revisited in fine-tuning, indicating robust knowledge extraction; and (iii) violation of these conditions leads to elevated generalization error, manifesting as hallucinations. Our analysis encompasses both full fine-tuning and low-rank fine-tuning, yielding insights into the efficacy of practical low-rank adaptation methods. We validate our theoretical findings through experiments on synthetic datasets and the real-world PopQA benchmark, employing GPT-2 and Llama-3.2-1B models.

现代大型语言模型(LLM)在知识密集型任务上表现出卓越的性能,然而,预训练过程中的知识获取(存储和记忆)以及微调后的推理过程中的知识提取(检索和回忆)的理论机制仍然知之甚少。尽管先前的理论研究已经通过训练动态的分析来探索了这些过程,但它们忽略了构建全面理论所必需的关键组成部分,包括:(1)多层感知器(MLP),被实证识别为知识存储的主要模块;(2)超出分布(OOD)的适应性,使LLM能够在预训练后推广到未见过的场景;(3)下一个令牌预测,这是标准自回归目标,将知识编码为条件概率。在我们的工作中,我们据我们所知介绍了第一个理论框架,该框架通过考察单层变压器的训练动态来解决这些限制。在规律性假设下,我们得出以下结论:(i)变压器在预训练过程中达到了接近最优的训练损失,证明了有效的知识获取;(ii)在拥有足够大的微调数据集和适当的数据多重性条件下,变压器对在预训练中获取但在微调中没有复习的事实知识实现了低泛化误差,表明知识提取是稳健的;(iii)违反这些条件会导致泛化误差增加,表现为幻觉。我们的分析涵盖了完整的微调和低秩微调,对于实际低秩适应方法的效力提供了见解。我们通过合成数据集和现实世界PopQA基准测试上的实验验证了我们的理论发现,这些实验采用了GPT-2和Llama-3.2-1B模型。

论文及项目相关链接

PDF

Summary

该摘要详细地研究了现代大型语言模型(LLMs)的知识获取与提取机制。虽然先前的理论模型主要集中于训练动力学的分析,但本文首次引入了全面的理论框架,涵盖了多层感知器(MLP)的作用、适应于未见场景的能力以及基于条件概率的下一个词预测等重要要素。理论分析证明了,在一定条件下,transformer在预训练过程中能够达到近乎最优的训练损失,显示出有效的知识获取能力。当具备足够大的精细调整数据集并满足适当的数据多重条件时,即便对预训练中获得但在精细调整中未被复习的事实知识,也能实现低泛化误差的知识提取。违反这些条件则会导致泛化误差增加,可能表现为幻觉现象。此外,本文还探讨了完整精细调整和低级秩精细调整的分析结果,对实际应用中的低级秩适应方法的有效性提供了见解。通过合成数据集和PopQA基准测试的实验验证,该分析表明了理论结果的准确性。总之,该研究深入揭示了LLM在处理知识密集型任务的理论机制方面的重要性。

Key Takeaways

以下是关于该文本的关键见解:

  • 大型语言模型(LLMs)在知识密集型任务上表现出卓越性能,但其知识获取和提取的理论机制尚不完全清楚。
  • 现有的理论模型忽略了多层感知器(MLP)、适应于未见场景的能力以及基于条件概率的下一个词预测等关键因素。
  • 在特定条件下,transformer在预训练过程中能够达到近乎最优的训练损失,显示出有效的知识获取能力。当具备足够大的精细调整数据集时,可实现低泛化误差的知识提取。不满足这些条件可能导致泛化误差增加和幻觉现象的出现。
  • 该研究探讨了完整精细调整和低级秩精细调整的分析结果,为实际应用中的低级秩适应方法提供了有价值的见解。

Cool Papers

点此查看论文截图

Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers

Authors:Woomin Song, Sai Muralidhar Jayanthi, Srikanth Ronanki, Kanthashree Mysore Sathyendra, Jinwoo Shin, Aram Galstyan, Shubham Katiyar, Sravan Babu Bodapati

As large language models increasingly gain popularity in real-world applications, processing extremely long contexts, often exceeding the model’s pre-trained context limits, has emerged as a critical challenge. While existing approaches to efficient long-context processing show promise, recurrent compression-based methods struggle with information preservation, whereas random access approaches require substantial memory resources. We introduce REFORM, a novel inference framework that efficiently handles long contexts through a two-phase approach. First, it incrementally processes input chunks while maintaining a compressed KV cache, constructs cross-layer context embeddings, and utilizes early exit strategy for improved efficiency. Second, it identifies and gathers essential tokens via similarity matching and selectively recomputes the KV cache. Compared to baselines, REFORM achieves over 52% and 34% performance gains on RULER and BABILong respectively at 1M context length. It also outperforms baselines on Infinite-Bench, RepoEval, and MM-NIAH, demonstrating flexibility across diverse tasks and domains. Additionally, REFORM reduces inference time by 30% and peak memory usage by 5%, achieving both efficiency and superior performance.

随着大型语言模型在现实世界应用中的普及度不断提高,处理极长的上下文(通常超出模型的预训练上下文限制)已成为一项关键挑战。虽然现有的高效长上下文处理方法显示出希望,但基于循环压缩的方法在信息保留方面遇到困难,而随机访问方法则需要大量的内存资源。我们引入了REFORM,这是一种新的推理框架,通过两阶段方法有效地处理长上下文。首先,它增量处理输入块,同时保持压缩KV缓存,构建跨层上下文嵌入,并利用早期退出策略提高效率。其次,它通过相似度匹配来识别和收集关键令牌,并选择性重新计算KV缓存。与基线相比,REFORM在RULER和BABILong上的性能分别提高了52%和34%,特别是在1M的上下文长度下。此外,REFORM在Infinite-Bench、RepoEval和MM-NIAH上的表现也优于基线,展示了在不同任务和领域的灵活性。另外,REFORM减少了30%的推理时间和5%的峰值内存使用量,实现了效率和性能的双重提升。

论文及项目相关链接

PDF NeurIPS 2025

Summary
长文本处理是大型语言模型面临的关键挑战之一。现有方法存在信息保留和内存资源消耗的问题。本文提出了一种新的推理框架REFORM,通过增量处理输入块、维护压缩KV缓存、构建跨层上下文嵌入和使用早期退出策略,实现高效的长文本处理。此外,REFORM还通过相似性匹配识别和收集关键令牌,并选择性重新计算KV缓存。相较于基准方法,REFORM在多种任务和数据集上取得了性能优势,包括处理长度达1M的文本,降低推理时间和峰值内存使用率,展示出其高效和灵活的特点。

Key Takeaways

  1. 大型语言模型在处理长文本时面临挑战,如信息保留和内存消耗问题。
  2. REFORM是一种高效的推理框架,用于处理长文本。它通过增量处理输入块并维护压缩KV缓存来应对这些挑战。
  3. REFORM构建了跨层上下文嵌入,并使用早期退出策略以提高效率。
  4. REFORM通过相似性匹配识别和收集关键令牌,选择性重新计算KV缓存。
  5. REFORM在处理长度达1M的文本时,相较于基准方法取得了显著的性能优势。
  6. REFORM降低了推理时间和峰值内存使用率,使其更高效且实用性强。

Cool Papers

点此查看论文截图

Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex

Authors:Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo

Understanding functional representations within higher visual cortex is a fundamental question in computational neuroscience. While artificial neural networks pretrained on large-scale datasets exhibit striking representational alignment with human neural responses, learning image-computable models of visual cortex relies on individual-level, large-scale fMRI datasets. The necessity for expensive, time-intensive, and often impractical data acquisition limits the generalizability of encoders to new subjects and stimuli. BraInCoRL uses in-context learning to predict voxelwise neural responses from few-shot examples without any additional finetuning for novel subjects and stimuli. We leverage a transformer architecture that can flexibly condition on a variable number of in-context image stimuli, learning an inductive bias over multiple subjects. During training, we explicitly optimize the model for in-context learning. By jointly conditioning on image features and voxel activations, our model learns to directly generate better performing voxelwise models of higher visual cortex. We demonstrate that BraInCoRL consistently outperforms existing voxelwise encoder designs in a low-data regime when evaluated on entirely novel images, while also exhibiting strong test-time scaling behavior. The model also generalizes to an entirely new visual fMRI dataset, which uses different subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates better interpretability of neural signals in higher visual cortex by attending to semantically relevant stimuli. Finally, we show that our framework enables interpretable mappings from natural language queries to voxel selectivity.

在计算神经科学中,理解高级视觉皮层中的功能表征是一个基本问题。虽然基于大规模数据集进行预训练的人工神经网络与人类神经反应表现出惊人的表征一致性,但学习视觉皮层的可计算模型依赖于个体层面的大规模功能性磁共振成像(fMRI)数据集。昂贵的、耗时的且通常不切实际的数据采集需求限制了编码器对新受试者和刺激物的通用性。BraInCoRL使用上下文学习来预测基于少量样本的逐像素神经反应,无需对新受试者和刺激进行任何额外的微调。我们采用了一种变压器架构,可以灵活地适应不同数量的上下文图像刺激,并在多个受试者之间建立归纳偏见。在训练过程中,我们明确地对模型进行了上下文学习的优化。通过联合图像特征和体素激活,我们的模型学会了直接生成高级视觉皮层的性能更佳的逐像素模型。我们证明,在全新图像评估中,BraInCoRL在低数据状态下始终优于现有的逐像素编码器设计,同时在测试时表现出强大的可扩展性。该模型也适用于全新的视觉fMRI数据集,该数据集使用不同的受试者以及fMRI数据采集参数。此外,BraInCoRL通过关注语义相关的刺激,提高了高级视觉皮层神经信号的解读性。最后,我们展示了我们的框架能够实现自然语言查询到体素选择性的可解释映射。

论文及项目相关链接

PDF Accepted to NeurIPS 2025. Website: https://github.com/leomqyu/BraInCoRL

Summary

本文探讨了计算神经科学中的一个基本问题,即理解高级视觉皮层中的功能表征。研究者使用了一种基于转换器架构的模型BraInCoRL,它通过上下文学习预测基于少数样本的神经元响应,无需对新主体和刺激进行任何额外的微调。模型在新型图像上的表现优于现有的像素级编码器设计,并具有强大的测试时扩展性能。此外,BraInCoRL还能够推广到使用不同主体和fMRI数据采集参数的新视觉fMRI数据集,并具有更好的高级视觉皮层神经信号解释性。最后,该研究展示了该框架可实现从自然语言查询到像素选择性的可解释映射。

Key Takeaways

  1. 理解高级视觉皮层中的功能表征是计算神经科学中的核心问题。
  2. BraInCoRL模型使用上下文学习来预测基于少数样本的神经元响应。
  3. BraInCoRL模型无需对新主体和刺激进行微调,具有强大的表现。
  4. BraInCoRL在新型图像上的性能优于现有像素级编码器设计。
  5. BraInCoRL能够推广到新的视觉fMRI数据集,表现出良好的通用性。
  6. BraInCoRL提高了对高级视觉皮层神经信号的解释性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Agent Agent
Agent 方向最新论文已更新,请持续关注 Update in 2025-11-27 Latent Collaboration in Multi-Agent Systems
2025-11-27
下一篇 
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-11-27 LocateAnything3D Vision-Language 3D Detection with Chain-of-Sight
2025-11-27
  目录