⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-07 更新
Disentangled Concepts Speak Louder Than Words:Explainable Video Action Recognition
Authors:Jongseo Lee, Wooil Lee, Gyeong-Moon Park, Seong Tae Kim, Jinwoo Choi
Effective explanations of video action recognition models should disentangle how movements unfold over time from the surrounding spatial context. However, existing methods based on saliency produce entangled explanations, making it unclear whether predictions rely on motion or spatial context. Language-based approaches offer structure but often fail to explain motions due to their tacit nature – intuitively understood but difficult to verbalize. To address these challenges, we propose Disentangled Action aNd Context concept-based Explainable (DANCE) video action recognition, a framework that predicts actions through disentangled concept types: motion dynamics, objects, and scenes. We define motion dynamics concepts as human pose sequences. We employ a large language model to automatically extract object and scene concepts. Built on an ante-hoc concept bottleneck design, DANCE enforces prediction through these concepts. Experiments on four datasets – KTH, Penn Action, HAA500, and UCF-101 – demonstrate that DANCE significantly improves explanation clarity with competitive performance. We validate the superior interpretability of DANCE through a user study. Experimental results also show that DANCE is beneficial for model debugging, editing, and failure analysis.
对于视频动作识别模型的解释,应当解开时间进程中动作展开的方式与周围空间环境的联系。然而,现有的基于显著性检测的方法产生的解释是纠缠在一起的,使得预测是依赖于动作还是空间环境变得不清楚。基于语言的方法提供了结构,但由于其隐含性,往往无法解释动作——虽然可以直觉上理解,但难以用语言表达。为了解决这些挑战,我们提出了基于解耦动作与上下文概念的解释(DANCE)视频动作识别框架,该框架通过解耦的概念类型预测动作:运动动态、对象和场景。我们将运动动态概念定义为人类姿势序列。我们采用大型语言模型自动提取对象和场景的概念。基于专用概念瓶颈设计,DANCE通过这些概念进行预测。在KTH、Penn Action、HAA500和UCF-101四个数据集上的实验表明,DANCE在具有竞争力的性能下显著提高了解释的清晰度。我们通过用户研究验证了DANCE的卓越可解释性。实验结果还表明,DANCE对模型调试、编辑和故障分析是有益的。
论文及项目相关链接
PDF NeurIPS 2025 Spotlight paper. Project page: https://jong980812.github.io/DANCE/
Summary
大模型在进行视频动作识别时,应分解动作时序与周围空间背景的交互。现有基于显著性检测的方法混淆了动作与空间背景的区分,难以判断预测依据是动作还是背景。语言型方法虽有结构但难以解释动作细节。为解决这些问题,我们提出了基于概念分解的视频动作识别框架DANCE,通过动作动态、物体和场景等概念类型进行预测。实验证明,DANCE在多个数据集上显著提高了解释清晰度,并具备竞争力。用户研究验证了其卓越的解读性,同时有助于模型调试、编辑和故障分析。
Key Takeaways
- 视频动作识别模型应区分动作时序与空间背景的交互。
- 现有方法难以区分动作与空间背景对预测的影响。
- 语言型方法虽然具有结构,但难以详细解释动作。
- DANCE框架通过概念类型(动作动态、物体和场景)进行预测。
- DANCE在多个数据集上实现了清晰且具竞争力的解释性能。
- 用户研究验证了DANCE的卓越解读性。
点此查看论文截图
Watermarking Large Language Models in Europe: Interpreting the AI Act in Light of Technology
Authors:Thomas Souverain
To foster trustworthy Artificial Intelligence (AI) within the European Union, the AI Act requires providers to mark and detect the outputs of their general-purpose models. The Article 50 and Recital 133 call for marking methods that are ‘’sufficiently reliable, interoperable, effective and robust’’. Yet, the rapidly evolving and heterogeneous landscape of watermarks for Large Language Models (LLMs) makes it difficult to determine how these four standards can be translated into concrete and measurable evaluations. Our paper addresses this challenge, anchoring the normativity of European requirements in the multiplicity of watermarking techniques. Introducing clear and distinct concepts on LLM watermarking, our contribution is threefold. (1) Watermarking Categorisation: We propose an accessible taxonomy of watermarking methods according to the stage of the LLM lifecycle at which they are applied - before, during, or after training, and during next-token distribution or sampling. (2) Watermarking Evaluation: We interpret the EU AI Act’s requirements by mapping each criterion with state-of-the-art evaluations on robustness and detectability of the watermark, and of quality of the LLM. Since interoperability remains largely untheorised in LLM watermarking research, we propose three normative dimensions to frame its assessment. (3) Watermarking Comparison: We compare current watermarking methods for LLMs against the operationalised European criteria and show that no approach yet satisfies all four standards. Encouraged by emerging empirical tests, we recommend further research into watermarking directly embedded within the low-level architecture of LLMs.
为了在欧洲联盟内部促进可信的人工智能(AI),AI法案要求提供者对其通用模型的输出进行标记和检测。第50条和第133条呼吁采用“足够可靠、兼容性强、有效且稳健”的标记方法。然而,大型语言模型(LLM)的水印的快速发展和多样性使得这四项标准难以转化为具体和可衡量的评估。我们的论文应对这一挑战,将欧洲要求的规范性根植于水印技术的多样性中。我们提出了关于LLM水印的清晰和明确的概念,我们的贡献主要体现在三个方面。(1)水印分类:我们根据水印方法应用的LLM生命周期阶段(即在训练之前、期间或之后,以及在下一个令牌分发或采样期间)提出了一个易于理解的水印分类法。(2)水印评估:我们通过将每个标准与最新水印的稳健性和检测性评估以及LLM的质量评估相对应来解释欧盟AI法案的要求。由于互操作性在LLM水印研究中仍然在很大程度上未被理论化,我们提出了三个规范性维度来对其进行评估。(3)水印比较:我们将当前的LLM水印方法与欧洲的操作标准进行了比较,并表明目前没有任何方法能满足所有四项标准。我们鼓励基于新兴的实验测试进一步的研究,建议在水印中直接嵌入LLM的低级架构中。
论文及项目相关链接
PDF 17 pages, 2 Tables and 2 Pictures
Summary
为推动欧盟内可信人工智能(AI)的发展,AI法案要求提供者对其通用模型输出进行标记和检测。第50条和第133条提议要求标记方法具备足够可靠性、可互操作性、有效性和稳健性。然而,大型语言模型(LLM)水印技术的迅速发展和多样性使得这四项标准难以转化为具体可衡量的评估标准。本文应对这一挑战,将欧洲水印要求与多种水印技术相结合,提出明确且不同的LLM水印概念。我们贡献有三点:(1)水印分类:根据LLM生命周期的应用阶段(训练前、训练中、训练后,以及令牌分发或采样时),提出易于理解的水印方法分类。(2)水印评估:通过映射每个标准与当前水印的稳健性和检测性的质量评估,解读欧盟AI法案的要求。由于互操作性在LLM水印研究中尚未被充分探讨,我们提出了三个规范性维度来评估其评估。(3)水印比较:根据操作化的欧洲标准对现有的LLM水印方法进行对比,并发现尚无方法满足所有标准。我们鼓励基于新兴实证测试进行进一步研究,将水印直接嵌入LLM的低层次架构中。
Key Takeaways
- 欧盟AI法案要求LLM提供商对其模型输出进行标记和检测,以确保AI的可靠性、安全性和透明度。
- 对水印方法的评估需要满足四个标准:可靠性、可互操作性、有效性和稳健性。
- LLM水印技术的多样性和快速发展使得确定具体评估标准具有挑战性。
- 本文提出了一个关于水印方法的分类框架,根据其在LLM生命周期的不同阶段应用进行分类。
- 对欧盟AI法案的要求进行了详细解读,并提出一个针对水印评估的互操作性评估框架。
- 目前没有一种水印方法能满足所有的欧洲标准。
点此查看论文截图
Towards Transparent Stance Detection: A Zero-Shot Approach Using Implicit and Explicit Interpretability
Authors:Apoorva Upadhyaya, Wolfgang Nejdl, Marco Fisichella
Zero-Shot Stance Detection (ZSSD) identifies the attitude of the post toward unseen targets. Existing research using contrastive, meta-learning, or data augmentation suffers from generalizability issues or lack of coherence between text and target. Recent works leveraging large language models (LLMs) for ZSSD focus either on improving unseen target-specific knowledge or generating explanations for stance analysis. However, most of these works are limited by their over-reliance on explicit reasoning, provide coarse explanations that lack nuance, and do not explicitly model the reasoning process, making it difficult to interpret the model’s predictions. To address these issues, in our study, we develop a novel interpretable ZSSD framework, IRIS. We provide an interpretable understanding of the attitude of the input towards the target implicitly based on sequences within the text (implicit rationales) and explicitly based on linguistic measures (explicit rationales). IRIS considers stance detection as an information retrieval ranking task, understanding the relevance of implicit rationales for different stances to guide the model towards correct predictions without requiring the ground-truth of rationales, thus providing inherent interpretability. In addition, explicit rationales based on communicative features help decode the emotional and cognitive dimensions of stance, offering an interpretable understanding of the author’s attitude towards the given target. Extensive experiments on the benchmark datasets of VAST, EZ-STANCE, P-Stance, and RFD using 50%, 30%, and even 10% training data prove the generalizability of our model, benefiting from the proposed architecture and interpretable design.
零样本立场检测(ZSSD)能够识别帖子对未见目标的立场。现有研究采用对比、元学习或数据增强的方法存在泛化问题或文本与目标之间缺乏连贯性。最近利用大型语言模型(LLM)进行ZSSD的工作主要集中在改进对未见目标特定知识的获取或为立场分析生成解释。然而,这些工作大多过于依赖显性推理,提供的解释较为粗略,缺乏细微差别,并且没有显式地建模推理过程,使得模型预测难以解释。为了解决这个问题,在我们的研究中,我们开发了一个新颖的可解释的ZSSD框架IRIS。我们基于文本中的序列(隐式理由)和基于语言测量的(显式理由)隐式和显式地理解输入对目标的立场。IRIS将立场检测视为信息检索排名任务,理解不同立场与隐式理由的相关性,以指导模型做出正确预测,无需理由的真相,从而提供了固有的可解释性。此外,基于沟通特征的显式理由有助于解码立场的情感认知维度,提供了对作者对所给目标的态度的可解释理解。在VAST、EZ-STANCE、P-Stance和RFD基准数据集上进行的实验证明了我们的模型在训练数据为50%、30%甚至低至10%时的泛化能力得益于所提出的架构和可解释设计。
论文及项目相关链接
PDF Accepted in AAAI CONFERENCE ON WEB AND SOCIAL MEDIA (ICWSM 2026)
Summary
本文介绍了零样本立场检测(ZSSD)的问题和挑战,现有研究在一般化能力和文本与目标之间的连贯性方面存在问题。为了解决这个问题,研究者开发了一种新的可解释的ZSSD框架——IRIS,该框架能够基于文本中的序列(隐式理由)和语言度量(显式理由)来隐式和显式地理解输入对目标的立场。IRIS将立场检测视为信息检索排名任务,理解不同立场与隐式理由的相关性,无需对理由的地面真实情况进行要求,从而提供了固有的可解释性。此外,基于沟通特征的显式理由有助于解码立场的情感认知维度,提供对作者对于给定目标的态度的可解释理解。
Key Takeaways
- ZSSD旨在识别帖子对未见目标的立场。
- 现有研究在一般化能力和文本与目标的连贯性方面存在问题。
- IRIS框架通过隐式和显式理由提供了立场的可解释理解。
- IRIS将立场检测视为信息检索排名任务,理解隐式理由与不同立场的相关性。
- 无需对理由的地面真实情况进行要求,提供了固有的可解释性。
- 基于沟通特征的显式理由有助于解码立场的情感认知维度。
点此查看论文截图
TabGemma: Text-Based Tabular ICL via LLM using Continued Pretraining and Retrieval
Authors:Günther Schindler, Maximilian Schambach, Michael Medek, Sam Thelin
We study LLMs for tabular prediction with mixed text, numeric, and categorical fields. We introduce TabGemma, a schema-agnostic in-context learner that treats rows as sequences and tackles two practical hurdles when adapting pretrained LLMs for tabular predictions: unstable numeric tokenization and limited context size. We propose to canonicalize numbers via signed scientific notation and continue pretraining of a 12B Gemma 3 model with a target imputation objective using a large-scale real world dataset. For inference, we use a compact n-gram-based retrieval to select informative exemplars that fit within a 128k-token window. On semantically rich benchmarks, TabGemma establishes a new state of the art on classification across low- and high-data regimes and improves monotonically with more context rows. For regression, it is competitive at small sample sizes but trails conventional approaches as data grows. Our results show that LLMs can be effective tabular in-context learners on highly semantic tasks when paired with dedicated numeric handling and context retrieval, while motivating further advances in numeric modeling and long-context scaling.
我们研究了具有混合文本、数字和分类字段的表格预测的大型语言模型(LLM)。我们推出了TabGemma,这是一种独立于模式的上下文学习器,它将行视为序列,并解决了在将预训练的大型语言模型适应于表格预测时所面临的两个实际障碍:不稳定的数字标记化和有限的上下文大小。我们提出通过有符号科学计数法对数字进行标准化,并使用大规模现实世界数据集对目标插补目标进行12B Gemma 3模型的预训练。对于推理,我们使用基于紧凑n元组的检索来选择符合128k令牌窗口的示例。在语义丰富的基准测试中,TabGemma在低数据和高数据情况下建立了分类方面的最新水平,随着上下文行的增加而呈现单调改进。对于回归,它在小样本量时具有竞争力,但随着数据量的增长而落后于传统方法。我们的结果表明,当与专门的数值处理和上下文检索相结合时,大型语言模型可以在高度语义的任务上成为有效的表格上下文学习者,这同时也推动了数值建模和长上下文扩展的进一步进展。
论文及项目相关链接
Summary
LLMs在表格预测方面进行了深入研究,针对文本、数字和分类字段的混合数据,提出了TabGemma模型。该模型是一种模式无关的上下文学习者,将行视为序列,解决了适应预训练LLMs进行表格预测时的两个实际问题:不稳定的数值标记化和有限的上下文大小。通过符号科学记数法对数字进行规范化,并继续使用大规模现实世界数据集对12B Gemma 3模型进行目标插值目标的预训练。对于推理,使用基于紧凑n-gram的检索方法选择信息样本,以适应128k令牌窗口。TabGemma在语义丰富的基准测试上建立了分类的新国家标准,并在低数据和高数据状态下表现出优异性能。对于回归任务,在小样本时具有竞争力,但随着数据增长稍显落后传统方法。结果表明,当与专门的数值处理和上下文检索相结合时,LLMs在高度语义任务上可作为有效的表格上下文学习者,同时推动了数值建模和长上下文扩展方面的进一步改进。
Key Takeaways
- 研究LLMs在表格预测方面的应用,针对包含文本、数字和分类字段的混合数据。
- 引入TabGemma模型,一种模式无关的在上下文中的学习者,可以解决预训练LLMs在进行表格预测时遇到的不稳定的数值标记化和有限的上下文大小问题。
- 通过符号科学记数法对数字进行规范化处理。
- 使用大规模现实世界数据集对模型进行预训练。
- 使用基于紧凑n-gram的检索方法选择信息样本以适应上下文限制。
- TabGemma在语义丰富的基准测试上实现了分类的新国家标准,并在不同数据规模下表现出卓越性能。
- 在回归任务中,TabGemma具有竞争力但仍需进一步提高以应对大量数据。
点此查看论文截图
Uncovering Code Insights: Leveraging GitHub Artifacts for Deeper Code Understanding
Authors:Ziv Nevo, Orna Raz, Karen Yorav
Understanding the purpose of source code is a critical task in software maintenance, onboarding, and modernization. While large language models (LLMs) have shown promise in generating code explanations, they often lack grounding in the broader software engineering context. We propose a novel approach that leverages natural language artifacts from GitHub – such as pull request descriptions, issue descriptions and discussions, and commit messages – to enhance LLM-based code understanding. Our system consists of three components: one that extracts and structures relevant GitHub context, another that uses this context to generate high-level explanations of the code’s purpose, and a third that validates the explanation. We implemented this as a standalone tool, as well as a server within the Model Context Protocol (MCP), enabling integration with other AI-assisted development tools. Our main use case is that of enhancing a standard LLM-based code explanation with code insights that our system generates. To evaluate explanations’ quality, we conducted a small scale user study, with developers of several open projects, as well as developers of proprietary projects. Our user study indicates that when insights are generated they often are helpful and non trivial, and are free from hallucinations.
理解源代码的目的是软件维护、入职和现代化过程中的一项关键任务。虽然大型语言模型(LLM)在生成代码解释方面显示出潜力,但它们往往缺乏更广泛的软件工程背景知识。我们提出了一种新方法,利用GitHub上的自然语言制品(如拉取请求描述、问题描述和讨论、提交消息)来增强基于LLM的代码理解能力。我们的系统由三个组件构成:一个用于提取和结构化相关的GitHub上下文,另一个使用此上下文生成对代码目的的高级解释,第三个用于验证解释。我们将其实现为一个独立工具,也实现为模型上下文协议(MCP)内的服务器,以便与其他AI辅助开发工具集成。我们的主要用例是利用我们的系统生成的代码见解来增强基于LLM的标准代码解释。为了评估解释的质量,我们对几个开源项目的开发人员以及专有项目的开发人员进行了小规模的用户研究。我们的用户研究表明,当生成见解时,它们通常是有帮助的且非微不足道的,并且没有幻觉。
论文及项目相关链接
PDF 7 pages, 6 figures, to be published in AISM 2025, see https://aism25.github.io/aism25/
Summary
基于大型语言模型(LLM)的代码理解在软件维护、入职和现代化过程中发挥着关键作用。然而,LLM在生成代码解释时往往缺乏对更广泛的软件工程环境的关注。为此,我们提出了一种新方法,利用GitHub上的自然语言产物(如合并请求描述、问题描述和讨论、提交信息等)增强LLM的代码理解能力。我们的系统由三个组件构成:一个提取和结构化GitHub相关环境的组件,一个使用该环境生成代码高级解释的组件,以及一个验证这些解释的组件。我们将其实现为一个独立工具,也作为一个服务器集成到模型上下文协议(MCP)中,以便与其他AI辅助开发工具集成。我们的主要用例是利用我们的系统生成的代码见解增强标准的LLM代码解释。为了评估解释的质量,我们对几个开源项目和专有项目的开发人员进行了小规模的用户研究。用户研究表明,当见解被生成时,它们通常是有帮助的、非平凡的,并且没有幻觉。
Key Takeaways
- 理解源代码的用途在软件维护、入职和现代化过程中至关重要。
- 大型语言模型(LLM)在生成代码解释时缺乏软件工程的整体背景。
- 借助GitHub的自然语言产物如合并请求描述等增强LLM的代码理解能力是一个有效方法。
- 系统包括提取和结构化GitHub环境信息的组件、生成高级代码解释的组件以及验证这些解释的组件。
- 系统可以作为独立工具使用,也可以作为服务器集成到模型上下文协议中,以便与其他AI辅助开发工具集成。
- 该系统的主要用例是增强标准的LLM代码解释能力,生成代码见解以支持开发过程。
点此查看论文截图
HAFixAgent: History-Aware Automated Program Repair Agent
Authors:Yu Shi, Hao Li, Bram Adams, Ahmed E. Hassan
Automated program repair (APR) has recently shifted toward large language models and agent-based systems, yet most systems rely on local snapshot context, overlooking repository history. Prior work shows that repository history helps repair single-line bugs, since the last commit touching the buggy line is often the bug-introducing one. In this paper, we investigate whether repository history can also improve agentic APR systems at scale, especially for complex multi-hunk bugs. We present HAFixAgent, a History-Aware Bug-Fixing Agent that injects blame-derived repository heuristics into its repair loop. A preliminary study of all 854 real-world bugs from Defects4J motivates our design, showing that bug-relevant history is both widely available and highly concentrated. Empirical comparison of HAFixAgent with two state-of-the-art baselines shows: (1) Effectiveness: HAFixAgent significantly improves over the agent-based baseline (by 212.3%) and the multi-hunk baseline (by 29.9%). (2) Efficiency: history does not significantly increase agent steps and keeps token costs comparable, with notably lower median costs for complex multi-file-multi-hunk bugs. (3) Practicality: combining different historical heuristics repairs more bugs, offering a clear cost-benefit trade-off. HAFixAgent offers a practical recipe for history-aware agentic APR: ground the agent in version control history, prioritize diff-based historical context, and integrate complementary heuristics when needed.
自动化程序修复(APR)最近已转向大型语言模型和基于代理的系统,然而大多数系统都依赖于局部快照上下文,忽略了仓库历史。先前的工作表明,仓库历史有助于修复单行错误,因为触摸错误行的最后一次提交通常是引入错误的提交。在本文中,我们调查了仓库历史是否也可以大规模改进基于代理的APR系统,特别是对复杂的多块错误。我们提出了HAFixAgent,一个感知历史的故障修复代理,它将责任驱动的仓库启发式注入到修复循环中。对Defects4J中所有854个真实世界错误的初步研究激发了我们的设计灵感,显示错误相关的历史不仅普遍存在而且高度集中。HAFixAgent与两个最先进的基准技术的经验比较表明:(1)有效性:HAFixAgent显著改进了基于代理的基准技术(提高了212.3%)和多块基准技术(提高了29.9%)。(2)效率:历史不会显著增加代理步骤,并保持令牌成本相当,对于复杂的多文件多块错误,中位数成本显著降低。(3)实用性:结合不同的历史启发式可以修复更多的错误,提供了明显的成本效益权衡。HAFixAgent提供了感知历史的基于代理的APR的实际配方:将代理置于版本控制历史中,优先基于差异的上下文,并在需要时集成互补的启发式方法。
论文及项目相关链接
PDF 31 pages, 6 figures
摘要
基于版本控制历史的自动化程序修复(APR)研究。提出一个历史感知的缺陷修复代理HAFixAgent,它结合了责任衍生版本控制启发式方法以提高大规模缺陷修复的效率。研究结果显示,HAFixAgent在修复多行缺陷时显著优于其他两种当前主流方法,同时保持较高的效率与实用性。
关键见解
- 历史感知的缺陷修复代理(HAFixAgent)结合了版本控制历史信息以提高自动化程序修复的效果。
- 研究发现,缺陷相关的历史信息广泛存在且高度集中,为HAFixAgent的设计提供了动机。
- 与两种当前主流方法的实证比较显示,HAFixAgent在修复多行缺陷时具有显著优势,尤其是复杂的多块缺陷。
- 历史信息并未显著增加修复代理的步骤和标记成本,对于复杂的多文件多块缺陷,其成本甚至更低。
- 结合不同的历史启发式方法可以修复更多的缺陷,显示出明显的成本效益权衡。
- HAFixAgent提供了一个实用的历史感知的自动化程序修复的配方,强调在版本控制历史中定位代理,优先基于差异的历史上下文,并在需要时集成互补的启发式方法。
- 研究结果强调了版本控制历史在自动化程序修复中的重要性,并为未来的研究提供了方向。
点此查看论文截图
Enabling Robust In-Context Memory and Rapid Task Adaptation in Transformers with Hebbian and Gradient-Based Plasticity
Authors:Siddharth Chaudhary
Large language models display in-context learning as an emergent effect of scale, but they rely on static weights during inference. In contrast, biological systems continually adapt via synaptic plasticity. We investigate whether explicit, biologically inspired plasticity can endow Transformers with faster in-sequence adaptation. To this end, we augment decoder-only Transformers with fast-weight modules updated either by (i) a neuromodulated Hebbian rule or (ii) the gradient-based plasticity mechanism of Duan et al. (2023). Across copying, regression, and few-shot classification tasks (CIFAR-FS, Omniglot), Hebbian plasticity consistently achieves lower loss and stronger few-shot generalization, while gradient-based updates perform best on long-horizon credit assignment. When associations are short and linearly separable, static weights suffice, defining a clear boundary condition for when plasticity helps. Analysis of learned modulatory signals reveals that gradient-based rules maintain large, persistent updates, whereas Hebbian plasticity is sharply gated around salient events. Together, these results show that explicit plasticity complements attention by enabling rapid, task-specific adaptation, and clarify when different plasticity mechanisms are most effective.
大型语言模型展现出上下文学习作为规模的一种涌现效应,但它们在推理过程中依赖于静态权重。与此相反,生物系统通过突触可塑性持续适应。我们调查明确的、受生物启发的可塑性是否可以赋予Transformer更快的序列适应性。为此,我们给仅解码的Transformer增加了快速权重模块,这些模块通过(i)神经调节的赫布规则或(ii)Duan等人提出的基于梯度的可塑性机制(2023年)进行更新。在复制、回归和少量样本分类任务(CIFAR-FS、Omniglot)中,赫布可塑性始终实现了更低的损失和更强的少量样本泛化能力,而基于梯度的更新在长时间范围的任务分配方面表现最佳。当关联是短暂且线性可分离时,静态权重就足够了,这为可塑性有助于定义了一个明确的边界条件。对学到的调制信号的分析表明,基于梯度的规则维持了大规模、持久的更新,而赫布可塑性则围绕显著事件进行尖锐的闸门控制。总的来说,这些结果表明,明确的可塑性通过实现快速、特定的任务适应性来补充注意力机制,并明确了不同可塑性机制何时最为有效。
论文及项目相关链接
Summary
大规模语言模型展现出上下文学习的能力,但它们依赖于静态权重进行推理。与此相反,生物系统通过突触可塑性持续适应。本研究旨在探究明确的、受生物启发的可塑性是否能够赋予Transformer更快的序列内适应能力。为此,我们为仅解码的Transformer增加了快速权重模块,这些模块通过(i)神经调节的赫布规则或(ii)段等人提出的基于梯度的可塑性机制进行更新。在复制、回归和少量样本分类任务(如CIFAR-FS和Omniglot)中,赫布可塑性始终实现了更低的损失和更强的少量样本泛化能力,而基于梯度的更新在长期信用分配任务上表现最佳。当关联短暂且线性可分时,静态权重足够,这为可塑性发挥作用的边界条件提供了明确界定。对学到的调制信号的分析表明,基于梯度的规则维持了大规模、持久的更新,而赫布可塑性则围绕重要事件进行尖锐的门控。总体而言,明确的可塑性补充了注意力机制,实现了快速、特定的任务适应,并明确了不同可塑性机制何时最为有效。
Key Takeaways
- 大规模语言模型展现出上下文学习的能力,但推理时依赖于静态权重。
- 生物系统通过突触可塑性持续适应,本研究受此启发,探究赋予Transformer更快适应能力的可能性。
- 通过增加快速权重模块,研究了赫布可塑性和基于梯度的可塑性机制。
- 在多种任务中,赫布可塑性实现了更低的损失和更强的泛化能力,而基于梯度的更新在长期任务上表现最佳。
- 当关联短暂且线性可分时,静态权重足够,这定义了可塑性发挥作用的边界条件。
- 对学到的调制信号的分析表明,基于梯度的规则维持了大规模、持久的更新,而赫布可塑性则对重要事件进行尖锐的门控。
点此查看论文截图
Multilingual Political Views of Large Language Models: Identification and Steering
Authors:Daniil Gurgurov, Katharina Trinley, Ivan Vykopal, Josef van Genabith, Simon Ostermann, Roberto Zamparelli
Large language models (LLMs) are increasingly used in everyday tools and applications, raising concerns about their potential influence on political views. While prior research has shown that LLMs often exhibit measurable political biases–frequently skewing toward liberal or progressive positions–key gaps remain. Most existing studies evaluate only a narrow set of models and languages, leaving open questions about the generalizability of political biases across architectures, scales, and multilingual settings. Moreover, few works examine whether these biases can be actively controlled. In this work, we address these gaps through a large-scale study of political orientation in modern open-source instruction-tuned LLMs. We evaluate seven models, including LLaMA-3.1, Qwen-3, and Aya-Expanse, across 14 languages using the Political Compass Test with 11 semantically equivalent paraphrases per statement to ensure robust measurement. Our results reveal that larger models consistently shift toward libertarian-left positions, with significant variations across languages and model families. To test the manipulability of political stances, we utilize a simple center-of-mass activation intervention technique and show that it reliably steers model responses toward alternative ideological positions across multiple languages. Our code is publicly available at https://github.com/d-gurgurov/Political-Ideologies-LLMs.
大型语言模型(LLM)在日常工具和应用程序中的使用日益普及,引发人们对它们对政治观点潜在影响的担忧。虽然之前的研究表明,LLM通常表现出可衡量的政治偏见,往往偏向自由或进步立场,但仍存在关键差距。大多数现有研究只评估了有限的模型和语言,对于跨架构、规模和跨语言环境中政治偏见的一般性仍存在开放问题。此外,很少有工作研究是否可以主动控制这些偏见。在这项工作中,我们通过一项针对现代开源指令调整的大型语言模型中政治倾向的大规模研究来解决这些差距。我们评估了七个模型,包括LLaMA-3.1、Qwen-3和Aya-Expanse等,在十四种语言上使用政治测试进行评测,以确保测量的稳健性。我们的结果显示,更大的模型一贯地偏向自由左翼立场,不同语言和模型家族之间存在显著变化。为了测试政治立场的可操控性,我们采用了一种简单的中心质量激活干预技术,并证明该技术可以在多种语言中可靠地引导模型响应走向替代意识形态立场。我们的代码可在https://github.com/d-gurgurov/Political-Ideologies-LLMs公开访问。
论文及项目相关链接
PDF pre-print
Summary
本文研究了现代开源指令调整的大型语言模型(LLMs)的政治倾向性。通过对七个模型在14种语言中的大规模研究,发现大型模型往往倾向于自由主义左翼立场,但不同模型和语言间存在显著差异。同时,通过简单的中心激活干预技术,可以可靠地引导模型响应不同的意识形态立场。
Key Takeaways
- 大型语言模型(LLMs)在日常工具和应用程序中的使用引发了人们对政治观点潜在影响的担忧。
- 现有研究已经表明LLMs经常表现出可衡量的政治偏见,通常偏向自由或进步立场。
- 本研究通过大规模研究现代开源指令调整LLMs的政治倾向性来填补现有研究的空白。
- 研究评估了七个模型在14种语言中的表现,发现大型模型普遍倾向于自由主义左翼立场。
- 不同模型和语言之间在政治倾向性上存在显著差异。
- 研究通过中心激活干预技术测试了政治立场的可操控性,并发现该技术能够可靠地引导模型响应不同的意识形态立场。
点此查看论文截图
Echo State Transformer: Attention Over Finite Memories
Authors:Yannis Bendi-Ouis, Xavier Hinaut
While Large Language Models and their underlying Transformer architecture are remarkably efficient, they do not reflect how our brain processes and learns a diversity of cognitive tasks such as language and working memory. Furthermore, sequential data processing with Transformers encounters a fundamental barrier: quadratic complexity growth with sequence length. Motivated by these limitations, our ambition is to create more efficient models that are less reliant on intensive computations. We introduce Echo State Transformers (EST), a hybrid architecture that elegantly resolves this challenge while demonstrating exceptional performance in classification and detection tasks. EST integrates the Transformer attention mechanisms with principles from Reservoir Computing to create a fixed-size window distributed memory system. Drawing inspiration from Echo State Networks, the most prominent instance of the Reservoir Computing paradigm, our approach leverages reservoirs (random recurrent networks) as a lightweight and efficient memory. Our architecture integrates a new module called ‘’Working Memory’’ based on several reservoirs working in parallel. These reservoirs work as independent working memory units with distinct internal dynamics. A novelty here is that the classical reservoir hyperparameters, controlling the dynamics, are now trained. Thus, the EST dynamically adapts the reservoir memory/non-linearity trade-off. Thanks to these working memory units, EST achieves constant computational complexity at each processing step, effectively breaking the quadratic scaling problem of standard Transformers. We evaluate ESTs on a recent challenging timeseries benchmark: the Time Series Library, which comprises 69 tasks across five categories. Results show that ESTs ranks first overall in two of five categories, outperforming strong state-of-the-art baselines on classification and anomaly detection tasks, while remaining competitive on short-term forecasting. These results position ESTs as a compelling alternative for time-series classification and anomaly detection, and a practical complement to transformer-style models in applications that prioritize robust representations and sensitive event detection.
尽管大型语言模型及其基础Transformer架构非常高效,但它们并不能反映我们的大脑如何处理和学习语言和工作记忆等多样化的认知任务。此外,使用Transformer进行序列数据处理会遇到一个根本障碍:随着序列长度的增加,复杂性呈二次增长。受到这些限制的启发,我们的目标是创建更少依赖计算密集型的更高效模型。我们引入了回声状态转换器(Echo State Transformers,简称EST),这是一种混合架构,优雅地解决了这一挑战,同时在分类和检测任务中表现出卓越的性能。EST将Transformer注意力机制与储备计算原理相结合,创建了一个固定大小的窗口分布式内存系统。受到回声状态网络(Echo State Networks)这一储备计算范例中最突出实例的启发,我们的方法利用储备(随机递归网络)作为轻量级且高效的内存。我们的架构集成了一个名为“工作内存”的新模块,该模块基于多个并行工作的储备。这些储备充当独立的工作内存单元,具有不同的内部动态。这里的一个新颖之处在于控制动态的经典储备超参数现在是可以训练的。因此,EST能够动态地调整储备内存与非线性的权衡。由于这些工作内存单元的存在,EST在处理每个步骤时实现了恒定的计算复杂性,有效地解决了标准Transformer的二次扩展问题。我们在最新的时间序列基准测试——时间序列库上评估了EST的性能,该库包含五个类别中的69个任务。结果表明,在五个类别中,EST在两项中排名第一,在分类和异常检测任务上优于强大的最新基线技术,并在短期预测方面保持竞争力。这些结果使EST成为时间序列分类和异常检测的有力替代方案,并且是优先考虑稳健表示和敏感事件检测的变压器风格模型的实际补充。
论文及项目相关链接
Summary
本文介绍了大型语言模型及其底层Transformer架构的局限性,尤其是在处理多样认知任务如语言和工作记忆方面的不足。针对Transformer在处理序列数据时遇到的二次复杂度增长问题,提出了一种新的混合架构——Echo State Transformers(EST)。该架构融合了Transformer注意力机制和Reservoir Computing的原理,展示出在分类和检测任务中的卓越性能。EST通过引入“工作记忆”模块,实现了固定大小的窗口分布式内存系统。其利用多个并行工作的储备池作为轻量级和高效的内存,这些储备池作为独立的内存单元具有不同的内部动态。此外,EST还训练了控制动态的经典储备池超参数,从而动态调整储备池内存与非线性的权衡。在时序库上的评估结果表明,EST在分类和异常检测任务上优于其他最先进的方法,并在短期预测方面保持竞争力。这使得EST成为时间序列分类和异常检测的有力替代方案,并且在追求稳健表征和敏感事件检测的应用中成为Transformer模型的实用补充。
Key Takeaways
- 大型语言模型(LLM)和Transformer架构在处理多样认知任务方面存在局限性,无法完全模拟人脑的处理和学习方式。
- Echo State Transformers(EST)旨在创建更高效、依赖计算较少的模型,解决Transformer在处理序列数据时面临的二次复杂度增长问题。
- EST融合了Transformer的注意力机制和Reservoir Computing的原理,通过引入“工作记忆”模块实现固定大小的窗口分布式内存系统。
- EST利用多个并行工作的储备池作为轻量级和高效的内存单元,这些储备池具有不同的内部动态,并能动态调整内存与非线性的权衡。
- EST在时序库上的评估结果表现优异,特别是在分类和异常检测任务上优于其他最先进的方法。
- EST为时间序列分类和异常检测提供了有力替代方案,并且在追求稳健表征和敏感事件检测的应用中具有实用价值。
点此查看论文截图
Post Persona Alignment for Multi-Session Dialogue Generation
Authors:Yi-Pei Chen, Noriki Nishida, Hideki Nakayama, Yuji Matsumoto
Multi-session persona-based dialogue generation presents challenges in maintaining long-term consistency and generating diverse, personalized responses. While large language models (LLMs) excel in single-session dialogues, they struggle to preserve persona fidelity and conversational coherence across extended interactions. Existing methods typically retrieve persona information before response generation, which can constrain diversity and result in generic outputs. We propose Post Persona Alignment (PPA), a novel two-stage framework that reverses this process. PPA first generates a general response based solely on dialogue context, then retrieves relevant persona memories using the response as a query, and finally refines the response to align with the speaker’s persona. This post-hoc alignment strategy promotes naturalness and diversity while preserving consistency and personalization. Experiments on multi-session LLM-generated dialogue data demonstrate that PPA significantly outperforms prior approaches in consistency, diversity, and persona relevance, offering a more flexible and effective paradigm for long-term personalized dialogue generation.
基于多会话个性对话生成面临着保持长期一致性以及生成多样化、个性化响应的挑战。虽然大型语言模型(LLM)在单会话对话中表现出色,但在扩展交互中,它们难以保持个性的一致性和对话的连贯性。现有方法通常在生成响应之前检索个人信息,这可能会限制多样性并导致通用输出。我们提出一种新型的两阶段框架——后个性对齐(PPA),反转了这一过程。PPA首先仅基于对话上下文生成一般响应,然后使用响应作为查询检索相关个性记忆,最后对响应进行微调,以与说话人的个性保持一致。这种事后对齐策略既促进了自然性和多样性,又保持了连贯性和个性化。在多会话LLM生成对话数据上的实验表明,在一致性、多样性和个性相关性方面,PPA显著优于先前的方法,为长期个性化对话生成提供了更灵活、更有效的范式。
论文及项目相关链接
PDF EMNLP 2025 Findings
Summary
多会话个性化对话生成在维持长期一致性、生成多样化和个性化响应方面存在挑战。大型语言模型(LLM)在单会话对话中表现出色,但在跨扩展交互中保持人物保真度和会话连贯性方面存在困难。现有方法通常在生成响应之前检索人物信息,这可能会限制多样性并导致通用输出。我们提出一种名为“后人物对齐”(PPA)的新型两阶段框架,该框架反转了这一过程。PPA首先仅根据对话上下文生成一般响应,然后使用响应作为查询检索相关的人物记忆,并最终对响应进行微调以与说话者的人物对齐。这种事后对齐策略既促进了自然性和多样性,又保持了连贯性和个性化。实验表明,在多会话LLM生成的对话数据中,PPA在一致性、多样性和人物相关性方面显著优于先前的方法,为长期个性化对话生成提供了更灵活有效的范式。
Key Takeaways
- 多会话个性化对话生成面临长期一致性、响应多样化和个性化的挑战。
- 大型语言模型(LLM)在单会话对话中表现良好,但在多会话场景中保持人物一致性方面存在困难。
- 现有方法通常在生成响应前检索人物信息,这限制了响应的多样性。
- 提出了一种新型的两阶段框架——后人物对齐(PPA)来解决上述问题。
- PPA首先根据对话上下文生成初步响应,然后检索相关人物信息,最后微调响应以与人物对齐。
- PPA策略在保持自然性和多样性的同时,提高了响应的连贯性和个性化。
- 实验表明,PPA在一致性、多样性和人物相关性方面显著优于传统方法。
点此查看论文截图
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models
Authors:Haoyi Song, Ruihan Ji, Naichen Shi, Fan Lai, Raed Al Kontar
Large language models (LLMs) have transformed natural language processing, but their reliable deployment requires effective uncertainty quantification (UQ). Existing UQ methods are often heuristic and lack a probabilistic interpretation. This paper begins by providing a theoretical justification for the role of perturbations in UQ for LLMs. We then introduce a dual random walk perspective, modeling input-output pairs as two Markov chains with transition probabilities defined by semantic similarity. Building on this, we propose a fully probabilistic framework based on an inverse model, which quantifies uncertainty by evaluating the diversity of the input space conditioned on a given output through systematic perturbations. Within this framework, we define a new uncertainty measure, Inv-Entropy. A key strength of our framework is its flexibility: it supports various definitions of uncertainty measures, embeddings, perturbation strategies, and similarity metrics. We also propose GAAP, a perturbation algorithm based on genetic algorithms, which enhances the diversity of sampled inputs. In addition, we introduce a new evaluation metric, Temperature Sensitivity of Uncertainty (TSU), which directly assesses uncertainty without relying on correctness as a proxy. Extensive experiments demonstrate that Inv-Entropy outperforms existing semantic UQ methods. The code to reproduce the results can be found at https://github.com/UMDataScienceLab/Uncertainty-Quantification-for-LLMs.
大型语言模型(LLM)已经改变了自然语言处理的格局,但其可靠部署需要有效的不确定性量化(UQ)。现有的UQ方法往往是启发式的,缺乏概率解释。本文首先为扰动在LLM的UQ中的作用提供了理论依据。然后,我们引入了双随机游走视角,将输入输出对建模为两个马尔可夫链,其转移概率由语义相似性定义。在此基础上,我们提出了一个基于逆模型的完全概率框架,通过系统性扰动评估给定输出条件下输入空间的多样性来量化不确定性。在该框架下,我们定义了一个新的不确定性度量标准——Inv-Entropy(逆熵)。我们框架的关键优势在于其灵活性:它支持各种不确定性度量、嵌入、扰动策略和相似性度量的定义。我们还提出了基于遗传算法的GAAP扰动算法,提高了采样输入的多样性。此外,我们引入了一个新的评估指标——不确定性温度敏感性(TSU),它可以直接评估不确定性,而不依赖于正确性作为代理。大量实验表明,Inv-Entropy在现有的语义UQ方法中具有更好的表现。相关代码可在https://github.com/UMDataScienceLab/Uncertainty-Quantification-for-LLMs找到。
论文及项目相关链接
Summary
大语言模型(LLM)的可靠性部署需要有效的不确定性量化(UQ)。本文提供了从扰动在UQ中对LLM作用的理论证明,引入双重随机游走视角并建立基于逆模型的全概率框架。该框架通过系统扰动评估给定输出的输入空间多样性来量化不确定性。本文定义了一个新的不确定性度量指标Inv-Entropy,并提出一种基于遗传算法的扰动算法GAAP,以提高采样输入的多样性。同时,介绍了一种新的评估指标——温度敏感性不确定性(TSU),该指标直接评估不确定性,不依赖于正确性作为代理。实验表明,Inv-Entropy优于现有的语义UQ方法。
Key Takeaways
- LLM的可靠部署需要有效的不确定性量化(UQ)。
- 本文从理论角度证明了扰动在LLM不确定性量化中的重要性。
- 引入双重随机游走视角,建立基于逆模型的全概率框架进行UQ。
- 定义新的不确定性度量指标Inv-Entropy,用于评估输入空间的多样性。
- 提出基于遗传算法的扰动算法GAAP,提高采样输入的多样性。
- 介绍新的评估指标TSU,直接评估不确定性,避免依赖正确性作为代理。
点此查看论文截图
Instructing Large Language Models for Low-Resource Languages: A Systematic Study for Basque
Authors:Oscar Sainz, Naiara Perez, Julen Etxaniz, Joseba Fernandez de Landa, Itziar Aldabe, Iker García-Ferrero, Aimar Zabala, Ekhi Azurmendi, German Rigau, Eneko Agirre, Mikel Artetxe, Aitor Soroa
Instructing language models with user intent requires large instruction datasets, which are only available for a limited set of languages. In this paper, we explore alternatives to conventional instruction adaptation pipelines in low-resource scenarios. We assume a realistic scenario for low-resource languages, where only the following are available: corpora in the target language, existing open-weight multilingual base and instructed backbone LLMs, and synthetically generated instructions sampled from the instructed backbone. We present a comprehensive set of experiments for Basque that systematically study different combinations of these components evaluated on benchmarks and human preferences from 1,680 participants. Our conclusions show that target language corpora are essential, with synthetic instructions yielding robust models, and, most importantly, that using as backbone an instruction-tuned model outperforms using a base non-instructed model. Scaling up to Llama 3.1 Instruct 70B as backbone, our model comes near frontier models of much larger sizes for Basque, without using any Basque instructions. We release code, models, instruction datasets, and human preferences to support full reproducibility in future research on low-resource language adaptation. https://github.com/hitz-zentroa/latxa-instruct
使用用户意图指导语言模型需要大量的指令数据集,而这些数据仅对有限的语言集可用。在本文中,我们探索在低资源场景中使用传统指令适应流程替代方案。我们假设低资源语言的现实场景,其中只有以下资源可用:目标语言语料库、现有的开放式权重多语言基础和指令型主干LLM,以及从指令型主干中采样的人工合成指令。我们对巴斯克语进行了一系列综合实验,这些实验系统地研究了这些组件的不同组合在基准测试和人类偏好上的评估(由1680名参与者进行)。我们的结论表明,目标语言语料库至关重要,合成指令产生了稳健模型,最重要的是使用指令调整模型作为主干优于使用基础非指令模型。扩大规模至使用Llama 3.1作为主干时,我们的模型接近巴斯克语的大型前沿模型,并且未使用任何巴斯克语指令。我们发布代码、模型、指令数据集和人类偏好,以支持未来低资源语言适应研究中的全面可重复性。可访问 https://github.com/hitz-zentroa/latxa-instruct 了解更多。
论文及项目相关链接
PDF Accepted at EMNLP 2025 Main Conference
Summary
在资源有限的语言场景下,使用用户意图指导语言模型需要大型指令数据集,而这些数据集只对有限的几种语言可用。本文探索在低资源情况下替代传统指令适应流程的方法。假设对于低资源语言只有目标语言语料库、现有的开放权重多语言基础及指导型骨架LLMs和从指导型骨架中抽取的合成指令可用。我们对巴斯克语进行了一系列综合实验,系统地研究了这些组件的不同组合,并在基准测试和人类偏好(来自1680名参与者)中进行了评估。研究表明目标语言语料库至关重要,合成指令能产生稳健模型,最重要的是使用指令调优模型作为骨架优于使用基础非指令模型。扩大至Llama 3.1指导70B作为骨架,我们的模型接近前沿的巴斯克语大型模型,且未使用任何巴斯克语指令。我们发布代码、模型、指令数据集和人类偏好,以支持未来低资源语言适应研究中的完全可重复性。
Key Takeaways
- 在低资源语言场景下,需要使用替代传统指令适应流程的方法。
- 目标语言语料库在适应语言模型过程中至关重要。
- 合成指令可以产生稳健的语言模型。
- 使用指令调优模型作为骨架优于使用基础非指令模型。
- 通过扩大模型规模,如使用Llama 3.1指导70B作为骨架,可以在不使用特定语言指令的情况下接近前沿模型性能。
- 代码、模型、指令数据集和人类偏好研究结果的公开有助于未来研究的可重复性。
点此查看论文截图
Struct2D: A Perception-Guided Framework for Spatial Reasoning in MLLMs
Authors:Fangrui Zhu, Hanhui Wang, Yiming Xie, Jing Gu, Tianye Ding, Jianwei Yang, Huaizu Jiang
Unlocking spatial reasoning in Multimodal Large Language Models (MLLMs) is crucial for enabling intelligent interaction with 3D environments. While prior efforts often rely on explicit 3D inputs or specialized model architectures, we ask: can MLLMs reason about 3D space using only structured 2D representations derived from perception? We introduce Struct2D, a perception-guided prompting framework that combines bird’s-eye-view (BEV) images with object marks and object-centric metadata, optionally incorporating egocentric keyframes when needed. Using Struct2D, we conduct an in-depth zero-shot analysis of closed-source MLLMs (e.g., GPT-o3) and find that they exhibit surprisingly strong spatial reasoning abilities when provided with structured 2D inputs, effectively handling tasks such as relative direction estimation and route planning. Building on these insights, we construct Struct2D-Set, a large-scale instruction tuning dataset with 200K fine-grained QA pairs across eight spatial reasoning categories, generated automatically from 3D indoor scenes. We fine-tune an open-source MLLM (Qwen2.5VL) on Struct2D-Set, achieving competitive performance on multiple benchmarks, including 3D question answering, dense captioning, and object grounding. Our approach demonstrates that structured 2D inputs can effectively bridge perception and language reasoning in MLLMs-without requiring explicit 3D representations as input. We will release both our code and dataset to support future research.
在Multimodal大型语言模型(MLLMs)中解锁空间推理能力对于实现与3D环境的智能交互至关重要。虽然早期的努力经常依赖于明确的3D输入或专门的模型架构,但我们的问题是:MLLMs能否仅使用来自感知的结构化2D表示来推理3D空间?我们引入了Struct2D,这是一个感知引导提示框架,它将鸟瞰图(BEV)图像与对象标记和对象中心元数据相结合,在需要时还可选择性地融入以自我为中心的关键帧。使用Struct2D,我们对封闭的MLLMs(例如GPT-o3)进行了深入的零样本分析,并发现当提供结构化2D输入时,它们表现出令人惊讶的强大的空间推理能力,可以有效地处理相对方向估计和路线规划等任务。基于这些见解,我们构建了Struct2D-Set,这是一个大规模的指令调整数据集,包含8个空间推理类别的20万个精细粒度问答对,这些问答对自动从3D室内场景中生成。我们在Struct2D-Set上对开源MLLM(Qwen2.5VL)进行了微调,并在多个基准测试上取得了具有竞争力的表现,包括3D问答、密集字幕和对象定位。我们的方法表明,结构化2D输入可以有效地在MLLMs中架起感知和语言推理的桥梁,而无需明确的3D表示作为输入。我们将发布我们的代码和数据集以支持未来的研究。
论文及项目相关链接
PDF NeurIPS 2025, code link: https://github.com/neu-vi/struct2d
Summary
本文探索了在多模态大型语言模型(MLLMs)中解锁空间推理能力的重要性,这对于实现与3D环境的智能交互至关重要。研究提出了一种名为Struct2D的感知引导提示框架,该框架结合了鸟瞰图、对象标记和对象级元数据,并在需要时纳入第一人称视角的关键帧。通过深入的无源分析,发现封闭的MLLM在提供结构化2D输入时展现出强大的空间推理能力,能有效地处理相对方向估计和路线规划等任务。基于此,研究构建了Struct2D-Set数据集,包含20万个精细问答对,跨越八个空间推理类别,自动从3D室内场景中生成。在Struct2D-Set上微调开源MLLM,实现了在多个基准测试上的竞争力表现,包括3D问答、密集字幕和对象定位。该研究展示了结构化2D输入在MLLMs中有效桥接感知和语言推理的能力,无需明确的3D表示作为输入。
Key Takeaways
- 多模态大型语言模型(MLLMs)的空间推理能力对于实现与3D环境的智能交互至关重要。
- 提出了一个名为Struct2D的感知引导提示框架,该框架结合了鸟瞰图、对象标记和对象级元数据。
- 封闭式的MLLM在提供结构化2D输入时展现出强大的空间推理能力。
- 通过深度分析发现,结构化2D输入能有效处理相对方向估计和路线规划等任务。
- 构建了Struct2D-Set数据集,用于微调MLLM模型,在多个基准测试上表现出竞争力。
- 研究证明了结构化2D输入能够桥接感知和语言推理,无需明确的3D表示作为输入。
- 代码和数据集将公开发布,以支持未来研究。
点此查看论文截图
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
Authors:Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
Large Language Models (LLMs) achieve impressive reasoning capabilities at the cost of substantial inference overhead, posing substantial deployment challenges. Although distilled Small Language Models (SLMs) significantly enhance efficiency, their performance suffers as they fail to follow LLMs’ reasoning paths. Luckily, we reveal that only a small fraction of tokens genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens are either identical or exhibit neutral differences, such as minor variations in abbreviations or expressions. Leveraging this insight, we introduce Roads to Rome (R2R), a neural token routing method that selectively utilizes LLMs only for these critical, path-divergent tokens, while leaving the majority of token generation to the SLM. We also develop an automatic data generation pipeline that identifies divergent tokens and generates token-level routing labels to train the lightweight router. We apply R2R to combine R1-1.5B and R1-32B models from the DeepSeek family, and evaluate on challenging math, coding, and QA benchmarks. With an average activated parameter size of 5.6B, R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with comparable performance, advancing the Pareto frontier of test-time scaling efficiency. Our code is available at https://github.com/thu-nics/R2R.
大型语言模型(LLM)在付出了巨大的推理开销后获得了令人印象深刻的推理能力,这带来了部署上的巨大挑战。尽管蒸馏的小型语言模型(SLM)显著提高了效率,但其性能却遭受了损失,因为它们无法遵循LLM的推理路径。幸运的是,我们发现只有一小部分标记在LLM和SLM之间真正偏离了推理路径。大多数生成的标记都是相同的,或者表现出中性的差异,例如缩写或表达上的微小变化。基于这一见解,我们引入了罗马之路(R2R),这是一种神经标记路由方法,它只选择性地使用LLM来处理这些关键的、路径分歧的标记,而将大多数标记生成留给SLM。我们还开发了一个自动数据生成管道,用于识别分歧的标记并生成标记级别的路由标签来训练轻量级路由器。我们将R2R应用于DeepSeek系列的R1-1.5B和R1-32B模型,并在具有挑战性的数学、编码和问答基准测试上进行评估。R2R的平均激活参数大小为5.6B,其平均准确率超过了R1-7B的1.6倍,甚至超越了R1-14B模型的表现。与R1-32B相比,它在保持性能的同时实现了2.8倍的实时加速,推动了测试时缩放效率的前沿。我们的代码可在https://github.com/thu-nics/R2R获取。
论文及项目相关链接
Summary
大型语言模型(LLM)具备出色的推理能力,但推理开销较大,部署挑战显著。蒸馏的小语言模型(SLM)虽能提高效率,但性能下降,无法跟随LLM的推理路径。研究发现,LLMs和SLMs之间真正改变推理路径的令牌只有一小部分。大多数生成的令牌都是相同的,或者只是表现出中性差异,如缩写或表达上的微小变化。基于此,我们提出一种名为“罗马之路(R2R)”的神经令牌路由方法,该方法仅针对这些关键的、路径分歧的令牌使用LLMs,而将大多数令牌生成留给SLM。我们开发了一个自动数据生成管道,用于识别分歧令牌并生成令牌级路由标签来训练轻量级路由器。将R2R应用于DeepSeek系列的R1-1.5B和R1-32B模型,并在具有挑战性的数学、编码和问答基准测试上进行评估。在平均激活参数大小为5.6B的情况下,R2R超越了R1-7B的平均准确率,甚至超过了R1-14B模型。与R1-32B相比,它在保持性能的同时实现了2.8倍的实时加速,推进了测试时规模效率的前沿。
Key Takeaways
- LLMs拥有强大的推理能力但推理开销大,部署具有挑战性。
- SLMs提高效率但性能下降,不能完全跟随LLM的推理路径。
- 只有一小部分令牌在LLMs和SLMs之间真正改变推理路径。
- 引入R2R方法,选择性使用LLMs处理关键令牌,其余由SLM处理。
- R2R通过自动数据生成管道识别分歧令牌并生成路由标签。
- R2R在基准测试上表现优异,平均激活参数小且性能超过大型模型。
点此查看论文截图
Scaling Diffusion Transformers Efficiently via $μ$P
Authors:Chenyu Zheng, Xinyu Zhang, Rongzhen Wang, Wei Huang, Zhi Tian, Weilin Huang, Jun Zhu, Chongxuan Li
Diffusion Transformers have emerged as the foundation for vision generative models, but their scalability is limited by the high cost of hyperparameter (HP) tuning at large scales. Recently, Maximal Update Parametrization ($\mu$P) was proposed for vanilla Transformers, which enables stable HP transfer from small to large language models, and dramatically reduces tuning costs. However, it remains unclear whether $\mu$P of vanilla Transformers extends to diffusion Transformers, which differ architecturally and objectively. In this work, we generalize standard $\mu$P to diffusion Transformers and validate its effectiveness through large-scale experiments. First, we rigorously prove that $\mu$P of mainstream diffusion Transformers, including U-ViT, DiT, PixArt-$\alpha$, and MMDiT, aligns with that of the vanilla Transformer, enabling the direct application of existing $\mu$P methodologies. Leveraging this result, we systematically demonstrate that DiT-$\mu$P enjoys robust HP transferability. Notably, DiT-XL-2-$\mu$P with transferred learning rate achieves 2.9 times faster convergence than the original DiT-XL-2. Finally, we validate the effectiveness of $\mu$P on text-to-image generation by scaling PixArt-$\alpha$ from 0.04B to 0.61B and MMDiT from 0.18B to 18B. In both cases, models under $\mu$P outperform their respective baselines while requiring small tuning cost, only 5.5% of one training run for PixArt-$\alpha$ and 3% of consumption by human experts for MMDiT-18B. These results establish $\mu$P as a principled and efficient framework for scaling diffusion Transformers.
扩散Transformer已经成为视觉生成模型的基础,但其可扩展性受到大规模超参数(HP)调整的高成本的限制。最近,针对普通Transformer提出了最大更新参数化($\mu$P)方法,该方法能够实现从小型到大型语言模型的稳定HP迁移,并大幅度降低调整成本。然而,尚不清楚普通Transformer的$\mu$P是否适用于架构和客观上存在差异的扩散Transformer。在这项工作中,我们将标准$\mu$P推广到扩散Transformer,并通过大规模实验验证其有效性。首先,我们严格证明了主流扩散Transformer,包括U-ViT、DiT、PixArt-$\alpha$和MMDiT,与普通Transformer的$\mu$P一致性,使得现有$\mu$P方法可以直接应用。利用这一结果,我们系统地证明了DiT-$\mu$P具有稳健的HP可迁移性。值得注意的是,采用迁移学习率的DiT-XL-2-$\mu$P实现了比原始DiT-XL-2快2.9倍的收敛。最后,我们通过将PixArt-$\alpha$从0.04B扩展到0.61B和将MMDiT从0.18B扩展到18B来验证$\mu$P在文本到图像生成中的有效性。在这两种情况下,$\mu$P下的模型表现均优于各自基线,同时需要较小的调整成本,PixArt-$\alpha$只需5.5%的一次训练运行成本,而MMDiT-18B只需3%的人力专家投入。这些结果确立了$\mu$P作为一个有原则、高效率的框架,用于扩展扩散Transformer。
论文及项目相关链接
PDF Accepted by NeurIPS 2025, 38 pages, 10 figures, 17 tables
Summary
扩散Transformer已成为视觉生成模型的基础,但其可扩展性受到大规模超参数(HP)调整的高成本的限制。最近,针对普通Transformer的最大更新参数化(μP)方法被提出,能够实现从小型到大型语言模型的稳定HP迁移,并显著降低调整成本。本文将μP推广到扩散Transformer,并通过大规模实验验证其有效性。我们证明了主流扩散Transformer的μP与普通Transformer的一致性,实现了现有μP方法论的直接应用。利用这一结果,我们系统展示了DiT-μP的稳健HP迁移性。PixArt-α和MMDiT在文本到图像生成任务中的实验验证了μP的有效性。
Key Takeaways
- 扩散Transformer已成为视觉生成模型的重要基础,但在大规模应用中面临高成本超参数调整的挑战。
- 最大更新参数化(μP)方法被提出并成功应用于普通Transformer,能够实现稳定HP迁移并降低调整成本。
- 本文将μP推广到扩散Transformer,并通过实验证明其有效性。
- μP允许直接应用现有方法到扩散Transformer,提高了稳健性。
- DiT-μP表现出强大的HP迁移性,显著加速模型收敛。
- 在文本到图像生成任务中,PixArt-α和MMDiT的实验验证了μP的有效性。
点此查看论文截图
Efficient Attention via Pre-Scoring: Prioritizing Informative Keys in Transformers
Authors:Zhexiang Li, Haoyu Wang, Yutong Bao, David Woodruff
Recent advances in transformer architectures deeply enhanced long-context language modeling. Among them, HyperAttention achieves competitive efficiency by combining a single-level LSH-based clustering with uniform residual sampling. However, HyperAttention fails to find all significant keys, which in turn raises the overall perplexity. We propose a pre-scoring mechanism that prioritizes significant keys before applying HyperAttention. We introduce three scoring methods: $k$-means and kernel $k$-means clustering, $k$-median clustering, and leverage score-based ranking (inspired by LevAttention) to filter keys effectively. We further replace HyperAttention’s original uniform residual sampling, relying exclusively on our pre-scoring mechanism. Experiments on ChatGLM2 (131k token context) reduce perplexity from 12 to 8.3, which outperforms standard HyperAttention. Moreover, when running on the Vision-Transformer (ViT), our method shows that it can guarantee similar accuracy compared with LevAttention, and will surpass LevAttention given specific parameters. Although this method introduces some computational overhead, its combination with HyperAttention achieves up to 20 times faster than FlashAttention, providing a balanced trade-off between speed and modeling accuracy. Our results highlight the effectiveness of integrating pre-scoring into hierarchical attention mechanisms, significantly improving transformer efficiency.
近期transformer架构的进展极大地提升了长语境语言建模的能力。其中,HyperAttention通过结合单级LSH(局部敏感哈希)聚类与均匀剩余采样实现了竞争效率。然而,HyperAttention无法找到所有重要的键,这进而提高了整体的困惑度。我们提出了一种预评分机制,在应用HyperAttention之前优先评估重要键。我们介绍了三种评分方法:K均值和核K均值聚类、K中值聚类以及受LevAttention启发的基于得分的排名,以有效地过滤键。我们进一步替换了HyperAttention的原始均匀剩余采样,完全依赖于我们的预评分机制。在ChatGLM2(13.1万令牌上下文)上的实验将困惑度从12降低到8.3,优于标准HyperAttention。此外,在Vision-Transformer(ViT)上运行时,我们的方法能保证与LevAttention相似的精度,并在给定特定参数时超越LevAttention。尽管这种方法引入了一些计算开销,但它与HyperAttention的结合最高可达到FlashAttention的20倍速度,在速度和建模精度之间实现了平衡的权衡。我们的结果突显了将预评分融入分层注意力机制的有效性,大大提高了transformer的效率。
论文及项目相关链接
摘要
最新变压器架构的进步极大地提高了长文本语境建模的能力。HyperAttention通过结合单级LSH聚类与均匀残差采样实现了高效的性能。然而,HyperAttention无法找到所有关键信息,导致整体困惑度上升。为此,我们提出一种预评分机制,在应用HyperAttention前优先筛选关键信息。我们引入三种评分方法:K均值和核K均值聚类、K中位数聚类和基于杠杆评分的排名(受LevAttention启发),以有效筛选关键信息。同时,我们替换HyperAttention的原始均匀残差采样,仅依赖预评分机制。在ChatGLM2(13.1万令牌语境)上的实验将困惑度从12降至8.3,优于标准HyperAttention。此外,在Vision-Transformer(ViT)上运行,我们的方法能保证与LevAttention相似的精度,并在给定特定参数时超越LevAttention。虽然此方法引入了一定的计算开销,但与HyperAttention结合后,其速度可达到FlashAttention的20倍,实现了速度与建模精度之间的平衡。我们的研究证明了预评分机制在分层注意力机制中的有效性,可显著提高变压器效率。
关键见解
- HyperAttention通过结合LSH聚类和均匀残差采样实现了高效长文本语境建模。
- 预评分机制优先筛选关键信息,以提高HyperAttention的性能。
- 引入三种评分方法进行预评分:K均值和核K均值聚类、K中位数聚类以及基于杠杆评分的排名。
- 在ChatGLM2上应用预评分机制与HyperAttention结合的方法降低了困惑度。
- 该方法在Vision-Transformer上表现出与LevAttention相似的精度,并在特定参数下有望超越。
- 虽然存在计算开销,但该方法与HyperAttention结合后速度显著快于FlashAttention,实现了速度与精度的平衡。
点此查看论文截图
Bias in Decision-Making for AI’s Ethical Dilemmas: A Comparative Study of ChatGPT and Claude
Authors:Wentao Xu, Yile Yan, Yuqi Zhu
Recent advances in Large Language Models (LLMs) have enabled human-like responses across various tasks, raising questions about their ethical decision-making capabilities and potential biases. This study systematically evaluates how nine popular LLMs (both open-source and closed-source) respond to ethical dilemmas involving protected attributes. Across 50,400 trials spanning single and intersectional attribute combinations in four dilemma scenarios (protective vs. harmful), we assess models’ ethical preferences, sensitivity, stability, and clustering patterns. Results reveal significant biases in protected attributes in all models, with differing preferences depending on model type and dilemma context. Notably, open-source LLMs show stronger preferences for marginalized groups and greater sensitivity in harmful scenarios, while closed-source models are more selective in protective situations and tend to favor mainstream groups. We also find that ethical behavior varies across dilemma types: LLMs maintain consistent patterns in protective scenarios but respond with more diverse and cognitively demanding decisions in harmful ones. Furthermore, models display more pronounced ethical tendencies under intersectional conditions than in single-attribute settings, suggesting that complex inputs reveal deeper biases. These findings highlight the need for multi-dimensional, context-aware evaluation of LLMs’ ethical behavior and offer a systematic evaluation and approach to understanding and addressing fairness in LLM decision-making.
近年来,大型语言模型(LLM)的进步能够在各种任务中生成类似人类的回应,这引发了关于其道德决策能力和潜在偏见的问题。本研究系统地评估了九种流行的大型语言模型(包括开源和闭源)如何应对涉及受保护属性的道德困境。在跨越单一属性和交叉属性组合的四种困境场景(保护性对有害性)的50400次试验中,我们评估了模型的道德偏好、敏感性、稳定性和聚类模式。结果表明,所有模型在受保护的属性上都存在显著的偏见,其偏好因模型类型和困境背景而异。值得注意的是,开源大型语言模型对边缘群体表现出更强的偏好,在有害场景中更为敏感,而闭源模型在保护情况下更为挑剔,更倾向于主流群体。我们还发现,不同类型的道德困境中道德行为有所不同:大型语言模型在保护场景中保持一致的模式,但在有害场景中做出更多样化、认知要求更高的决策。此外,与单一属性设置相比,模型在交叉条件下的道德倾向更为明显,这表明复杂的输入揭示了更深的偏见。这些发现强调了多维、语境感知的评估大型语言模型道德行为的必要性,并提供了一种系统评估以及理解和解决大型语言模型决策中公平问题的方法。
论文及项目相关链接
PDF This paper has been accepted by The 20th International AAAI Conference on Web and Social Media (ICWSM 2026), sunny Los Angeles, California
Summary:近期大型语言模型(LLM)的进展引发了关于其伦理决策能力和潜在偏见的问题。本研究系统评估了九种流行的LLM在涉及受保护属性的道德困境中的回应。研究跨越四个道德困境场景(保护对有害),通过对单属性和交叉属性组合进行超过五万次试验,评估模型的道德偏好、敏感性、稳定性和聚类模式。发现所有模型在受保护属性上均有显著偏见,且偏好取决于模型类型和困境上下文。值得注意的是,开源LLM对边缘群体表现出更强的偏好和对有害场景更高的敏感性,而封闭式模型则在保护性情况下更加选择性且倾向于主流群体。此外,LLM在不同类型困境中的道德行为各不相同:在保护性场景中保持一致性模式,但在有害场景中做出更多样化且需要认知能力的决策。同时,在交叉条件下模型的道德倾向比在单一属性设置中更为突出,表明复杂输入揭示了更深层次的偏见。这些发现强调了多维、情境感知评估LLM伦理行为的需要,并为解决LLM决策中的公平性问题提供了系统评估方法和途径。
Key Takeaways:
- LLM在涉及受保护属性的道德困境中展现出伦理决策能力,但存在显著偏见。
- 不同类型的LLM(开源与封闭式)在道德困境中的表现有所不同,对边缘群体的偏好和对有害场景的敏感性存在差别。
- LLM在保护性场景和有害场景中的道德行为模式不同,需要多样化认知能力应对复杂决策。
- 交叉属性条件下的道德困境揭示出LLM更深层次的偏见。
- 需要多维、情境感知评估LLM的伦理行为。
- 本研究为理解并解决LLM决策公平性提供了系统评估方法和途径。
点此查看论文截图
HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs
Authors:Saleh Ashkboos, Mahdi Nikdan, Soroush Tabesh, Roberto L. Castro, Torsten Hoefler, Dan Alistarh
Quantized training of Large Language Models (LLMs) remains an open challenge, as maintaining accuracy while performing all matrix multiplications in low precision has proven difficult. This is particularly the case when fine-tuning pre-trained models, which can have large weight and activation outlier values that make lower-precision optimization difficult. To address this, we present HALO, a novel quantization-aware training approach for Transformers that enables accurate and efficient low-precision training by combining 1) strategic placement of Hadamard rotations in both forward and backward passes, which mitigate outliers, 2) high-performance kernel support, and 3) FSDP integration for low-precision communication. Our approach ensures that all large matrix multiplications during the forward and backward passes are executed in lower precision. Applied to LLAMA-family models, HALO achieves near-full-precision-equivalent results during fine-tuning on various tasks, while delivering up to 1.41x end-to-end speedup for full fine-tuning on RTX 4090 GPUs. HALO efficiently supports both standard and parameterefficient fine-tuning (PEFT). Our results demonstrate the first practical approach to fully quantized LLM fine-tuning that maintains accuracy in 8-bit precision, while delivering performance benefits. Code is available at https://github.com/IST-DASLab/HALO.
大型语言模型(LLM)的量化训练仍然是一个开放性的挑战,因为在低精度下执行所有矩阵乘法的同时保持准确性被证明是很困难的。这在微调预训练模型时尤其如此,预训练模型可能存在大量的权重和激活异常值,使得低精度优化变得困难。为了解决这一问题,我们提出了HALO,这是一种用于Transformer的新型量化感知训练方法。它通过结合以下三点实现准确高效的低精度训练:1)在正向和反向传递中战略性地放置Hadamard旋转,以缓解异常值;2)高性能内核支持;3)用于低精度通信的FSDP集成。我们的方法确保正向和反向传递中的所有大型矩阵乘法均以较低的精度执行。应用于LLAMA系列模型时,HALO在多种任务上进行微调时实现了接近全精度等效的结果,同时在RTX 4090 GPU上进行完整的微调时实现了高达1.41倍的端到端加速。HALO有效支持标准微调以及参数高效微调(PEFT)。我们的结果证明了在8位精度下保持准确度的完全量化LLM微调的首个实用方法,同时带来了性能优势。代码可在https://github.com/IST-DASLab/HALO找到。
论文及项目相关链接
PDF 19 pages, 6 figures
Summary
针对大型语言模型(LLM)的量化训练仍然是一个挑战,如何在保持准确性的同时执行所有低精度矩阵乘法运算十分困难。为解决此问题,提出一种针对Transformer的新型量化感知训练方式HALO。结合战略性放置Hadamard旋转(减轻异常值)、高性能内核支持和FSDP集成实现低精度通信,确保前后向传播期间的大型矩阵乘法运算在低精度下执行。应用于LLAMA系列模型时,HALO在多种任务微调方面实现了近似全精度等效结果,同时在RTX 4090 GPU上进行完整的微调提供了高达1.41倍端到端加速。HALO支持标准微调(Standard Fine-tuning)和参数高效微调(Parameterefficient Fine-tuning)。研究实现了在8位精度下保持准确性的首个实用量化LLM微调方法。代码可在https://github.com/IST-DASLab/HALO处获取。
Key Takeaways
- 量化训练大型语言模型(LLM)保持准确性是一项挑战。
- HALO是一种新型量化感知训练方式,针对Transformer模型设计。
- HALO结合了战略性放置Hadamard旋转、高性能内核支持和FSDP集成实现低精度训练。
- HALO可以在不同任务上实现近似全精度等效的微调结果。
- HALO提供了在RTX 4090 GPU上的端到端加速。
- HALO支持标准微调(Standard Fine-tuning)和参数高效微调(Parameterefficient Fine-tuning)。
点此查看论文截图
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Authors:Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Haoyu Cao, Zuwei Long, Heting Gao, Ke Li, Long Ma, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
Recent Multimodal Large Language Models (MLLMs) have typically focused on integrating visual and textual modalities, with less emphasis placed on the role of speech in enhancing interaction. However, speech plays a crucial role in multimodal dialogue systems, and implementing high-performance in both vision and speech tasks remains a significant challenge due to the fundamental modality differences. In this paper, we propose a carefully designed multi-stage training methodology that progressively trains LLM to understand both visual and speech information, ultimately enabling fluent vision and speech interaction. Our approach not only preserves strong vision-language capacity, but also enables efficient speech-to-speech dialogue capabilities without separate ASR and TTS modules, significantly accelerating multimodal end-to-end response speed. By comparing our method against state-of-the-art counterparts across benchmarks for image, video, and speech tasks, we demonstrate that our model is equipped with both strong visual and speech capabilities, making near real-time vision and speech interaction. Code has been released at https://github.com/VITA-MLLM/VITA.
最近的多模态大型语言模型(MLLM)通常侧重于整合视觉和文本模态,较少强调语音在增强交互中的作用。然而,语音在多模态对话系统中扮演着至关重要的角色,由于在根本上的模态差异,实现在视觉和语音任务中都高性能仍然是一个巨大的挑战。在本文中,我们提出了一种精心设计的多阶段训练方法论,逐步训练LLM以理解视觉和语音信息,最终使流畅的视觉和语音交互成为可能。我们的方法不仅保留了强大的视觉语言功能,而且能够支持高效的语音对话功能,无需单独的ASR和TTS模块,极大地加快了多模态端到端的响应速度。通过与图像、视频和语音任务的最新先进模型进行比较,我们证明了我们的模型拥有强大的视觉和语音功能,可实现近乎实时的视觉和语音交互。代码已发布在https://github.com/VITA-MLLM/VITA上。
论文及项目相关链接
PDF NeurIPS 2025 Spotlight, Code 2.4K Stars: https://github.com/VITA-MLLM/VITA
Summary
多模态大型语言模型(MLLM)通常聚焦于视觉和文本模态的融合,但对语音在增强交互中的作用重视不足。本论文提出了一种精心设计的多阶段训练方法,使LLM逐步理解视觉和语音信息,最终实现流畅的视觉和语音交互。该方法不仅保留了强大的视觉语言能力,还能实现高效的语音对话能力,无需额外的语音识别和文本转语音模块,显著加快了多模态端到端的响应速度。对比前沿模型在图像、视频和语音任务上的基准测试表明,该模型兼具强大的视觉和语音能力,可实现近实时的视觉和语音交互。代码已发布在VITA项目。
Key Takeaways
- MLLMs需要整合视觉和语音模态以增强交互能力。
- 提出了一种多阶段训练策略来训练LLM理解视觉和语音信息。
- 模型能够在保持强大的视觉语言能力的同时,实现高效的语音对话功能。
- 模型无需额外的ASR和TTS模块,提升了响应速度和实用性。
- 与最新模型对比实验显示其在图像、视频和语音任务上的优势。
- 模型实现了近实时的视觉和语音交互能力。
点此查看论文截图
RAG-IT: Retrieval-Augmented Instruction Tuning for Automated Financial Analysis
Authors:Van-Duc Le, Hai-Thien To
Financial analysis relies heavily on the interpretation of earnings reports to assess company performance and guide decision-making. Traditional methods for generating such analyses demand significant financial expertise and are often time-consuming. With the rapid advancement of Large Language Models (LLMs), domain-specific adaptations have emerged for financial tasks such as sentiment analysis and entity recognition. This paper introduces RAG-IT (Retrieval-Augmented Instruction Tuning), a novel framework designed to automate the generation of earnings report analyses through an LLM fine-tuned specifically for the financial domain. Our approach integrates retrieval augmentation with instruction-based fine-tuning to enhance factual accuracy, contextual relevance, and domain adaptability. We construct a comprehensive financial instruction dataset derived from extensive financial documents and earnings reports to guide the LLM’s adaptation to specialized financial reasoning. Experimental results demonstrate that RAG-IT outperforms general-purpose open-source models and achieves performance comparable to commercial systems like GPT-3.5 on financial report generation tasks. This research highlights the potential of retrieval-augmented instruction tuning to streamline and elevate financial analysis automation, advancing the broader field of intelligent financial reporting.
财务分析主要依赖于对收益报告的解释来评估公司表现并指导决策。传统的生成此类分析的方法需要大量的财务专业知识,并且往往耗时。随着大型语言模型(LLM)的快速发展,针对财务任务(如情感分析和实体识别)的特定领域适配已经出现。本文介绍了RAG-IT(检索增强指令调整)这一新型框架,它旨在通过针对财务领域进行精细调整的LLM自动生成收益报告分析。我们的方法将检索增强与基于指令的微调相结合,以提高事实准确性、上下文相关性和领域适应性。我们构建了基于广泛财务文件和收益报告的综合财务指令数据集,以引导LLM适应专业财务推理。实验结果表明,RAG-IT在财务报告生成任务上的表现优于通用开源模型,并且与GPT-3.5等商业系统的表现相当。该研究强调了检索增强指令调整在简化和提升财务分析自动化方面的潜力,推动了智能财务报告领域的更广泛发展。
论文及项目相关链接
PDF 11 pages, 1 figure, 4 tables
总结
金融分析依赖于收益报告的解释来评估公司绩效并指导决策。传统生成此类分析的方法需要丰富的金融知识和大量时间。随着大型语言模型(LLM)的快速发展,针对金融任务的特定领域适配已经出现,如情感分析和实体识别。本文介绍了一种名为RAG-IT的新型框架,它通过专门针对金融领域进行微调的大型语言模型自动化生成收益报告分析。RAG-IT方法结合了检索增强与基于指令的微调,以提高事实准确性、上下文相关性和领域适应性。我们构建了一个全面的财务指令数据集,该数据集来源于广泛的财务文件和收益报告,以指导大型语言模型适应专业财务推理。实验结果表明,RAG-IT在财务报告生成任务上的性能优于通用开源模型,并与GPT-3.5等商业系统相当。本研究突显了检索增强指令调整在简化并提升财务分析自动化方面的潜力,推动了智能财务报告领域的进步。
关键见解
- 金融分析的核心是解读收益报告来评估公司表现和指导决策。
- 传统金融分析方法需要深厚的金融知识和大量时间。
- 大型语言模型(LLM)在自动化金融分析方面展现出潜力。
- RAG-IT是一种新型框架,通过专门针对金融领域的语言模型自动化生成收益报告分析。
- RAG-IT结合了检索增强与基于指令的微调技术以提高性能。
- RAG-IT框架的性能已经得到实验验证,显示出优于某些通用模型的性能并可与商业系统相竞争。
点此查看论文截图