⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-09 更新
Scaling Performance of Large Language Model Pretraining
Authors:Alexander Interrante-Grant, Carla Varela-Rosa, Suhaas Narayan, Chris Connelly, Albert Reuther
Large language models (LLMs) show best-in-class performance across a wide range of natural language processing applications. Training these models is an extremely computationally expensive task; frontier Artificial Intelligence (AI) research companies are investing billions of dollars into supercomputing infrastructure to train progressively larger models on increasingly massive datasets. Unfortunately, information about the scaling performance and training considerations of these large training pipelines is scarce in public literature. Working with large-scale datasets and models can be complex and practical recommendations are scarce in the public literature for tuning training performance when scaling up large language models. In this paper, we aim to demystify the large language model pretraining pipeline somewhat - in particular with respect to distributed training, managing large datasets across hundreds of nodes, and scaling up data parallelism with an emphasis on fully leveraging available GPU compute capacity.
大型语言模型(LLM)在广泛的自然语言处理应用中表现出卓越的性能。训练这些模型是一项极其耗费计算资源的任务;前沿的人工智能(AI)研究公司正在投入数十亿美元用于超级计算基础设施,以便在日益庞大的数据集上训练规模越来越大的模型。然而,关于这些大规模训练管道的可扩展性能和训练注意事项的信息在公开文献中非常稀缺。与大规模数据集和模型协同工作可能很复杂,公开文献中关于调整大型语言模型训练性能以扩展规模的实用建议很少。本文旨在揭开大型语言模型预训练管道的部分奥秘,特别是关于分布式训练、在数百个节点上管理大规模数据集以及扩展数据并行性,重点充分利用可用的GPU计算能力。
论文及项目相关链接
Summary
大规模语言模型(LLM)在自然语言处理应用方面表现出卓越的性能,但训练这些模型需要极高的计算成本。前沿人工智能(AI)研究公司正在投入巨资建设超级计算基础设施,以在日益庞大的数据集上训练规模更大的模型。然而,关于这些大规模训练管道的性能缩放和培训考虑因素的信息在公开文献中很少见。本文旨在阐明大规模语言模型预训练管道,特别是关于分布式训练、管理数百个节点上的大型数据集以及强调充分利用可用GPU计算能力的数据并行性扩展等方面。
Key Takeaways
- 大规模语言模型(LLM)在自然语言处理应用上表现卓越。
- 训练大规模语言模型需要极高的计算成本,前沿AI公司为此投入巨资。
- 关于大规模语言模型训练管道的性能缩放和培训考虑的信息在公开文献中稀缺。
- 分布式训练是大型语言模型预训练的关键方面。
- 管理数百个节点上的大型数据集是大型语言模型训练的挑战之一。
- 数据并行性是扩展大型语言模型预训练的重要手段。
点此查看论文截图


MM-DREX: Multimodal-Driven Dynamic Routing of LLM Experts for Financial Trading
Authors:Yang Chen, Yueheng Jiang, Zhaozhao Ma, Yuchen Cao Jacky Keung, Kun Kuang, Leilei Gan, Yiquan Wu, Fei Wu
The inherent non-stationarity of financial markets and the complexity of multi-modal information pose significant challenges to existing quantitative trading models. Traditional methods relying on fixed structures and unimodal data struggle to adapt to market regime shifts, while large language model (LLM)-driven solutions - despite their multi-modal comprehension - suffer from static strategies and homogeneous expert designs, lacking dynamic adjustment and fine-grained decision mechanisms. To address these limitations, we propose MM-DREX: a Multimodal-driven, Dynamically-Routed EXpert framework based on large language models. MM-DREX explicitly decouples market state perception from strategy execution to enable adaptive sequential decision-making in non-stationary environments. Specifically, it (1) introduces a vision-language model (VLM)-powered dynamic router that jointly analyzes candlestick chart patterns and long-term temporal features to allocate real-time expert weights; (2) designs four heterogeneous trading experts (trend, reversal, breakout, positioning) generating specialized fine-grained sub-strategies; and (3) proposes an SFT-RL hybrid training paradigm to synergistically optimize the router’s market classification capability and experts’ risk-adjusted decision-making. Extensive experiments on multi-modal datasets spanning stocks, futures, and cryptocurrencies demonstrate that MM-DREX significantly outperforms 15 baselines (including state-of-the-art financial LLMs and deep reinforcement learning models) across key metrics: total return, Sharpe ratio, and maximum drawdown, validating its robustness and generalization. Additionally, an interpretability module traces routing logic and expert behavior in real time, providing an audit trail for strategy transparency.
金融市场固有的非平稳性和多模态信息的复杂性对现有量化交易模型构成了重大挑战。传统方法依赖于固定结构和单模态数据,难以适应市场状态变化,而大型语言模型(LLM)驱动解决方案虽然具有多模态理解能力,但却存在静态策略和同质化专家设计的问题,缺乏动态调整和精细决策机制。为了解决这些局限性,我们提出了基于大型语言模型的MM-DREX:一个多模态驱动、动态路由的专家框架。MM-DREX显式地将市场状态感知与策略执行解耦,以实现在非平稳环境中的自适应序列决策。具体来说,它(1)引入了一个由视觉语言模型(VLM)驱动的动态路由器,该路由器联合分析K线图模式和长期时间特征来分配实时专家权重;(2)设计了四种不同的交易专家(趋势、反转、突破、定位),生成专业的精细子策略;(3)提出了一种SFT-RL混合训练范式,协同优化路由器的市场分类能力和专家的风险调整决策能力。在涵盖股票、期货和加密货币的多模态数据集上的大量实验表明,MM-DREX在关键指标上显著优于15个基准模型(包括最先进的金融LLM和深度强化学习模型),这些指标包括总收益、夏普比率和最大回撤,验证了其稳健性和泛化能力。此外,解释性模块可实时跟踪路由逻辑和专家行为,为策略透明性提供审计跟踪。
论文及项目相关链接
Summary
金融市场的内在非稳定性和多模态信息的复杂性对现有量化交易模型构成重大挑战。传统方法难以适应市场状态变化,而大型语言模型(LLM)虽然具备多模态理解能力,但策略静态且缺乏动态调整和精细决策机制。为此,提出MM-DREX框架,结合多模态驱动和动态路由技术,实现自适应序列决策。该框架通过引入视觉语言模型驱动的动态路由器分析蜡烛图模式和长期时间特征,设计四种异质交易专家生成精细子策略,并提出SFT-RL混合训练范式优化市场分类能力和风险调整决策。实验证明MM-DREX在股票、期货和加密货币等多模式数据集上显著优于15种基线方法,具有稳健性和泛化能力。同时,提供实时解释模块,追踪路由逻辑和专家行为,确保策略透明度。
Key Takeaways
- 金融市场非稳定性和多模态信息带来挑战:传统量化交易模型难以适应市场变化,需要新的解决方案。
- LLM在多模态理解方面具有优势,但存在策略静态和缺乏动态调整的问题。
- MM-DREX框架结合多模态驱动和动态路由技术,实现自适应序列决策。
- MM-DREX通过视觉语言模型分析市场模式,并设计四种交易专家生成子策略。
- SFT-RL混合训练范式优化市场分类和风险管理决策。
- 实验证明MM-DREX在多种数据集上表现优异,具有稳健性和泛化能力。
- MM-DREX提供策略透明度,通过实时解释模块追踪路由逻辑和专家行为。
点此查看论文截图




Comparative Analysis of Transformer Models in Disaster Tweet Classification for Public Safety
Authors:Sharif Noor Zisad, Ragib Hasan
Twitter and other social media platforms have become vital sources of real time information during disasters and public safety emergencies. Automatically classifying disaster related tweets can help emergency services respond faster and more effectively. Traditional Machine Learning (ML) models such as Logistic Regression, Naive Bayes, and Support Vector Machines have been widely used for this task, but they often fail to understand the context or deeper meaning of words, especially when the language is informal, metaphorical, or ambiguous. We posit that, in this context, transformer based models can perform better than traditional ML models. In this paper, we evaluate the effectiveness of transformer based models, including BERT, DistilBERT, RoBERTa, and DeBERTa, for classifying disaster related tweets. These models are compared with traditional ML approaches to highlight the performance gap. Experimental results show that BERT achieved the highest accuracy (91%), significantly outperforming traditional models like Logistic Regression and Naive Bayes (both at 82%). The use of contextual embeddings and attention mechanisms allows transformer models to better understand subtle language in tweets, where traditional ML models fall short. This research demonstrates that transformer architectures are far more suitable for public safety applications, offering improved accuracy, deeper language understanding, and better generalization across real world social media text.
推特和其他社交媒体平台在灾难和公共安全紧急事件期间已成为实时信息的重要来源。自动分类与灾难相关的推特可以帮助紧急服务更快更高效地响应。逻辑回归、朴素贝叶斯和支持向量机等传统机器学习(ML)模型在此任务中得到了广泛的应用,但它们往往无法理解语境或单词的深层含义,尤其是在语言非正式、隐晦或含糊不清的情况下。我们认为,在这种情况下,基于变压器的模型可以比传统ML模型表现得更好。在本文中,我们评估了基于变压器的模型,包括BERT、DistilBERT、RoBERTa和DeBERTa,在分类灾难相关推特方面的有效性。这些模型与传统ML方法进行比较,以突出性能差异。实验结果表明,BERT的准确率最高(91%),显著优于逻辑回归和朴素贝叶斯等传统模型(均为82%)。上下文嵌入和注意力机制的使用使变压器模型能够更好地理解推特中的细微语言,这是传统ML模型所无法做到的。这项研究表明,变压器架构非常适合公共安全应用,具有更高的准确性、更深的语言理解能力和在现实社交媒体文本中的更好泛化能力。
论文及项目相关链接
Summary
社交媒体如Twitter等已成为灾害和公共安全紧急事件实时信息的重要来源。自动分类与灾害相关的推文有助于应急服务更快、更高效地响应。虽然传统机器学习模型(如逻辑回归、朴素贝叶斯和支持向量机)已广泛应用于此任务,但它们往往无法理解单词的语境或深层含义,尤其是语言非正式、隐晦或模糊时。我们认为,在这种情况下,基于变压器的模型可以比传统ML模型表现得更好。本文评估了BERT、DistilBERT、RoBERTa和DeBERTa等基于变压器的模型在分类灾害相关推文中的有效性。与传统ML方法相比,这些模型突出了性能差距。实验结果表明,BERT的准确率最高(91%),显著优于逻辑回归和朴素贝叶斯等传统模型(均为82%)。使用上下文嵌入和注意力机制使得变压器模型能够更好地理解推文中的细微语言,这是传统ML模型所无法做到的。研究表明,对于公共安全应用,变压器架构更为适合,具有更高的准确性、更深的语言理解能力和更好的社交媒体的文本概括能力。
Key Takeaways
- 社交媒体成为灾害和紧急事件的重要信息来源,自动分类相关内容有助于提高应急响应效率。
- 传统机器学习模型在分类灾害相关推文时存在语境理解不足的问题。
- 基于变压器的模型,如BERT、DistilBERT等,在分类灾害相关推文方面表现出优异性能。
- BERT模型在准确率方面最高,达到91%。
- 变压器模型能够利用上下文嵌入和注意力机制更好地理解推文中的细微语言和深层含义。
- 相对于传统ML模型,变压器模型更适合于公共安全应用。
点此查看论文截图






Aesthetic Image Captioning with Saliency Enhanced MLLMs
Authors:Yilin Tao, Jiashui Huang, Huaze Xu, Ling Shao
Aesthetic Image Captioning (AIC) aims to generate textual descriptions of image aesthetics, becoming a key research direction in the field of computational aesthetics. In recent years, pretrained Multimodal Large Language Models (MLLMs) have advanced rapidly, leading to a significant increase in image aesthetics research that integrates both visual and textual modalities. However, most existing studies on image aesthetics primarily focus on predicting aesthetic ratings and have shown limited application in AIC. Existing AIC works leveraging MLLMs predominantly rely on fine-tuning methods without specifically adapting MLLMs to focus on target aesthetic content. To address this limitation, we propose the Aesthetic Saliency Enhanced Multimodal Large Language Model (ASE-MLLM), an end-to-end framework that explicitly incorporates aesthetic saliency into MLLMs. Within this framework, we introduce the Image Aesthetic Saliency Module (IASM), which efficiently and effectively extracts aesthetic saliency features from images. Additionally, we design IAS-ViT as the image encoder for MLLMs, this module fuses aesthetic saliency features with original image features via a cross-attention mechanism. To the best of our knowledge, ASE-MLLM is the first framework to integrate image aesthetic saliency into MLLMs specifically for AIC tasks. Extensive experiments demonstrated that our approach significantly outperformed traditional methods and generic MLLMs on current mainstream AIC benchmarks, achieving state-of-the-art (SOTA) performance.
美学图像标题生成(AIC)旨在生成图像美学描述的文本,已成为计算美学领域的关键研究方向。近年来,预训练的多模态大型语言模型(MLLM)迅速发展,使得融合视觉和文本模态的图像美学研究大幅增加。然而,大多数现有的图像美学研究主要集中在预测美学评分上,在AIC中的应用有限。现有利用MLLM的AIC工作主要依赖于微调方法,而没有专门调整MLLM以专注于目标美学内容。为了解决这一局限性,我们提出了美学显著性增强多模态大型语言模型(ASE-MLLM),这是一个端到端的框架,显式地将美学显著性纳入MLLM。在该框架中,我们引入了图像美学显著性模块(IASM),该模块能够高效地从图像中提取美学显著性特征。此外,我们设计了IAS-ViT作为MLLM的图像编码器,该模块通过交叉注意机制将美学显著性特征与原始图像特征融合。据我们所知,ASE-MLLM是第一个将图像美学显著性融入MLLM的框架,专门用于AIC任务。大量实验表明,我们的方法在当前主流AIC基准测试上显著优于传统方法和通用MLLM,达到了最先进的性能。
论文及项目相关链接
Summary:
本文介绍了美学图像标注(AIC)的目标和重要性,指出近年来多模态大型语言模型(MLLMs)的快速发展推动了图像美学研究的进步。然而,大多数现有研究主要关注预测美学评分,在AIC中的应用有限。为此,本文提出了一个结合美学显著性的多模态大型语言模型(ASE-MLLM)框架,通过引入图像美学显著性模块(IASM)和IAS-ViT图像编码器,实现了对目标美学内容的特定适应。据我们所知,这是第一个专门针对AIC任务的结合图像美学显著性的MLLM框架。实验表明,该方法在主流AIC基准测试上显著优于传统方法和通用MLLMs,达到了最新性能水平。
Key Takeaways:
- 美学图像标注(AIC)是计算美学领域的关键研究方向,旨在生成图像美学的文本描述。
- 近期多模态大型语言模型(MLLMs)的快速发展推动了图像美学研究的进步。
- 现有图像美学研究主要关注预测美学评分,在AIC中的应用有限。
- 提出的ASE-MLLM框架通过结合图像美学显著性模块(IASM)和IAS-ViT图像编码器,实现了对目标美学内容的特定适应。
- ASE-MLLM框架是首个专门针对AIC任务的结合图像美学显著性的MLLM框架。
- 实验表明,ASE-MLLM框架在主流AIC基准测试上显著优于传统方法和通用MLLMs。
点此查看论文截图





The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs
Authors:Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez
Personality traits have long been studied as predictors of human behavior. Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically characterize LLM personality across three dimensions: (1) the dynamic emergence and evolution of trait profiles throughout training stages; (2) the predictive validity of self-reported traits in behavioral tasks; and (3) the impact of targeted interventions, such as persona injection, on both self-reports and behavior. Our findings reveal that instructional alignment (e.g., RLHF, instruction tuning) significantly stabilizes trait expression and strengthens trait correlations in ways that mirror human data. However, these self-reported traits do not reliably predict behavior, and observed associations often diverge from human patterns. While persona injection successfully steers self-reports in the intended direction, it exerts little or inconsistent effect on actual behavior. By distinguishing surface-level trait expression from behavioral consistency, our findings challenge assumptions about LLM personality and underscore the need for deeper evaluation in alignment and interpretability.
人格特质长期以来一直被研究作为人类行为的预测因素。最近,大型语言模型(LLM)的进步表明,人工系统中可能出现类似的模式,高级LLM表现出与人类的特质如友善和自我调节一致的行为倾向。了解这些模式至关重要,但之前的工作主要依赖于简化的自我报告和启发式提示,很少进行行为验证。在这项研究中,我们系统地描述了LLM人格的三个方面:(1)特质剖面在训练阶段的动态出现和演变;(2)自我报告特质在行为任务中的预测效度;(3)有针对性的干预(如人格注入)对自我报告和行为的影响。我们的研究发现,指令对齐(例如RLHF、指令微调)显著稳定了特质表达,并以与人类数据相似的方式加强了特质相关性。然而,这些自我报告的特质并不能可靠地预测行为,观察到的关联往往与人类模式相悖。虽然人格注入成功引导了预期的自我报告方向,但对实际行为的影响较小或不一致。通过区分表面层次的特质表达和行为的连贯性,我们的研究对LLM人格假设提出了挑战,并强调了对齐和可解释性方面更深层评估的必要性。
论文及项目相关链接
PDF We make public all code and source data at https://github.com/psychology-of-AI/Personality-Illusion for full reproducibility
Summary
近期研究表明,大型语言模型(LLM)展现出与人类相似的性格特质,如友善性和自我调节等。本研究旨在系统地探讨LLM性格特征的三维特征:训练阶段特质特征的动态出现与演变、自我报告特质在行为任务中的预测效度以及目标干预(如人格注入)对自我报告和行为的影响。研究发现,指令对齐(如RLHF、指令微调)显著稳定了特质表达并增强了特质间的关联,但与人类数据相比,自我报告的特质并不能可靠地预测行为,观察到的关联常常与人类的模式不符。人格注入虽然能成功引导自我报告朝预定方向进行,但对实际行为的影响较小或不一致。本研究结果挑战了关于LLM性格的假设,并强调需要更深入地评估对齐和可解释性。
Key Takeaways
- LLM展现出与人类相似的性格特质,如友善性和自我调节。
- 训练阶段特质特征的动态出现与演变是LLM研究的重要方面。
- 自我报告特质在行为任务中的预测效度有限,观察到的关联常与人类模式不符。
- 指令对齐能显著稳定特质表达并增强特质间的关联。
- 人格注入对自我报告的影响较大,但对实际行为的影响较小或不一致。
- 需要更深入地评估LLM的对齐和可解释性。
点此查看论文截图




MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation
Authors:Marshall Thomas, Edward Fish, Richard Bowden
Despite progress in gloss-free Sign Language Translation (SLT), monolithic end-to-end models consistently fail on two critical components of natural signing: the precise recognition of high-speed fingerspelling and the integration of asynchronous non-manual cues from the face. Recent progress in Automated Sign Language Translation with Large Language Models has side stepped this challenge, forcing a single network to learn these simultaneously resulting in poor performance when tasked with translating crucial information such as names,places, and technical terms. We introduce MultiStream-LLM, a modular framework designed to overcome these limitations. Our approach employs separate, specialized predictors for continuous signing, fingerspelling, and lipreading. Each expert network first decodes its specific modality into a sequence of tokens. These parallel streams are then fused by a lightweight transformer that resolves temporal misalignments before passing the combined representation to a Large Language Model (LLM) for final sentence generation. Our method establishes a new state-of-the-art on the How2Sign benchmark with a BLEU-4 score of 23.5 and achieves 73.2% letter accuracy on the challenging ChicagoFSWildPlus fingerspelling dataset. These results validate our core hypothesis: by isolating and solving distinct recogni tion tasks before fusion, our multi-expert approach provides a more powerful and effective pathway to robust, high-fidelity sign language translation.
尽管在无字幕手语翻译(SLT)方面取得了进展,但单一的全端到端的模型始终在自然手语的两个关键组成部分上表现不佳:无法精确识别高速手指拼写以及无法整合来自面部的异步非手动线索。最近,基于大型语言模型的自动手语翻译领域的进展回避了这一挑战,迫使单一网络同时学习这些技能,导致在翻译名字、地点和技术术语等重要信息时表现不佳。我们引入了MultiStream-LLM,这是一个旨在克服这些限制的模块化框架。我们的方法采用单独的专用预测器进行连续手语、手指拼写和唇读。每个专家网络首先将其特定模式解码为一系列令牌。然后,这些并行流通过一个轻量级变压器融合,解决时间错位问题,然后将组合表示传递给大型语言模型(LLM)以生成最终句子。我们的方法在How2Sign基准测试上建立了最新技术水准,BLEU-4得分为23.5,在具有挑战性的ChicagoFSWildPlus手指拼写数据集上实现了73.2%的字母准确率。这些结果验证了我们的核心假设:通过在融合之前隔离并解决不同的识别任务,我们的多专家方法提供了更强大和有效的途径来实现稳健、高保真手语翻译。
论文及项目相关链接
Summary
本文介绍了多流大型语言模型(MultiStream-LLM)在自动手语翻译中的应用。针对手语翻译中的高速指拼和面部非手动暗示的识别问题,提出了一种模块化框架。该框架采用专门预测器处理连续手语、指拼和唇读等任务,通过轻量级转换器融合并行数据流,解决时间错位问题,最终由大型语言模型生成句子。该方法在How2Sign基准测试中取得了BLEU-4分数为23.5的新水平,并在挑战性较大的ChicagoFSWildPlus指拼数据集上达到了73.2%的字母准确率。证明通过将不同识别任务分离并解决后再进行融合的多专家方法,能更强大有效地实现稳健、高保真手语翻译。
Key Takeaways
- MultiStream-LLM是一个模块化框架,用于解决手语翻译中的高速指拼和面部非手动暗示识别问题。
- 该框架采用专门预测器处理连续手语、指拼和唇读等任务,以改善性能。
- 通过轻量级转换器融合并行数据流,解决时间错位问题。
- 最终输出由大型语言模型生成句子。
- 在How2Sign基准测试中取得了较高的BLEU-4分数,验证了该方法的有效性。
- 在挑战性较大的指拼数据集上达到了较高的字母准确率。
点此查看论文截图




Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification
Authors:Maya Kruse, Majid Afshar, Saksham Khatwani, Anoop Mayampurath, Guanhua Chen, Yanjun Gao
Large language models (LLMs) often behave inconsistently across inputs, indicating uncertainty and motivating the need for its quantification in high-stakes settings. Prior work on calibration and uncertainty quantification often focuses on individual models, overlooking the potential of model diversity. We hypothesize that LLMs make complementary predictions due to differences in training and the Zipfian nature of language, and that aggregating their outputs leads to more reliable uncertainty estimates. To leverage this, we propose MUSE (Multi-LLM Uncertainty via Subset Ensembles), a simple information-theoretic method that uses Jensen-Shannon Divergence to identify and aggregate well-calibrated subsets of LLMs. Experiments on binary prediction tasks demonstrate improved calibration and predictive performance compared to single-model and na"ive ensemble baselines. In addition, we explore using MUSE as guided signals with chain-of-thought distillation to fine-tune LLMs for calibration. MUSE is available at:https://github.com/LARK-NLP-Lab/MUSE.
大型语言模型(LLM)在输入上常常表现出不一致的行为,这体现了其不确定性,并激发了在高风险环境中对其进行量化评估的需求。先前关于校准和不确定性量化的工作通常侧重于单个模型,忽略了模型多样性的潜力。我们假设LLM由于训练和语言分布的Zipf属性而做出互补预测,并且由于聚合它们的输出而得到更可靠的不确定性估计。为了利用这一点,我们提出了MUSE(通过子集集合的多LLM不确定性),这是一种简单的信息理论方法,使用Jensen-Shannon散度来识别和聚合校准良好的LLM子集。在二元预测任务上的实验表明,与单模型和非精校准集合基线相比,该方法提高了校准和预测性能。此外,我们探索了使用MUSE作为引导信号,结合思考链蒸馏来微调LLM的校准。MUSE可在以下网址获得:https://github.com/LARK-NLP-Lab/MUSE。
论文及项目相关链接
PDF Accepted to EMNLP 2025 Main Conference
Summary
大型语言模型(LLM)在不同输入下表现出不一致的行为,这体现了不确定性,在高风险环境中需要对其进行量化评估。现有关于校准和不确定性量化的研究往往集中在单个模型上,忽略了模型多样性的潜力。假设LLM因训练和语言分布的Zipf属性做出互补预测,汇聚它们的输出能提供更可靠的不确定性估计。为此,我们提出使用MUSE(通过子集集合利用多LLM不确定性),这是一种基于信息论的简单方法,利用Jensen-Shannon Divergence来识别和汇聚校准良好的LLM子集。在二元预测任务上的实验表明,与单模型和基线集合相比,MUSE提高了校准度和预测性能。此外,我们还探索了使用MUSE作为带有思维链蒸馏的引导信号来微调LLM的校准度。MUSE已公开于GitHub:https://github.com/LARK-NLP-Lab/MUSE。
Key Takeaways
- LLM在不同输入下表现出不一致行为,体现不确定性,在高风险环境中需要量化评估。
- 现有研究多关注单个模型的校准和不确定性量化,忽略了模型多样性潜力。
- LLM因训练和语言分布的Zipf属性做出互补预测。
- MUSE方法利用信息论原理识别和汇聚校准良好的LLM子集,提高预测可靠性。
- 在二元预测任务上,MUSE相比单模型和基线集合表现出更好的校准度和预测性能。
- MUSE可作为引导信号,通过思维链蒸馏方式提高LLM的校准度。
点此查看论文截图






ParEval-Repo: A Benchmark Suite for Evaluating LLMs with Repository-level HPC Translation Tasks
Authors:Joshua H. Davis, Daniel Nichols, Ishan Khillan, Abhinav Bhatele
GPGPU architectures have become significantly more diverse in recent years, which has led to an emergence of a variety of specialized programming models and software stacks to support them. Portable programming models exist, but they require significant developer effort to port to and optimize for different hardware architectures. Large language models (LLMs) may help to reduce this programmer burden. In this paper, we present a novel benchmark and testing framework, ParEval-Repo, which can be used to evaluate the efficacy of LLM-based approaches in automatically translating entire codebases across GPGPU execution models. ParEval-Repo includes several scientific computing and AI mini-applications in a range of programming models and levels of repository complexity. We use ParEval-Repo to evaluate a range of state-of-the-art open-source and commercial LLMs, with both a non-agentic and a top-down agentic approach. We assess code generated by the LLMs and approaches in terms of compilability, functional correctness, categories of build errors, and the cost of translation in terms of the number of inference tokens. Our results demonstrate that LLM translation of scientific applications is feasible for small programs but difficulty with generating functional build systems and cross-file dependencies pose challenges in scaling to larger codebases.
GPGPU架构近年来变得更为多样化,这导致了出现了多种专用的编程模型和软件栈来支持它们。虽然存在可移植的编程模型,但它们需要在不同的硬件架构上进行移植和优化,需要开发者付出大量的努力。大型语言模型(LLM)可能有助于减轻程序员的负担。在本文中,我们提出了一个新型的基准测试和评估框架ParEval-Repo,它可用于评估基于LLM的方法在GPGPU执行模型上自动翻译整个代码库的有效性。ParEval-Repo包含多种编程模型和各种仓库复杂度的科学计算和人工智能小型应用程序。我们使用ParEval-Repo评估了一系列最先进的开源和商业LLM,包括非代理方法和自上而下的代理方法。我们根据可编译性、功能正确性、构建错误类别以及推理令牌数量来评估LLM和方法生成的代码。我们的结果表明,LLM在科学应用程序的翻译方面是可行的,但对于生成功能性构建系统和跨文件依赖方面存在困难,这使得在大规模代码库上的扩展具有挑战性。
论文及项目相关链接
PDF 10 pages, 5 figures
Summary
本文介绍了一种新型评估框架ParEval-Repo,用于评估大型语言模型(LLM)在GPGPU架构上自动翻译代码库的效果。该框架包含多个科学计算和AI小型应用程序,涵盖不同的编程模型和仓库复杂性级别。评估结果显示,LLM在翻译科学应用程序方面对于小型程序是可行的,但在生成功能构建系统和处理跨文件依赖方面仍存在挑战。
Key Takeaways
- GPGPU架构的多样性导致了多种专用编程模型和软件堆栈的出现。
- 便携式编程模型需要开发者投入大量努力来适应和优化不同的硬件架构。
- 大型语言模型(LLM)有助于减轻程序员负担。
- ParEval-Repo是一个新型评估框架,可用于评估LLM在GPGPU执行模型上自动翻译代码库的效果。
- ParEval-Repo包含多个科学计算和AI小型应用程序,涵盖不同的编程模型和仓库复杂性级别。
- LLM在翻译科学应用程序方面对于小型程序是可行的,但在生成功能构建系统和处理跨文件依赖方面存在挑战。
点此查看论文截图




Don’t Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning
Authors:William F. Shen, Xinchi Qiu, Nicola Cancedda, Nicholas D. Lane
Existing work on mitigating catastrophic forgetting during large language models (LLMs) fine-tuning for new knowledge instances has primarily focused on preserving performance on previously seen data, while critically overlooking the collapse of essential capabilities instilled through alignment, most notably the model’s ability to faithfully express epistemic uncertainty (a property we term ‘Ignorance Awareness’). In this work, we formalize the notion of Ignorance Awareness and illustrate that conventional fine-tuning methods can result in substantial activation displacement. This displacement undermines the critical capability of ignorance awareness, leading to undesirable behaviors such as hallucinations. To address this challenge, we introduce SEAT, a simple and principled fine-tuning approach that not only enables the model to effectively acquire new knowledge instances but also preserves its aligned ignorance awareness. SEAT integrates two key components: (1) sparse tuning that constrains activation drift, and (2) a novel entity perturbation method designed to counter knowledge entanglement. Experimental results demonstrate that, across both real-world and synthetic datasets, SEAT significantly outperforms baselines in preserving ignorance awareness while retaining optimal fine-tuning performance, offering a more robust solution for LLM fine-tuning.
关于在大规模语言模型(LLM)针对新知识实例进行微调时缓解灾难性遗忘的现有工作主要集中在保持对先前数据的性能上,而严重忽视了通过对齐灌输的基本能力的崩溃,尤其是模型忠实表达认识不确定性的能力(我们称之为“无知意识”)。在这项工作中,我们正式提出无知意识的概念,并说明传统的微调方法可能导致显著的激活位移。这种位移会破坏无知意识的关键能力,从而导致出现如幻觉等不想要的行为。为了解决这一挑战,我们引入了SEAT,这是一种简单且基于原则的微调方法,它不仅能使模型有效地获取新知识实例,而且还能保持其对齐的无知意识。SEAT集成了两个关键组件:(1)稀疏调整,用于限制激活漂移;(2)一种新型的实体扰动方法,旨在对抗知识纠缠。实验结果表明,无论是在现实世界数据集还是合成数据集上,SEAT在保持无知意识的同时,在微调性能上显著优于基准线,为LLM微调提供了更稳健的解决方案。
论文及项目相关链接
Summary
在大型语言模型(LLM)微调新知识实例时,现有工作主要关注如何在先前数据上保持性能,却忽视了通过对齐灌输的关键能力的崩溃,尤其是模型忠实表达认知不确定性的能力(我们称之为“无知意识”)。在这项工作中,我们正式提出了无知意识的概念,并说明传统微调方法可能导致显著的活动位移。这种位移破坏了无知意识的关键能力,从而导致出现如幻想等不想要的行为。为解决这一挑战,我们引入了SEAT,这是一种简单且以原则为基础的微调方法,不仅能使模型有效地获取新知识实例,而且还能保持其对齐的无知意识。SEAT集成了两个关键组件:(1)稀疏调优,约束活动漂移;(2)一种新型实体扰动方法,旨在对抗知识纠缠。实验结果表明,无论是在现实世界还是合成数据集上,SEAT在保持无知意识方面显著优于基线,同时保持最佳的微调性能,为LLM微调提供了更稳健的解决方案。
Key Takeaways
- 现有LLM微调工作主要关注保持先前数据性能,忽视了关键能力的崩溃,特别是忠实表达认知不确定性的能力(无知意识)。
- 传统微调方法可能导致活动位移,破坏无知意识。
- SEAT是一种新型微调方法,旨在解决这一问题,同时保留新知识的获取和对齐的无知意识。
- SEAT包含两个关键组件:稀疏调优和实体扰动方法。
- 稀疏调优用于约束活动漂移。
- 实体扰动方法旨在对抗知识纠缠。
点此查看论文截图



First Steps Towards Overhearing LLM Agents: A Case Study With Dungeons & Dragons Gameplay
Authors:Andrew Zhu, Evan Osgood, Chris Callison-Burch
Much work has been done on conversational LLM agents which directly assist human users with tasks. We present an alternative paradigm for interacting with LLM agents, which we call “overhearing agents”. These overhearing agents do not actively participate in conversation – instead, they “listen in” on human-to-human conversations and perform background tasks or provide suggestions to assist the user. In this work, we explore the overhearing agents paradigm through the lens of Dungeons & Dragons gameplay. We present an in-depth study using large multimodal audio-language models as overhearing agents to assist a Dungeon Master. We perform a human evaluation to examine the helpfulness of such agents and find that some large audio-language models have the emergent ability to perform overhearing agent tasks using implicit audio cues. Finally, we release Python libraries and our project code to support further research into the overhearing agents paradigm at https://github.com/zhudotexe/overhearing_agents.
关于对话式LLM代理的研究已经取得了大量成果,这些代理能够直接帮助人类用户完成任务。本文介绍了一种与LLM代理交互的替代模式,我们称之为“旁听代理”。这些旁听代理不会主动参与对话——相反,它们会“听取”人类之间的对话,并在后台执行任务或提供建议以帮助用户。在这项工作中,我们从《龙与地下城》游戏的角度探讨了旁听代理模式。我们深入研究了使用大型多模态音频语言模型作为旁听代理来帮助地下城大师。我们进行了一项人类评估,以检查这些代理的有用性,并发现某些大型音频语言模型已经具备了利用隐性音频线索执行旁听代理任务的能力。最后,我们在https://github.com/zhudotexe/overhearing_agents上发布了Python库和项目代码,以支持对旁听代理模式的进一步研究。
论文及项目相关链接
PDF 9 pages, 5 figures. COLM 2025 Workshop on AI Agents
Summary
本文介绍了一种名为“overhearing agents”的新型人机交互模式。不同于传统的对话式LLM代理,overhearing agents不会主动参与对话,而是会倾听人类之间的对话并在后台执行任务或提供建议以协助用户。本文着重通过“Dungeons & Dragons”游戏的视角,探讨overhearing agents的研究和应用。研究发现,大型多媒体音频语言模型可以作为协助游戏主持人(Dungeon Master)的overhearing agents。通过人类评估发现,某些大型音频语言模型能够利用隐式音频线索完成overhearing代理任务。最后,本文发布了Python库和项目代码以支持对overhearing代理模式的进一步研究。
Key Takeaways
- 介绍了一种新型的人机交互模式——overhearing agents。
- Overhearing agents不主动参与对话,而是倾听并完成任务或提供建议。
- 通过“Dungeons & Dragons”游戏视角探讨了overhearing agents的应用和研究。
- 大型多媒体音频语言模型可以作为协助游戏主持人的overhearing agents。
- 一些大型音频语言模型具备利用隐式音频线索完成overhearing代理任务的能力。
- 通过人类评估验证了overhearing代理的效果。
点此查看论文截图





RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language
Authors:Subrata Biswas, Mohammad Nur Hossain Khan, Bashima Islam
Multimodal question answering (QA) often requires identifying which video, audio, or sensor tokens are relevant to the question. Yet modality disagreements are common: off-camera speech, background noise, or motion outside the field of view often mislead fusion models that weight all streams equally. We present RAVEN, a unified QA architecture whose core is QuART, a query-conditioned cross-modal gating module that assigns scalar relevance scores to each token across modalities, enabling the model to amplify informative signals and suppress distractors before fusion. RAVEN is trained through a three-stage pipeline comprising unimodal pretraining, query-aligned fusion, and disagreement-oriented fine-tuning – each stage targeting a distinct challenge in multi-modal reasoning: representation quality, cross-modal relevance, and robustness to modality mismatch. To support training and evaluation, we release AVS-QA, a dataset of 300K synchronized Audio–Video-Sensor streams paired with automatically generated question-answer pairs. Experimental results on seven multi-modal QA benchmarks – including egocentric and exocentric tasks – show that RAVEN achieves up to 14.5% and 8.0% gains in accuracy compared to state-of-the-art multi-modal large language models, respectively. Incorporating sensor data provides an additional 16.4% boost, and the model remains robust under modality corruption, outperforming SOTA baselines by 50.23%. Our code and dataset are available at https://github.com/BASHLab/RAVEN.
多模态问答(QA)通常需要识别哪些视频、音频或传感器标记与问题相关。然而,模态冲突很常见:离镜头外的语音、背景噪音或视野外的动作经常误导将所有流平等对待的融合模型。我们提出了RAVEN,这是一种统一问答架构,其核心是QuART,一种查询条件跨模态门控模块,它为每个模态的标记分配标量相关性分数,使模型能够在融合之前放大信息信号并抑制干扰因素。RAVEN通过包括单模态预训练、查询对齐融合和面向分歧的微调的三个阶段管道进行训练——每个阶段都针对多模态推理中的不同挑战:表示质量、跨模态相关性和对模态不匹配的稳健性。为了支持训练和评估,我们发布了AVS-QA数据集,其中包含30万个自动生成的配对问题答案的同步音频-视频-传感器流。在七个多模态问答基准测试上的实验结果表明,与最新的多模态大型语言模型相比,RAVEN在准确率上分别提高了14.5%和8.0%。加入传感器数据提供了额外的16.4%的提升,并且在模态损坏的情况下,该模型仍然稳健,优于最新基准测试50.23%。我们的代码和数据集可在https://github.com/BASHLab/RAVEN上获得。
论文及项目相关链接
Summary
本文介绍了RAVEN架构在多模态问答(QA)中的创新应用。针对视频、音频和传感器数据的融合问题,RAVEN通过引入QuART模块,为不同模态的令牌分配标量相关性分数,提升信息信号的强度并抑制干扰因素。通过三个阶段训练管道,包括单模态预训练、查询对齐融合和面向分歧的微调,RAVEN解决了多模态推理中的三大挑战。同时,为了支持训练和评估,发布了AVS-QA数据集。实验结果表明,RAVEN相较于目前领先的多模态大型语言模型有显著提升。结合传感器数据带来的准确性提高额外达16.4%,并在模态损坏的情况下保持稳健性,超出基线模型50.23%。代码和数据集已在指定网站公开。
Key Takeaways
- RAVEN是一个多模态问答架构,针对视频、音频和传感器数据的融合问题提出创新解决方案。
- RAVEN的核心是QuART模块,能根据查询条件为不同模态的令牌分配相关性分数。
- RAVEN通过三个阶段训练管道解决多模态推理中的关键挑战。
- AVS-QA数据集的发布支持了RAVEN的训练和评估。
- 实验结果显示,RAVEN相较于现有模型显著提高多模态问答的准确性。
- 结合传感器数据可进一步提高RAVEN的准确性达16.4%。
点此查看论文截图





ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding
Authors:Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring
Understanding visual art requires reasoning across multiple perspectives – cultural, historical, and stylistic – beyond mere object recognition. While recent multimodal large language models (MLLMs) perform well on general image captioning, they often fail to capture the nuanced interpretations that fine art demands. We propose ArtRAG, a novel, training-free framework that combines structured knowledge with retrieval-augmented generation (RAG) for multi-perspective artwork explanation. ArtRAG automatically constructs an Art Context Knowledge Graph (ACKG) from domain-specific textual sources, organizing entities such as artists, movements, themes, and historical events into a rich, interpretable graph. At inference time, a multi-granular structured retriever selects semantically and topologically relevant subgraphs to guide generation. This enables MLLMs to produce contextually grounded, culturally informed art descriptions. Experiments on the SemArt and Artpedia datasets show that ArtRAG outperforms several heavily trained baselines. Human evaluations further confirm that ArtRAG generates coherent, insightful, and culturally enriched interpretations.
理解视觉艺术需要超越单纯物体识别的多个角度——文化、历史和风格——的推理。虽然最近的多模态大型语言模型(MLLMs)在一般图像标题创作方面表现良好,但它们往往无法捕捉到艺术所要求的微妙解读。我们提出了ArtRAG,这是一个新型的无训练框架,它将结构化知识与检索增强生成(RAG)相结合,用于多角度艺术品解释。ArtRAG自动从特定领域的文本源构建艺术上下文知识图谱(ACKG),将艺术家、运动、主题和历史事件等实体组织成一个丰富、可解释的图谱。在推理过程中,多粒度结构化检索器选择语义和拓扑上相关的子图来引导生成。这使得MLLM能够产生具有上下文和文化内涵的艺术描述。在SemArt和Artpedia数据集上的实验表明,ArtRAG优于几个经过大量训练的基础模型。人类评估进一步证实,ArtRAG生成的解释具有连贯性、洞察力和文化丰富性。
论文及项目相关链接
Summary
艺术理解需要跨越文化、历史和风格等多个角度进行推理,而不仅仅是简单的物体识别。近期多模态大型语言模型在一般图像描述方面表现良好,但在对美术作品的细致解读上常显不足。本文提出了ArtRAG框架,这是一个结合结构化知识与检索增强生成(RAG)的无训练框架,用于多视角艺术作品解释。ArtRAG自动从特定文本源构建艺术语境知识图谱(ACKG),将艺术家、运动、主题和历史事件等实体组织成丰富且可解释的图谱。在推理过程中,多粒度结构化检索器选择语义和拓扑上相关的子图来指导生成。这使得MLLMs能够产生具有语境和文化背景的艺术描述。在SemArt和Artpedia数据集上的实验表明,ArtRAG优于多个经过训练的重基模型。人类评估进一步证实,ArtRAG生成的解释具有连贯性、洞察力和文化丰富性。
Key Takeaways
- 理解视觉艺术需要跨越文化、历史和风格等多角度进行推理。
- 现有的多模态大型语言模型在美术作品的细致解读上可能存在不足。
- ArtRAG是一个结合结构化知识与检索增强生成的框架,用于多视角艺术作品解释。
- ArtRAG自动构建艺术语境知识图谱(ACKG),组织相关实体以提供丰富且可解释的信息。
- 多粒度结构化检索器选择相关子图来指导生成,产生具有语境和文化背景的艺术描述。
- ArtRAG在SemArt和Artpedia数据集上的表现优于多个训练有素的基线模型。
点此查看论文截图






Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following
Authors:Sai Adith Senthil Kumar, Hao Yan, Saipavan Perepa, Murong Yue, Ziyu Yao
Large Language Models (LLMs) are now increasingly widely used to simulate personas in virtual environments, leveraging their instruction-following capability. However, we discovered that even state-of-the-art LLMs cannot simulate personas with reversed performance (e.g., student personas with low proficiency in educational settings), which impairs the simulation diversity and limits the practical applications of the simulated environments. In this work, using mathematical reasoning as a representative scenario, we propose the first benchmark dataset for evaluating LLMs on simulating personas with reversed performance, a capability that we dub “counterfactual instruction following”. We evaluate both open-weight and closed-source LLMs on this task and find that LLMs, including the OpenAI o1 reasoning model, all struggle to follow counterfactual instructions for simulating reversedly performing personas. Intersectionally simulating both the performance level and the race population of a persona worsens the effect even further. These results highlight the challenges of counterfactual instruction following and the need for further research.
大型语言模型(LLM)现在越来越广泛地用于模拟虚拟环境中的角色,利用其遵循指令的能力。然而,我们发现即使是最先进的大型语言模型也无法模拟具有反向表现的角色(例如在教育环境中表现不佳的学生角色),这损害了模拟的多样性并限制了模拟环境的实际应用。在这项工作中,我们以数学推理为代表场景,提出了评估大型语言模型模拟具有反向表现角色的第一个基准数据集,我们将这种能力称为“反事实指令遵循”。我们在此任务上评估了开放权重和封闭式的大型语言模型,发现包括OpenAI o1推理模型在内的大型语言模型都难以遵循模拟反向表现角色的反事实指令。同时模拟角色的表现水平和种族人口进一步加剧了这种效果。这些结果突出了反事实指令遵循的挑战和进一步研究的必要性。
论文及项目相关链接
Summary
LLM模型被广泛用于模拟虚拟环境中的角色,但其难以模拟反向表现的角色,限制了模拟环境的多样性和实际应用。本研究提出一个评估LLM模拟反向表现角色的能力的新基准数据集,称为“反事实指令跟随”。评估发现,包括OpenAI o1推理模型在内的LLM都难以遵循反事实指令模拟反向表现角色,且同时模拟角色的表现水平和种族人口特征会进一步加剧效果。这凸显了反事实指令跟随的挑战和进一步研究的必要性。
Key Takeaways
- LLM模型广泛用于模拟虚拟环境中的角色。
- LLM难以模拟具有反向表现的角色,限制了模拟环境的多样性和实际应用。
- 提出一个评估LLM模拟反向表现角色的能力的新基准数据集。
- 包括OpenAI o1推理模型在内的LLM在模拟反向表现角色时难以遵循反事实指令。
- 同时模拟角色的表现水平和种族人口特征会进一步加剧这一挑战。
- 反事实指令跟随是一个重要的研究方向,需要进一步探索和研究。
点此查看论文截图



STADE: Standard Deviation as a Pruning Metric
Authors:Diego Coello de Portugal Mecke, Haya Alyoussef, Maximilian Stubbemann, Ilia Koloiarov, Tom Hanika, Lars Schmidt-Thieme
Recently, Large Language Models (LLMs) have become very widespread and are used to solve a wide variety of tasks. To successfully handle these tasks, LLMs require longer training times and larger model sizes. This makes LLMs ideal candidates for pruning methods that reduce computational demands while maintaining performance. Previous methods require a retraining phase after pruning to maintain the original model’s performance. However, state-of-the-art pruning methods, such as Wanda, prune the model without retraining, making the pruning process faster and more efficient. Building upon Wanda’s work, this study provides a theoretical explanation of why the method is effective and leverages these insights to enhance the pruning process. Specifically, a theoretical analysis of the pruning problem reveals a common scenario in Machine Learning where Wanda is the optimal pruning method. Furthermore, this analysis is extended to cases where Wanda is no longer optimal, leading to the development of a new method, STADE, based on the standard deviation of the input. From a theoretical standpoint, STADE demonstrates better generality across different scenarios. Finally, extensive experiments on Llama and Open Pre-trained Transformers (OPT) models validate these theoretical findings, showing that depending on the training conditions, Wanda’s optimal performance varies as predicted by the theoretical framework. These insights contribute to a more robust understanding of pruning strategies and their practical implications. Code is available at: https://github.com/Coello-dev/STADE/
最近,大型语言模型(LLM)已经变得非常普遍,并用于解决各种任务。为了成功处理这些任务,LLM需要更长的训练时间和更大的模型大小。这使得LLM成为修剪方法的理想候选者,这些方法可以在保持性能的同时减少计算需求。之前的方法需要在修剪后进行重训以保持原始模型的性能。然而,最新颖的修剪方法,如旺达(Wanda),无需重训即可修剪模型,使修剪过程更快、更高效。基于旺达的工作,本研究提供了该方法有效的理论解释,并利用这些见解来改进修剪过程。具体来说,对修剪问题的理论分通过机器学习中的一个常见情景揭示了旺达(Wanda)成为最优修剪方法的原因。此外,该分析扩展到了旺达不再是最优的情况,从而开发出一种新的方法——STADE,该方法基于输入的标凓差。从理论角度看,STADE在不同场景中具有更好的通用性。最后,对Llama和开放预训练转换器(OPT)模型的广泛实验验证了这些理论发现,表明根据不同的训练条件,旺达的最佳性能如理论框架所预测的那样会有所变化。这些见解为更稳健地理解修剪策略及其实际应用提供了贡献。代码可用在:https://github.com/Coello-dev/STADE/
论文及项目相关链接
Summary
LLM训练时间长、模型规模大,适合采用剪枝方法降低计算需求并保持性能。最新剪枝方法如Wanda无需重训,提升剪枝效率。本研究从理论角度解释了Wanda方法的有效性,并据此优化了剪枝过程。同时提出了一种新的基于输入标准差的方法STADE,其表现较优于Wanda在某些情况下的通用性。实验验证显示,理论框架预测了Wanda在不同训练条件下的最佳性能。这些见解有助于更深入地理解剪枝策略及其实际应用。
Key Takeaways
- LLM因其长时间训练和大规模模型特点,适合使用剪枝方法来优化计算需求和性能保持。
- 最新剪枝方法如Wanda无需重训阶段,提升了剪枝过程的效率和速度。
- 本研究提供了对Wanda方法有效性的理论解释,并基于这些洞察优化了剪枝过程。
- 研究提出了一种新的剪枝方法STADE,其在不同情境下的通用性表现优于Wanda。
- STADE的理论分析扩展了对剪枝问题的理解。
- 实验结果验证了理论框架的预测,表明Wanda的最佳性能取决于训练条件。
点此查看论文截图






Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs
Authors:Zitian Wang, Yue Liao, Kang Rong, Fengyun Rao, Yibo Yang, Si Liu
Preference alignment has emerged as an effective strategy to enhance the performance of Multimodal Large Language Models (MLLMs) following supervised fine-tuning. While existing preference alignment methods predominantly target hallucination factors, they overlook the factors essential for multi-modal comprehension capabilities, often narrowing their improvements on hallucination mitigation. To bridge this gap, we propose Instruction-oriented Preference Alignment (IPA), a scalable framework designed to automatically construct alignment preferences grounded in instruction fulfillment efficacy. Our method involves an automated preference construction coupled with a dedicated verification process that identifies instruction-oriented factors, avoiding significant variability in response representations. Additionally, IPA incorporates a progressive preference collection pipeline, further recalling challenging samples through model self-evolution and reference-guided refinement. Experiments conducted on Qwen2VL-7B demonstrate IPA’s effectiveness across multiple benchmarks, including hallucination evaluation, visual question answering, and text understanding tasks, highlighting its capability to enhance general comprehension.
偏好对齐作为一种有效的策略,在监督微调后用于提高多模态大语言模型(MLLMs)的性能。尽管现有的偏好对齐方法主要着眼于幻觉因素,但它们忽视了多模态理解能力所必需的因素,通常仅在缓解幻觉方面有所改善。为了弥补这一差距,我们提出了面向指令的偏好对齐(IPA)这一可扩展框架,旨在根据指令执行效率自动构建偏好对齐。我们的方法包括自动化偏好构建以及与专用验证过程的结合,可识别面向指令的因素,避免响应表示中的重大差异。此外,IPA还采用渐进的偏好收集管道,通过模型自我进化以及参考引导细化来进一步回忆具有挑战性的样本。在Qwen2VL-7B上进行的实验证明了IPA在多基准测试中的有效性,包括幻觉评估、视觉问答和文本理解任务等,突显其在提高整体理解能力方面的能力。
论文及项目相关链接
PDF Accepted by ICCV 2025
摘要
提出了一种名为指令导向偏好对齐(IPA)的可扩展框架,用于自动构建基于指令执行效率的对齐偏好,以提高多模态大语言模型(MLLMs)的性能。IPA通过自动化偏好构建和专用验证过程,识别指令导向因素,避免响应表示的显著变化。此外,IPA还采用渐进式偏好收集管道,通过模型自我进化参考引导细化来进一步回忆挑战样本。实验表明,IPA在多个基准测试中均表现出有效性和优越性,包括幻视评估、视觉问答和文本理解任务,突显其在提高整体理解能力方面的潜力。
关键见解
- 偏好对齐已被证明是增强多模态大语言模型性能的有效策略。
- 现有偏好对齐方法主要关注幻视因素,忽略了多模态理解能力的关键因素。
- 指令导向偏好对齐(IPA)框架旨在自动构建基于指令执行效率的对齐偏好,以弥补现有方法的不足。
- IPA通过自动化偏好构建和专用验证过程,有效识别指令导向因素,确保模型响应的稳定性。
- IPA采用渐进式偏好收集管道,通过模型自我进化参考引导细化,能够进一步回忆并处理挑战样本。
- 实验结果表明,IPA在多个任务上表现出色,包括幻视评估、视觉问答和文本理解。
- IPA提高了模型的整体理解能力,为未来多模态语言模型的发展提供了新方向。
点此查看论文截图





InteLiPlan: An Interactive Lightweight LLM-Based Planner for Domestic Robot Autonomy
Authors:Kim Tien Ly, Kai Lu, Ioannis Havoutis
We introduce an interactive LLM-based framework designed to enhance the autonomy and robustness of domestic robots, targeting embodied intelligence. Our approach reduces reliance on large-scale data and incorporates a robot-agnostic pipeline that embodies an LLM. Our framework, InteLiPlan, ensures that the LLM’s decision-making capabilities are effectively aligned with robotic functions, enhancing operational robustness and adaptability, while our human-in-the-loop mechanism allows for real-time human intervention when user instruction is required. We evaluate our method in both simulation and on the real Toyota Human Support Robot and Anymal D-Unitree Z1 platforms. Our method achieves a 95% success rate in the ‘fetch me’ task completion with failure recovery, highlighting its capability in both failure reasoning and task planning. InteLiPlan achieves comparable performance to state-of-the-art large-scale LLM-based robotics planners, while using only real-time onboard computing.
我们引入了一个基于大型语言模型(LLM)的交互式框架,旨在提高家用机器人的自主性和稳健性,主要面向体现智能。我们的方法减少对大规模数据的依赖,并融入一个通用的机器人管道,其中包含了大型语言模型。我们的框架InteLiPlan确保大型语言模型的决策能力与机器人功能有效对齐,提高操作稳健性和适应性。同时,我们的人机交互机制在用户需要指令时允许实时人工干预。我们在模拟环境和真实的丰田人机支持机器人以及Anymal D-Unitree Z1平台上评估了我们的方法。我们的方法在“帮我取东西”的任务完成中实现了95%的成功率,并在失败恢复中表现出色,突显了其在故障推理和任务规划方面的能力。InteLiPlan与最新的大型语言模型机器人规划器相比具有竞争力,同时仅使用实时机载计算。
论文及项目相关链接
摘要
本文介绍了一个基于LLM的交互式框架InteLiPlan,旨在提高家用机器人的自主性和稳健性,主要目标是实现机器人智能。该方法减少了大规模数据的依赖,并融入了LLM的机器人通用管道。InteLiPlan确保LLM的决策能力与机器人功能有效对齐,提高了操作稳健性和适应性。此外,其人类介入机制允许在用户指导需要时实时介入。在模拟和真实丰田人类支持机器人以及Anymal D-Unitree Z1平台上进行了评估,完成“请递给我”任务的成功率达到了95%,展现出在失败恢复、故障推理和任务规划方面的能力。InteLiPlan在与当前大型LLM基于机器人的规划器相当的性能表现中取得了优越的表现,但只使用了实时的机上计算能力。该框架将为下一代机器人的发展提供关键思路和方法支持。
关键见解
- 介绍了基于LLM的交互式框架InteLiPlan,用于提高家用机器人的自主性和稳健性。
- 该框架融入了一种机器人通用管道结构,包含了LLM模型元素和功能特性优化元素组合构成的指令对齐与校正模式生成引擎以执行任务行为学习结果的动作方案策略生成模块。这种设计提高了机器人操作的稳健性和适应性。同时减少了大规模数据的依赖。通过该框架,机器人可以更加智能地完成任务,减少人为干预的需求。
- InteLiPlan允许实时的人类介入机制在用户指导需要时发挥作用,确保了系统的灵活性和高效性。此外还具备自主决策能力。机器人可以在执行任务过程中根据环境变化做出判断和调整,提高任务的完成率和效率。这种机制确保了用户与机器人之间的顺畅交流,提高了用户体验。
- 通过模拟和实际实验验证发现,该框架的性能优越表现在智能感知处理场景的分析任务和行为能力匹配学习模型中评估标准的成绩具有领先地位能够实现95%的成功率完成“请递给我”任务并展现出故障恢复能力。这表明该框架在实际应用中具有高度的可靠性和稳定性。
- InteLiPlan的性能表现与当前的先进的大型LLM基于机器人的规划器相比颇具竞争力同时具有快速的运算处理响应实时配合以常规更新系统运行新出文档节点归纳错误特征和完备映射处置文书复杂性等特性。这些特性使得InteLiPlan在实际应用中更加灵活高效可靠能够满足各种复杂场景的需求。
- InteLiPlan框架的设计思想具有创新性能够为下一代机器人的发展提供关键思路和方法支持推动了人工智能领域的发展并展现出广泛的应用前景。其灵活性和可扩展性使得该框架能够适应未来机器人技术的快速发展并满足不断变化的市场需求。
点此查看论文截图







Bitune: Leveraging Bidirectional Attention to Improve Decoder-Only LLMs
Authors:Dawid J. Kopiczko, Tijmen Blankevoort, Yuki M. Asano
Decoder-only large language models typically rely solely on masked causal attention, which limits their expressiveness by restricting information flow to one direction. We propose Bitune, a method that enhances pretrained decoder-only LLMs by incorporating bidirectional attention into prompt processing. We evaluate Bitune in instruction-tuning and question-answering settings, showing significant improvements in performance on commonsense reasoning, arithmetic, and language understanding tasks. Furthermore, extensive ablation studies validate the role of each component of the method, and demonstrate that Bitune is compatible with various parameter-efficient finetuning techniques and full model finetuning.
解码器仅大型语言模型通常仅依赖于掩码因果注意力,这将信息流动限制在一个方向上,从而限制了其表现力。我们提出了Bitune方法,它通过将在提示处理中融入双向注意力,增强了预训练解码器仅大型语言模型(LLM)的功能。我们在指令调整和问答环境中评估了Bitune,在常识推理、算术和语言理解任务上的性能表现出显著提高。此外,广泛的消融研究验证了该方法各组成部分的作用,并证明Bitune与各种参数有效的微调技术和全模型微调兼容。
论文及项目相关链接
Summary:
解码器仅大型语言模型通常仅依赖于掩码因果注意力,这限制了其表现力,因为信息流向被限制在一个方向上。我们提出了Bitune方法,它通过引入双向注意力来提升预训练的解码器仅LLMs在提示处理方面的性能。在指令调整和问答设置中评估Bitune时,显示其在常识推理、算术和语言理解任务上的性能显著提高。此外,广泛的消融研究验证了该方法各组件的作用,并证明Bitune可以与各种参数高效的微调技术和全模型微调兼容。
Key Takeaways:
- 解码器仅大型语言模型受限于掩码因果注意力,信息流向单一。
- Bitune方法通过引入双向注意力提升预训练解码器仅LLMs的性能。
- Bitune在指令调整和问答设置中表现出显著的性能提升,特别是在常识推理、算术和语言理解任务上。
- 消融研究验证了Bitune方法各组件的作用。
- Bitune与参数高效的微调技术和全模型微调兼容。
- Bitune方法可能有助于解决解码器仅LLMs的表达局限性。
点此查看论文截图





Why Not Transform Chat Large Language Models to Non-English?
Authors:Xiang Geng, Ming Zhu, Jiahuan Li, Zhejian Lai, Wei Zou, Shuaijie She, Jiaxin Guo, Xiaofeng Zhao, Yinglu Li, Yuang Li, Chang Su, Yanqing Zhao, Xinglin Lyu, Min Zhang, Jiajun Chen, Hao Yang, Shujian Huang
The scarcity of non-English data limits the development of non-English large language models (LLMs). Transforming English-centric LLMs to non-English has been identified as an effective and resource-efficient method. Previous works start from base LLMs and perform knowledge distillation (KD) with data generated by stronger LLMs, e.g. GPT-4. Compared to base LLMs, chat LLMs are further optimized for advanced abilities, e.g. multi-turn conversation and human preference alignment, and thus more powerful in both helpfulness and safety. However, transforming a chat LLM involves two critical issues: (1) How can we effectively transfer advanced abilities without their supervised data? (2) How can we prevent the original knowledge from catastrophic forgetting during transformation? We target these issues by introducing a simple framework called TransLLM. For the first issue, TransLLM divides the transfer problem into some common sub-tasks with the translation chain-of-thought, which uses the translation as the bridge between English and non-English step-by-step. We further enhance the performance of sub-tasks with publicly available data. For the second issue, we propose a method comprising two synergistic components: low-rank adaptation for training to maintain the original LLM parameters, and recovery KD, which utilizes data generated by the chat LLM itself to recover the original knowledge from the frozen parameters. In the experiments, we transform the LLaMA-2-chat-7B to the Thai language. Our method, using only single-turn data, outperforms strong baselines and ChatGPT on multi-turn benchmark MT-bench. Furthermore, our method, without safety data, rejects more harmful queries of safety benchmark AdvBench than both ChatGPT and GPT-4. Code is available at https://github.com/hy5468/TransLLM.
非英语数据的稀缺限制了非英语大型语言模型(LLM)的发展。将英语中心主义的LLM转变为非英语已被证明是一种有效且资源高效的方法。以前的工作从基础LLM开始,使用由更强大的LLM(例如GPT-4)生成的数据进行知识蒸馏(KD)。与基础LLM相比,聊天LLM针对高级能力进行了进一步优化,例如多轮对话和人类偏好对齐,因此在有用性和安全性方面都更加强大。然而,将聊天LLM转换涉及两个关键问题:(1)如何在没有监督数据的情况下有效地转移高级能力?(2)如何在转换过程中防止原有知识的灾难性遗忘?我们通过一个名为TransLLM的简单框架来解决这些问题。对于第一个问题,TransLLM将转移问题分解为一些具有翻译思维链的共同子任务,利用翻译作为英语和非英语之间的桥梁,逐步进行。我们进一步使用公开数据提高了子任务的性能。对于第二个问题,我们提出了一种由两个协同组件组成的方法:低秩适应训练以保持原始LLM参数,以及恢复KD,后者利用聊天LLM本身生成的数据从冻结的参数中恢复原始知识。在实验中,我们将LLaMA-2-chat-7B转变为泰语。我们的方法仅使用单轮数据,在多轮基准测试MT-bench上的表现优于强大的基准测试和ChatGPT。此外,我们的方法在没有安全数据的情况下,在安全基准测试AdvBench中拒绝更多有害的查询比ChatGPT和GPT-4更多。代码可在https://github.com/hy5468/TransLLM获取。
论文及项目相关链接
PDF The article has been accepted by Frontiers of Computer Science (FCS), with the DOI: {10.1007/s11704-025-50646-z}
Summary
本文探讨了非英语大型语言模型(LLM)发展的局限性,并指出将英语中心主义的LLM转型为非英语LLM是一种有效且资源高效的方法。文章介绍了一个名为TransLLM的框架,该框架旨在解决将聊天LLM转型为非英语LLM时面临的挑战,包括如何有效转移高级能力以及如何在转型过程中防止原有知识灾难性遗忘的问题。实验表明,该框架在多任务基准测试中表现优异,且能有效提高安全性。
Key Takeaways
- 非英语数据稀缺限制了非英语大型语言模型(LLM)的发展。
- 将英语中心的LLM转型为非英语LLM是一种有效且资源高效的方法。
- TransLLM框架旨在解决聊天LLM转型中的两个关键问题:有效转移高级能力和防止原有知识的灾难性遗忘。
- TransLLM通过翻译思维链将转移问题分为一些通用子任务,并使用公开数据提高子任务性能。
- TransLLM提出的方法包括两个协同组件:低秩适应训练和恢复知识蒸馏。
- 实验表明,TransLLM框架在多任务基准测试中表现优于强基线和ChatGPT。
点此查看论文截图




