嘘~ 正在从服务器偷取页面 . . .

LLM


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-19 更新

Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning

Authors:Tanner Muturi, Blessing Agyei Kyem, Joshua Kofi Asamoah, Neema Jakisa Owor, Richard Dyzinela, Andrews Danyo, Yaw Adu-Gyamfi, Armstrong Aboah

Spatial reasoning in large-scale 3D environments such as warehouses remains a significant challenge for vision-language systems due to scene clutter, occlusions, and the need for precise spatial understanding. Existing models often struggle with generalization in such settings, as they rely heavily on local appearance and lack explicit spatial grounding. In this work, we introduce a dedicated spatial reasoning framework for the Physical AI Spatial Intelligence Warehouse dataset introduced in the Track 3 2025 AI City Challenge. Our approach enhances spatial comprehension by embedding mask dimensions in the form of bounding box coordinates directly into the input prompts, enabling the model to reason over object geometry and layout. We fine-tune the framework across four question categories namely: Distance Estimation, Object Counting, Multi-choice Grounding, and Spatial Relation Inference using task-specific supervision. To further improve consistency with the evaluation system, normalized answers are appended to the GPT response within the training set. Our comprehensive pipeline achieves a final score of 73.0606, placing 4th overall on the public leaderboard. These results demonstrate the effectiveness of structured prompt enrichment and targeted optimization in advancing spatial reasoning for real-world industrial environments.

在大规模三维环境(如仓库)中,空间推理对于视觉语言系统来说仍然是一个巨大的挑战,因为场景杂乱、遮挡和需要精确的空间理解。现有模型往往在这样的环境中难以进行泛化,因为它们过于依赖局部外观,并且缺乏明确的空间定位。在这项工作中,我们针对Physical AI Spatial Intelligence Warehouse数据集(该数据集在2025年AI城市挑战赛Track 3中引入)设计了一个专用的空间推理框架。我们的方法通过嵌入遮挡维度的方式(以边界框坐标的形式)直接嵌入到输入提示中,从而提高空间理解能力,使模型能够推理物体的几何形状和布局。我们针对四种问题类别对框架进行了微调,分别是:距离估计、对象计数、多选择定位以及空间关系推理,采用了特定任务的监督方式。为了进一步提高与评估系统的一致性,我们在训练集中将标准化答案附加到GPT响应中。我们的综合管道最终得分73.0606,在公开排行榜上排名第四。这些结果证明了结构化提示丰富和针对性优化在推动现实世界工业环境中的空间推理方面的有效性。

论文及项目相关链接

PDF The paper was accepted at ICCV Conference 2025

Summary

本工作针对大规模三维环境(如仓库)中的空间推理提出了一个专用空间推理框架,解决了场景杂乱、遮挡和精确空间理解的需求等挑战。通过嵌入掩模维度(以边界框坐标的形式)到输入提示中,增强了模型对物体几何和布局的理解能力。通过针对四种问题类别进行微调,包括距离估计、对象计数、多选择定位以及空间关系推理等任务特定监督方法,并结合评价系统的标准化答案进行训练集内的响应输出优化。该方法在工业环境中具有显著的实践应用潜力。本研究获得了显著成效,公开排行榜中位居第四名,展示结构提示丰富和针对性优化的有效性。

Key Takeaways

以下是文中关于空间推理的七个关键要点:

  • 针对仓库等大型三维环境中的空间推理对视觉语言系统仍是一个挑战。这是因为存在场景混乱、遮挡等问题需要精确的的空间理解能力。
  • 许多现有的模型在面对此类环境时无法有效进行推广,因为它们依赖于局部外观并缺乏明确的空间定位。

Cool Papers

点此查看论文截图

Indoor Localization using Compact, Telemetry-Agnostic, Transfer-Learning Enabled Decoder-Only Transformer

Authors:Nayan Sanjay Bhatia, Pranay Kocheta, Russell Elliott, Harikrishna S. Kuttivelil, Katia Obraczka

Indoor Wi-Fi positioning remains a challenging problem due to the high sensitivity of radio signals to environmental dynamics, channel propagation characteristics, and hardware heterogeneity. Conventional fingerprinting and model-based approaches typically require labor-intensive calibration and suffer rapid performance degradation when devices, channel or deployment conditions change. In this paper, we introduce Locaris, a decoder-only large language model (LLM) for indoor localization. Locaris treats each access point (AP) measurement as a token, enabling the ingestion of raw Wi-Fi telemetry without pre-processing. By fine-tuning its LLM on different Wi-Fi datasets, Locaris learns a lightweight and generalizable mapping from raw signals directly to device location. Our experimental study comparing Locaris with state-of-the-art methods consistently shows that Locaris matches or surpasses existing techniques for various types of telemetry. Our results demonstrate that compact LLMs can serve as calibration-free regression models for indoor localization, offering scalable and robust cross-environment performance in heterogeneous Wi-Fi deployments. Few-shot adaptation experiments, using only a handful of calibration points per device, further show that Locaris maintains high accuracy when applied to previously unseen devices and deployment scenarios. This yields sub-meter accuracy with just a few hundred samples, robust performance under missing APs and supports any and all available telemetry. Our findings highlight the practical viability of Locaris for indoor positioning in the real-world scenarios, particularly in large-scale deployments where extensive calibration is infeasible.

室内Wi-Fi定位仍然是一个具有挑战性的问题,因为无线电信号对环境动态、信道传播特性和硬件异质性的敏感度很高。传统的指纹法和基于模型的方法通常需要密集的校准工作,并且在设备、信道或部署条件发生变化时,性能会迅速下降。在本文中,我们介绍了Locaris,这是一种仅用于室内定位的大型语言模型(LLM)解码器。Locaris将每个接入点(AP)的测量值视为一个令牌,能够直接处理原始Wi-Fi遥测数据,无需预先处理。通过对不同的Wi-Fi数据集进行微调,Locaris学习从原始信号直接映射到设备位置的轻量级和通用映射。我们的实验研究表明,与最新技术相比,Locaris在各种类型的遥测数据上表现一致或超越现有技术。我们的结果表明,紧凑的LLM可以作为无需校准的回归模型用于室内定位,在异质的Wi-Fi部署中提供可扩展和稳健的跨环境性能。仅使用每个设备的一些校准点的少数镜头适应实验进一步表明,当应用于以前未见过的设备和部署场景时,Locaris仍能保持高精度。这只需数百个样本即可实现亚米级精度,在缺少AP的情况下表现稳健,并支持所有可用的遥测数据。我们的研究结果表明,Locaris在真实世界的室内定位场景中具有很强的实用性,特别是在大规模部署中,全面校准是不可行的。

论文及项目相关链接

PDF 11 pages, 12 Figures

Summary

室内Wi-Fi定位是一个具有挑战性的问题,因为无线电信号对环境动态、信道传播特性和硬件异质性的高度敏感性。传统指纹法和模型法需要大量校准工作,且在设备、信道或部署条件发生变化时性能迅速下降。本文介绍了一种名为Locaris的室内定位解码器大型语言模型(LLM)。Locaris将每个接入点(AP)的测量值视为一个令牌,能够直接处理原始Wi-Fi遥测数据,无需预先处理。通过对不同Wi-Fi数据集进行微调,Locaris能够学习从原始信号到设备位置的轻量化通用映射。实验研究表明,相较于最新的定位技术,Locaris在不同类型的遥测数据中表现良好甚至更出色。实验结果显示出大规模LLM作为一种无校准回归模型在WiFi部署室内定位中的应用潜力,展现了在异质的Wi-Fi部署中的跨环境性能和稳健性。少量的样本就能达到子米级别的精度,在缺失接入点的情况下性能稳定,支持所有可用的遥测数据。这为Locaris在真实世界场景中的室内定位提供了实际可行性,特别是在大规模部署中无法进行全面校准的情况下。

Key Takeaways

  1. 室内Wi-Fi定位是一个敏感的问题,面临多种挑战,包括环境动态、信道传播特性和硬件差异等因素。
  2. 传统方法需要昂贵的校准工作,且在条件变化时性能不稳定。
  3. Locaris是一个基于大型语言模型(LLM)的室内定位解码器,可以直接处理原始Wi-Fi遥测数据,无需预处理步骤。
  4. Locaris通过在不同Wi-Fi数据集上进行微调,能够学习从原始信号到设备位置的轻量化通用映射。
  5. 实验表明Locaris相较于其他最新技术有更好的性能表现,尤其在处理不同类型的遥测数据时。
  6. Locaris具有强大的跨环境性能,即使在缺少接入点的情况下也能保持稳定的性能。

Cool Papers

点此查看论文截图

Who are you, ChatGPT? Personality and Demographic Style in LLM-Generated Content

Authors:Dana Sotto Porat, Ella Rabinovich

Generative large language models (LLMs) have become central to everyday life, producing human-like text across diverse domains. A growing body of research investigates whether these models also exhibit personality- and demographic-like characteristics in their language. In this work, we introduce a novel, data-driven methodology for assessing LLM personality without relying on self-report questionnaires, applying instead automatic personality and gender classifiers to model replies on open-ended questions collected from Reddit. Comparing six widely used models to human-authored responses, we find that LLMs systematically express higher Agreeableness and lower Neuroticism, reflecting cooperative and stable conversational tendencies. Gendered language patterns in model text broadly resemble those of human writers, though with reduced variation, echoing prior findings on automated agents. We contribute a new dataset of human and model responses, along with large-scale comparative analyses, shedding new light on the topic of personality and demographic patterns of generative AI.

生成式大型语言模型(LLM)已经成为日常生活的重要组成部分,能够在不同领域产生类似人类的文本。越来越多的研究开始探究这些模型的语言中是否也表现出个性和人口统计特征。在这项研究中,我们引入了一种新型的数据驱动方法,用于评估LLM的个性,而无需依赖自我报告问卷。我们使用的是自动个性和性别分类器,对从Reddit收集的开放性问题回复进行建模。我们将六个广受欢迎的模型与人类创作的回复进行比较,发现LLM系统性地表现出更高的宜人性(Agreeableness)和更低的神经质(Neuroticism),反映了合作和稳定的对话倾向。模型文本中的性别语言模式大致与人类作者相似,但变化较少,这与之前关于自动化代理的研究结果相呼应。我们提供了人类和模型响应的新数据集以及大规模比较分析,为生成式人工智能的个性特征和人口统计模式提供了新的视角。

论文及项目相关链接

PDF ECAI2025 (Identity-Aware AI workshop)

Summary

大型生成式语言模型(LLM)在日常生活中的重要性日益凸显,能够在不同领域生成类似人类的文本。本研究提出了一种新型的数据驱动方法,无需依赖自我报告问卷即可评估LLM的人格特征。通过自动人格和性别分类器对Reddit上收集的开放性问题回复进行建模,我们将六种广泛使用的模型与人类创作的回复进行比较,发现LLM的表达更具合作性和稳定性,表现出更高的宜人性及较低神经质。模型文本中的性别语言模式大体上类似于人类作者,但变化性有所减少。本研究为人工智能的人格和人口统计特征研究提供了新的数据集和大规模对比分析。

Key Takeaways

  1. 大型生成式语言模型(LLM)已融入日常生活,可在不同领域生成类似人类的文本。
  2. 提出一种新型数据驱动方法评估LLM的人格特征,无需依赖自我报告问卷。
  3. LLM的表达更具合作性和稳定性,表现出较高的宜人性及较低的神经质。
  4. LLM的回复中性别语言模式类似于人类作者,但变化性有所减少。
  5. 本研究为人工智能的人格特征研究提供了新的数据集。
  6. 对比分析了六种广泛使用的模型与人类创作的回复,为理解LLM的特征提供了大规模数据。

Cool Papers

点此查看论文截图

Towards Real-Time Fake News Detection under Evidence Scarcity

Authors:Guangyu Wei, Ke Han, Yueming Lyu, Yu Luo, Yue Jiang, Caifeng Shan, Nicu Sebe

Fake news detection becomes particularly challenging in real-time scenarios, where emerging events often lack sufficient supporting evidence. Existing approaches often rely heavily on external evidence and therefore struggle to generalize under evidence scarcity. To address this issue, we propose Evaluation-Aware Selection of Experts (EASE), a novel framework for real-time fake news detection that dynamically adapts its decision-making process according to the assessed sufficiency of available evidence. EASE introduces a sequential evaluation mechanism comprising three independent perspectives: (1) Evidence-based evaluation, which assesses evidence and incorporates it into decision-making only when the evidence is sufficiently supportive; (2) Reasoning-based evaluation, which leverages the world knowledge of large language models (LLMs) and applies them only when their reliability is adequately established; and (3) Sentiment-based fallback, which integrates sentiment cues when neither evidence nor reasoning is reliable. To enhance the accuracy of evaluation processes, EASE employs instruction tuning with pseudo labels to guide each evaluator in justifying its perspective-specific knowledge through interpretable reasoning. Furthermore, the expert modules integrate the evaluators’ justified assessments with the news content to enable evaluation-aware decision-making, thereby enhancing overall detection accuracy. Moreover, we introduce RealTimeNews-25, a new benchmark comprising recent news for evaluating model generalization on emerging news with limited evidence. Extensive experiments demonstrate that EASE not only achieves state-of-the-art performance across multiple benchmarks, but also significantly improves generalization to real-time news. The code and dataset are available: https://github.com/wgyhhhh/EASE.

实时场景中虚假新闻检测变得尤其具有挑战性,因为新兴事件往往缺乏足够的支持证据。现有方法通常严重依赖于外部证据,因此在证据稀缺的情况下很难推广。为了解决这一问题,我们提出了“基于评估的专家选择”(EASE),这是一个用于实时虚假新闻检测的新型框架,它可以根据现有证据的充足性来动态调整其决策过程。EASE引入了一种顺序评估机制,包括三个独立的角度:(1)基于证据的评价,它只在证据足够支持时评估证据并将其纳入决策过程;(2)基于推理的评价,它利用大型语言模型(LLM)的世界知识,只在可靠性得到充分证明时应用;(3)基于情感的后备策略,当证据和推理都不可靠时,它整合情感线索。为了提高评估过程的准确性,EASE使用伪标签进行指令微调,以引导每个评估者通过可解释的理由来证明其特定角度的知识。此外,专家模块将评估者的合理评估与新闻内容相结合,以实现基于评估的决策制定,从而提高整体检测准确性。此外,我们引入了RealTimeNews-25,这是一个新的基准测试,包含最近的新闻,用于评估模型在证据有限的新兴新闻上的泛化能力。大量实验表明,EASE不仅在多个基准测试中达到了最新技术水平,而且在实时新闻中的泛化能力也得到了显着提高。相关代码和数据集可通过以下链接获取:链接

论文及项目相关链接

PDF

摘要

实时场景中假新闻检测面临特别挑战,因为新兴事件往往缺乏足够的支持证据。现有方法过于依赖外部证据,因此在证据不足的情况下难以推广。为解决此问题,我们提出“基于评估的专家选择”(EASE)框架,该框架可动态调整决策过程以适应现有证据的可评估充分性,用于实时假新闻检测。EASE引入了一种包含三个独立视角的连续评估机制:(1)基于证据的评价,仅在证据充足时评估证据并将其纳入决策过程;(2)基于推理的评价,利用大型语言模型(LLM)的世界知识,在可靠性得到验证时加以应用;(3)基于情感的备用方法,在证据和推理均不可靠时整合情感线索。为提高评估过程的准确性,EASE采用指令微调与伪标签相结合的方式,指导评估者通过可解释推理来证明其特定视角的知识。此外,专家模块整合评估者的合理评估与新闻内容,实现基于评估的决策制定,从而提高整体检测准确性。我们还引入了RealTimeNews-25基准测试集,包含最新新闻,用于评估模型在证据有限的新兴新闻上的泛化能力。实验表明,EASE不仅在多个基准测试集上达到最新技术水平,而且在实时新闻上的泛化能力显著提高。相关代码和数据集可通过https://github.com/wgyhhhh/EASE获取。

关键见解

  1. 实时场景中的假新闻检测面临挑战,因为新兴事件缺乏足够的支持证据。
  2. 现有方法过于依赖外部证据,在证据不足时难以推广。
  3. EASE框架通过动态适应现有证据的可评估充分性来解决这个问题。
  4. EASE引入了一个包含三个独立视角的连续评估机制:基于证据的评价、基于推理的评价和基于情感的备用方法。
  5. EASE采用指令微调与伪标签相结合的方式提高评估过程的准确性。
  6. 专家模块整合评估者的合理评估与新闻内容,提高整体检测准确性。

Cool Papers

点此查看论文截图

Fairness Metric Design Exploration in Multi-Domain Moral Sentiment Classification using Transformer-Based Models

Authors:Battemuulen Naranbat, Seyed Sahand Mohammadi Ziabari, Yousuf Nasser Al Husaini, Ali Mohammed Mansoor Alsahag

Ensuring fairness in natural language processing for moral sentiment classification is challenging, particularly under cross-domain shifts where transformer models are increasingly deployed. Using the Moral Foundations Twitter Corpus (MFTC) and Moral Foundations Reddit Corpus (MFRC), this work evaluates BERT and DistilBERT in a multi-label setting with in-domain and cross-domain protocols. Aggregate performance can mask disparities: we observe pronounced asymmetry in transfer, with Twitter->Reddit degrading micro-F1 by 14.9% versus only 1.5% for Reddit->Twitter. Per-label analysis reveals fairness violations hidden by overall scores; notably, the authority label exhibits Demographic Parity Differences of 0.22-0.23 and Equalized Odds Differences of 0.40-0.41. To address this gap, we introduce the Moral Fairness Consistency (MFC) metric, which quantifies the cross-domain stability of moral foundation detection. MFC shows strong empirical validity, achieving a perfect negative correlation with Demographic Parity Difference (rho = -1.000, p < 0.001) while remaining independent of standard performance metrics. Across labels, loyalty demonstrates the highest consistency (MFC = 0.96) and authority the lowest (MFC = 0.78). These findings establish MFC as a complementary, diagnosis-oriented metric for fairness-aware evaluation of moral reasoning models, enabling more reliable deployment across heterogeneous linguistic contexts. .

确保自然语言处理中的公平性对于道德情感分类是一个挑战,特别是在部署越来越多的转换器模型时,面临跨领域变化的挑战。本研究使用道德基础推特语料库(MFTC)和道德基础Reddit语料库(MFRC),在具有域内和跨域协议的多标签设置中评估BERT和DistilBERT。总体性能可能会掩盖不平等现象:我们观察到明显的转移不对称性,Twitter转向Reddit的微F1值下降14.9%,而Reddit转向Twitter仅下降1.5%。按标签分析揭示了总体分数隐藏的公平性问题;尤其是权威标签显示出明显的人口统计平衡差异在0.22到0.23之间,均衡机会差异在0.40到0.41之间。为了解决这一差距,我们引入了道德公平一致性(MFC)指标,该指标量化了道德基础检测跨域的稳定性。MFC具有很强的实证有效性,与人口统计平衡差异实现完美的负相关(rho=-1.000,p<0.001),同时独立于标准性能指标。在所有标签中,忠诚表现出最高的一致性(MFC=0.96),而权威表现出最低的一致性(MFC=0.78)。这些发现确立了MFC作为一个面向诊断的补充指标,用于公平评估道德推理模型,使其在异质的语言环境中部署更加可靠。

论文及项目相关链接

PDF

Summary

该研究评估了BERT和DistilBERT在自然语言处理中的公平性,特别是在道德情感分类方面的跨域转移学习性能。研究使用了道德基础Twitter语料库和Reddit语料库,并发现跨域转移学习存在不对称性,Twitter到Reddit的转移学习性能下降幅度较大。此外,还发现某些标签的公平性存在差距。为解决这一问题,该研究引入了道德公平性一致性(MFC)指标来衡量道德基础检测在跨域中的稳定性。MFC与人口统计公平差异呈现强负相关,并具有独立的评估价值。忠诚标签显示最高的道德公平性一致性,而权威标签则最低。这一研究为公平性评价提供了一种可靠的诊断和评估方法。

Key Takeaways

  1. BERT和DistilBERT在道德情感分类中的公平性评估重要。
  2. 跨域转移学习存在不对称性,Twitter到Reddit的转移性能下降幅度更大。
  3. 部分标签的公平性存在差距,尤其是权威标签。
  4. 引入道德公平性一致性(MFC)指标来衡量道德基础检测的跨域稳定性。
  5. MFC与人口统计公平差异呈现强负相关,并具有独立的评估价值。
  6. 忠诚标签显示最高的道德公平性一致性。

Cool Papers

点此查看论文截图

Generative AI and the Transformation of Software Development Practices

Authors:Vivek Acharya

Generative AI is reshaping how software is designed, written, and maintained. Advances in large language models (LLMs) are enabling new development styles - from chat-oriented programming and ‘vibe coding’ to agentic programming - that can accelerate productivity and broaden access. This paper examines how AI-assisted techniques are changing software engineering practice, and the related issues of trust, accountability, and shifting skills. We survey iterative chat-based development, multi-agent systems, dynamic prompt orchestration, and integration via the Model Context Protocol (MCP). Using case studies and industry data, we outline both the opportunities (faster cycles, democratized coding) and the challenges (model reliability and cost) of applying generative AI to coding. We describe new roles, skills, and best practices for using AI in a responsible and effective way.

生成式人工智能正在重塑软件的设计、编写和维护方式。大型语言模型(LLM)的进步催生了新的开发风格,如面向聊天的编程、“氛围编码”和智能编程等,这不仅能加速生产力,还能拓宽软件开发的可及性。本文探讨了人工智能辅助技术如何改变软件工程实践以及由此产生的信任、问责制和技能转变问题。我们调查了基于迭代聊天的开发、多智能系统、动态提示编排以及通过模型上下文协议(MCP)的集成。通过案例研究和行业数据,我们概述了将生成式人工智能应用于编码的机遇(更快的周期、民主化的编码)和挑战(模型可靠性和成本)。我们描述了在使用人工智能时需要担当的新角色、新技能以及最佳实践方式,要做到负责任和有效。

论文及项目相关链接

PDF 16 pages; 1 figure; preprint; v

Summary

大型语言模型(LLM)的发展推动了软件设计、编写和维护方式的变革。新的开发方式如面向聊天的编程、“氛围编码”和代理编程等,可以加速生产力和扩大覆盖面。本文探讨了人工智能辅助技术如何改变软件工程实践,以及信任、问责制和技能转变等问题。文章通过案例研究和行业数据,概述了应用生成式人工智能在编码中的机遇和挑战,并描述了使用人工智能的新角色、技能和最佳实践。

Key Takeaways

  1. 大型语言模型(LLM)的发展正在推动软件行业的变革,包括设计、编写和维护方式。
  2. 新的开发方式如聊天编程和代理编程可以提高生产力和扩大覆盖面。
  3. AI辅助技术改变了软件工程实践,引发了信任、问责制和技能转变等问题。
  4. 应用生成式人工智能在编码中存在机遇和挑战,包括加快开发周期、民主化编码等。
  5. 生成式人工智能在模型可靠性和成本方面存在挑战。
  6. 使用人工智能需要承担新角色和具备新技能。

Cool Papers

点此查看论文截图

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Authors:Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan

Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/

成功的通用型视觉语言动作(VLA)模型依赖于在多样化的机器人平台上进行大规模、跨形态、异质数据集的有效训练。为了促进并利用丰富多样的机器人数据源中的异质性,我们提出了一种新型的软提示方法,通过引入极少量的参数,将提示学习的概念融入到跨形态机器人学习中,并为每个不同的数据源引入单独的学习嵌入集合。这些嵌入作为特定形态的提示,在统一中赋予VLA模型有效利用各种跨形态特征的能力。我们的新型X-VLA,一种基于整洁流匹配的VLA架构,完全依赖于软提示的标准Transformer编码器,既可扩展又简单。在6个模拟环境和3个真实机器人上进行评估,我们的0.9B实例化X-VLA-0.9B同时在多个基准测试中达到最新性能,在广泛的能力轴上显示出卓越的结果,包括灵活的灵巧性、快速适应不同形态、环境和任务的能力。网站地址为:https://thu-air-dream.github.io/X-VLA/。

论文及项目相关链接

PDF preprint, technical report, 33 pages

Summary
新型通用型视觉语言动作(VLA)模型通过跨多种机器人平台的大规模、跨形态、异构数据集进行有效训练。为利用丰富的机器人数据源中的异质性,提出一种带有少量额外参数的新型软提示方法,通过将提示学习概念融入跨形态机器人学习,并为每个不同数据源引入单独的学习嵌入集合。这些嵌入作为形态特定提示,使VLA模型能够有效利用不同的跨形态特征。评估结果表明,新型X-VLA架构在模拟和真实机器人上均达到最新性能水平,在多个基准测试中表现优异。

Key Takeaways

  1. 成功的一般性视觉语言动作(VLA)模型依赖于跨多种机器人平台的大规模、跨形态、异构数据集的有效训练。
  2. 提出一种新型软提示方法,通过引入提示学习概念来利用丰富的机器人数据源中的异质性。
  3. 软提示方法使用少量额外参数,通过引入形态特定提示来增强VLA模型的能力。
  4. X-VLA架构是一种基于流畅匹配的VLA架构,仅依赖于标准Transformer编码器的软提示,具有可扩展性和简单性。
  5. 在模拟和真实机器人上的评估表明,X-VLA架构达到最新性能水平。
  6. X-VLA模型在多个基准测试中表现优异,包括灵活性和快速适应能力等方面的广泛能力。
  7. 该模型的网站地址为:https://thu-air-dream.github.io/X-VLA/。

Cool Papers

点此查看论文截图

Graph Diffusion Transformers are In-Context Molecular Designers

Authors:Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang

In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5$\times$ fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000$\times$ larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.

上下文学习允许大型模型从少量演示中适应新任务,但在分子设计领域其成功有限。现有数据库如ChEMBL包含跨越数百万生物实验的分子属性,但针对每个属性的标记数据仍然稀缺。为了解决这一局限性,我们引入了演示条件扩散模型(DemoDiff),该模型使用少量分子评分示例而不是文本描述来定义任务上下文。这些演示引导去噪Transformer生成与目标属性对齐的分子。为了可扩展的预训练,我们开发了一种新的分子分词器,采用节点对编码方式在主题级别表示分子,所需节点减少了5.5倍。我们从多个来源整理了一个包含数百万上下文任务的数据集,涵盖了药物和材料,并在其上预训练了一个0.7亿参数的模型。在6个类别的33个设计任务中,DemoDiff与语言模型相匹配或表现更好,其平均排名为3.63,而领域特定方法的排名为5.25-10.20。这些结果将DemoDiff定位为上下文分子设计的基础模型。我们的代码可在https://github.com/liugangcode/DemoDiff找到。

论文及项目相关链接

PDF 29 pages, 16 figures, 17 tables. Model available at: https://huggingface.co/liuganghuggingface/DemoDiff-0.7B

Summary

本文介绍了一种名为DemoDiff的分子设计新方法,它通过利用演示条件的扩散模型(DemoDiff)和节点对编码(Node Pair Encoding)技术,实现了分子设计的自适应和大规模预训练。该方法通过一小批分子分数示例定义任务上下文,引导去噪Transformer生成与目标属性对齐的分子。通过从多个来源创建包含数百万上下文任务的数据集,并对其进行预训练,DemoDiff在多个设计任务中取得了显著成果,成为分子设计领域的基础模型。

Key Takeaways

  1. DemoDiff利用演示条件的扩散模型进行分子设计,通过小规模的分子分数示例定义任务上下文。
  2. 去噪Transformer在DemoDiff中被用于生成与目标属性对齐的分子。
  3. Node Pair Encoding技术用于大规模预训练分子设计的模型表示。
  4. 创建了一个包含数百万上下文任务的数据集,涵盖药物和材料领域。
  5. 预训练的模型在多个设计任务中表现出色,与大型语言模型相比具有竞争力。

Cool Papers

点此查看论文截图

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Authors:Fatmazohra Rezkellah, Ramzi Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn’t require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

随着大型语言模型(LLM)的日益普及,需要更多的定制化以确保其生成过程中的隐私保护和安全性。我们从两个关键方面来实现这一目标:消除敏感信息的遗忘和对抗越狱攻击的稳健性。我们通过寻找对LLM权重尽可能小的干预,以一种统一的方式解决这两个方面的问题,要么使给定的词汇集无法访问,要么通过将部分权重转移到“更安全”的区域,使LLM对定制攻击具有稳健性。除了统一这两个关键属性之外,这种方法与之前的工作形成对比,因为它不需要通常不可用或代表计算开销的oracle分类器。令人惊讶的是,我们发现我们提出的最简单的点约束干预在性能上优于最大最小干预,同时计算成本更低。与最先进的防御方法的比较表明,该方法具有优越的性能。

论文及项目相关链接

PDF

Summary

随着大型语言模型(LLM)的广泛应用,需要更多的定制化来确保其在保护隐私和安全生成方面的性能。本文从两个关键方面着手:消除敏感信息和抵御越狱攻击。通过探究各种约束优化公式,以一种统一的方式解决这两个问题,通过对LLM权重进行尽可能小的干预,使给定的词汇集无法访问,或将部分权重转移到“安全”区域,使LLM具有对定制攻击的稳健性。这种方法不仅统一了两种关键属性,而且与之前的工作形成对比,因为它不需要通常不可用或代表计算开销的oracle分类器。令人惊讶的是,我们发现最简单的基于点约束的干预方法比最大最小干预方法表现更好,同时计算成本更低。与最新防御方法的对比显示,该方法表现出卓越的性能。

Key Takeaways

  1. 大型语言模型(LLM)的广泛应用需要更多的定制化以确保隐私和安全生成。
  2. 消除敏感信息和抵御越狱攻击是LLM定制化的两个关键方面。
  3. 通过约束优化公式以统一方式解决这两个问题。
  4. 通过对LLM权重进行最小干预来实现词汇集的不可达性或模型对定制攻击的稳健性。
  5. 该方法与之前的工作不同,不需要oracle分类器。
  6. 最简单的基于点约束的干预方法表现最佳,同时计算成本更低。

Cool Papers

点此查看论文截图

Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer

Authors:Mohsen Ghafoorian, Denis Korzhenkov, Amirhossein Habibian

Transformer-based video diffusion models (VDMs) deliver state-of-the-art video generation quality but are constrained by the quadratic cost of self-attention, making long sequences and high resolutions computationally expensive. While linear attention offers sub-quadratic complexity, prior attempts fail to match the expressiveness of softmax attention without costly retraining. We introduce Attention Surgery, an efficient framework for linearizing or hybridizing attention in pretrained VDMs without training from scratch. Inspired by recent advances in language models, our method combines a novel hybrid attention mechanism-mixing softmax and linear tokens-with a lightweight distillation and fine-tuning pipeline requiring only a few GPU-days. Additionally, we incorporate a cost-aware block-rate strategy to balance expressiveness and efficiency across layers. Applied to Wan2.1 1.3B, a state-of-the-art DiT-based VDM, Attention Surgery achieves the first competitive sub-quadratic attention video diffusion models, reducing attention cost by up to 40% in terms of FLOPs, while maintaining generation quality as measured on the standard VBench and VBench-2.0 benchmarks. Project page is available at: https://qualcomm-ai-research.github.io/attention-surgery.

基于Transformer的视频扩散模型(VDM)提供了最先进的视频生成质量,但受到自注意力机制二次成本的限制,使得长序列和高分辨率的计算成本高昂。虽然线性注意力提供了次二次复杂度,但之前的尝试在没有昂贵再训练的情况下,无法匹配softmax注意力的表现力。我们引入了“注意力手术”这一高效框架,用于在预训练的VDM中线性化或混合注意力,而无需从头开始训练。我们的方法结合了新型混合注意力机制——混合softmax和线性令牌,以及轻量级的蒸馏和微调管道,只需几天的GPU时间。此外,我们采用了一种成本感知的块率策略,以在层之间平衡表现力和效率。应用于Wan2.1 1.3B(一种基于DiT的VDM的先进状态),注意力手术实现了首个具有竞争力的次二次注意力视频扩散模型,在FLOPs方面将注意力成本降低了高达40%,同时保持在VBench和VBench-2.0标准基准上的生成质量。项目页面可在以下网址找到:https://qualcomm-ai-research.github.io/attention-surgery

论文及项目相关链接

PDF

Summary:基于Transformer的视频扩散模型(VDM)虽然能生成高质量的视频,但由于自注意力的二次成本,处理长序列和高分辨率时计算成本高昂。研究者引入了一种名为Attention Surgery的高效框架,它通过混合softmax和线性令牌来实现注意力的线性化或混合化,不需要从头开始训练即可应用于预训练的VDM。这种方法结合了轻量级的蒸馏和微调管道,并在业界首次实现了具有竞争力的次二次注意力视频扩散模型,在FLOPs方面将注意力成本降低了高达40%,同时保持了VBench和VBench-2.0基准测试中的生成质量。

Key Takeaways

  1. 基于Transformer的视频扩散模型面临计算成本高昂的问题,特别是处理长序列和高分辨率时。
  2. Attention Surgery框架旨在解决这一问题,它通过混合softmax和线性注意力机制来实现。
  3. Attention Surgery结合了轻量级的蒸馏和微调管道,使得该框架能够应用于预训练的VDM而无需从头开始训练。
  4. 该方法引入了成本感知的区块率策略,以平衡表达性和效率。
  5. Attention Surgery在维持生成质量的同时降低了注意力成本。
  6. 应用到Wan2.1 1.3B这一先进的基于DiT的视频扩散模型后,实现了次二次注意力视频扩散模型。

Cool Papers

点此查看论文截图

SteeringSafety: A Systematic Safety Evaluation Framework of Representation Steering in LLMs

Authors:Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang

We introduce SteeringSafety, a systematic framework for evaluating representation steering methods across seven safety perspectives spanning 17 datasets. While prior work highlights general capabilities of representation steering, we systematically explore safety perspectives including bias, harmfulness, hallucination, social behaviors, reasoning, epistemic integrity, and normative judgment. Our framework provides modularized building blocks for state-of-the-art steering methods, enabling unified implementation of DIM, ACE, CAA, PCA, and LAT with recent enhancements like conditional steering. Results on Gemma-2-2B, Llama-3.1-8B, and Qwen-2.5-7B reveal that strong steering performance depends critically on pairing of method, model, and specific perspective. DIM shows consistent effectiveness, but all methods exhibit substantial entanglement: social behaviors show highest vulnerability (reaching degradation as high as 76%), jailbreaking often compromises normative judgment, and hallucination steering unpredictably shifts political views. Our findings underscore the critical need for holistic safety evaluations.

我们介绍了SteeringSafety,这是一个跨越七个安全视角,涵盖17个数据集的评估表示转向方法的系统性框架。虽然以前的工作强调了表示转向的一般能力,但我们系统地探索了安全视角,包括偏见、有害性、幻觉、社会行为、推理、认知完整性和规范判断。我们的框架为最先进的转向方法提供了模块化构建块,能够实现DIM、ACE、CAA、PCA和LAT的最新增强功能,如条件转向。在Gemma-2-2B、Llama-3.1-8B和Qwen-2.5-7B上的结果揭示,强大的转向性能关键在于方法、模型和特定视角的配对。DIM表现出持续的有效性,但所有方法都表现出显著的纠缠:社会行为表现出最高的脆弱性(退化高达76%),越狱往往会损害规范判断,幻觉转向不可预测地改变政治观点。我们的研究结果表明,全面进行安全评估至关重要。

论文及项目相关链接

PDF

Summary

本文介绍了SteeringSafety框架,该框架用于评估表征引导方法在七个安全视角下的表现,涵盖17个数据集。文章指出先前的相关工作更多地关注了一般能力的问题研究,而如今研究框架更为系统地对七个方面的安全视角进行探索,包括偏见、有害性、幻觉、社会行为、推理、认知完整性以及规范判断。此外,本文的框架提供了模块化组件块支持最前沿的引导方法技术实施如条件式驾驶方法等等,能极大的支持进行数据挖掘模型训练等。通过对不同模型在不同安全视角下的性能评估,发现不同的引导方法在不同视角下的表现存在显著差异。同时指出社会行为方面存在较高的脆弱性风险较高。本研究强调对表征引导方法的全面安全评估至关重要。简而言之,论文深入探讨了评估AI驾驶安全的新框架和其不同领域应用中出现的问题和性能。系统地从多个角度对驾驶安全进行评估,发现不同驾驶方法的优缺点和潜在风险。强调全面评估的重要性。

Key Takeaways

一、引入了SteeringSafety框架,旨在系统地评估表征引导方法在七个安全视角下的表现。这些安全视角包括偏见、有害性、幻觉等。
二、该框架提供了模块化组件块,支持多种先进的驾驶方法技术实施,如条件式驾驶方法等。

Cool Papers

点此查看论文截图

Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning

Authors:Liang Chen, Xueting Han, Li Shen, Jing Bai, Kam-Fai Wong

Reinforcement learning (RL) has proven effective in incentivizing the reasoning abilities of large language models (LLMs), but suffers from severe efficiency challenges due to its trial-and-error nature. While the common practice employs supervised fine-tuning (SFT) as a warm-up stage for RL, this decoupled two-stage approach suffers from catastrophic forgetting: second-stage RL gradually loses SFT-acquired behaviors and inefficiently explores new patterns. This study introduces a novel method for learning reasoning models that employs bilevel optimization to facilitate better cooperation between these training paradigms. By conditioning the SFT objective on the optimal RL policy, our approach enables SFT to meta-learn how to guide RL’s optimization process. During training, the lower level performs RL updates while simultaneously receiving SFT supervision, and the upper level explicitly maximizes the cooperative gain-the performance advantage of joint SFT-RL training over RL alone. Empirical evaluations on five reasoning benchmarks demonstrate that our method consistently outperforms baselines and achieves a better balance between effectiveness and efficiency.

强化学习(RL)已证明在激励大型语言模型(LLM)的推理能力方面非常有效,但由于其试错性质而面临严重的效率挑战。虽然通常的做法是采用监督微调(SFT)作为RL的预热阶段,但这种解耦的两阶段方法存在灾难性遗忘的问题:第二阶段RL逐渐失去SFT获得的行为,并且低效地探索新模式。本研究介绍了一种用于学习推理模型的新方法,该方法采用两级优化,以促进这些训练范式之间的更好合作。通过以最佳RL策略为条件,我们的方法使SFT能够元学习如何引导RL的优化过程。在训练过程中,底层执行RL更新,同时接受SFT监督,而上层则显式地最大化合作增益——联合SFT-RL训练相对于仅使用RL的性能优势。在五个推理基准测试上的经验评估表明,我们的方法始终优于基线,并在有效性和效率之间达到更好的平衡。

论文及项目相关链接

PDF

Summary

强化学习(RL)在激励大型语言模型(LLM)的推理能力方面表现出色,但其试错性质导致效率严重挑战。虽然常见做法是采用监督微调(SFT)作为RL的预热阶段,但这种解耦的两阶段方法存在灾难性遗忘问题:第二阶段RL会逐步丢失SFT获得的行为,并且效率低下地探索新模式。本研究介绍了一种新的推理模型学习方法,采用两级优化,促进这两种训练范式之间的更好合作。通过以最优RL策略为条件,我们的方法使SFT能够元学习如何引导RL的优化过程。在训练过程中,低级执行RL更新,同时接受SFT监督,而高级则明确最大化合作收益——联合SFT-RL训练相对于仅使用RL的性能优势。实证评估表明,我们的方法在五个推理基准测试上始终优于基准线,并在有效性和效率之间取得更好平衡。

Key Takeaways

  1. 强化学习在激励大型语言模型的推理能力上有效,但面临效率挑战。
  2. 常见实践中的两阶段方法(监督微调后接强化学习)存在灾难性遗忘问题。
  3. 本研究提出一种结合监督微调与强化学习的新型训练方法,采用两级优化。
  4. 该方法使监督微调能够元学习如何引导强化学习的优化过程。
  5. 训练过程中同时执行强化学习更新与监督微调监督。
  6. 方法的实证评估在五个推理基准测试上表现优于传统方法。

Cool Papers

点此查看论文截图

Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation

Authors:Jungkoo Kang

Robust workflow composition is critical for effective agent performance, yet progress in Large Language Model (LLM) planning and reasoning is hindered by a scarcity of scalable evaluation data. This work introduces NL2Flow, a fully automated pipeline for generating and evaluating workflow planning problems. NL2Flow generates problems parametrically in a structured intermediate representation, translating them into both natural language and formal PDDL. I evaluate several open-source, instruct-tuned LLMs on a dataset of 2296 low-difficulty problems generated by NL2Flow. Results demonstrate that the best-performing model achieved 86% success in generating valid plans and 69% in generating optimal plans (for solvable problems). Regression analysis shows that the influence of problem characteristics on plan generation is contingent on both model and prompt design. Importantly, translating natural language problems into a structured JSON representation prior to symbolic planning significantly improved success rates, suggesting a benefit from neuro-symbolic integration. These findings underscore the importance of understanding error sources within LLM reasoning as systems scale to more complex tasks. As LLM reasoning scales to increasingly complex problems, understanding the shifting bottlenecks and sources of error within these systems will be crucial.

健壮的工作流组合对于有效的代理性能至关重要,然而,由于可扩展评估数据的稀缺,大型语言模型(LLM)规划和推理方面的进展受到了阻碍。这项工作引入了NL2Flow,一个用于生成和评估工作流规划问题的全自动管道。NL2Flow以结构化的中间表示形式进行参数化问题生成,并将它们转换为自然语言描述和正式的逻辑程序设计的PDDL格式。我在由NL2Flow生成的包含有难度的2296个问题的数据集上评估了几个开源的指令微调LLM。结果表明,表现最佳的模型在生成有效计划方面取得了86%的成功率,在生成最优计划方面取得了69%(针对可解决的问题)。回归分析表明,问题特性对计划生成的影响取决于模型和提示设计两者。重要的是,在符号规划之前将自然语言问题转换为结构化的JSON表示形式显著提高了成功率,这表明神经符号融合的益处。这些发现强调了随着LLM系统处理更复杂的任务时,理解其内部错误来源的重要性。随着LLM推理解决愈发复杂的问题时,了解这些系统中瓶颈问题的变化及错误来源将会至关重要。

论文及项目相关链接

PDF 30 pages, 7 figures

Summary

本文介绍了NL2Flow这一全自动化的管道系统,用于生成并评估工作流程规划问题。该系统能够参数化生成问题,将其转化为自然语言与正式的PDDL语言。作者评估了几款开源、经过指令调整的LLM模型,在NL2Flow生成的2296个低难度问题上进行测试。结果显示,最佳模型生成有效计划的成功率为86%,可解决问题的最优计划生成率为69%。回归分析显示,问题特性对计划生成的影响取决于模型与提示设计。将自然语言问题转化为结构化JSON表示再进行符号规划,能显著提高成功率,显示出神经符号融合的益处。随着LLM系统处理的任务越来越复杂,理解错误来源将成为关键。

Key Takeaways

  1. NL2Flow是一个用于生成和评估工作流程规划问题的全自动管道系统。
  2. 系统能够参数化生成问题,并将其转化为自然语言与PDDL语言。
  3. 评估了多款LLM模型在NL2Flow生成的低难度问题上的表现。
  4. 最佳模型生成有效计划的成功率为86%,生成最优计划的成功率为69%。
  5. 回归分析显示问题特性、模型及提示设计均影响计划生成。
  6. 将自然语言问题转化为结构化JSON表示再进行符号规划,能显著提高计划生成成功率。

Cool Papers

点此查看论文截图

When Style Breaks Safety: Defending LLMs Against Superficial Style Alignment

Authors:Yuxin Xiao, Sana Tonekaboni, Walter Gerych, Vinith Suriyakumar, Marzyeh Ghassemi

Large language models (LLMs) can be prompted with specific styles (e.g., formatting responses as lists), including in malicious queries. Prior jailbreak research mainly augments these queries with additional string transformations to maximize attack success rate (ASR). However, the impact of style patterns in the original queries that are semantically irrelevant to the malicious intent remains unclear. In this work, we seek to understand whether style patterns compromise LLM safety, how superficial style alignment increases model vulnerability, and how best to mitigate these risks during alignment. We first define ASR inflation as the increase in ASR due to style patterns in existing jailbreak benchmark queries. By evaluating 32 LLMs across seven benchmarks, we find that nearly all models exhibit ASR inflation. Notably, the inflation correlates with an LLM’s relative attention to style patterns, which also overlap more with its instruction-tuning data when inflation occurs. We then investigate superficial style alignment, and find that fine-tuning with specific styles makes LLMs more vulnerable to jailbreaks of those same styles. Finally, we propose SafeStyle, a defense strategy that incorporates a small amount of safety training data augmented to match the distribution of style patterns in the fine-tuning data. Across three LLMs, six fine-tuning style settings, and two real-world instruction-tuning datasets, SafeStyle consistently outperforms baselines in maintaining LLM safety.

大型语言模型(LLM)可以通过特定的风格(如将答复格式化为列表)来提示,恶意查询也包括在内。先前的越狱研究主要是通过额外的字符串转换来增强这些查询,以最大化攻击成功率(ASR)。然而,原始查询中与恶意意图语义上不相关的风格模式的影响仍不清楚。在这项工作中,我们旨在了解风格模式是否损害LLM的安全性,表面风格对齐如何增加模型的脆弱性,以及在对齐过程中如何最好地减轻这些风险。我们首先定义ASR膨胀为现有越狱基准查询中风格模式导致的ASR增加。通过对32个LLM和七个基准的测试,我们发现几乎所有模型都表现出ASR膨胀。值得注意的是,膨胀与LLM对风格模式的相对关注程度有关,当发生膨胀时,其与指令微调数据的重叠也更多。然后我们研究了表面风格对齐,发现用特定风格进行微调会使LLM更容易受到相同风格的越狱攻击。最后,我们提出了SafeStyle,这是一种防御策略,它结合了少量的安全训练数据,以匹配微调数据中风格模式的分布。在三个LLM、六种微调风格设置和两个现实世界指令微调数据集上,SafeStyle在保持LLM安全性方面始终优于基线。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)易受到特定风格提示的影响,包括格式化响应为列表等。先前的研究主要通过增加额外的字符串转换来增强恶意查询的攻击力(ASR)。然而,原始查询中语义上无关的风格模式对LLM安全的影响尚不清楚。本研究旨在理解风格模式是否危及LLM安全,表面风格对齐如何增加模型漏洞,以及在对齐过程中如何最好地减轻这些风险。研究发现几乎所有模型都存在因风格模式导致的ASR膨胀现象,且膨胀与模型对风格模式的关注度有关,当发生膨胀时,与指令调整数据的重叠更多。此外,研究发现特定风格的微调会使LLM更容易受到相同风格的越狱攻击。最后,提出了一种防御策略SafeStyle,通过加入少量与安全训练数据相匹配的风格模式分布的安全训练数据来提升LLM的安全性。

Key Takeaways

  1. LLMs可以受到特定风格提示的影响,包括格式化响应为列表等。
  2. 原始查询中的风格模式对LLM安全的影响尚不清楚。
  3. 近乎所有LLM模型都存在ASR膨胀现象,因风格模式导致。
  4. 膨胀与LLM对风格模式的关注度和与指令调整数据的重叠有关。
  5. 特定风格的微调会使LLM更容易受到相同风格的攻击。
  6. SafeStyle防御策略通过加入安全训练数据提升LLM安全性。

Cool Papers

点此查看论文截图

Uni-LoRA: One Vector is All You Need

Authors:Kaiyang Li, Shaobo Han, Qing Su, Wei Li, Zhipeng Cai, Shihao Ji

Low-Rank Adaptation (LoRA) has become the de facto parameter-efficient fine-tuning (PEFT) method for large language models (LLMs) by constraining weight updates to low-rank matrices. Recent works such as Tied-LoRA, VeRA, and VB-LoRA push efficiency further by introducing additional constraints to reduce the trainable parameter space. In this paper, we show that the parameter space reduction strategies employed by these LoRA variants can be formulated within a unified framework, Uni-LoRA, where the LoRA parameter space, flattened as a high-dimensional vector space $R^D$, can be reconstructed through a projection from a subspace R^d, with $d \ll D$. We demonstrate that the fundamental difference among various LoRA methods lies in the choice of the projection matrix, $P \in R^{D \times d}$.Most existing LoRA variants rely on layer-wise or structure-specific projections that limit cross-layer parameter sharing, thereby compromising parameter efficiency. In light of this, we introduce an efficient and theoretically grounded projection matrix that is isometric, enabling global parameter sharing and reducing computation overhead. Furthermore, under the unified view of Uni-LoRA, this design requires only a single trainable vector to reconstruct LoRA parameters for the entire LLM - making Uni-LoRA both a unified framework and a “one-vector-only” solution. Extensive experiments on GLUE, mathematical reasoning, and instruction tuning benchmarks demonstrate that Uni-LoRA achieves state-of-the-art parameter efficiency while outperforming or matching prior approaches in predictive performance.

低秩适应(LoRA)已成为大型语言模型(LLM)的参数高效微调(PEFT)方法的实际标准,它通过约束权重更新为低秩矩阵。最近的工作,如Tied-LoRA、VeRA和VB-LoRA,通过引入额外的约束来减少可训练参数空间,从而进一步提高了效率。在本文中,我们展示了这些LoRA变体所采用的参数空间缩减策略可以在一个统一框架Uni-LoRA内制定。在这个框架中,LoRA参数空间被展平为一个高维向量空间$R^D$,可以通过从子空间$R^d$的投影进行重建,其中$d \ll D$。我们证明,各种LoRA方法之间的根本区别在于投影矩阵的选择,$P \in R^{D \times d}$。大多数现有的LoRA变体依赖于逐层或结构特定的投影,这限制了跨层参数共享,从而影响了参数效率。鉴于此,我们引入了一个高效且理论扎实的投影矩阵,该矩阵是等距的,能够实现全局参数共享,并减少计算开销。此外,在Uni-LoRA的统一视角下,这种设计仅需要一个可训练的向量来重建整个LLM的LoRA参数,使Uni-LoRA既是一个统一框架,也是一个“仅一个向量”的解决方案。在GLUE、数学推理和指令调整基准测试上的广泛实验表明,Uni-LoRA实现了最新的参数效率,同时在预测性能上优于或匹配了先前的方法。

论文及项目相关链接

PDF NeurIPS 2025 Spotlight

Summary

大规模语言模型(LLM)的低秩适配(LoRA)方法是参数高效的微调(PEFT)方法,通过约束权重更新为低秩矩阵来实现。本文介绍了一种统一框架Uni-LoRA,该框架可以表述LoRA方法的参数空间减少策略。通过投影矩阵P,将LoRA参数空间从高维向量空间RD重建为子空间Rd,其中d≪D。本文引入了一种高效且理论基础的等距投影矩阵,实现全局参数共享,降低计算成本。Uni-LoRA是一个统一的框架,只需要一个可训练的向量来重建整个LLM的LoRA参数,实现了参数效率的提升。实验表明,Uni-LoRA在参数效率方面达到最新水平,同时预测性能优于或匹配先前的方法。

Key Takeaways

  1. LoRA已成为大规模语言模型的参数高效微调(PEFT)方法的代表。
  2. LoRA通过约束权重更新到低秩矩阵来实现参数效率的提升。
  3. Uni-LoRA框架可以统一表述各种LoRA方法的参数空间减少策略。
  4. Uni-LoRA通过投影矩阵实现参数空间的重建,强调全局参数共享。
  5. 引入等距投影矩阵,提高效率和理论支撑。
  6. Uni-LoRA只需一个可训练的向量来重建整个LLM的LoRA参数。

Cool Papers

点此查看论文截图

Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation

Authors:Ruizhe Li, Chen Chen, Yuchen Hu, Yanjun Gao, Xi Wang, Emine Yilmaz

Retrieval-Augmented Generation (RAG) leverages large language models (LLMs) combined with external contexts to enhance the accuracy and reliability of generated responses. However, reliably attributing generated content to specific context segments, context attribution, remains challenging due to the computationally intensive nature of current methods, which often require extensive fine-tuning or human annotation. In this work, we introduce a novel Jensen-Shannon Divergence driven method to Attribute Response to Context (ARC-JSD), enabling efficient and accurate identification of essential context sentences without additional fine-tuning, gradient-calculation or surrogate modelling. Evaluations on a wide range of RAG benchmarks, such as TyDi QA, Hotpot QA, and Musique, using instruction-tuned LLMs in different scales demonstrate superior accuracy and significant computational efficiency improvements compared to the previous surrogate-based method. Furthermore, our mechanistic analysis reveals specific attention heads and multilayer perceptron (MLP) layers responsible for context attribution, providing valuable insights into the internal workings of RAG models and how they affect RAG behaviours. Our code is available at https://github.com/ruizheliUOA/ARC_JSD.

检索增强生成(RAG)利用大型语言模型(LLM)结合外部上下文,以提高生成响应的准确性和可靠性。然而,由于当前方法的计算密集性质,将生成的内容可靠地归因于特定的上下文段落,即上下文归因,仍然是一个挑战,这通常需要大量的微调或人工标注。在这项工作中,我们引入了一种新型的基于Jensen-Shannon Divergence的归因响应到上下文(ARC-JSD)方法,能够在无需额外微调、梯度计算或替代建模的情况下,高效准确地识别出关键的上下文句子。在TyDi QA、Hotpot QA和Musique等一系列RAG基准测试上的评估,使用不同规模指令调整的大型语言模型,证明了与之前的基于替代的方法相比,具有更高的准确性和显著的计算效率改进。此外,我们的机制分析揭示了负责上下文归因的特定注意力头和多层感知器(MLP)层,为理解RAG模型的内部工作原理以及它们如何影响RAG行为提供了有价值的见解。我们的代码位于https://github.com/ruizheliUOA/ARC_JSD。

论文及项目相关链接

PDF Best Paper Award at COLM 2025 XLLM-Reason-Plan Workshop; Accepted at NeurIPS 2025 Mechanistic Interpretability Workshop

Summary
大型语言模型(LLM)通过结合外部上下文增强生成响应的准确性和可靠性,形成检索增强生成(RAG)。然而,由于当前方法的计算密集性质,将生成内容可靠地归因于特定的上下文段落(即上下文归因)仍然是一个挑战,通常需要大量的微调或人工标注。在这项工作中,我们提出了一种基于Jensen-Shannon Divergence的新方法——ARC-JSD(基于上下文响应归因),能够高效准确地识别关键上下文句子,无需额外的微调、梯度计算或代理建模。在广泛的RAG基准测试上,如TyDi QA、Hotpot QA和Musique等,使用不同规模的教学指令型LLM进行评估,证明其在准确性上优于先前的基于代理的方法,并大大提高了计算效率。此外,我们的机械分析揭示了负责上下文归因的特定注意力头和多层感知器(MLP)层,为理解RAG模型的内部工作原理及其对RAG行为的影响提供了宝贵见解。

Key Takeaways

  1. RAG利用大型语言模型(LLM)和外部上下文提高生成响应的准确性和可靠性。
  2. 上下文归因是RAG中的一个挑战,因为需要区分生成内容与特定上下文段落的关系。
  3. 提出了一种新的方法ARC-JSD,基于Jensen-Shannon Divergence进行上下文响应归因。
  4. ARC-JSD能够在无需额外微调、梯度计算或代理建模的情况下,高效准确地识别关键上下文句子。
  5. 在多种RAG基准测试上,ARC-JSD表现出优异的准确性和计算效率。
  6. 研究揭示了RAG模型中负责上下文归因的特定注意力头和MLP层。

Cool Papers

点此查看论文截图

Efficient Attention via Pre-Scoring: Prioritizing Informative Keys in Transformers

Authors:Zhexiang Li, Haoyu Wang, Yutong Bao, David Woodruff

Recent advances in transformer architectures deeply enhanced long-context language modeling. Among them, HyperAttention achieves competitive efficiency by combining a single-level LSH-based clustering with uniform residual sampling. However, HyperAttention fails to find all significant keys, which in turn raises the overall perplexity. We propose a pre-scoring mechanism that prioritizes significant keys before applying HyperAttention. We introduce three scoring methods: $k$-means and kernel $k$-means clustering, $k$-median clustering, and leverage score-based ranking (inspired by LevAttention) to filter keys effectively. We further replace HyperAttention’s original uniform residual sampling, relying exclusively on our pre-scoring mechanism. Experiments on ChatGLM2 (131k token context) reduce perplexity from 12 to 8.3, which outperforms standard HyperAttention. Moreover, when running on the Vision-Transformer (ViT), our method shows that it can guarantee similar accuracy compared with LevAttention, and will surpass LevAttention given specific parameters. Although this method introduces some computational overhead, its combination with HyperAttention achieves up to 20 times faster than FlashAttention, providing a balanced trade-off between speed and modeling accuracy. Our results highlight the effectiveness of integrating pre-scoring into hierarchical attention mechanisms, significantly improving transformer efficiency.

近期Transformer架构的进展极大地提升了长语境语言建模的能力。其中,HyperAttention通过结合单级LSH(局部敏感哈希)聚类与均匀剩余采样实现了竞争效率。然而,HyperAttention无法找到所有关键键,这反而提高了整体的困惑度。我们提出了一种预评分机制,在应用HyperAttention之前优先处理重要键。我们介绍了三种评分方法:K均值和核K均值聚类、K中位数聚类和基于杠杆评分的排名(受LevAttention启发)以有效地过滤键。我们进一步用我们的预评分机制取代了HyperAttention的原始均匀剩余采样。在ChatGLM2(13.1万令牌上下文)上的实验将困惑度从12降低到8.3,超过了标准HyperAttention的表现。此外,在Vision-Transformer(ViT)上运行时,我们的方法可以保证与LevAttention相当的精度,并在给定特定参数时超越LevAttention。尽管此方法引入了一定的计算开销,但它与HyperAttention的结合可实现高达20倍的FlashAttention速度,在速度和建模精度之间提供了平衡的折衷。我们的结果突出了将预评分集成到分层注意力机制中的有效性,显著提高了Transformer的效率。

论文及项目相关链接

PDF

Summary

近期,基于Transformer架构的长文本语言建模取得了显著进展。HyperAttention通过结合单级LSH聚类与均匀剩余采样实现了高效的性能。然而,HyperAttention在寻找关键信息方面存在不足,导致整体困惑度增加。为解决这一问题,本文提出一种预评分机制,在采用HyperAttention前先对关键信息进行优先级排序。通过引入三种评分方法——K均值和核K均值聚类、K中位数聚类和基于杠杆评分的排名(受LevAttention启发),有效筛选关键信息。实验表明,在ChatGLM2模型上应用此方法将困惑度从12降至8.3,优于标准HyperAttention。此外,在Vision-Transformer(ViT)上运行此方法,可保证与LevAttention相似的精度,并在特定参数下超越LevAttention。虽然此方法引入了一定的计算开销,但与HyperAttention结合后,其速度可达FlashAttention的20倍,实现了速度与建模精度之间的平衡。研究结果表明,将预评分融入分层注意力机制可有效提高Transformer的效率。

Key Takeaways

  1. HyperAttention通过结合LSH聚类和均匀剩余采样实现高效性能。
  2. 预评分机制用于优化HyperAttention,优先处理关键信息。
  3. 提出三种评分方法(K均值聚类、核K均值聚类、基于杠杆评分的排名)以有效筛选关键信息。
  4. 在ChatGLM2模型上应用此方法可降低困惑度至8.3,优于标准HyperAttention。
  5. 在ViT上应用此方法可保证与LevAttention相似的精度,并在特定参数下超越之。
  6. 此方法虽然引入计算开销,但与HyperAttention结合后速度显著提升。

Cool Papers

点此查看论文截图

Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)

Authors:Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li

This paper introduces a holistic vision-language foundation model tailored for remote sensing, named Falcon. Falcon offers a unified, prompt-based paradigm that effectively executes comprehensive and complex remote sensing tasks. Falcon demonstrates powerful understanding and reasoning abilities at the image, region, and pixel levels. Specifically, given simple natural language instructions and remote sensing images, Falcon can produce impressive results in text form across 14 distinct tasks, i.e., image classification, object detection, segmentation, image captioning, and etc. To facilitate Falcon’s training and empower its representation capacity to encode rich spatial and semantic information, we developed Falcon_SFT, a large-scale, multi-task, instruction-tuning dataset in the field of remote sensing. The Falcon_SFT dataset consists of approximately 78 million high-quality data samples, covering 5.6 million multi-spatial resolution and multi-view remote sensing images with diverse instructions. It features hierarchical annotations and undergoes manual sampling verification to ensure high data quality and reliability. Extensive comparative experiments are conducted, which verify that Falcon achieves remarkable performance over 67 datasets and 14 tasks, despite having only 0.7B parameters. We release the complete dataset, code, and model weights at https://github.com/TianHuiLab/Falcon, hoping to help further develop the open-source community.

本文介绍了一个专为遥感领域定制的全视觉语言基础模型,名为Falcon。Falcon提供了一个基于提示的统一范式,可以有效地执行全面且复杂的遥感任务。Falcon在图像、区域和像素级别表现出强大的理解和推理能力。具体来说,给定简单的自然语言指令和遥感图像,Falcon可以在14个不同任务中以文本形式产生令人印象深刻的结果,例如图像分类、目标检测、分割、图像描述等。为了训练Falcon并增强其表示能力以编码丰富的空间语义信息,我们开发了遥感领域的大规模多任务指令调整数据集Falcon_SFT。Falcon_SFT数据集包含约7800万高质量数据样本,涵盖560万多元空间分辨率和多视角遥感图像以及多种指令。它采用分层注释并经过手动采样验证,以确保数据的高质量和可靠性。进行了广泛的对比实验,验证了在67个数据集和14个任务中,尽管只有0.7B参数,但Falcon取得了显著的性能。我们在https://github.com/TianHuiLab/Falcon上发布了完整的数据集、代码和模型权重,希望能帮助进一步推动开源社区的发展。

论文及项目相关链接

PDF

Summary

本文介绍了一种专为遥感领域设计的全息视觉语言基础模型——Falcon。该模型采用基于提示的统一范式,能有效执行复杂遥感任务。借助简单的自然语言指令和遥感图像,Falcon可在14种不同任务中以文本形式生成令人印象深刻的结果。为训练Falcon并增强其表示能力以编码丰富的空间语义信息,团队开发了大型多任务指令微调数据集Falcon_SFT。该数据集包含约7800万高质量数据样本,覆盖560万多种多空间分辨率和多视角的遥感图像,并带有各种指令。通过分层注释和手动采样验证确保数据的高质量和可靠性。实验表明,Falcon在67个数据集和14项任务上表现出卓越性能,尽管其参数只有0.7B。

Key Takeaways

  1. Falcon是一种针对遥感领域的全息视觉语言基础模型。
  2. Falcon采用基于提示的统一范式,能执行复杂的遥感任务。
  3. Falcon能处理包括图像分类、目标检测、分割、图像描述等在内的14种不同任务。
  4. 为训练Falcon,开发了大型多任务指令微调数据集Falcon_SFT。
  5. Falcon_SFT数据集包含约7800万高质量数据样本,覆盖多种遥感图像。
  6. Falcon_SFT数据集通过分层注释和手动采样验证确保数据质量。

Cool Papers

点此查看论文截图

Disentangling Feature Structure: A Mathematically Provable Two-Stage Training Dynamics in Transformers

Authors:Zixuan Gong, Shijia Li, Yong Liu, Jiaye Teng

Transformers may exhibit two-stage training dynamics during the real-world training process. For instance, when training GPT-2 on the Counterfact dataset, the answers progress from syntactically incorrect to syntactically correct to semantically correct. However, existing theoretical analyses hardly account for this feature-level two-stage phenomenon, which originates from the disentangled two-type features like syntax and semantics. In this paper, we theoretically demonstrate how the two-stage training dynamics potentially occur in transformers. Specifically, we analyze the feature learning dynamics induced by the aforementioned disentangled two-type feature structure, grounding our analysis in a simplified yet illustrative setting that comprises a normalized ReLU self-attention layer and structured data. Such disentanglement of feature structure is general in practice, e.g., natural languages contain syntax and semantics, and proteins contain primary and secondary structures. To our best knowledge, this is the first rigorous result regarding a feature-level two-stage optimization process in transformers. Additionally, a corollary indicates that such a two-stage process is closely related to the spectral properties of the attention weights, which accords well with our empirical findings.

在现实世界中的训练过程中,Transformer可能会展现出两阶段训练动态。例如,在Counterfact数据集上训练GPT-2时,答案的进展从语法错误到语法正确再到语义正确。然而,现有的理论分析很少考虑这种特征层面的两阶段现象,这种现象源于解耦的两种类型特征,如语法和语义。在本文中,我们从理论上证明了Transformer中两阶段训练动态如何可能发生。具体来说,我们分析了由上述解耦的两种类型特征结构引起的特征学习动态,我们的分析基于一个简化但具有说明性的设置,包括一个标准化的ReLU自注意力层和结构化数据。在实践中,这种特征结构的解耦是普遍的,例如自然语言包含语法和语义,蛋白质包含一级和二级结构。据我们所知,这是关于Transformer中特征层面的两阶段优化过程的首个严谨结果。此外,一个推论表明,这种两阶段过程与注意力权重的谱属性密切相关,这与我们的实验结果相吻合。

论文及项目相关链接

PDF

Summary
在现实世界训练过程中,Transformer展现出两阶段训练动态。例如,对GPT-2进行Counterfact数据集训练时,答案从语法不正确进步到语法正确再到语义正确。现有理论很少分析特征层面的两阶段现象,该现象源于语法和语义等解耦的两种特征。本文在简化但有代表性的设置中,分析由解耦特征结构引起的特征学习动态,包括一个归一化的ReLU自注意力层和结构化数据。特征结构的这种解耦在实践中是普遍的,例如自然语言中的语法和语义,蛋白质中的一级和二级结构。本文是首个关于Transformer中特征层面的两阶段优化过程的严谨结果。此外,一个推论表明,这种两阶段过程与注意力权重的谱属性密切相关,这与我们的实证发现相吻合。

Key Takeaways

  1. Transformer在真实世界训练过程中展现出两阶段训练动态。
  2. 两阶段现象源于解耦的两种特征,如语法和语义。
  3. 本文在简化设置中分析了特征学习动态,包括自注意力层和结构化数据。
  4. 特征结构的解耦在多种领域中是普遍的,如自然语言处理和蛋白质结构。
  5. 这是首个关于Transformer中特征层面两阶段优化过程的严谨研究。
  6. 两阶段过程与注意力权重的谱属性密切相关。

Cool Papers

点此查看论文截图

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection

Authors:Jinhe Bi, Yifan Wang, Danqi Yan, Aniri, Wenke Huang, Zengjie Jin, Xiaowen Ma, Artur Hecker, Mang Ye, Xun Xiao, Hinrich Schuetze, Volker Tresp, Yunpu Ma

Visual instruction tuning adapts pre-trained Multimodal Large Language Models (MLLMs) to follow human instructions for real-world applications. However, the rapid growth of these datasets introduces significant redundancy, leading to increased computational costs. Existing methods for selecting instruction data aim to prune this redundancy, but predominantly rely on computationally demanding techniques such as proxy-based inference or training-based metrics. Consequently, the substantial computational costs incurred by these selection processes often exacerbate the very efficiency bottlenecks they are intended to resolve, posing a significant challenge to the scalable and effective tuning of MLLMs. To address this challenge, we first identify a critical, yet previously overlooked, factor: the anisotropy inherent in visual feature distributions. We find that this anisotropy induces a \textit{Global Semantic Drift}, and overlooking this phenomenon is a key factor limiting the efficiency of current data selection methods. Motivated by this insight, we devise \textbf{PRISM}, the first training-free framework for efficient visual instruction selection. PRISM surgically removes the corrupting influence of global background features by modeling the intrinsic visual semantics via implicit re-centering. Empirically, PRISM reduces the end-to-end time for data selection and model tuning to just 30% of conventional pipelines. More remarkably, it achieves this efficiency while simultaneously enhancing performance, surpassing models fine-tuned on the full dataset across eight multimodal and three language understanding benchmarks, culminating in a 101.7% relative improvement over the baseline. The code is available for access via \href{https://github.com/bibisbar/PRISM}{this repository}.

视觉指令调整适应预先训练的多模态大型语言模型(MLLMs),以遵循人类指令进行实际应用。然而,这些数据的快速增长引入了大量的冗余信息,导致计算成本增加。现有的选择指令数据的方法旨在删除这些冗余信息,但主要依赖于基于代理的推断或基于训练的指标等计算密集的技术。因此,这些选择过程产生的巨大计算成本往往加剧了它们旨在解决的效率瓶颈,给MLLM的可扩展和有效调整带来了重大挑战。为了应对这一挑战,我们首先确定了一个关键但被忽视的因素:视觉特征分布所固有的各向异性。我们发现这种各向异性导致了全局语义漂移,忽视这一现象是限制当前数据选择方法效率的关键因素。受这一见解的启发,我们设计了PRISM,这是一个无需训练即可有效进行视觉指令选择的首个框架。PRISM通过隐式重新定位建模内在视觉语义,从而消除全局背景特征的腐蚀影响。经验上,PRISM将数据选择模型和模型调整的总时间减少到传统管道的仅30%。更值得一提的是,在保持性能的同时实现这种效率,PRISM在八个多模态和三个语言理解基准测试上的表现超过了在完整数据集上进行微调后的模型,相对于基线有101.7%的相对改进。代码可通过访问此存储库获得:https://github.com/bibisbar/PRISM。

论文及项目相关链接

PDF

摘要

视觉指令调整使预训练的多模态大型语言模型(MLLMs)能够遵循人类指令进行实际应用。然而,数据集的快速增长引入了大量冗余,增加了计算成本。现有的选择指令数据的方法旨在减少这种冗余,但主要依赖于计算密集型的代理推理或基于训练指标的技术。因此,这些选择过程产生的巨大计算成本经常加剧它们试图解决的效率瓶颈,给MLLM的可扩展和有效调整带来了重大挑战。针对这一挑战,我们首先确定了一个关键但被忽视的因素:视觉特征分布固有的各向异性。我们发现这种各向异性会引起全局语义漂移,忽略这一现象是限制当前数据选择效率的关键因素。受此启发,我们提出了首个无需训练的视觉指令选择框架——PRISM。PRISM通过隐性重新定位建模内在视觉语义,从而消除了全局背景特征的不利影响。经验表明,PRISM将数据选择模型调整的时间缩短到传统流程的30%。更值得一提的是,在保持高效的同时,它还提高了性能,在八个多模态和三个语言理解基准测试中超越了全数据集微调模型的表现,相对于基线有101.7%的相对改进。代码可通过此仓库访问:https://github.com/bibisbar/PRISM

关键见解

  1. 视觉指令调整在使预训练的多模态大型语言模型适应实际应用方面发挥关键作用,但数据集的冗余增加了计算成本。
  2. 当前的数据选择方法主要依赖于计算密集型的代理推理或基于训练指标的技术,这增加了额外的计算成本。
  3. 视觉特征分布的各向异性是数据选择过程中的一个重要但被忽视的因素。
  4. 各向异性导致全局语义漂移,这是限制当前数据选择方法效率的关键因素。
  5. 提出了一种新的训练免费的视觉指令选择框架PRISM,通过隐性重新定位建模内在视觉语义,有效去除全局背景特征的影响。
  6. PRISM在数据选择和时间效率方面显著优于传统流程,将时间缩短至30%。
  7. PRISM在提高性能的同时保持高效,在多个基准测试中超过全数据集微调模型的表现,并实现相对基线的大幅改进。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-10-19 Highlighting What Matters Promptable Embeddings for Attribute-Focused Image Retrieval
2025-10-19
下一篇 
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-10-19 RoboGPT-R1 Enhancing Robot Planning with Reinforcement Learning
2025-10-19
  目录