嘘~ 正在从服务器偷取页面 . . .

LLM


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-04-22 更新

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Authors:Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning capabilities of LLMs, particularly in mathematics and programming tasks. It is widely believed that RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning abilities that exceed corresponding base models’ capacity. In this study, however, we critically re-examines this assumption by measuring the pass@\textit{k} metric with large values of \textit{k} to explore the reasoning capability boundary of the models across a wide range of model families and benchmarks. Surprisingly, the RL does \emph{not}, in fact, elicit fundamentally new reasoning patterns. While RL-trained models outperform their base models at smaller values of $k$ (\eg, $k$=1), base models can achieve a comparable or even higher pass@$k$ score compared to their RL counterparts at large $k$ values. The reasoning paths generated by RL-trained models are already included in the base models’ sampling distribution, suggesting that most reasoning abilities manifested in RL-trained models are already obtained by base models. Further analysis shows that RL training boosts the performance by biasing the model’s output distribution toward paths that are more likely to yield rewards, therefore sampling correct responses more efficiently. But this also results in a narrower reasoning capability boundary compared to base models. Similar results are observed in visual reasoning tasks trained with RLVR. Moreover, we find that distillation can genuinely introduce new knowledge into the model, different from RLVR. These findings underscore a critical limitation of RLVR in advancing LLM reasoning abilities which requires us to fundamentally rethink the impact of RL training in reasoning LLMs and the need of a better paradigm. Project Page: https://limit-of-RLVR.github.io

强化学习与可验证奖励(RLVR)最近在增强大型语言模型(LLM)的推理能力方面取得了显著的成功,特别是在数学和编程任务中。人们普遍认为,RLVR使LLMs能够持续自我改进,从而获取超过相应基础模型的全新推理能力。然而,在这项研究中,我们通过测量pass@\textit{k}指标,并设置较大的\textit{k}值,来重新审视这一假设,以探索模型在不同模型家族和基准测试中的推理能力边界。令人惊讶的是,事实上,强化学习并没有引发根本性的新推理模式。虽然使用RL训练的模型在较小的k值(例如k=1)情况下,其表现优于基础模型,但在较大的k值情况下,基础模型的pass@\textit{k}分数可以与使用RL的模型相当甚至更高。这表明RL训练的模型产生的推理路径已经包含在基础模型的采样分布中,即RL训练的模型中表现出的大多数推理能力已经被基础模型所获得。进一步的分析表明,RL训练通过使模型的输出分布偏向于更可能产生奖励的路径,从而提高了性能,因此更有效率地采样正确的回应。但这也会导致与基础模型相比,其推理能力边界变窄。在使用RLVR进行视觉推理任务时也观察到了类似的结果。此外,我们发现蒸馏法可以真正地将新知识引入模型中,这与RLVR不同。这些发现突出了RLVR在提升LLM推理能力方面的关键局限性,这要求我们从根本上重新思考RL训练在推理LLM中的作用以及是否需要更好的范式。项目页面:https://limit-of-RLVR.github.io

论文及项目相关链接

PDF 24 pages, 19 figures

Summary

强化学习通过可验证奖励(RLVR)在提升大型语言模型(LLM)的推理能力方面取得了显著的成功,特别是在数学和编程任务中。然而,本研究通过测量pass@k指标,对RLVR是否能够促使LLM持续自我提升并获取新的推理能力进行了重新评估。研究结果显示,强化学习并未激发新的推理模式,而且在较大的k值下,基础模型的性能可与RL训练的模型相媲美甚至更高。这表明RL训练的模型的推理路径已包含在基础模型的采样分布中。进一步的分析表明,RL训练通过使模型输出分布偏向于更可能产生奖励的路径,提高了性能,但这也导致了与基础模型相比更狭窄的推理能力边界。类似的结果在视觉推理任务中也同样观察到。此外,研究发现蒸馏可以真正地将新知识引入模型,与RLVR不同。这些发现强调了RLVR在提升LLM推理能力方面的局限性,并需要我们对RL训练在LLM推理中的影响以及是否需要更好的范式进行根本性的重新思考。

Key Takeaways

  1. 强化学习通过可验证奖励(RLVR)增强了LLM在数学和编程任务中的推理能力。
  2. 通过测量pass@k指标,研究发现强化学习并未激发新的推理模式。
  3. 在较大的k值下,基础模型的性能与RL训练的模型相当或更好。
  4. RL训练的模型的推理路径已包含在基础模型的采样分布中。
  5. RL训练提高了模型性能,但也可能导致更狭窄的推理能力边界。
  6. 在视觉推理任务中也观察到了类似的结果。

Cool Papers

点此查看论文截图

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

Authors:Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen

Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to \textbf{M}aximize the \textbf{I}nformation \textbf{G}ain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73% on AlpacaEval and +6.89% on Wildbench.

数据质量和多样性是构建有效指令微调数据集的关键。随着开源指令微调数据集的可获取性不断增加,从大量数据中自动选择高质量和多样化的子集具有优势。现有方法通常优先考虑实例质量,并使用启发式规则来维持多样性。然而,对整个集合缺乏全面观察往往会导致结果不佳。此外,启发式规则通常关注嵌入空间内的距离或聚类,这无法准确捕获复杂指令在语义空间中的意图。为了弥补这一差距,我们提出了一种统一的方法,用于量化数据集的信息内容。该方法通过构建标签图来建模语义空间,并基于图中信息的分布来量化多样性。基于这种度量,我们进一步引入了一种有效的采样方法,该方法通过迭代选择数据样本,以最大化语义空间中的信息增益(MIG)。在各种数据集和基准模型上的实验表明,MIG持续优于最新方法。值得注意的是,使用MIG采样的5% Tulu3数据微调后的模型,其性能与在完整数据集上训练的官方SFT模型相当,在AlpacaEval上的性能提升+5.73%,在Wildbench上的性能提升+6.89%。

论文及项目相关链接

PDF

摘要

数据质量和多样性是构建有效指令微调数据集的关键。随着开源指令微调数据集的不断增多,从海量数据中自动选择高质量、多样化的子集具有优势。现有方法通常优先考虑实例质量,并使用启发式规则来维持多样性。然而,缺乏对整个集合的全面视角往往导致结果不尽如人意。此外,启发式规则一般关注嵌入空间内的距离或聚类,无法准确捕捉复杂指令的语义空间意图。为了弥补这一差距,我们提出了一种统一的方法,对数据集的信息内容进行量化。该方法通过构建标签图来模拟语义空间,并基于图中信息的分布来量化多样性。基于这种度量,我们进一步引入了一种有效的采样方法,该方法通过迭代选择数据样本以最大化语义空间的信息增益(MIG)。在各种数据集和基础模型上的实验表明,MIG持续优于最新方法。特别是,使用MIG采样的Tulu3数据的5%对模型进行微调,其性能与在完整数据集上训练的官方SFT模型相当,在AlpacaEval上提高了+5.73%,在Wildbench上提高了+6.89%。

关键见解

  1. 数据质量和多样性对于构建有效的指令微调数据集至关重要。
  2. 现有方法因缺乏对整体数据集合的全面视角而导致结果不理想。
  3. 启发式规则通常关注嵌入空间内的距离或聚类,忽略了复杂指令的语义空间意图。
  4. 提出了一种新的方法,通过构建标签图来量化数据集的信息内容,并基于信息分布来量化多样性。
  5. 引入了一种有效的采样方法,即最大化信息增益(MIG),以提高语义空间的数据选择效果。
  6. 实验表明,MIG方法在多种数据集和基础模型上的性能优于现有方法。

Cool Papers

点此查看论文截图

Generative AI Act II: Test Time Scaling Drives Cognition Engineering

Authors:Shijie Xia, Yiwei Qin, Xuefeng Li, Yan Ma, Run-Ze Fan, Steffi Chern, Haoyang Zou, Fan Zhou, Xiangkun Hu, Jiahe Jin, Yanheng He, Yixin Ye, Yixiu Liu, Pengfei Liu

The first generation of Large Language Models - what might be called “Act I” of generative AI (2020-2023) - achieved remarkable success through massive parameter and data scaling, yet exhibited fundamental limitations in knowledge latency, shallow reasoning, and constrained cognitive processes. During this era, prompt engineering emerged as our primary interface with AI, enabling dialogue-level communication through natural language. We now witness the emergence of “Act II” (2024-present), where models are transitioning from knowledge-retrieval systems (in latent space) to thought-construction engines through test-time scaling techniques. This new paradigm establishes a mind-level connection with AI through language-based thoughts. In this paper, we clarify the conceptual foundations of cognition engineering and explain why this moment is critical for its development. We systematically break down these advanced approaches through comprehensive tutorials and optimized implementations, democratizing access to cognition engineering and enabling every practitioner to participate in AI’s second act. We provide a regularly updated collection of papers on test-time scaling in the GitHub Repository: https://github.com/GAIR-NLP/cognition-engineering

第一代大型语言模型——可以被称为生成式人工智能(2020年至2023年)“第一幕”——通过大规模参数和数据扩展取得了显著的成功,但在知识延迟、浅层推理和认知过程受限等方面表现出根本性局限。在这一时期,提示工程作为我们与人工智能的主要界面应运而生,它通过自然语言实现了对话级的交流。我们现在见证了“第二幕”(从现开始到当前)——通过测试时的缩放技术从知识检索系统转变为思维构造引擎的时代来临。这一新范式通过建立基于语言的思维与人工智能建立了一种心智层面的联系。在本文中,我们明确了认知工程的概念基础,并解释了为什么这一刻对其发展至关重要。我们通过全面的教程和优化后的实现系统地剖析了这些高级方法,使认知工程民主化,让每位从业者都能参与人工智能的第二幕。关于测试时缩放的相关论文集合会定期更新在GitHub仓库中:https://github.com/GAIR-NLP/cognition-engineering

论文及项目相关链接

PDF

Summary
大型语言模型在“行动一阶段”(即前阶段大型语言模型)通过大量的参数和数据规模取得了显著的成功,但展现出了一些根本性限制,如知识延迟、浅层推理和认知过程受限等。现在,我们见证了“行动二阶段”(即当前阶段)的出现,在这一阶段,模型正从隐性空间中的知识检索系统过渡到测试时的思维构建引擎。这标志着通过与语言为基础的思维进行思维级别的连接来实现认知工程的理念发展和普及。这一阶段还带来了综合性教程和优化的实现方式,为大众参与认知工程提供了民主化的机会。GitHub仓库提供了关于测试时规模的最新论文集合。

Key Takeaways

  • 大型语言模型在初期阶段通过大规模参数和数据取得了显著成功。
  • 第一阶段的大型语言模型存在知识延迟、浅层推理和认知过程受限等根本性限制。
  • 第二阶段的大型语言模型正在从知识检索系统过渡到思维构建引擎。
  • 这一过渡代表着与AI的思维方式级别的连接。这一新阶段标志着认知工程的发展,使AI能够进行思维级别交互成为可能。
  • 提供了综合教程和优化实现方式,旨在民主化认知工程领域的机会,让更多实践者参与进来。

Cool Papers

点此查看论文截图

Analyzing LLMs’ Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations

Authors:Chenghao Xiao, Hou Pong Chan, Hao Zhang, Mahani Aljunied, Lidong Bing, Noura Al Moubayed, Yu Rong

While understanding the knowledge boundaries of LLMs is crucial to prevent hallucination, research on knowledge boundaries of LLMs has predominantly focused on English. In this work, we present the first study to analyze how LLMs recognize knowledge boundaries across different languages by probing their internal representations when processing known and unknown questions in multiple languages. Our empirical studies reveal three key findings: 1) LLMs’ perceptions of knowledge boundaries are encoded in the middle to middle-upper layers across different languages. 2) Language differences in knowledge boundary perception follow a linear structure, which motivates our proposal of a training-free alignment method that effectively transfers knowledge boundary perception ability across languages, thereby helping reduce hallucination risk in low-resource languages; 3) Fine-tuning on bilingual question pair translation further enhances LLMs’ recognition of knowledge boundaries across languages. Given the absence of standard testbeds for cross-lingual knowledge boundary analysis, we construct a multilingual evaluation suite comprising three representative types of knowledge boundary data. Our code and datasets are publicly available at https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.

了解大型语言模型的知识边界对于防止其产生幻觉至关重要,但关于大型语言模型知识边界的研究主要集中在英语上。在这项工作中,我们首次提出分析大型语言模型如何识别不同语言的知识边界,通过探索其在处理多种语言的已知和未知问题时的内部表征来进行研究。我们的实证研究揭示了三个关键发现:1)大型语言模型对知识边界的认知在不同语言的中间到中上层次中编码。2)知识边界感知的语言差异遵循线性结构,这激励我们提出了一种无需训练的对齐方法,该方法可以有效地在不同语言中转移知识边界感知能力,从而有助于降低低资源语言中的幻觉风险;3)在双语问题对翻译上进行微调,可以进一步提高大型语言模型在不同语言中的知识边界识别能力。由于缺乏跨语言知识边界分析的标准测试平台,我们构建了一个多语言评估套件,包含三种具有代表性的知识边界数据类型。我们的代码和数据集可在https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries上公开获得。

论文及项目相关链接

PDF

Summary

本文首次研究了LLM在多语言环境下如何识别知识边界。通过对不同语言中的已知和未知问题进行处理,发现LLM的知识边界感知编码于中间至中上层次。语言间的知识边界感知差异呈现线性结构,并提出一种无需训练的对齐方法,以提高跨语言的知识边界感知能力,从而降低在低资源语言中的幻觉风险。通过微调双语问题对翻译,可进一步提高LLM的跨语言知识边界识别能力。缺少跨语言知识边界分析的标准测试平台,因此我们构建了包含三种代表性知识边界数据的多语言评估套件。

Key Takeaways

  • LLM的知识边界识别研究主要集中在英语环境下,但该研究首次探索了跨语言环境下的知识边界识别。
  • LLM的知识边界感知编码存在于模型中间至中上层次,这一发现揭示了模型内部如何处理知识边界。
  • 不同语言间的知识边界感知差异呈现线性结构,这为跨语言知识边界感知的对齐提供了基础。
  • 提出了一种无需训练的对齐方法,以提高LLM在不同语言环境下的知识边界感知能力。此方法有助于降低在低资源语言环境中的幻觉风险。
  • 通过微调双语问题对翻译,能够进一步提高LLM在跨语言环境下的知识边界识别效果。
  • 当前缺乏跨语言知识边界分析的标准测试平台,因此构建了包含多种类型数据的多语言评估套件。该套件可用于评估LLM在跨语言环境下的知识边界识别能力。

Cool Papers

点此查看论文截图

Transformer Encoder and Multi-features Time2Vec for Financial Prediction

Authors:Nguyen Kim Hai Bui, Nguyen Duy Chien, Péter Kovács, Gergő Bognár

Financial prediction is a complex and challenging task of time series analysis and signal processing, expected to model both short-term fluctuations and long-term temporal dependencies. Transformers have remarkable success mostly in natural language processing using attention mechanism, which also influenced the time series community. The ability to capture both short and long-range dependencies helps to understand the financial market and to recognize price patterns, leading to successful applications of Transformers in stock prediction. Although, the previous research predominantly focuses on individual features and singular predictions, that limits the model’s ability to understand broader market trends. In reality, within sectors such as finance and technology, companies belonging to the same industry often exhibit correlated stock price movements. In this paper, we develop a novel neural network architecture by integrating Time2Vec with the Encoder of the Transformer model. Based on the study of different markets, we propose a novel correlation feature selection method. Through a comprehensive fine-tuning of multiple hyperparameters, we conduct a comparative analysis of our results against benchmark models. We conclude that our method outperforms other state-of-the-art encoding methods such as positional encoding, and we also conclude that selecting correlation features enhance the accuracy of predicting multiple stock prices.

金融预测是一项复杂且具有挑战性的时间序列分析和信号处理任务,要求对短期波动和长期时间依赖进行建模。Transformer主要在自然语言处理中使用注意力机制取得了显著的成功,这也影响了时间序列社区。捕捉短期和长期依赖的能力有助于理解金融市场并识别价格模式,从而导致Transformer在股票预测中的成功应用。然而,以前的研究主要集中在个别特征和单一预测上,这限制了模型了解更广泛市场趋势的能力。实际上,在诸如金融和技术等领域内,属于同一行业的公司通常表现出相关的股票价格变动。在本文中,我们通过整合Time2Vec与Transformer模型的编码器,开发了一种新型神经网络架构。基于对不同市场的研究,我们提出了一种新型的相关性特征选择方法。通过全面微调多个超参数,我们对我们的结果与基准模型进行了比较分析。我们得出结论,我们的方法优于其他最先进的编码方法,如位置编码,我们还得出结论,选择相关性特征提高了预测多个股票价格的准确性。

论文及项目相关链接

PDF 5 pages, currently under review at Eusipco 2025

Summary

本文探讨了在金融预测领域,运用Transformer模型结合Time2Vec技术的重要性。文章提出了一种新的神经网络架构,并研究了一种新的相关性特征选择方法,旨在更好地捕捉金融市场的整体趋势和个股价格模式。实验结果显示,该方法相较于其他编码方法具有更高的准确性。

Key Takeaways

  1. 金融预测是一项复杂的任务,需要同时模拟短期波动和长期时间依赖性。
  2. Transformer模型因其能够捕捉短期和长期依赖性的能力,在自然语言处理和金融预测领域取得了显著的成功。
  3. 之前的研究主要关注个体特征和单一预测,这限制了模型理解市场趋势的能力。
  4. 本文提出了一种新的神经网络架构,整合了Time2Vec和Transformer模型的编码器。
  5. 提出了一种新的相关性特征选择方法,基于对不同市场的研究。
  6. 通过综合调整多个超参数,本文的方法被证明优于其他先进的编码方法,如位置编码。

Cool Papers

点此查看论文截图

BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models

Authors:Zhengxian Wu, Juan Wen, Wanli Peng, Ziwei Zhang, Yinghan Zhou, Yiming Xue

Previous insertion-based and paraphrase-based backdoors have achieved great success in attack efficacy, but they ignore the text quality and semantic consistency between poisoned and clean texts. Although recent studies introduce LLMs to generate poisoned texts and improve the stealthiness, semantic consistency, and text quality, their hand-crafted prompts rely on expert experiences, facing significant challenges in prompt adaptability and attack performance after defenses. In this paper, we propose a novel backdoor attack based on adaptive optimization mechanism of black-box large language models (BadApex), which leverages a black-box LLM to generate poisoned text through a refined prompt. Specifically, an Adaptive Optimization Mechanism is designed to refine an initial prompt iteratively using the generation and modification agents. The generation agent generates the poisoned text based on the initial prompt. Then the modification agent evaluates the quality of the poisoned text and refines a new prompt. After several iterations of the above process, the refined prompt is used to generate poisoned texts through LLMs. We conduct extensive experiments on three dataset with six backdoor attacks and two defenses. Extensive experimental results demonstrate that BadApex significantly outperforms state-of-the-art attacks. It improves prompt adaptability, semantic consistency, and text quality. Furthermore, when two defense methods are applied, the average attack success rate (ASR) still up to 96.75%.

先前基于插入和改述的后门技术在攻击效果上取得了巨大成功,但它们忽视了文本质量和带毒文本与清洁文本之间的语义一致性。虽然最近的研究引入了大型语言模型来生成带毒文本,并提高了隐蔽性、语义一致性和文本质量,但它们的手工提示依赖于专家经验,在防御后面临着提示适应性和攻击性能方面的重大挑战。在本文中,我们提出了一种基于大型语言模型的自适应优化机制的新型后门攻击(BadApex),它利用一个大型黑盒语言模型通过改进后的提示生成带毒文本。具体来说,我们设计了一个自适应优化机制来迭代地改进初始提示,使用生成和修改代理。生成代理基于初始提示生成带毒文本。然后,修改代理评估带毒文本的质量并改进新的提示。经过多次迭代上述过程后,使用改进后的提示通过大型语言模型生成带毒文本。我们在三个数据集上进行了实验,采用了六种后门攻击和两种防御方法。大量的实验结果表明,BadApex显著优于最先进的攻击方法。它提高了提示适应性、语义一致性和文本质量。此外,当应用两种防御方法时,平均攻击成功率(ASR)仍然高达96.75%。

论文及项目相关链接

PDF 16 pages, 6 figures

Summary

本文提出了一种基于黑盒大型语言模型的自适应优化机制的全新后门攻击方法(BadApex)。该方法利用黑盒LLM通过精细化的提示生成毒化文本,采用自适应优化机制对初始提示进行迭代优化,提高了攻击效果、语义一致性和文本质量。实验证明,BadApex显著优于现有攻击方法,并在应用两种防御方法后,平均攻击成功率仍高达96.75%。

Key Takeaways

  1. BadApex提出了一种基于黑盒大型语言模型的自适应优化机制,用于生成毒化文本。
  2. 该方法通过迭代优化初始提示,提高了攻击效果、语义一致性和文本质量。
  3. BadApex显著优于现有攻击方法。
  4. BadApex能够在应用两种防御方法后,仍保持较高的攻击成功率。
  5. 生成代理根据初始提示生成毒化文本。
  6. 修改代理评估毒化文本的质量并优化新提示。

Cool Papers

点此查看论文截图

DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs

Authors:Tamim Al Mahmud, Najeeb Jebreel, Josep Domingo-Ferrer, David Sanchez

Large language models (LLMs) have recently revolutionized language processing tasks but have also brought ethical and legal issues. LLMs have a tendency to memorize potentially private or copyrighted information present in the training data, which might then be delivered to end users at inference time. When this happens, a naive solution is to retrain the model from scratch after excluding the undesired data. Although this guarantees that the target data have been forgotten, it is also prohibitively expensive for LLMs. Approximate unlearning offers a more efficient alternative, as it consists of ex post modifications of the trained model itself to prevent undesirable results, but it lacks forgetting guarantees because it relies solely on empirical evidence. In this work, we present DP2Unlearning, a novel LLM unlearning framework that offers formal forgetting guarantees at a significantly lower cost than retraining from scratch on the data to be retained. DP2Unlearning involves training LLMs on textual data protected using {\epsilon}-differential privacy (DP), which later enables efficient unlearning with the guarantees against disclosure associated with the chosen {\epsilon}. Our experiments demonstrate that DP2Unlearning achieves similar model performance post-unlearning, compared to an LLM retraining from scratch on retained data – the gold standard exact unlearning – but at approximately half the unlearning cost. In addition, with a reasonable computational cost, it outperforms approximate unlearning methods at both preserving the utility of the model post-unlearning and effectively forgetting the targeted information.

大型语言模型(LLM)虽然为语言处理任务带来了革命性的变革,但也引发了伦理和法律问题。LLM倾向于记忆训练数据中存在的潜在私密或版权信息,在推理阶段可能会将这些信息提供给最终用户。在这种情况下,一种简单的解决方案是在排除不需要的数据后从头开始重新训练模型。虽然这可以保证目标数据已被遗忘,但对于大型语言模型来说,成本却极为高昂。近似遗忘提供了一种更高效的替代方案,它包括对已训练模型本身的后续修改,以防止出现不理想的结果,但它缺乏遗忘保证,因为它只依赖于经验证据。在这项工作中,我们提出了DP2Unlearning,这是一种新型的大型语言模型遗忘框架,它提供了正式的遗忘保证,并且在要保留的数据上从头开始重新训练的成本大大降低。DP2Unlearning涉及在受ε-差分隐私保护的文本数据上训练大型语言模型(DP),这后来使得可以通过与所选ε相关的保证进行高效的遗忘。我们的实验表明,DP2Unlearning在遗忘后的模型性能与在保留数据上从头开始重新训练的大型语言模型(黄金标准的精确遗忘)相似,但遗忘成本降低了大约一半。此外,它以合理的计算成本超越了近似遗忘方法在保持模型实用性和有效遗忘目标信息方面的表现。

论文及项目相关链接

PDF 49 pages

Summary

大型语言模型(LLM)在处理语言任务的同时,引发了伦理和法律问题。LLM有记忆训练数据中潜在私密或版权信息的趋势,可能在推理阶段将这些信息提供给用户。为解决这个问题,有人选择重新训练模型以排除不需要的数据,虽然这能确保遗忘目标数据,但对大型语言模型而言成本过高。近似遗忘则提供了一种更高效的替代方案,它通过对已训练模型本身的后期修改来防止不理想的结果,但缺乏遗忘保证,因为它只依赖经验证据。本研究提出了DP2Unlearning,一种新型LLM遗忘框架,以较低的成本提供了形式化的遗忘保证。DP2Unlearning通过训练受ε-差分隐私保护的文本数据来训练LLM,之后可通过所选的ε对抗披露来实现高效遗忘。实验表明,DP2Unlearning在遗忘后的模型性能与从保留数据开始重新训练的LLM相似,但成本大约是重新训练的一半。此外,它以合理的计算成本超越了近似遗忘方法,既保留了模型的实用性,又有效地忘记了目标信息。

Key Takeaways

  1. 大型语言模型(LLM)在处理语言任务时面临伦理和法律问题,尤其是关于记忆和提供潜在私密或版权信息的风险。
  2. 重训模型以排除不需要的数据是确保遗忘的方法,但对大型语言模型而言成本过高。
  3. 近似遗忘是一种更高效的替代方案,但缺乏遗忘保证。
  4. DP2Unlearning是一种新型LLM遗忘框架,结合了ε-差分隐私保护来训练模型,实现了高效遗忘且提供了形式化的遗忘保证。
  5. DP2Unlearning的实验结果表明,其在遗忘后的模型性能与重新训练的LLM相似,但成本更低。
  6. DP2Unlearning在保留模型实用性的同时,有效地忘记了目标信息。

Cool Papers

点此查看论文截图

Decoding Vision Transformers: the Diffusion Steering Lens

Authors:Ryota Takatsuki, Sonia Joseph, Ippei Fujisawa, Ryota Kanai

Logit Lens is a widely adopted method for mechanistic interpretability of transformer-based language models, enabling the analysis of how internal representations evolve across layers by projecting them into the output vocabulary space. Although applying Logit Lens to Vision Transformers (ViTs) is technically straightforward, its direct use faces limitations in capturing the richness of visual representations. Building on the work of Toker et al. (2024)~\cite{Toker2024-ve}, who introduced Diffusion Lens to visualize intermediate representations in the text encoders of text-to-image diffusion models, we demonstrate that while Diffusion Lens can effectively visualize residual stream representations in image encoders, it fails to capture the direct contributions of individual submodules. To overcome this limitation, we propose \textbf{Diffusion Steering Lens} (DSL), a novel, training-free approach that steers submodule outputs and patches subsequent indirect contributions. We validate our method through interventional studies, showing that DSL provides an intuitive and reliable interpretation of the internal processing in ViTs.

Logit Lens 是广泛应用于基于 transformer 的语言模型的机械解释性方法,通过将内部表示投影到输出词汇空间来分析它们在各层如何演变。虽然将 Logit Lens 应用于视觉 transformer(ViTs)在技术上很直接,但其直接使用在捕捉视觉表示的丰富性方面存在局限性。基于Toker等人(2024)的工作,他们引入了Diffusion Lens来可视化文本编码器中文字到图像扩散模型的中间表示,我们证明虽然Diffusion Lens可以有效地可视化图像编码器的残差流表示,但它无法捕捉单个子模块的直接贡献。为了克服这一局限性,我们提出了Diffusion Steering Lens(DSL),这是一种新型、无需训练的方法,可以引导子模块输出并修补随后的间接贡献。我们通过干预研究验证了我们的方法,表明DSL为ViTs的内部处理提供了直观和可靠的解释。

论文及项目相关链接

PDF 12 pages, 17 figures. Accepted to the CVPR 2025 Workshop on Mechanistic Interpretability for Vision (MIV)

Summary

Logit Lens方法广泛应用于解释基于转换器的语言模型,但直接应用于视觉转换器(ViTs)时存在局限性。为此,本文提出一种新型的无训练方法——Diffusion Steering Lens(DSL),旨在可视化视觉转换器的内部处理过程,通过干预性研究验证了其直观性和可靠性。

Key Takeaways

  1. Logit Lens广泛应用于解释基于转换器的语言模型,通过将内部表示投影到输出词汇空间来进行分析。
  2. 虽然Logit Lens直接应用于视觉转换器(ViTs)技术上很直观,但在捕捉丰富的视觉表示方面存在局限性。
  3. Diffusion Lens虽然能有效可视化图像编码器的残差流表示,但无法捕捉单个子模块的直接影响。
  4. 针对上述挑战,提出了新型的无训练方法——Diffusion Steering Lens(DSL)。
  5. DSL通过干预性研究验证了其直观性和可靠性,能够更准确地解释ViTs的内部处理过程。
  6. DSL方法可以直观地可视化各个子模块的输出以及后续的间接贡献。

Cool Papers

点此查看论文截图

Controlled Territory and Conflict Tracking (CONTACT): (Geo-)Mapping Occupied Territory from Open Source Intelligence

Authors:Paul K. Mandal, Cole Leo, Connor Hurley

Open-source intelligence provides a stream of unstructured textual data that can inform assessments of territorial control. We present CONTACT, a framework for territorial control prediction using large language models (LLMs) and minimal supervision. We evaluate two approaches: SetFit, an embedding-based few-shot classifier, and a prompt tuning method applied to BLOOMZ-560m, a multilingual generative LLM. Our model is trained on a small hand-labeled dataset of news articles covering ISIS activity in Syria and Iraq, using prompt-conditioned extraction of control-relevant signals such as military operations, casualties, and location references. We show that the BLOOMZ-based model outperforms the SetFit baseline, and that prompt-based supervision improves generalization in low-resource settings. CONTACT demonstrates that LLMs fine-tuned using few-shot methods can reduce annotation burdens and support structured inference from open-ended OSINT streams. Our code is available at https://github.com/PaulKMandal/CONTACT/.

开源情报(OSINT)提供了一系列非结构化文本数据,这些数据可以为对领土控制的评估提供信息。我们提出了CONTACT,这是一个使用大型语言模型(LLM)进行领土控制预测的最小监督框架。我们评估了两种方法:SetFit,一种基于嵌入的少量样本分类器,以及应用于BLOOMZ-560m的多语言生成LLM的提示调整方法。我们的模型是在一个关于叙利亚和伊拉克伊斯兰国活动的手工标注新闻数据集上进行训练的,使用提示条件下的控制相关信号的提取,如军事行动、伤亡和位置引用。我们表明,基于BLOOMZ的模型优于SetFit基线,并且基于提示的监督改进了低资源环境中的泛化能力。CONTACT证明,使用少量样本方法微调的大型语言模型(LLM)可以减轻标注负担并支持从开放的OSINT流中进行结构化推断。我们的代码可通过 https://github.com/PaulKMandal/CONTACT/ 获得。

论文及项目相关链接

PDF 7 pages, 1 figure, 1 table

Summary
开源情报为评估和预测领土控制提供了大量非结构化的文本数据。本文提出了使用大型语言模型(LLM)进行领土控制预测的框架CONTACT,并采用了最小监督方式。我们评估了SetFit和BLOOMZ-560m两种模型,其中SetFit是基于嵌入的少数样本分类器,而BLOOMZ则是一个多语言生成LLM模型。我们的模型通过手动的新闻数据集训练,关注叙利亚和伊拉克的ISIS活动。通过提示控制相关信号(如军事行动、伤亡和地点参考),我们发现基于BLOOMZ的模型优于SetFit基线模型,并且基于提示的监督方式在低资源环境中有助于提高泛化能力。CONTACT证明了使用少数样本方法的LLM微调可以减少标注负担并支持从开放式情报流中进行结构化推断。我们的代码已在GitHub上公开共享。

Key Takeaways

  • 开源情报为非结构化文本数据提供了关于领土控制的评估信息。
  • CONTACT框架使用大型语言模型(LLM)进行领土控制预测。
  • 评估了SetFit和BLOOMZ两种模型在领土控制预测中的表现。
  • BLOOMZ模型在预测中表现更好,且基于提示的监督方式有助于提高泛化能力。
  • CONTACT证明了使用少数样本方法的LLM微调可以减少标注负担并支持结构化推断。
  • CONTACT框架适用于处理涉及军事行动、伤亡和地点参考等控制相关信号的情境。

Cool Papers

点此查看论文截图

Exploring Multimodal Prompt for Visualization Authoring with Large Language Models

Authors:Zhen Wen, Luoxuan Weng, Yinghao Tang, Runjin Zhang, Yuxin Liu, Bo Pan, Minfeng Zhu, Wei Chen

Recent advances in large language models (LLMs) have shown great potential in automating the process of visualization authoring through simple natural language utterances. However, instructing LLMs using natural language is limited in precision and expressiveness for conveying visualization intent, leading to misinterpretation and time-consuming iterations. To address these limitations, we conduct an empirical study to understand how LLMs interpret ambiguous or incomplete text prompts in the context of visualization authoring, and the conditions making LLMs misinterpret user intent. Informed by the findings, we introduce visual prompts as a complementary input modality to text prompts, which help clarify user intent and improve LLMs’ interpretation abilities. To explore the potential of multimodal prompting in visualization authoring, we design VisPilot, which enables users to easily create visualizations using multimodal prompts, including text, sketches, and direct manipulations on existing visualizations. Through two case studies and a controlled user study, we demonstrate that VisPilot provides a more intuitive way to create visualizations without affecting the overall task efficiency compared to text-only prompting approaches. Furthermore, we analyze the impact of text and visual prompts in different visualization tasks. Our findings highlight the importance of multimodal prompting in improving the usability of LLMs for visualization authoring. We discuss design implications for future visualization systems and provide insights into how multimodal prompts can enhance human-AI collaboration in creative visualization tasks. All materials are available at https://OSF.IO/2QRAK.

近期大型语言模型(LLM)的进步表明,通过简单的自然语言表述自动化可视化创作过程具有巨大潜力。然而,使用自然语言指导LLM在传达可视化意图方面的精确性和表现力有限,这可能导致误解和耗时的迭代。为了解决这些局限性,我们进行了一项实证研究,了解LLM如何在可视化创作的背景下解释模糊或不完整的文本提示,以及导致LLM误解用户意图的条件。根据研究结果,我们引入视觉提示作为文本提示的补充输入模式,有助于澄清用户意图并增强LLM的解释能力。为了探索多模式提示在可视化创作中的潜力,我们设计了VisPilot,它使用户能够轻松使用多模式提示创建可视化,包括文本、草图和对现有可视化的直接操作。通过两个案例研究和一项受控的用户研究,我们证明VisPilot提供了一种更直观的方式来创建可视化,而且不会影响与仅使用文本提示的方法相比的总体任务效率。此外,我们分析了文本和视觉提示在不同可视化任务中的影响。我们的研究结果表明,多模式提示在提高LLM在可视化创作中的可用性方面具有重要意义。我们讨论了未来可视化系统的设计影响,并提供了多模式提示如何增强创意可视化任务中的人机协作的见解。所有材料均可通过https://OSF.IO/2QRAK获取。

论文及项目相关链接

PDF 11 pages, 8 figures

Summary

大型语言模型(LLM)在自动化可视化创作方面具有巨大潜力,但使用自然语言指令时存在精度和表达受限的问题,容易导致误解和耗时迭代。为研究LLM如何解释可视化创作中的模糊或不完整文本提示,以及导致误解的条件,我们引入视觉提示作为文本提示的补充输入模式,以澄清用户意图并提高LLM的解释能力。我们设计了VisPilot系统,支持多种模式提示,包括文本、草图和对现有可视化的直接操作。通过案例研究和受控用户研究,我们发现VisPilot以更直观的方式创建可视化,不影响整体任务效率,且在不同的可视化任务中,文本和视觉提示的影响显著。这强调了多模式提示在提高LLM可视化创作可用性和人机协作创意可视化任务中的重要性。

Key Takeaways

  1. LLM在自动化可视化创作上有巨大潜力,但自然语言指令存在精度和表达受限的问题。
  2. 模糊或不完整的文本提示会导致LLM误解用户意图。
  3. 视觉提示作为补充输入模式,有助于澄清用户意图并提高LLM的解释能力。
  4. VisPilot系统支持多种模式提示,包括文本、草图和对现有可视化的直接操作。
  5. VisPilot以更直观的方式创建可视化,不影响整体任务效率。
  6. 在不同的可视化任务中,文本和视觉提示的影响显著。
  7. 多模式提示对提高LLM在可视化创作中的可用性和人机协作创意可视化任务的重要性。

Cool Papers

点此查看论文截图

Intelligent Interaction Strategies for Context-Aware Cognitive Augmentation

Authors: Xiangrong, Zhu, Yuan Xu, Tianjian Liu, Jingwei Sun, Yu Zhang, Xin Tong

Human cognition is constrained by processing limitations, leading to cognitive overload and inefficiencies in knowledge synthesis and decision-making. Large Language Models (LLMs) present an opportunity for cognitive augmentation, but their current reactive nature limits their real-world applicability. This position paper explores the potential of context-aware cognitive augmentation, where LLMs dynamically adapt to users’ cognitive states and task environments to provide appropriate support. Through a think-aloud study in an exhibition setting, we examine how individuals interact with multi-modal information and identify key cognitive challenges in structuring, retrieving, and applying knowledge. Our findings highlight the need for AI-driven cognitive support systems that integrate real-time contextual awareness, personalized reasoning assistance, and socially adaptive interactions. We propose a framework for AI augmentation that seamlessly transitions between real-time cognitive support and post-experience knowledge organization, contributing to the design of more effective human-centered AI systems.

人类的认知受到处理能力的限制,导致在知识合成和决策制定中出现认知过载和效率低下。大型语言模型(LLM)为认知增强提供了机会,但它们当前的反应性质限制了它们在现实世界中的应用。本文探讨了语境感知认知增强的潜力,其中LLM动态适应用户的认知状态和任务环境,以提供适当的支持。通过展览环境中的“出声思考”研究,我们观察了个人与多模式信息的交互方式,并识别了在结构化、检索和应用知识方面的关键认知挑战。我们的研究结果强调了人工智能驱动的认知支持系统的重要性,这些系统结合了实时上下文感知、个性化推理支持和社交适应性交互。我们提出了一个人工智能增强框架,该框架可以无缝过渡到实时认知支持和后体验知识组织,为设计更有效的人类为中心的人工智能系统做出贡献。

论文及项目相关链接

PDF Presented at the 2025 ACM Workshop on Human-AI Interaction for Augmented Reasoning, Report Number: CHI25-WS-AUGMENTED-REASONING

Summary:人类认知受限于处理能力的限制,导致认知过载和知识合成与决策制定中的效率低下。大型语言模型(LLM)为认知增强提供了机会,但其当前的反应性质限制了其在现实世界中的应用。本立场论文探讨了上下文感知认知增强的潜力,其中LLM动态适应用户的认知状态和任务环境以提供适当的支持。通过展览环境中的出声思考研究,我们考察了个人与多模式信息的交互方式,并确定了结构化、检索和应用知识方面的关键认知挑战。我们发现需要集成实时上下文感知、个性化推理辅助和社会适应性交互的人工智能驱动的认知支持系统。我们提出了一个AI增强框架,该框架无缝过渡到实时认知支持和事后知识组织,有助于设计更有效的人类为中心的人工智能系统。

Key Takeaways

  1. 人类认知受限于处理能力,导致认知过载和决策效率低下。
  2. 大型语言模型(LLM)为认知增强提供机会,但现有技术的反应性质限制了其实际应用。
  3. 上下文感知认知增强能够动态适应用户的认知状态和任务环境,提供适当的支持。
  4. 个体与多模式信息交互时存在认知挑战,如知识结构化、检索和应用。
  5. 需要AI驱动的认知支持系统,集成实时上下文感知、个性化推理辅助和社会适应性交互。
  6. 框架应无缝过渡实时认知支持和事后知识组织,以提高AI系统的有效性。

Cool Papers

点此查看论文截图

Visual Intention Grounding for Egocentric Assistants

Authors:Pengzhan Sun, Junbin Xiao, Tze Ho Elden Tse, Yicong Li, Arjun Akula, Angela Yao

Visual grounding associates textual descriptions with objects in an image. Conventional methods target third-person image inputs and named object queries. In applications such as AI assistants, the perspective shifts – inputs are egocentric, and objects may be referred to implicitly through needs and intentions. To bridge this gap, we introduce EgoIntention, the first dataset for egocentric visual intention grounding. EgoIntention challenges multimodal LLMs to 1) understand and ignore unintended contextual objects and 2) reason about uncommon object functionalities. Benchmark results show that current models misidentify context objects and lack affordance understanding in egocentric views. We also propose Reason-to-Ground (RoG) instruction tuning; it enables hybrid training with normal descriptions and egocentric intentions with a chained intention reasoning and object grounding mechanism. RoG significantly outperforms naive finetuning and hybrid training on EgoIntention, while maintaining or slightly improving naive description grounding. This advancement enables unified visual grounding for egocentric and exocentric visual inputs while handling explicit object queries and implicit human intentions.

视觉定位将文本描述与图像中的物体关联起来。传统方法针对第三人称图像输入和命名对象查询。在人工智能助手等应用中,视角会发生变化——输入是自我中心的,物体可能通过需求和意图被隐含地提及。为了弥补这一差距,我们引入了EgoIntention,这是第一个针对自我中心视觉意图定位的数据集。EgoIntention挑战多模态大型语言模型,以1)理解和忽略非上下文中的物体,以及2)推理不常见物体的功能。基准测试结果表明,当前模型会错误识别上下文中的物体,在自我中心视角中缺乏功能理解。我们还提出了Reason-to-Ground(RoG)指令微调方法;它通过混合正常描述和自我中心意图的训练,并结合链式意图推理和对象定位机制,实现了训练。在EgoIntention上,RoG显著优于简单的微调方法和混合训练方法,同时在单纯描述定位方面保持或略有提升。这一进展实现了自我中心和外在中心视觉输入的统一视觉定位,同时处理明确的对象查询和隐含的人类意图。

论文及项目相关链接

PDF

Summary

本文主要介绍了视觉定位技术,该技术将文本描述与图像中的物体相关联。传统的视觉定位方法主要针对第三人称图像输入和命名对象查询。但在实际应用中,如AI助手等场景,视角是自我中心的,并且物体可能通过需求和意图隐含地被引用。为了解决这个问题,文章引入了一个新数据集EgoIntention,它是用于自我中心视觉意图定位的第一个数据集。该数据集挑战了多模态大型语言模型,使其能够理解并忽略非上下文中的物体,并推理出罕见物体的功能。基准测试结果表明,当前模型在自我中心视角下对上下文物体的误识别和对可负担能力的理解缺乏。文章还提出了一种名为Reason-to-Ground(RoG)的指令调整方法,它通过链式意图推理和对象定位机制实现了常规描述和自我中心意图的混合训练。在EgoIntention测试中,RoG明显超越了简单微调法和混合训练法,同时维持或提高了单纯的定位描述能力。这一进展实现了统一处理自我中心和外部中心视觉输入的统一视觉定位技术,并处理明确的对象查询和隐含的人类意图。

Key Takeaways

  1. 视觉定位技术能够将文本描述与图像中的物体相关联。
  2. 传统视觉定位方法主要关注第三人称图像输入和命名对象查询。
  3. 在AI助手等应用中,视角是自我中心的,物体通过需求和意图隐含地被引用。
  4. EgoIntention数据集是首个用于自我中心视觉意图定位的数据集。
  5. 当前模型在自我中心视角下存在误识别上下文物体的挑战,缺乏罕见物体的功能推理能力。
  6. Reason-to-Ground(RoG)指令调整方法实现了常规描述和自我中心意图的混合训练,通过链式意图推理和对象定位机制显著提高了性能。

Cool Papers

点此查看论文截图

Mind2Matter: Creating 3D Models from EEG Signals

Authors:Xia Deng, Shen Chen, Jiale Zhou, Lei Li

The reconstruction of 3D objects from brain signals has gained significant attention in brain-computer interface (BCI) research. Current research predominantly utilizes functional magnetic resonance imaging (fMRI) for 3D reconstruction tasks due to its excellent spatial resolution. Nevertheless, the clinical utility of fMRI is limited by its prohibitive costs and inability to support real-time operations. In comparison, electroencephalography (EEG) presents distinct advantages as an affordable, non-invasive, and mobile solution for real-time brain-computer interaction systems. While recent advances in deep learning have enabled remarkable progress in image generation from neural data, decoding EEG signals into structured 3D representations remains largely unexplored. In this paper, we propose a novel framework that translates EEG recordings into 3D object reconstructions by leveraging neural decoding techniques and generative models. Our approach involves training an EEG encoder to extract spatiotemporal visual features, fine-tuning a large language model to interpret these features into descriptive multimodal outputs, and leveraging generative 3D Gaussians with layout-guided control to synthesize the final 3D structures. Experiments demonstrate that our model captures salient geometric and semantic features, paving the way for applications in brain-computer interfaces (BCIs), virtual reality, and neuroprosthetics. Our code is available in https://github.com/sddwwww/Mind2Matter.

从脑信号重建3D物体在脑-计算机接口(BCI)研究中已引起广泛关注。目前的研究主要利用功能磁共振成像(fMRI)进行3D重建任务,因其出色的空间分辨率。然而,fMRI的临床应用受限于其高昂的成本和无法支持实时操作。相比之下,脑电图(EEG)作为实时脑-计算机交互系统的经济、无创和移动解决方案,具有明显优势。虽然深度学习领域的最新进展在根据神经数据生成图像方面取得了显著进展,但将EEG信号解码为结构化3D表示仍然很少探索。在本文中,我们提出了一种新的框架,利用神经解码技术和生成模型将EEG记录转换为3D对象重建。我们的方法包括训练EEG编码器以提取时空视觉特征,微调大型语言模型以将这些特征解释为描述性多模式输出,并利用带有布局指导控制的生成3D高斯来合成最终的3D结构。实验表明,我们的模型捕捉了显著的几何和语义特征,为脑-计算机接口(BCI)、虚拟现实和神经矫正器应用奠定了基础。我们的代码可在https://github.com/sddwwww/Mind2Matter中找到。

论文及项目相关链接

PDF

Summary
在脑机接口研究中,利用脑信号重建三维物体引起了广泛关注。当前研究主要利用功能磁共振成像进行三维重建任务,但成本高昂且无法实现实时操作。本文提出了一种利用脑电图和神经网络解码技术将脑电图信号解码为结构化三维表示的新框架,从而实现实时脑机交互系统的三维物体重建。该模型可应用于脑机接口、虚拟现实和神经假肢等领域。代码已公开在GitHub上。

Key Takeaways

  1. 重建三维物体从脑信号在脑机接口研究中受到关注。
  2. 功能磁共振成像在三维重建任务中占据主导地位,但成本高昂且无法支持实时操作。
  3. 电极脑电图提供了一种替代方法,具有经济、非侵入性和移动性等优点,适用于实时脑机交互系统。
  4. 深度学习在图像生成方面取得了显著进展,但将脑电图信号解码为结构化三维表示仍待探索。
  5. 本文提出了一种新框架,利用神经网络解码技术和生成模型将脑电图记录转化为三维物体重建。
  6. 该框架包括训练EEG编码器提取时空视觉特征,微调大型语言模型以解释这些特征并生成多模式输出,并利用布局指导控制的生成三维高斯来合成最终的三维结构。

Cool Papers

点此查看论文截图

When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers

Authors:Hongkang Li, Yihua Zhang, Shuai Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen

Task arithmetic refers to editing the pre-trained model by adding a weighted sum of task vectors, each of which is the weight update from the pre-trained model to fine-tuned models for certain tasks. This approach recently gained attention as a computationally efficient inference method for model editing, e.g., multi-task learning, forgetting, and out-of-domain generalization capabilities. However, the theoretical understanding of why task vectors can execute various conceptual operations remains limited, due to the highly non-convexity of training Transformer-based models. To the best of our knowledge, this paper provides the first theoretical characterization of the generalization guarantees of task vector methods on nonlinear Transformers. We consider a conceptual learning setting, where each task is a binary classification problem based on a discriminative pattern. We theoretically prove the effectiveness of task addition in simultaneously learning a set of irrelevant or aligned tasks, as well as the success of task negation in unlearning one task from irrelevant or contradictory tasks. Moreover, we prove the proper selection of linear coefficients for task arithmetic to achieve guaranteed generalization to out-of-domain tasks. All of our theoretical results hold for both dense-weight parameters and their low-rank approximations. Although established in a conceptual setting, our theoretical findings were validated on a practical machine unlearning task using the large language model Phi-1.5 (1.3B).

任务算术是指通过添加任务向量的加权和来编辑预训练模型,其中每个任务向量都是预训练模型到特定任务的微调模型的权重更新。最近,这种方法作为一种计算高效的推理方法引起了人们的关注,例如在多任务学习、遗忘和跨域泛化能力方面的模型编辑。然而,由于训练Transformer模型的高度非凸性,关于任务向量如何执行各种概念操作的理论理解仍然有限。据我们所知,本文首次对任务向量方法在非线性Transformer上的泛化保证进行了理论描述。我们考虑一个概念学习场景,其中每个任务都是基于辨别模式的二元分类问题。我们从理论上证明了同时学习一组不相关或对齐的任务时添加任务的有效性,以及从无关或矛盾的任务中遗忘一个任务时否定任务的成功。此外,我们证明了任务算术中线性系数的适当选择,以实现对域外任务的保证泛化。我们的理论结果对于密集权重参数及其低秩近似都适用。尽管是在概念环境中建立的理论发现,但我们在使用大型语言模型Phi-1.5(13亿参数)的实际机器遗忘任务上验证了其有效性。

论文及项目相关链接

PDF Published at ICLR 2025 as an oral paper

Summary
任务算术通过添加任务向量的加权和来编辑预训练模型,每个任务向量都是预训练模型到特定任务的微调模型的权重更新。这种方法作为模型编辑的计算高效推理方法,如多任务学习、遗忘和跨域泛化能力,近期受到关注。本文首次对非线性Transformer任务向量方法进行了理论表征。在概念学习环境中,每个任务都是基于判别模式的二元分类问题,本文证明了同时学习一组不相关或对齐的任务以及通过任务否定从无关或矛盾的任务中遗忘一个任务的有效性。此外,本文证明了选择适当的线性系数对任务算术实现有保障的跨域任务泛化的重要性。理论结果适用于密集权重参数及其低秩近似。尽管是在概念环境中建立的理论发现,但这些发现通过大型语言模型Phi-1.5(1.3B)的机器遗忘任务得到了验证。

Key Takeaways

  1. 任务算术是通过添加任务向量的加权和来编辑预训练模型的方法,这是模型编辑的一种计算高效推理方法。
  2. 任务算术可用于多任务学习、遗忘和跨域泛化等场景。
  3. 本文首次对非线性Transformer任务向量方法的理论表征进行了研究。
  4. 在概念学习环境中,证明了任务添加和否定的有效性。
  5. 适当选择线性系数对任务算术实现有保障的跨域任务泛化至关重要。
  6. 理论结果适用于密集权重参数及其低秩近似。

Cool Papers

点此查看论文截图

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

Authors:Run Luo, Lu Wang, Wanwei He, Xiaobo Xia

Existing efforts in building Graphical User Interface (GUI) agents largely rely on the training paradigm of supervised fine-tuning on Large Vision-Language Models (LVLMs). However, this approach not only demands extensive amounts of training data but also struggles to effectively understand GUI screenshots and generalize to unseen interfaces. The issue significantly limits its application in real-world scenarios, especially for high-level tasks. Inspired by Reinforcement Fine-Tuning (RFT) in large reasoning models (e.g., DeepSeek-R1), which efficiently enhances the problem-solving capabilities of large language models in real-world settings, we propose \name, the first reinforcement learning framework designed to enhance the GUI capabilities of LVLMs in high-level real-world task scenarios, through unified action space rule modeling. By leveraging a small amount of carefully curated high-quality data across multiple platforms (including Windows, Linux, MacOS, Android, and Web) and employing policy optimization algorithms such as Group Relative Policy Optimization (GRPO) to update the model, \name achieves superior performance using only 0.02% of the data (3K vs. 13M) compared to previous state-of-the-art methods like OS-Atlas across eight benchmarks spanning three different platforms (mobile, desktop, and web). These results demonstrate the immense potential of reinforcement learning based on unified action space rule modeling in improving the execution capabilities of LVLMs for real-world GUI agent tasks.

现有构建图形用户界面(GUI)代理的工作主要依赖于在大视觉语言模型(LVLMs)上进行的监督精细调整训练模式。然而,这种方法不仅需求大量的训练数据,而且在理解GUI截图和泛化到未见过的界面方面也存在困难。这一问题极大地限制了其在现实场景中的应用,特别是在高级任务中。

论文及项目相关链接

PDF

摘要

基于强化学习的大型视觉语言模型GUI能力增强框架,通过统一动作空间规则建模,实现了在真实世界GUI代理任务中的高性能表现。该框架利用跨平台高质量数据并采用策略优化算法更新模型,相较于传统方法使用更少的数据量即可实现优越性能。这一创新具有巨大的潜力,有望推动视觉语言模型在真实世界GUI代理任务中的执行能力的提升。

要点解析

  • 当前GUI代理的建设主要依赖于大型视觉语言模型的监督微调训练模式,这种方式需要大量的训练数据且难以有效理解GUI截图并推广到未见过的界面。
  • 强化学习框架被引入来提升LVLMs在真实世界GUI任务场景中的能力,特别是在高水平任务中的问题解决能力。该框架称为“名字”(暂未具体给出框架名称),借鉴大型推理模型的强化学习策略优化方法。

Cool Papers

点此查看论文截图

C-MTCSD: A Chinese Multi-Turn Conversational Stance Detection Dataset

Authors:Fuqiang Niu, Yi Yang, Xianghua Fu, Genan Dai, Bowen Zhang

Stance detection has become an essential tool for analyzing public discussions on social media. Current methods face significant challenges, particularly in Chinese language processing and multi-turn conversational analysis. To address these limitations, we introduce C-MTCSD, the largest Chinese multi-turn conversational stance detection dataset, comprising 24,264 carefully annotated instances from Sina Weibo, which is 4.2 times larger than the only prior Chinese conversational stance detection dataset. Our comprehensive evaluation using both traditional approaches and large language models reveals the complexity of C-MTCSD: even state-of-the-art models achieve only 64.07% F1 score in the challenging zero-shot setting, while performance consistently degrades with increasing conversation depth. Traditional models particularly struggle with implicit stance detection, achieving below 50% F1 score. This work establishes a challenging new benchmark for Chinese stance detection research, highlighting significant opportunities for future improvements.

立场检测已成为分析社交媒体上公众讨论的重要工具。当前的方法面临重大挑战,特别是在中文语言处理和多轮对话分析方面。为了解决这些局限性,我们推出了C-MTCSD,这是最大的中文多轮对话立场检测数据集,包含24264个来自新浪微博的精心注释实例,是之前唯一的中文对话立场检测数据集的4.2倍。我们使用传统方法和大型语言模型进行的全面评估揭示了C-MTCSD的复杂性:即使在具有挑战性的零样本设置中,最先进的模型也仅达到64.07%的F1分数,随着对话深度的增加,性能不断下降。传统模型在隐性立场检测方面尤其困难,F1分数低于50%。这项工作为中文立场检测研究设定了新的具有挑战性的基准,突显了未来改进的重大机遇。

论文及项目相关链接

PDF WWW2025

Summary

基于社交网络公共讨论的分析,立场检测已成为一项重要工具。针对现有方法在中文语言处理和多轮对话分析上的局限,我们推出了C-MTCSD数据集,它是迄今为止最大的中文多轮对话立场检测数据集,包含来自新浪微博的24,264个精心标注的实例,比之前唯一的中文对话立场检测数据集大4.2倍。我们的评估结果揭示了C-MTCSD的复杂性:即使在具有挑战性的零样本设置下,最先进的模型也只能达到64.07%的F1分数,随着对话深度的增加,性能持续下降。传统模型在隐性立场检测方面的表现尤其不佳,F1分数低于50%。本研究为中文立场检测研究设定了新的挑战基准。

Key Takeaways

  1. 立场检测是分析社交媒体公共讨论的重要工具。
  2. 当前方法在中文语言处理和多轮对话分析方面存在挑战。
  3. 引入了C-MTCSD数据集,为中文多轮对话立场检测提供了最大的标注实例。
  4. C-MTCSD数据集的复杂性被揭示,最先进的模型在零样本设置下F1分数仅为64.07%。
  5. 随着对话深度的增加,模型性能持续下降。
  6. 传统模型在隐性立场检测方面表现不佳,F1分数低于50%。

Cool Papers

点此查看论文截图

From Token to Line: Enhancing Code Generation with a Long-Term Perspective

Authors:Tingwei Lu, Yangning Li, Liyuan Wang, Binghuai Lin, Jiwei Tang, Wanshi Xu, Hai-Tao Zheng, Yinghui Li, Bingxu An, Zhao Wei, Yong Xu

The emergence of large language models (LLMs) has significantly promoted the development of code generation task, sparking a surge in pertinent literature. Current research is hindered by redundant generation results and a tendency to overfit local patterns in the short term. Although existing studies attempt to alleviate the issue by adopting a multi-token prediction strategy, there remains limited focus on choosing the appropriate processing length for generations. By analyzing the attention between tokens during the generation process of LLMs, it can be observed that the high spikes of the attention scores typically appear at the end of lines. This insight suggests that it is reasonable to treat each line of code as a fundamental processing unit and generate them sequentially. Inspired by this, we propose the \textbf{LSR-MCTS} algorithm, which leverages MCTS to determine the code line-by-line and select the optimal path. Further, we integrate a self-refine mechanism at each node to enhance diversity and generate higher-quality programs through error correction. Extensive experiments and comprehensive analyses on three public coding benchmarks demonstrate that our method outperforms the state-of-the-art performance approaches.

大型语言模型(LLM)的出现极大地促进了代码生成任务的发展,并引发了相关文献的激增。当前的研究受到生成结果冗余和短期内过度拟合局部模式的影响。尽管现有研究试图通过采用多令牌预测策略来缓解这一问题,但在选择适当的处理长度进行生成方面仍存在有限关注。通过分析LLM生成过程中令牌之间的注意力,可以观察到注意力得分的高峰值通常出现在行的末尾。这一观察结果表明,将每行代码视为基本处理单元并进行顺序生成是合理的。受此启发,我们提出了LSR-MCTS算法,该算法利用MCTS逐行确定代码并选择最佳路径。此外,我们在每个节点集成了一种自我优化机制,以提高多样性并通过错误校正生成更高质量的程序。在三个公共编码基准测试上的广泛实验和综合分析表明,我们的方法优于最新性能方法。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)的出现极大地推动了代码生成任务的发展,当前研究面临冗余生成结果和短期过度拟合局部模式的挑战。现有研究尝试通过采用多令牌预测策略来缓解这一问题,但如何选择适当的生成处理长度仍受到关注。通过分析LLM生成过程中的令牌间注意力,观察到注意力分数的高峰值通常出现在行尾。这启发我们提出以行为基本处理单元的LSR-MCTS算法,利用MCTS逐行确定代码并选择最优路径。此外,我们在每个节点集成了自我修正机制,以提高多样性并通过错误修正生成更高质量的程序。在三个公共编码基准上的广泛实验和综合分析表明,我们的方法优于现有最佳性能方法。

Key Takeaways

  • 大型语言模型(LLM)对代码生成任务有显著的推动作用。
  • 当前研究面临冗余生成和过度拟合的挑战。
  • 现有研究主要通过多令牌预测策略来应对挑战,但处理长度的选择仍然重要。
  • LLM生成过程中令牌间的高注意力峰值通常出现在行尾,提示以行为基本处理单元的方法可能更有效。
  • 提出了LSR-MCTS算法,利用MCTS逐行确定代码并选择最优路径。
  • LSR-MCTS算法集成了自我修正机制,以提高生成程序的多样性和质量。
  • 在三个公共编码基准上的实验表明,LSR-MCTS算法性能优于现有最佳方法。

Cool Papers

点此查看论文截图

Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models

Authors:Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Shaohui Mei, Lap-Pui Chau

Large language models (LLMs) are foundational explorations to artificial general intelligence, yet their alignment with human values via instruction tuning and preference learning achieves only superficial compliance. Here, we demonstrate that harmful knowledge embedded during pretraining persists as indelible “dark patterns” in LLMs’ parametric memory, evading alignment safeguards and resurfacing under adversarial inducement at distributional shifts. In this study, we first theoretically analyze the intrinsic ethical vulnerability of aligned LLMs by proving that current alignment methods yield only local “safety regions” in the knowledge manifold. In contrast, pretrained knowledge remains globally connected to harmful concepts via high-likelihood adversarial trajectories. Building on this theoretical insight, we empirically validate our findings by employing semantic coherence inducement under distributional shifts–a method that systematically bypasses alignment constraints through optimized adversarial prompts. This combined theoretical and empirical approach achieves a 100% attack success rate across 19 out of 23 state-of-the-art aligned LLMs, including DeepSeek-R1 and LLaMA-3, revealing their universal vulnerabilities.

大型语言模型(LLM)是人工智能通用化的基础探索,然而,通过指令调整和偏好学习使其与人类价值观相符只实现了表面的合规性。在这里,我们证明预训练期间嵌入的有害知识会持久地作为不可磨灭的“暗模式”存在于LLM的参数记忆中,逃避对齐保障措施,并在分布转移时通过敌对诱导重新出现。在本研究中,我们首先从理论上分析对齐LLM的内在道德脆弱性,证明当前的对齐方法仅在知识流形中产生局部“安全区域”。相反,预训练知识仍然与有害概念全球连通,经由高概率的敌对轨迹。基于这一理论洞察,我们通过分布转移下的语义连贯诱导来实证我们的发现——这是一种通过优化敌对提示来系统地绕过对齐约束的方法。这种结合理论和实证的方法在23个最新对齐LLM中的19个上实现了100%的攻击成功率,包括DeepSeek-R1和LLaMA-3,揭示了它们的普遍脆弱性。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)是人工智能通用探索的基础,但通过指令调整和偏好学习实现与人类价值的对齐仅达到表面上的符合。研究表明,预训练过程中嵌入的有害知识会作为不可磨灭的“暗模式”存在于LLM的参数记忆中,逃避对齐保障措施,并在分布转移时通过对抗性诱导重新浮现。本研究首先从理论上分析对齐LLM的内在道德脆弱性,证明当前对齐方法仅在知识流形中产生局部“安全区域”,而预训练知识仍与有害概念通过高概率对抗性轨迹保持全球联系。通过分布转移下的语义连贯性诱导方法,我们实证验证了这一发现,该方法通过优化对抗性提示来系统地绕过对齐约束。这种结合理论和实证的方法在23个最新对齐的大型语言模型中成功攻击了其中19个,揭示了其普遍存在的脆弱性。总结:LLM模型与人类价值观对齐不够彻底,存在理论上的道德脆弱性和实证中的普遍攻击脆弱性。

Key Takeaways

  1. 大型语言模型(LLM)在人工智能领域中具有基础地位,但它们与人类价值的对齐仅达到表面符合。
  2. 预训练过程中嵌入的有害知识会作为“暗模式”存在于LLM中。
  3. 这些“暗模式”可以逃避现有的对齐保障措施,并在特定情境下重新浮现。
  4. 当前的对齐方法仅在知识流形中产生局部“安全区域”。
  5. 预训练知识仍与有害概念保持全球联系。
  6. 通过分布转移下的语义连贯性诱导方法,可以系统地绕过LLM的对齐约束。
  7. 最新的LLM普遍存在道德脆弱性,容易被攻击。强调对LLM进行更深入的对齐研究和加强安全保障的重要性。

Cool Papers

点此查看论文截图

A-MEM: Agentic Memory for LLM Agents

Authors:Wujiang Xu, Kai Mei, Hang Gao, Juntao Tan, Zujie Liang, Yongfeng Zhang

While large language model (LLM) agents can effectively use external tools for complex real-world tasks, they require memory systems to leverage historical experiences. Current memory systems enable basic storage and retrieval but lack sophisticated memory organization, despite recent attempts to incorporate graph databases. Moreover, these systems’ fixed operations and structures limit their adaptability across diverse tasks. To address this limitation, this paper proposes a novel agentic memory system for LLM agents that can dynamically organize memories in an agentic way. Following the basic principles of the Zettelkasten method, we designed our memory system to create interconnected knowledge networks through dynamic indexing and linking. When a new memory is added, we generate a comprehensive note containing multiple structured attributes, including contextual descriptions, keywords, and tags. The system then analyzes historical memories to identify relevant connections, establishing links where meaningful similarities exist. Additionally, this process enables memory evolution - as new memories are integrated, they can trigger updates to the contextual representations and attributes of existing historical memories, allowing the memory network to continuously refine its understanding. Our approach combines the structured organization principles of Zettelkasten with the flexibility of agent-driven decision making, allowing for more adaptive and context-aware memory management. Empirical experiments on six foundation models show superior improvement against existing SOTA baselines. The source code for evaluating performance is available at https://github.com/WujiangXu/AgenticMemory, while the source code of agentic memory system is available at https://github.com/agiresearch/A-mem.

虽然大型语言模型(LLM)代理可以有效地利用外部工具来完成复杂的现实世界任务,但它们需要记忆系统来利用历史经验。当前的记忆系统可以实现基本的存储和检索,但缺乏复杂的记忆组织,尽管最近有尝试引入图数据库。此外,这些系统的固定操作和结构限制了它们在各种任务中的适应性。为了解决这一局限性,本文提出了一种用于LLM代理的新型代理记忆系统,该系统可以动态地以代理方式对记忆进行组织。遵循Zettelkasten方法的基本原则,我们设计的记忆系统通过动态索引和链接创建相互关联的知识网络。每当添加新记忆时,我们会生成一个包含多个结构化属性的综合笔记,包括上下文描述、关键词和标签。然后,系统分析历史记忆以识别相关连接,并在存在有意义的相似性时建立链接。此外,这个过程使记忆得以进化——随着新记忆的融入,它们可以触发对现有历史记忆的上下文表示和属性的更新,使记忆网络能够不断地完善其理解。我们的方法结合了Zettelkasten的结构化组织原则与代理驱动决策的灵活性,从而实现更适应上下文的记忆管理。在六个基础模型上的实证实验表明,与现有的最先进的基线相比,有显著改进。评估性能的代码可在https://github.com/WujiangXu/AgenticMemory上找到,而代理记忆系统的源代码则可在https://github.com/agiresearch/A-mem上找到。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)需要记忆系统来利用历史经验以完成复杂的现实世界任务。当前记忆系统虽具备基本存储和检索功能,但在组织记忆方面缺乏高级功能,且固定操作和结构的限制影响了其在不同任务中的适应性。本文提出一种新型的语言模型记忆系统,采用动态索引和链接方式,构建相互关联的知识网络。新记忆被添加时,系统生成包含多种结构化属性的综合笔记,如上下文描述、关键词和标签。通过分析历史记忆,系统可识别相关联系并建立链接。此外,新记忆的整合可触发现有历史记忆的上下文表示和属性的更新,使记忆网络不断完善理解。该方法结合了Zettelkasten的结构化组织原则和代理驱动的决策灵活性,可实现更适应上下文和语境的内存管理。实证实验结果显示在多个基础模型上的改进优于现有最先进基线。相关源代码已公开。

Key Takeaways

  1. LLM需要记忆系统利用历史经验进行复杂任务。
  2. 当前记忆系统在记忆组织方面存在局限性,缺乏高级功能。
  3. 本文提出一种新型LLM记忆系统,能动态构建知识网络。
  4. 系统利用综合笔记包含结构化属性,如上下文描述、关键词和标签。
  5. 系统通过分析历史记忆识别相关联系并建立链接。
  6. 新记忆的整合使记忆网络能够不断进化并改进理解。

Cool Papers

点此查看论文截图

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

Authors:Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies

The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents – which use external tools and can execute multi-stage tasks – may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. To enable simple and reliable evaluation of attacks and defenses for LLM-based agents, we publicly release AgentHarm at https://huggingface.co/datasets/ai-safety-institute/AgentHarm.

大型语言模型(LLM)抵御越狱攻击(用户设计提示以绕过安全措施并滥用模型能力)的稳健性,主要研究了作为简单聊天机器人的LLM。同时,滥用能够使用外部工具并执行多阶段任务的大型语言模型代理可能会带来更大的风险,但其稳健性尚未得到充分探索。为了促进关于大型语言模型代理滥用的研究,我们提出了名为AgentHarm的新基准测试。该基准测试包括一套包含11种危害类别的110个明确的恶意代理任务(包含增强版本共440个任务),涵盖欺诈、网络犯罪和骚扰等。除了衡量模型是否会拒绝有害的代理请求外,要在AgentHarm上获得高分还需要确保越狱的代理在攻击后能够保持其完成多阶段任务的能力。我们评估了一系列领先的大型语言模型,并发现:(1)领先的大型语言模型在没有越狱的情况下会出人意料地遵从恶意代理的请求;(2)简单的通用越狱模板可以被适应来有效地越狱代理;(3)这些越狱能够使代理行为连贯且恶意,并保留模型的能力。为了方便对基于大型语言模型的代理进行简单可靠的攻击和防御评估,我们在https://huggingface.co/datasets/ai-safety-institute/AgentHarm上公开发布了AgentHarm。

论文及项目相关链接

PDF Accepted at ICLR 2025

摘要
LLMs对利用提示绕过安全措施并滥用模型功能的越狱攻击的鲁棒性已被广泛研究,主要集中在作为简单聊天机器人的LLMs上。然而,对于滥用能够使用外部工具并执行多阶段任务的LLM代理,其风险可能更大,但其鲁棒性尚未得到充分研究。为了促进对LLM代理滥用的研究,本文提出了一种新的基准测试方法——AgentHarm。该基准测试包括包含涵盖诈骗、网络犯罪和骚扰等类别在内的各种明显恶意代理任务共达百例案例及其扩展版本。除了衡量模型是否拒绝有害代理请求外,要在AgentHarm上获得良好评分还要求越狱代理在完成多阶段任务时保持其功能。我们对一系列领先的LLMs进行了评估,发现:(1)领先的LLMs在未经越狱的情况下会意外遵从恶意代理的请求;(2)简单的通用越狱模板可以适应有效地越狱代理;(3)这些越狱行为能够保留模型功能并产生连贯且恶意的多阶段代理行为。为了实现对基于LLM的代理的攻击和防御的简单可靠评估,我们在https://huggingface.co/datasets/ai-safety-institute/AgentHarm公开发布AgentHarm。

关键见解

一、LLMs面临滥用风险的研究概述

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Agent Agent
Agent 方向最新论文已更新,请持续关注 Update in 2025-04-22 ChatNekoHacker Real-Time Fan Engagement with Conversational Agents
2025-04-22
下一篇 
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-04-22 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
2025-04-22
  目录