⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-29 更新
Assessing Classical Machine Learning and Transformer-based Approaches for Detecting AI-Generated Research Text
Authors:Sharanya Parimanoharan, Ruwan D. Nawarathna
The rapid adoption of large language models (LLMs) such as ChatGPT has blurred the line between human and AI-generated texts, raising urgent questions about academic integrity, intellectual property, and the spread of misinformation. Thus, reliable AI-text detection is needed for fair assessment to safeguard human authenticity and cultivate trust in digital communication. In this study, we investigate how well current machine learning (ML) approaches can distinguish ChatGPT-3.5-generated texts from human-written texts employing a labeled data set of 250 pairs of abstracts from a wide range of research topics. We test and compare both classical (Logistic Regression armed with classical Bag-of-Words, POS, and TF-IDF features) and transformer-based (BERT augmented with N-grams, DistilBERT, BERT with a lightweight custom classifier, and LSTM-based N-gram models) ML detection techniques. As we aim to assess each model’s performance in detecting AI-generated research texts, we also aim to test whether an ensemble of these models can outperform any single detector. Results show DistilBERT achieves the overall best performance, while Logistic Regression and BERT-Custom offer solid, balanced alternatives; LSTM- and BERT-N-gram approaches lag. The max voting ensemble of the three best models fails to surpass DistilBERT itself, highlighting the primacy of a single transformer-based representation over mere model diversity. By comprehensively assessing the strengths and weaknesses of these AI-text detection approaches, this work lays a foundation for more robust transformer frameworks with larger, richer datasets to keep pace with ever-improving generative AI models.
随着ChatGPT等大型语言模型(LLM)的快速应用,人工智能生成文本与人类文本之间的界限变得模糊,引发了关于学术诚信、知识产权和误信息传播等的紧迫问题。因此,需要进行可靠的AI文本检测以进行公平评估,保障人类真实性和数字通信中的信任。在本研究中,我们调查了当前机器学习(ML)方法如何区分ChatGPT 3.5生成的文本和人类撰写的文本。我们使用一组包含广泛研究主题的250对摘要的标记数据集进行测试。我们测试和比较了经典(逻辑回归配备经典词袋、POS和TF-IDF特征)和基于Transformer的机器学习检测技术的性能表现。鉴于我们的目标旨在评估每个模型检测人工智能生成研究文本的性能表现,我们还测试了这些模型的组合是否能超越任何单一检测器。结果表明,DistilBERT取得了总体最佳性能表现,而逻辑回归和BERT定制则提供了稳固、平衡的替代方案;LSTM和BERT-N-gram方法表现滞后。这三个最佳模型的投票组合未能超越DistilBERT本身,这突显了单一基于Transformer的表示形式的重要性,而非单纯的模型多样性。通过全面评估这些AI文本检测方法的优缺点,本工作为使用更大、更丰富的数据集构建更强大的Transformer框架奠定了基础,以便与不断改进生成式AI模型保持同步。
论文及项目相关链接
摘要
随着ChatGPT等大语言模型(LLM)的快速采纳,AI生成文本与人类文本之间的界限变得模糊,对学术诚信、知识产权及误解传播等方面提出紧迫问题。因此,为了公正评估和保障人类真实性以及培养数字通信中的信任,可靠的AI文本检测至关重要。本研究旨在调查当前机器学习(ML)方法如何区分ChatGPT 3.5生成的文本和人类撰写的文本。我们利用一组包含广泛研究主题的250对摘要的标记数据集进行测试和比较。方法包括经典方法(如使用传统词袋模型、POS和TF-IDF特征的逻辑回归)和基于转换器的方法(如增强BERT的N元特征、蒸馏BERT、带有轻量级自定义分类器的BERT和基于LSTM的N元模型)。本研究旨在评估每种模型检测AI生成研究文本的性能,同时也测试了模型组合是否能超越单一检测器。结果显示,蒸馏BERT在总体性能上表现最佳,逻辑回归和自定义BERT提供了稳健且平衡的替代方案;LSTM和BERT的N元方法表现较弱。三个最佳模型的投票组合未能超越蒸馏BERT本身,突显出单一基于转换器的表示学习的重要性,而非单纯的模型多样性。本研究全面评估了这些AI文本检测方法的优缺点,为使用更大、更丰富数据集的更稳健的转换器框架奠定了基石,以跟上不断进步的生成式AI模型。
关键见解
- 大语言模型(LLM)如ChatGPT的普及引发了关于学术诚信、知识产权和误解传播的关切。
- 当前机器学习技术在区分ChatGPT 3.5生成的文本和人类撰写的文本方面存在挑战。
- 研究采用多种机器学习技术进行比较,包括经典方法和基于转换器的技术。
- 在检测AI生成的文本方面,蒸馏BERT表现最佳,逻辑回归和自定义BERT为可靠替代方案。
- 基于LSTM和BERT的N元方法性能较弱,显示模型多样性的优势并非绝对。
- 模型组合尝试未能超越最佳单一模型表现,强调单一基于转换器的模型的重要性。
点此查看论文截图


ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms
Authors:Bingxin Xu, Zhen Dong, Oussama Elachqar, Yuzhang Shang
Large language models require massive memory footprints, severely limiting deployment on consumer hardware. Quantization reduces memory through lower numerical precision, but extreme 2-bit quantization suffers from catastrophic performance loss due to outliers in activations. Rotation-based methods such as QuIP and QuaRot apply orthogonal transforms to eliminate outliers before quantization, using computational invariance: $\mathbf{y} = \mathbf{Wx} = (\mathbf{WQ}^T)(\mathbf{Qx})$ for orthogonal $\mathbf{Q}$. However, these methods use fixed transforms–Hadamard matrices achieving optimal worst-case coherence $\mu = 1/\sqrt{n}$–that cannot adapt to specific weight distributions. We identify that different transformer layers exhibit distinct outlier patterns, motivating layer-adaptive rotations rather than one-size-fits-all approaches. In this work, we propose ButterflyQuant, which replaces Hadamard rotations with learnable butterfly transforms parameterized by continuous Givens rotation angles. Unlike Hadamard’s discrete ${+1, -1}$ entries that are non-differentiable and thus prohibit gradient-based learning, butterfly transforms’ continuous parameterization enables smooth optimization while guaranteeing orthogonality by construction. This orthogonal constraint ensures theoretical guarantees in outlier suppression while achieving $O(n \log n)$ computational complexity with only $\frac{n \log n}{2}$ learnable parameters. We further introduce a uniformity regularization on post-transformation activations to promote smoother distributions amenable to quantization. Learning requires only 128 calibration samples and converges in minutes on a single GPU–a negligible one-time cost. For LLaMA-2-7B with 2-bit quantization, ButterflyQuant achieves 15.4 perplexity versus 37.3 for QuIP. \href{https://github.com/42Shawn/Butterflyquant-llm}{Codes} are available.
大型语言模型需要大量的内存空间,严重限制了其在消费者硬件上的部署。量化通过降低数值精度来减少内存,但极端的2位量化由于激活值的异常值而遭受严重的性能损失。基于旋转的方法,如QuIP和QuaRot,通过对正交变换应用来计算不变性,以消除异常值,再进行量化:$\mathbf{y} = \mathbf{Wx} = (\mathbf{WQ}^T)(\mathbf{Qx})$,其中$\mathbf{Q}$为正交矩阵。然而,这些方法使用固定的变换——哈达玛矩阵,实现最优最坏的相干性$\mu = 1/\sqrt{n}$,无法适应特定的权重分布。我们发现不同的转换器层表现出不同的异常值模式,因此提倡采用分层自适应旋转而不是一刀切的方法。在这项工作中,我们提出了ButterflyQuant,它用可学习的蝴蝶变换来替代哈达玛旋转,由连续的吉文斯旋转角进行参数化。与哈达玛的离散${+1, -1}$条目不同,后者是不可微分的,因此禁止基于梯度的学习,蝴蝶变换的连续参数化可以在保持正交性的同时实现平滑优化。这种正交约束确保了异常值抑制的理论保证,同时实现了$O(n \log n)$的计算复杂性,只有$\frac{n \log n}{2}$个可学习参数。我们进一步对后变换激活值引入均匀性正则化,以促进更适合量化的平滑分布。学习只需要128个校准样本,并在单个GPU上几分钟内收敛——这是一次微不足道的成本。对于使用2位量化的LLaMA-2-7B,ButterflyQuant实现了15.4的困惑度,而QuIP为37.3。代码可用。
论文及项目相关链接
PDF Replace discrete Hadamard transforms with continuous Butterfly transforms to facilitate the learning of rotation matrices in LLM quantization
Summary
大型语言模型需要大量内存,限制了其在消费者硬件上的部署。量化通过降低数值精度来减少内存使用,但极端2位量化会导致性能严重下降。旋转方法如QuIP和QuaRot应用正交变换消除异常值。本文提出ButterflyQuant,用可学习的蝴蝶变换代替Hadamard旋转,实现平滑优化并保障正交性,从而提高量化性能。
Key Takeaways
- 大型语言模型在消费者硬件上的部署受限于内存需求。
- 量化是降低内存使用的一种方法,但极端量化可能导致性能严重损失。
- 旋转方法如QuIP和QuaRot通过正交变换消除异常值。
- ButterflyQuant使用可学习的蝴蝶变换,实现平滑优化并保障正交性。
- ButterflyQuant方法实现了理论上的异常值抑制,同时具有O(n log n)的计算复杂度和有效的参数学习。
- 通过引入均匀性正则化,促进更平滑的分布适合量化。
- ButterflyQuant方法的学习成本较低,只需要少量的校准样本,并在单个GPU上快速收敛。
点此查看论文截图



LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding
Authors:Yuxuan Hu, Jihao Liu, Ke Wang, Jinliang Zhen, Weikang Shi, Manyuan Zhang, Qi Dou, Rui Liu, Aojun Zhou, Hongsheng Li
Recent progress in Large Language Models (LLMs) has opened new avenues for solving complex optimization problems, including Neural Architecture Search (NAS). However, existing LLM-driven NAS approaches rely heavily on prompt engineering and domain-specific tuning, limiting their practicality and scalability across diverse tasks. In this work, we propose LM-Searcher, a novel framework that leverages LLMs for cross-domain neural architecture optimization without the need for extensive domain-specific adaptation. Central to our approach is NCode, a universal numerical string representation for neural architectures, which enables cross-domain architecture encoding and search. We also reformulate the NAS problem as a ranking task, training LLMs to select high-performing architectures from candidate pools using instruction-tuning samples derived from a novel pruning-based subspace sampling strategy. Our curated dataset, encompassing a wide range of architecture-performance pairs, encourages robust and transferable learning. Comprehensive experiments demonstrate that LM-Searcher achieves competitive performance in both in-domain (e.g., CNNs for image classification) and out-of-domain (e.g., LoRA configurations for segmentation and generation) tasks, establishing a new paradigm for flexible and generalizable LLM-based architecture search. The datasets and models will be released at https://github.com/Ashone3/LM-Searcher.
大型语言模型(LLM)的最新进展为解决复杂的优化问题,包括神经网络架构搜索(NAS)提供了新的途径。然而,现有的基于LLM的NAS方法严重依赖于提示工程和特定领域的调整,这限制了它们在各种任务中的实用性和可扩展性。在这项工作中,我们提出了LM-Searcher,这是一个新型框架,它利用LLM进行跨域神经网络架构优化,而无需进行广泛的特定领域适应。我们的方法的核心是NCode,这是一种用于神经网络架构的通用数值字符串表示,它实现了跨域架构编码和搜索。我们还重新将NAS问题表述为排序任务,训练LLM从候选池中选择高性能架构,使用基于新型基于剪枝的子空间采样策略生成的指令调整样本。我们整理的数据集涵盖了广泛的架构性能对,鼓励鲁棒和可迁移学习。综合实验表明,LM-Searcher在域内(例如,用于图像分类的CNN)和域外(例如,用于分割和生成的LoRA配置)任务中均取得了具有竞争力的表现,为灵活和通用的LLM基础架构搜索建立了新范式。数据集和模型将在https://github.com/Ashone3/LM-Searcher发布。
论文及项目相关链接
PDF EMNLP 2025 Main
Summary
LLM的进步为求解复杂的优化问题提供了新的途径,包括神经网络架构搜索(NAS)。然而,现有的LLM驱动的NAS方法严重依赖于提示工程和特定领域的调整,这在实践中限制了其在不同任务中的实用性和可扩展性。本研究提出了一种新型的框架LM-Searcher,该框架利用LLMs进行跨域神经网络架构优化,无需大量的特定领域适应。其核心是NCode,一种用于神经网络架构的通用数值字符串表示,它实现了跨域架构编码和搜索。该研究将NAS问题重新表述为排序任务,并使用基于新型剪枝子空间采样策略生成的指令调整样本,训练LLMs从候选池中选择高性能架构。实验表明,LM-Searcher在域内(如用于图像分类的CNN)和域外(如用于分割和生成的LoRA配置)的任务中都取得了具有竞争力的表现,为灵活和通用的LLM基础架构搜索建立了新范式。
Key Takeaways
- LLM的进步为求解复杂的优化问题提供了新的途径,包括神经网络架构搜索(NAS)。
- 现有LLM驱动的NAS方法存在实践性和扩展性问题,因为它们严重依赖于提示工程和特定领域的调整。
- LM-Searcher框架利用LLMs进行跨域神经网络架构优化,无需大量特定领域适应。
- NCode是LM-Searcher的核心,作为一种通用数值字符串表示,用于跨域架构编码和搜索。
- 研究将NAS问题重新表述为排序任务,并使用指令调整样本训练LLMs选择高性能架构。
- LM-Searcher在多种任务中都取得了具有竞争力的表现,包括域内和域外的任务。
点此查看论文截图





MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence
Authors:Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang
Spatial intelligence is essential for multimodal large language models (MLLMs) operating in the complex physical world. Existing benchmarks, however, probe only single-image relations and thus fail to assess the multi-image spatial reasoning that real-world deployments demand. We introduce MMSI-Bench, a VQA benchmark dedicated to multi-image spatial intelligence. Six 3D-vision researchers spent more than 300 hours meticulously crafting 1,000 challenging, unambiguous multiple-choice questions from over 120,000 images, each paired with carefully designed distractors and a step-by-step reasoning process. We conduct extensive experiments and thoroughly evaluate 34 open-source and proprietary MLLMs, observing a wide gap: the strongest open-source model attains roughly 30% accuracy and OpenAI’s o3 reasoning model reaches 40%, while humans score 97%. These results underscore the challenging nature of MMSI-Bench and the substantial headroom for future research. Leveraging the annotated reasoning processes, we also provide an automated error analysis pipeline that diagnoses four dominant failure modes, including (1) grounding errors, (2) overlap-matching and scene-reconstruction errors, (3) situation-transformation reasoning errors, and (4) spatial-logic errors, offering valuable insights for advancing multi-image spatial intelligence. Project page: https://runsenxu.com/projects/MMSI_Bench .
空间智能对于在复杂的物理世界中运行的多模态大型语言模型(MLLM)至关重要。然而,现有的基准测试仅探索单图像关系,因此无法评估现实世界部署所需的多图像空间推理能力。我们引入了MMSI-Bench,这是一个专门用于多图像空间智能的VQA基准测试。六位3D视觉研究人员花费了超过300小时的时间,从超过12万张图像中精心创作了1000个具有挑战性且毫无歧义的多项选择题,每个问题都配备了精心设计的干扰项和逐步推理过程。我们进行了广泛的实验,全面评估了34个开源和专有MLLM,观察到很大的差距:最强的开源模型准确率约为30%,OpenAI的o3推理模型达到40%,而人类得分为97%。这些结果强调了MMSI-Bench的挑战性,以及未来研究的巨大潜力。利用注释的推理过程,我们还提供了一个自动错误分析管道,诊断了四种主要的失败模式,包括(1)接地错误,(2)重叠匹配和场景重建错误,(3)情况转换推理错误,和(4)空间逻辑错误,为推进多图像空间智能提供了宝贵的见解。项目页面:https://runsenxu.com/projects/MMSI_Bench。
论文及项目相关链接
PDF 34 pages. A comprehensive, fully human-curated, multi-image-based spatial intelligence benchmark with reasoning annotation for MLLMs. Project page: https://runsenxu.com/projects/MMSI_Bench
Summary
空间智能对于在复杂物理世界中运行的多模态大型语言模型(MLLMs)至关重要。然而,现有的基准测试仅探索单图像关系,无法评估多图像空间推理能力,与现实世界部署需求脱节。为此,我们推出MMSI-Bench,一个专注于多图像空间智能的VQA基准测试。该测试包含1000个具有挑战性的明确选择题,由六位3D视觉研究人员花费超过300小时精心创建,涵盖超过12万张图像,每张图像都配有精心设计的干扰项和逐步推理过程。我们对34个开源和专有MLLM进行了广泛实验和全面评估,发现了一个显著的差距:最强开源模型的准确率约为30%,OpenAI的o3推理模型达到40%,而人类得分率高达97%。该基准测试还提供自动错误分析管道,诊断了四种主要的失败模式,包括接地错误、重叠匹配和场景重建错误、情境转换推理错误和空间逻辑错误等,为推进多图像空间智能提供了宝贵见解。
Key Takeaways
- 空间智能对多模态大型语言模型在复杂物理世界中的性能至关重要。
- 现有基准测试无法充分评估多图像空间推理能力。
- MMSI-Bench是一个新的VQA基准测试,专注于多图像空间智能,包含1000个具有挑战性的选择题。
- MMSI-Bench评估了34个MLLM的性能,发现存在显著的性能差距。
- 最强开源模型准确率约为30%,OpenAI的o3推理模型达到40%,而人类得分率高达97%。
- MMSI-Bench提供了自动错误分析管道,有助于诊断多图像空间智能的主要失败模式。
点此查看论文截图





MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
Authors:Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yushuo Guan, Zhang Zhang, Liang Wang, Haoxuan Li, Zhouchen Lin, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang
Multimodal Large Language Models (MLLMs) have achieved considerable accuracy in Optical Character Recognition (OCR) from static images. However, their efficacy in video OCR is significantly diminished due to factors such as motion blur, temporal variations, and visual effects inherent in video content. To provide clearer guidance for training practical MLLMs, we introduce the MME-VideoOCR benchmark, which encompasses a comprehensive range of video OCR application scenarios. MME-VideoOCR features 10 task categories comprising 25 individual tasks and spans 44 diverse scenarios. These tasks extend beyond text recognition to incorporate deeper comprehension and reasoning of textual content within videos. The benchmark consists of 1,464 videos with varying resolutions, aspect ratios, and durations, along with 2,000 meticulously curated, manually annotated question-answer pairs. We evaluate 18 state-of-the-art MLLMs on MME-VideoOCR, revealing that even the best-performing model (Gemini-2.5 Pro) achieves an accuracy of only 73.7%. Fine-grained analysis indicates that while existing MLLMs demonstrate strong performance on tasks where relevant texts are contained within a single or few frames, they exhibit limited capability in effectively handling tasks that demand holistic video comprehension. These limitations are especially evident in scenarios that require spatio-temporal reasoning, cross-frame information integration, or resistance to language prior bias. Our findings also highlight the importance of high-resolution visual input and sufficient temporal coverage for reliable OCR in dynamic video scenarios.
多模态大型语言模型(MLLMs)在静态图像的OCR(光学字符识别)中取得了相当的准确性。然而,由于运动模糊、时间变化以及视频内容固有的视觉效果等因素,它们在视频OCR中的有效性大大降低。为了为训练实用型MLLM提供更清晰的指导,我们引入了MME-VideoOCR基准测试,它涵盖了广泛的视频OCR应用场景。MME-VideoOCR包含10个任务类别,共计25个独立任务,涵盖44种不同场景。这些任务不仅涉及文本识别,还融入对视频内文本内容的更深理解和推理。该基准测试包含1464个视频,具有不同的分辨率、纵横比和持续时间,以及2000个精心策划、手动标注的问题答案对。我们在MME-VideoOCR上评估了18种最新MLLM,结果显示,即使表现最佳的模型(Gemini-2.5 Pro)准确率也只有73.7%。精细分析表明,虽然现有MLLM在相关文本包含在单个或少数几个帧的任务中表现出强大的性能,但在需要整体视频理解的任务中表现出有限的能力。这些局限性在需要时空推理、跨帧信息融合或抵抗语言先验偏见的场景中尤为明显。我们的研究还发现,高分辨率的视觉输入和充足的时间覆盖对于动态视频场景的可靠OCR至关重要。
论文及项目相关链接
PDF Accepted by NeurIPS 2025
Summary
MLLMs在静态图像的OCR中表现出较高的准确性,但在视频OCR中的效果却大打折扣,面临运动模糊、时间变化和视频内容固有视觉效应的挑战。为给训练实用MLLMs提供更明确的指导,引入了MME-VideoOCR基准测试,涵盖广泛的视频OCR应用场景,包括10个任务类别、25个独立任务和44个多样化场景。该基准测试包含1464个不同分辨率、比例和时长的视频,以及2000对手动精心挑选和标注的问题答案对。对18种最先进的MLLMs的评估显示,即使是最好的模型(Gemini-2.5 Pro)准确率也只有73.7%。精细分析表明,现有MLLMs在处理单一或少数帧包含相关文本的任务时表现出强大性能,但在需要整体视频理解的任务中表现有限,尤其是在需要时空推理、跨帧信息整合或抵抗语言先验偏见的场景中。还发现高分辨率视觉输入和足够的时间覆盖对于动态视频场景的可靠OCR至关重要。
Key Takeaways
- MLLMs在视频OCR中的准确性较低,受到运动模糊、时间变化和视频内容固有视觉效应的影响。
- 引入MME-VideoOCR基准测试,为训练MLLMs提供清晰指导,涵盖多种视频OCR应用场景。
- MME-VideoOCR包含多种任务,涉及视频中的文本识别、理解和推理。
- 评估显示,现有MLLMs在视频OCR方面存在局限性,即使最好的模型准确率也只有73.7%。
- MLLMs在处理需要整体视频理解的任务时表现有限,特别是在需要时空推理和跨帧信息整合的场景中。
- 高分辨率视觉输入和足够的时间覆盖对动态视频场景的可靠OCR至关重要。
点此查看论文截图




From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
Authors:Yingli Shen, Wen Lai, Shuo Wang, Ge Gao, Kangyang Luo, Alexander Fraser, Maosong Sun
Continued pretraining and instruction tuning on large-scale multilingual data have proven to be effective in scaling large language models (LLMs) to low-resource languages. However, the unaligned nature of such data limits its ability to effectively capture cross-lingual semantics. In contrast, multi-way parallel data, where identical content is aligned across multiple languages, provides stronger cross-lingual consistency and offers greater potential for improving multilingual performance. In this paper, we introduce a large-scale, high-quality multi-way parallel corpus, TED2025, based on TED Talks. The corpus spans 113 languages, with up to 50 languages aligned in parallel, ensuring extensive multilingual coverage. Using this dataset, we investigate best practices for leveraging multi-way parallel data to enhance LLMs, including strategies for continued pretraining, instruction tuning, and the analysis of key influencing factors. Experiments on six multilingual benchmarks show that models trained on multiway parallel data consistently outperform those trained on unaligned multilingual data.
持续在大规模多语言数据上进行预训练和指导调整,已被证明在将大型语言模型(LLM)扩展到低资源语言时是有效的。然而,此类数据的未对齐性质限制了其有效捕捉跨语言语义的能力。相比之下,多向并行数据(其中相同的内容在多语言之间对齐)提供了更强的跨语言一致性,并提供了提高多语言性能的更大潜力。在本文中,我们介绍了一个基于TED演讲的大规模、高质量的多向并行语料库TED2025。该语料库涵盖113种语言,最多有50种语言并行对齐,确保广泛的多语言覆盖。使用该数据集,我们研究了如何利用多向并行数据来增强LLM的最佳实践,包括持续预训练、指令调整的策略,以及对关键影响因素的分析。在六个多语言基准测试上的实验表明,在多向并行数据上训练的模型始终优于在未对齐的多语言数据上训练的模型。
论文及项目相关链接
Summary
大规模多语种数据的持续预训练与指令微调对于扩展大型语言模型(LLM)至低资源语言十分有效。然而,此类数据的未对齐特性限制了其捕捉跨语言语义的能力。相比之下,多向平行数据(在不同语言间具有相同内容的对齐)提供了更强的跨语言一致性,并有望改善多语言性能。本文介绍了一个基于TED演讲的大型、高质量多向平行语料库TED2025,该语料库涵盖113种语言,最多有50种语言并行对齐,确保了广泛的多语言覆盖。利用此数据集,我们探讨了如何利用多向平行数据来优化LLM的最佳实践,包括持续预训练策略、指令调整以及对关键影响因素的分析。在六个多语种基准测试上的实验表明,使用多向平行数据训练的模型始终优于使用未对齐的多语种数据训练的模型。
Key Takeaways
- 大规模多语种数据的持续预训练和指令微调对于扩展LLM至低资源语言具有显著效果。
- 多向平行数据提供了更强的跨语言一致性,有助于改善多语言性能。
- TED2025是一个大型、高质量的多向平行语料库,涵盖113种语言,为优化LLM提供了丰富的资源。
- 使用多向平行数据训练的模型性能优于使用未对齐的多语种数据训练的模型。
- 最佳实践包括利用多向平行数据的持续预训练策略、指令调整策略以及对关键影响因素的分析。
- 多语种基准测试表明,使用多向平行数据可以提高LLM的性能。
点此查看论文截图







Ambiguity Resolution in Text-to-Structured Data Mapping
Authors:Zhibo Hu, Chen Wang, Yanfeng Shu, Hye-Young Paik, Liming Zhu
Ambiguity in natural language is a significant obstacle for achieving accurate text to structured data mapping through large language models (LLMs), which affects the performance of tasks such as mapping text to agentic tool calling and text-to-SQL queries. Existing methods to ambiguity handling either rely on the ReACT framework to obtain correct mappings through trial and error, or on supervised fine-tuning to bias models toward specific tasks. In this paper, we adopt a different approach that characterizes representation differences of ambiguous text in the latent space and leverages these differences to identify ambiguity before mapping them to structured data. To detect sentence-level ambiguity, we focus on the relationship between ambiguous questions and their interpretations. Unlike distances calculated by dense embeddings, we introduce a new distance measure based on a path kernel over concepts. With this measurement, we identify patterns to distinguish ambiguous from unambiguous questions. Furthermore, we propose a method for improving LLM performance on ambiguous agentic tool calling through missing concept prediction. Both achieve state-of-the-art results.
自然语言中的歧义是利用大型语言模型(LLM)实现从文本到结构化数据映射的显著障碍,这影响了文本映射到智能工具调用和文本到SQL查询等任务的性能。现有的处理歧义的方法要么依赖于ReACT框架通过试错获得正确的映射,要么依赖于有监督微调使模型偏向于特定任务。在本文中,我们采用了一种不同的方法,即在潜在空间中刻画模糊文本表示的差异,并利用这些差异在将其映射到结构化数据之前识别歧义。为了检测句子级别的歧义,我们关注模糊问题与其解释之间的关系。与密集嵌入计算的距离不同,我们引入了一种基于概念路径核的新距离度量。通过这种度量,我们能够识别模式来区分模糊和非模糊问题。此外,我们提出了一种通过预测缺失概念来提高LLM处理模糊智能工具调用性能的方法。两者均达到了目前最佳的水平。
论文及项目相关链接
PDF 17 pages, 11 figures
Summary
本文探讨了在自然语言中的歧义对大型语言模型(LLM)实现文本到结构化数据映射的准确性的挑战。文章提出了一种新方法,通过识别文本表示中的差异来识别歧义,并引入了一种新的距离度量方法——概念路径核,以区分模糊和非模糊问题。此外,还提出了一种通过预测缺失概念来提高LLM在模糊代理工具调用方面的性能的方法。这些方法均达到了最新的性能水平。
Key Takeaways
- 自然语言中的歧义对大型语言模型实现文本到结构化数据映射的准确性构成了挑战。
- 现有方法主要依赖于ReACT框架进行歧义处理或监督微调来偏向特定任务。
- 文章提出了一种新方法,通过识别文本表示中的差异来识别歧义。
- 引入了一种新的距离度量方法——概念路径核,以区分模糊和非模糊问题。
- 提出了一种通过预测缺失概念来提高LLM在模糊代理工具调用方面的性能的方法。
点此查看论文截图



In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
Authors:Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
Instruction-based image editing enables precise modifications via natural language prompts, but existing methods face a precision-efficiency tradeoff: fine-tuning demands massive datasets (>10M) and computational resources, while training-free approaches suffer from weak instruction comprehension. We address this by proposing ICEdit, which leverages the inherent comprehension and generation abilities of large-scale Diffusion Transformers (DiTs) through three key innovations: (1) An in-context editing paradigm without architectural modifications; (2) Minimal parameter-efficient fine-tuning for quality improvement; (3) Early Filter Inference-Time Scaling, which uses VLMs to select high-quality noise samples for efficiency. Experiments show that ICEdit achieves state-of-the-art editing performance with only 0.1% of the training data and 1% trainable parameters compared to previous methods. Our approach establishes a new paradigm for balancing precision and efficiency in instructional image editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.
基于指令的图像编辑能够通过自然语言提示进行精确修改,但现有方法面临着精度与效率之间的权衡:微调需要大规模数据集(> 10M)和计算资源,而无需训练的方法则存在指令理解较弱的问题。我们通过提出ICEdit来解决这一问题,它通过三个关键创新点利用大规模扩散变压器(DiTs)的固有理解和生成能力:(1)无需架构修改的内部编辑范式;(2)用于改进质量的参数效率极低的微调;(3)早期滤波推理时间缩放,使用VLMs选择高质量的噪声样本以提高效率。实验表明,与以前的方法相比,ICEdit仅使用0.1%的训练数据和1%的可训练参数就实现了最先进的编辑性能。我们的方法为平衡指令图像编辑中的精度和效率建立了新的范式。代码和演示可在https://river-zhang.github.io/ICEdit-gh-pages/找到。
论文及项目相关链接
PDF Accepted by NeurIPS 2025, there will be future updates for camera ready version. Code: https://github.com/River-Zhang/ICEdit
Summary
基于指令的图像编辑可以通过自然语言提示进行精确修改,但现有方法面临精确性与效率之间的权衡:精细调整需要大量数据集(> 10M)和计算资源,而免培训方法则缺乏指令理解。我们提出ICEdit来解决这个问题,它通过三个关键创新点利用大型扩散变压器(DiTs)的固有理解和生成能力:(1)无需架构修改的在上下文中的编辑模式;(2)最小参数高效的微调以提高质量;(3)早期过滤推理时间缩放,使用VLMs选择高质量的噪声样本以提高效率。实验表明,ICEdit只需使用0.1%的训练数据和1%的可训练参数即可实现最先进的编辑性能。我们的方法为平衡指令图像编辑中的精确性和效率建立了新的范例。
Key Takeaways
- ICEdit解决了现有图像编辑方法的精确性与效率之间的权衡问题。
- ICEdit通过三个关键创新点利用大型扩散变压器(DiTs)的固有理解和生成能力。
- ICEdit实现了在上下文中的编辑模式,无需进行架构修改。
- ICEdit通过最小参数高效的微调来提高图像编辑的质量。
- ICEdit采用早期过滤推理时间缩放技术,通过选择高质量的噪声样本提高效率。
- 实验表明,ICEdit在仅使用少量训练数据和参数的情况下即可实现最先进的编辑性能。
点此查看论文截图





MAIN: Mutual Alignment Is Necessary for instruction tuning
Authors:Fanyi Yang, Jianfeng Liu, Xin Zhang, Haoyu Liu, Xixin Cao, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Qi Zhang
Instruction tuning has empowered large language models (LLMs) to achieve remarkable performance, yet its success heavily depends on the availability of large-scale, high-quality instruction-response pairs. To meet this demand, various methods have been developed to synthesize data at scale. However, current methods for scaling up data generation often overlook a crucial aspect: the alignment between instructions and responses. We hypothesize that the quality of instruction-response pairs is determined not by the individual quality of each component, but by the degree of mutual alignment. To address this, we propose a Mutual Alignment Framework (MAIN) which enforces coherence between instructions and responses through mutual constraints. We demonstrate that MAIN generalizes well across model architectures and sizes, achieving state-of-the-art performance on LLaMA, Mistral, and Qwen models across diverse benchmarks. This work underscores the critical role of instruction-response alignment in enabling generalizable and high-quality instruction tuning for LLMs. All code is available from our repository.
指令微调使大型语言模型(LLM)取得了显著的性能,但其成功在很大程度上取决于大规模高质量指令响应对的可用性。为了满足这一需求,已经开发了各种方法来大规模合成数据。然而,当前扩大数据生成规模的方法往往忽视了一个关键方面:指令与响应之间的对齐。我们假设指令响应对的质并不取决于每个组件的单独质量,而是取决于相互对齐的程度。为了解决这一问题,我们提出了相互对齐框架(MAIN),通过相互约束来加强指令和响应之间的连贯性。我们证明,MAIN在模型架构和规模方面具有很好的通用性,在LLaMA、Mistral和Qwen模型的各种基准测试中实现了最新性能。这项工作强调了指令响应对齐在使LLM实现通用和高质量的指令调整中的关键作用。所有代码均可在我们的存储库中获取。
论文及项目相关链接
PDF Accepted by EMNLP 2025
Summary
大规模指令微调使大型语言模型(LLM)取得了显著的性能提升,但成功很大程度上取决于大规模高质量指令响应对的可用性。为满足这一需求,已经开发了各种方法来实现数据的规模化合成。然而,现有方法往往忽视了指令与响应之间对齐的关键方面。本研究假设指令响应对的品质并非由单一成分的品质决定,而是由相互对齐的程度决定。为解决这一问题,我们提出了相互对齐框架(MAIN),通过相互约束实现指令与响应之间的连贯性。我们在不同的模型架构和规模上验证了MAIN的泛化能力,在LLaMA、Mistral和Qwen模型上的多种基准测试上取得了最先进的性能。这项工作强调了指令响应对齐在使LLM实现通用和高质感的指令调整中的关键作用。
Key Takeaways
- 指令微调对LLM性能有重要影响。
- 大规模高质量指令响应对的可用性是关键。
- 现有数据合成方法往往忽视指令与响应之间的对齐。
- 指令响应对的品质取决于指令与响应的相互对齐程度。
- 提出相互对齐框架(MAIN)以实现指令与响应的连贯性。
- MAIN框架在不同的模型架构和规模上具有良好的泛化能力。
点此查看论文截图



AttentionDrop: A Novel Regularization Method for Transformer Models
Authors:Mirza Samad Ahmed Baig, Syeda Anshrah Gillani, Abdul Akbar Khan, Shahid Munir Shah, Muhammad Omer Khan
Transformer-based architectures achieve state-of-the-art performance across a wide range of tasks in natural language processing, computer vision, and speech processing. However, their immense capacity often leads to overfitting, especially when training data is limited or noisy. In this research, a unified family of stochastic regularization techniques has been proposed, i.e. AttentionDrop with its three different variants, which operate directly on the self-attention distributions. Hard Attention Masking randomly zeroes out top-k attention logits per query to encourage diverse context utilization, Blurred Attention Smoothing applies a dynamic Gaussian convolution over attention logits to diffuse overly peaked distributions, and Consistency-Regularized AttentionDrop enforces output stability under multiple independent AttentionDrop perturbations via a KL-based consistency loss. Results achieved in the study demonstrate that AttentionDrop consistently improves accuracy, calibration, and adversarial robustness over standard Dropout, DropConnect, and R-Drop baselines
基于Transformer的架构在自然语言处理、计算机视觉和语音处理等任务中实现了最先进的性能。然而,它们巨大的容量往往会导致过拟合,尤其是在训练数据有限或嘈杂的情况下。在这项研究中,提出了一系列统一的随机正则化技术,即AttentionDrop及其三种不同变体。它们直接在自注意力分布上运行。硬注意力掩码随机将每个查询的前k个注意力对数置零,以鼓励多样化的上下文利用;模糊注意力平滑在注意力对数上应用动态高斯卷积,以扩散过于尖锐的分布;一致性正则化AttentionDrop通过基于KL的一致性损失,强制多个独立AttentionDrop扰动下的输出稳定性。研究结果表明,AttentionDrop在准确度、校准和对抗稳健性方面持续优于标准Dropout、DropConnect和R-Drop基准测试。
论文及项目相关链接
PDF 25 pages
Summary:基于Transformer的架构在自然语言处理、计算机视觉和语音处理等任务中表现卓越,但其巨大的容量易导致过拟合。研究提出了一种统一的随机正则化技术——AttentionDrop及其三种变体,直接作用于自我注意分布。这三种技术包括硬注意力屏蔽、模糊注意力平滑和一致性正则化AttentionDrop。实验结果表明,AttentionDrop在准确性、校准和对抗稳健性方面均优于标准Dropout、DropConnect和R-Drop基线。
Key Takeaways:
- Transformer架构在多个任务中表现优秀,但存在过拟合问题。
- 研究提出了一种新的随机正则化技术——AttentionDrop,包括三种变体技术。
- AttentionDrop直接作用于自我注意分布,旨在解决过拟合问题。
- 硬注意力屏蔽通过随机屏蔽注意力得分来鼓励多样化的上下文利用。
- 模糊注意力平滑通过动态高斯卷积来扩散过于集中的注意力分布。
- 一致性正则化AttentionDrop通过KL一致性损失确保输出在多次独立的AttentionDrop扰动下保持稳定。
点此查看论文截图


On the Perception Bottleneck of VLMs for Chart Understanding
Authors:Junteng Liu, Weihao Zeng, Xiwen Zhang, Yijun Wang, Zifei Shan, Junxian He
Chart understanding requires models to effectively analyze and reason about numerical data, textual elements, and complex visual components. Our observations reveal that the perception capabilities of existing large vision-language models (LVLMs) constitute a critical bottleneck in this process. In this study, we delve into this perception bottleneck by decomposing it into two components: the vision encoder bottleneck, where the visual representation may fail to encapsulate the correct information, and the extraction bottleneck, where the language model struggles to extract the necessary information from the provided visual representations. Through comprehensive experiments, we find that (1) the information embedded within visual representations is substantially richer than what is typically captured by linear extractors, such as the widely used retrieval accuracy metric; (2) While instruction tuning effectively enhances the extraction capability of LVLMs, the vision encoder remains a critical bottleneck, demanding focused attention and improvement. Therefore, we further enhance the visual encoder to mitigate the vision encoder bottleneck under a contrastive learning framework. Empirical results demonstrate that our approach significantly mitigates the perception bottleneck and improves the ability of LVLMs to comprehend charts. Code is publicly available at https://github.com/hkust-nlp/Vision4Chart.
图表理解需要模型对数值数据、文本元素和复杂视觉成分进行有效的分析和推理。我们的观察发现,现有大型视觉语言模型(LVLMs)的感知能力构成这一过程中的关键瓶颈。在本研究中,我们通过将其分解为两个组件来深入研究这一感知瓶颈:视觉编码器瓶颈,其中视觉表示可能无法封装正确的信息;以及提取瓶颈,其中语言模型难以从提供的视觉表示中提取必要的信息。通过综合实验,我们发现(1)视觉表示中所嵌入的信息远比线性提取器(如广泛使用的检索准确率指标)所捕获的要丰富得多;(2)虽然指令调整有效地提高了LVLMs的提取能力,但视觉编码器仍然是一个关键的瓶颈,需要集中注意力和进行改进。因此,我们进一步增强了视觉编码器,以在对比学习框架下缓解视觉编码器瓶颈。经验结果表明,我们的方法显著缓解了感知瓶颈,提高了LVLMs理解图表的能力。代码已公开在https://github.com/hkust-nlp/Vision4Chart。
论文及项目相关链接
PDF EMNLP 2025: Camera-ready version
Summary
现有大型视觉语言模型在处理图表理解时存在视觉编码瓶颈和信息提取瓶颈。研究发现视觉表征所包含的信息丰富度超出传统线性提取器的捕捉能力,而指令微调虽然提高了模型的提取能力,但视觉编码器仍是关键瓶颈。为缓解这一问题,采用对比学习框架增强了视觉编码器。公开代码位于:[公开链接地址]。
Key Takeaways
- 视觉语言模型在处理图表理解时面临视觉编码和信息提取两大瓶颈。
- 视觉表征包含的信息丰富度超出传统线性提取器的捕捉能力。
- 指令微调能提高模型的提取能力,但视觉编码器仍是关键改进点。
- 对比学习框架被用于增强视觉编码器,以缓解视觉编码瓶颈。
- 该研究提出了新的方法改善大型视觉语言模型对图表的理解能力。
- 研究成果公开可用,方便后续研究与应用。
点此查看论文截图






LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition?
Authors:Bangyan Li, Wenxuan Huang, Zhenkun Gao, Yeqiang Wang, Yunhang Shen, Jingzhong Lin, Ling You, Yuxiang Shen, Shaohui Lin, Wanli Ouyang, Yuling Sun
Recently, Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in visual understanding and reasoning across various vision-language tasks. However, we found that MLLMs cannot process effectively from fine-grained medical image data in the traditional Visual Question Answering (VQA) pipeline, as they do not exploit the captured features and available medical knowledge fully, results in MLLMs usually performing poorly in zero-shot medical disease recognition. Fortunately, this limitation does not indicate that MLLMs are fundamentally incapable of addressing fine-grained recognition tasks. From a feature representation perspective, MLLMs demonstrate considerable potential for tackling such challenging problems. Thus, to address this challenge, we propose LLaVA-RadZ, a simple yet effective framework for zero-shot medical disease recognition via utilizing the existing MLLM features. Specifically, we design an end-to-end training strategy, termed Decoding-Side Feature Alignment Training (DFAT) to take advantage of the characteristics of the MLLM decoder architecture and incorporate modality-specific tokens tailored for different modalities. Additionally, we introduce a Domain Knowledge Anchoring Module (DKAM) to exploit the intrinsic medical knowledge of large models, which mitigates the category semantic gap in image-text alignment. Extensive experiments demonstrate that our LLaVA-RadZ significantly outperforms traditional MLLMs in zero-shot disease recognition, achieving the comparable performance to the well-established and highly-optimized CLIP-based approaches.
最近,多模态大型语言模型(MLLMs)在各种视觉语言任务中展示了出色的视觉理解和推理能力。然而,我们发现MLLMs在传统的视觉问答(VQA)管道中无法有效地处理精细的医学图像数据,因为它们没有充分利用捕获的特征和可用的医学知识,导致MLLMs在零样本医疗疾病识别中通常表现不佳。幸运的是,这一局限性并不意味着MLLMs从根本上无法解决精细识别任务。从特征表示的角度来看,MLLMs在解决这类难题方面显示出巨大的潜力。因此,为了应对这一挑战,我们提出了LLaVA-RadZ框架,这是一个利用现有MLLM特性进行零样本医疗疾病识别的简单有效的框架。具体来说,我们设计了一种端到端的训练策略,称为解码侧特征对齐训练(DFAT),以利用MLLM解码器的特性,并融入针对不同模态的特定标记。此外,我们引入了领域知识锚定模块(DKAM),以利用大型模型的内在医学知识,缩小图像文本对齐中的类别语义差距。大量实验表明,我们的LLaVA-RadZ在零样本疾病识别方面显著优于传统MLLMs,取得了与建立良好且高度优化的CLIP方法相当的性能。
论文及项目相关链接
Summary
大型多模态语言模型(MLLMs)在视觉理解及跨各种视觉语言任务上展现了出色能力。但在传统视觉问答(VQA)流程中处理精细医学图像数据时,它们无法有效发挥功能,导致在零样本医疗疾病识别中表现不佳。然而,MLLMs具有巨大潜力来解决这类问题。为此,我们提出LLaVA-RadZ框架,利用现有MLLM特性进行零样本医疗疾病识别。通过设计名为解码侧特征对齐训练(DFAT)的端到端训练策略并引入领域知识锚定模块(DKAM),我们的方法显著提高了MLLM在零样本疾病识别中的性能。
Key Takeaways
- MLLMs在视觉理解和跨视觉语言任务中表现出色,但在处理精细医学图像数据时存在局限性。
- MLLMs在零样本医疗疾病识别中表现不佳,但具有解决此类问题的潜力。
- 提出LLaVA-RadZ框架,旨在利用MLLM特性进行零样本医疗疾病识别。
- DFAT是一种端到端的训练策略,旨在利用MLLM解码器架构的特性并结合不同模态的特定标记。
- DKAM模块用于挖掘大型模型的内在医学知识,缩小图像文本对齐中的类别语义差距。
- 实验表明,LLaVA-RadZ在零样本疾病识别中显著优于传统MLLMs,并与经过良好训练的CLIP方法性能相当。
点此查看论文截图



A Transformer Model for Predicting Chemical Products from Generic SMARTS Templates with Data Augmentation
Authors:Derin Ozer, Sylvain Lamprier, Thomas Cauchy, Nicolas Gutowski, Benoit Da Mota
The accurate prediction of chemical reaction outcomes is a major challenge in computational chemistry. Current models rely heavily on either highly specific reaction templates or template-free methods, both of which present limitations. To address these, this work proposes the Broad Reaction Set (BRS), a set featuring 20 generic reaction templates written in SMARTS, a pattern-based notation designed to describe substructures and reactivity. Additionally, we introduce ProPreT5, a T5-based model specifically adapted for chemistry and, to the best of our knowledge, the first language model capable of directly handling and applying SMARTS reaction templates. To further improve generalization, we propose the first augmentation strategy for SMARTS, which injects structural diversity at the pattern level. Trained on augmented templates, ProPreT5 demonstrates strong predictive performance and generalization to unseen reactions. Together, these contributions provide a novel and practical alternative to current methods, advancing the field of template-based reaction prediction.
化学反应结果的准确预测是计算化学领域的一大挑战。当前模型严重依赖于特定的反应模板或无模板方法,二者都存在局限性。为解决这一问题,本研究提出了广谱反应集(BRS),这是一组以SMARTS编写的20个通用反应模板,SMARTS是一种基于模式的符号,用于描述子结构和反应活性。此外,我们引入了基于T5模型的ProPreT5,特别是针对化学进行适配的模型,据我们所知,它是第一个能够直接处理和应用SMARTS反应模板的语言模型。为进一步提高泛化能力,我们提出了SMARTS的首个增强策略,该策略在模式层面注入了结构多样性。在增强模板的训练下,ProPreT5显示出强大的预测性能和泛化到未见过的反应的能力。总之,这些贡献为当前方法提供了新颖实用的替代方案,推动了基于模板的反应预测领域的发展。
论文及项目相关链接
PDF ICTAI 2025
Summary
该文针对计算化学中化学反应结果预测的挑战,提出了Broad Reaction Set(BRS)和ProPreT5模型。BRS包含20个通用反应模板,采用SMARTS描述子来描述子结构和反应性。ProPreT5是基于T5模型的改进版,能直接处理和应用SMARTS反应模板,并在最佳知识情况下为首个模型。为进一步提高通用性,文章还提出了SMARTS的增强策略,即在模式级别注入结构多样性。经过训练的ProPreT5模型对未见过的反应表现出强大的预测性能和良好的泛化能力,为当前方法提供了新颖实用的替代方案,推动了基于模板的反应预测领域的发展。
Key Takeaways
- 文章提出了Broad Reaction Set(BRS),包含20个通用反应模板,采用SMARTS描述子描述子结构和反应性。
- 引入了ProPreT5模型,它是首个能直接处理和应用SMARTS反应模板的语言模型。
- 为了提高模型的泛化能力,文章提出了SMARTS的增强策略,即在模式级别注入结构多样性。
- ProPreT5模型在训练过程中表现出了强大的预测性能。
- ProPreT5模型能够很好地泛化到未见过的反应。
- 与当前方法相比,提出的模型和策略为计算化学中的反应预测提供了新颖且实用的替代方案。
点此查看论文截图




Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer
Authors:Yujiao Yang, Jing Lian, Linhui Li
Mixture-of-Experts (MoE) enhances model performance while maintaining computational efficiency, making it well-suited for large-scale applications. Conventional mixture-of-experts (MoE) architectures suffer from suboptimal coordination dynamics, where isolated expert operations expose the model to overfitting risks. Moreover, they have not been effectively extended to attention blocks, which limits further efficiency improvements. To tackle these issues, we propose Union-of-Experts (UoE), which decomposes the transformer model into an equivalent group of experts and applies a hierarchical routing mechanism to allocate input subspaces to specialized experts. Our approach advances MoE design with four key innovations: (1) Constructing expert groups by partitioning non-MoE models into functionally equivalent specialists (2) Developing a hierarchical routing paradigm that integrates patch-wise data selection and expert selection strategies. (3) Extending the MoE design to attention blocks. (4) Proposing a hardware-optimized parallelization scheme that exploits batched matrix multiplications for efficient expert computation. The experiments demonstrate that our UoE model surpasses Full Attention, state-of-the-art MoEs and efficient transformers in several tasks across image and natural language domains. In language modeling tasks, UoE achieves an average reduction of 2.38 in perplexity compared to the best-performing MoE method with only 76% of its FLOPs. In the Long Range Arena benchmark, it demonstrates an average score at least 0.68% higher than all comparison models, with only 50% of the FLOPs of the best MoE method. In image classification, it yields an average accuracy improvement of 1.75% over the best model while maintaining comparable FLOPs. The source codes are available at https://github.com/YujiaoYang-work/UoE.
混合专家(MoE)在保持计算效率的同时提高了模型性能,非常适合大规模应用。传统的混合专家(MoE)架构存在协调动力不佳的问题,孤立的专家操作会使模型面临过拟合风险。此外,它们尚未有效地扩展到注意力块,这限制了进一步的效率改进。为了解决这些问题,我们提出了“联合专家”(UoE)方法,它将变压器模型分解为等效的专家组,并应用分层路由机制将输入子空间分配给专业专家。我们的方法以四个关键创新点推进MoE设计:(1)通过将非MoE模型划分为功能等效的专家来构建专家组;(2)开发了一种结合补丁级数据选择和专家选择策略的分层路由范式。(3)将MoE设计扩展到注意力块。(4)提出了一种硬件优化并行化方案,利用批量矩阵乘法进行高效的专家计算。实验表明,我们的UoE模型在图像和自然语言领域的多个任务中超越了全注意力模型、最新MoE和高效变压器。在语言建模任务中,UoE与性能最佳的MoE方法相比,平均降低了2.38个困惑度,同时仅使用其76%的浮点运算(FLOPs)。在Long Range Arena基准测试中,它的平均得分至少比所有对比模型高0.68%,同时仅使用最佳MoE方法的50%的浮点运算。在图像分类方面,与最佳模型相比,它的平均准确率提高了1.75%,同时保持了相当的浮点运算量。源代码可在https://github.com/YujiaoYang-work/UoE找到。
论文及项目相关链接
Summary
本文介绍了Mixture-of-Experts(MoE)在大型应用中的性能提升和计算效率优势,但存在协调动态不佳和无法有效扩展到注意力块的问题。为此,提出了Union-of-Experts(UoE)模型,通过分解专家组、应用分层路由机制、扩展到注意力块以及硬件优化并行化方案等四个关键创新点来改进MoE设计。实验证明,UoE模型在图像和自然语言领域的多个任务中超越了全注意力模型和当前MoE模型,实现了更高的性能。
Key Takeaways
- Mixture-of-Experts (MoE) 提升模型性能并保持计算效率,适用于大规模应用。
- 传统MoE架构存在协调动态问题,可能导致模型过拟合风险。
- Union-of-Experts (UoE) 通过构建专家组、开发分层路由机制来解决这些问题。
- UoE将MoE设计扩展到注意力块,进一步提高效率。
- UoE模型通过硬件优化并行化方案实现高效专家计算。
- UoE模型在多个任务中表现超越全注意力模型和当前MoE模型。
点此查看论文截图



JUREX-4E: Juridical Expert-Annotated Four-Element Knowledge Base for Legal Reasoning
Authors:Huanghai Liu, Quzhe Huang, Qingjing Chen, Yiran Hu, Jiayu Ma, Yun Liu, Weixing Shen, Yansong Feng
In recent years, Large Language Models (LLMs) have been widely applied to legal tasks. To enhance their understanding of legal texts and improve reasoning accuracy, a promising approach is to incorporate legal theories. One of the most widely adopted theories is the Four-Element Theory (FET), which defines the crime constitution through four elements: Subject, Object, Subjective Aspect, and Objective Aspect. While recent work has explored prompting LLMs to follow FET, our evaluation demonstrates that LLM-generated four-elements are often incomplete and less representative, limiting their effectiveness in legal reasoning. To address these issues, we present JUREX-4E, an expert-annotated four-element knowledge base covering 155 criminal charges. The annotations follow a progressive hierarchical framework grounded in legal source validity and incorporate diverse interpretive methods to ensure precision and authority. We evaluate JUREX-4E on the Similar Charge Disambiguation task and apply it to Legal Case Retrieval. Experimental results validate the high quality of JUREX-4E and its substantial impact on downstream legal tasks, underscoring its potential for advancing legal AI applications. The dataset and code are available at: https://github.com/THUlawtech/JUREX
近年来,大型语言模型(LLM)已广泛应用于法律任务。为了增强它们对法律文本的理解并提高推理准确性,融入法律理论是一种前景看好的方法。其中采用最广泛的理论之一是四要素理论(FET),它通过四个要素定义犯罪构成:主体、客体、主观方面和客观方面。虽然近期的工作已经探索了引导LLM遵循FET,但我们的评估表明,LLM生成的四要素往往不完整且代表性不足,限制了它们在法律推理中的有效性。为了解决这些问题,我们推出了JUREX-4E,这是一个专家注释的四要素知识库,涵盖155项刑事指控。注释遵循基于法律源合法性的递进分层框架,并融入多种解释方法,以确保精确性和权威性。我们在类似罪名辨析任务上评估了JUREX-4E,并将其应用于法律案例检索。实验结果验证了JUREX-4E的高质量及其对下游法律任务的重大影响,突显其在推动法律人工智能应用方面的潜力。数据集和代码可通过以下网址获取:https://github.com/THUlawtech/JUREX 。
论文及项目相关链接
Summary
近年来,大型语言模型(LLM)在法律任务中得到了广泛应用。为增强LLM对法律文本的理解和提高推理准确性,融入法律理论成为一种有前途的方法。其中,被广泛采纳的理论之一是四要素理论(FET),它通过主体、客体、主观方面和客观方面四个要素来定义犯罪构成。尽管近期研究尝试引导LLM遵循FET,但评估显示LLM生成四要素往往不完整且代表性不足,限制了其在法律推理中的有效性。为解决这些问题,我们提出了JUREX-4E,这是一个包含155项刑事指控的专家注释四要素知识库。注释遵循基于法律源合法性的分层框架,并融入多种解释方法以确保精确性和权威性。我们在类似罪名辨识任务上评估了JUREX-4E,并应用于法律案例检索。实验结果验证了JUREX-4E的高质量及其对下游法律任务的显著影响,突显其在推动法律人工智能应用方面的潜力。
Key Takeaways
- 大型语言模型(LLMs)已广泛应用于法律任务。
- 融入法律理论,如四要素理论(FET),可提升LLMs对法律文本的理解和推理准确性。
- 尽管LLMs尝试遵循FET,但在生成四要素时常常存在不完整和代表性不足的问题。
- 提出JUREX-4E:一个包含155项刑事指控的专家注释四要素知识库。
- JUREX-4E的注释遵循基于法律源合法性的分层框架,并结合多种解释方法以确保精确性和权威性。
- JUREX-4E在类似罪名辨识任务上表现出高质量,并成功应用于法律案例检索。
点此查看论文截图




Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning
Authors:Xuyang Wu, Jinming Nian, Ting-Ruen Wei, Zhiqiang Tao, Hsin-Tai Wu, Yi Fang
Recent advances in large language models (LLMs) have enabled automatic generation of chain-of-thought (CoT) reasoning, leading to strong performance on tasks such as math and code. However, when reasoning steps reflect social stereotypes (e.g., those related to gender, race or age), they can reinforce harmful associations and lead to misleading conclusions. We present the first systematic evaluation of social bias within LLM-generated reasoning, focusing on reasoning language models (e.g., DeepSeek-R1, OpenAI o1) that natively produce reasoning chains as part of their answers. Using the BBQ dataset, we analyze both prediction accuracy and reasoning bias across a broad spectrum of models, including instruction-tuned and CoT-augmented variants of DeepSeek-R1 (8B/32B), ChatGPT, and other open-source LLMs. We quantify how biased reasoning steps correlate with incorrect predictions and often lead to stereotype expression. To mitigate reasoning-induced bias, we propose Answer Distribution as Bias Proxy (ADBP), a lightweight mitigation method that detects bias by tracking how model predictions change across incremental reasoning steps. ADBP outperforms Stereotype-free Reasoning Pattern (SfRP) baseline in most cases, mitigating bias and improving the accuracy of LLM outputs. Evaluation and mitigation code is available at https://github.com/elviswxy/LLM_reasoning_bias.
最近大型语言模型(LLM)的进步已经能够实现自动生成思维链(CoT)推理,这在数学和代码等任务上取得了出色的表现。然而,当推理步骤反映出社会刻板印象(例如与性别、种族或年龄相关的刻板印象)时,它们会强化有害的关联并导致误导性的结论。我们首次对LLM生成推理中的社会偏见进行了系统评估,重点关注能够原生地产出推理链作为答案一部分的推理语言模型(例如DeepSeek-R1、OpenAI o1等)。我们使用BBQ数据集分析了广泛模型群的预测精度和推理偏见,包括DeepSeek-R1(8B/32B)的指令调整和CoT增强版本、ChatGPT以及其他开源LLM。我们量化了带有偏见的推理步骤如何与错误预测相关联,并经常导致刻板印象的表达。为了缓解推理导致的偏见,我们提出了答案分布偏见代理(ADBP),这是一种轻量级的缓解方法,通过跟踪模型预测在增量推理步骤中的变化来检测偏见。在大多数情况下,ADBP的表现优于无刻板推理模式(SfRP),能够缓解偏见并提高了LLM输出的准确性。评估和缓解方法的代码可在https://github.com/elviswxy/LLM_reasoning_bias找到。
论文及项目相关链接
PDF EMNLP Findings
摘要
大型语言模型(LLM)的最新进展已实现了自动生成思维链(CoT)推理,从而在数学和代码等任务上表现出强大的性能。然而,当推理步骤反映社会刻板印象(如性别、种族或年龄)时,它们会强化有害的关联并导致误导性的结论。本文对LLM生成推理中的社会偏见进行了首次系统评估,重点关注能够作为答案一部分生成推理链的推理语言模型(如DeepSeek-R1、OpenAI o1等)。我们使用BBQ数据集分析了包括DeepSeek-R1(8B/32B)的指令调优和CoT增强版本、ChatGPT以及其他开源LLM的预测精度和推理偏见。我们量化了有偏见的推理步骤与错误预测之间的关联,以及它们如何常常导致刻板印象的表达。为了缓解推理导致的偏见,我们提出了答案分布偏见代理(ADBP)这一轻量级缓解方法,它通过跟踪模型预测在增量推理步骤中的变化来检测偏见。在大多数情况下,ADBP的表现优于无刻板推理模式(SfRP)基准测试,缓解偏见并提高了LLM输出的准确性。评估与缓解代码可通过https://github.com/elviswxy/LLM_reasoning_bias获取。
关键见解
- 大型语言模型(LLM)能自动生成思维链(CoT)推理,但在涉及社会刻板印象的推理步骤中可能强化有害的关联。
- 使用BBQ数据集对多种LLM的预测精度和推理偏见进行了系统评估。
- 有偏见的推理步骤常与错误预测相关,并可能导致刻板印象的表达。
- 提出了答案分布偏见代理(ADBP)方法,用于检测并缓解LLM中的推理偏见。
- ADBP在大多数情况下表现优于现有的无刻板推理模式(SfRP)方法。
- 通过跟踪模型预测在增量推理步骤中的变化,ADBP提高了LLM输出的准确性。
点此查看论文截图




DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning
Authors:Zhuoyuan Mao, Mengjie Zhao, Qiyu Wu, Hiromi Wakaki, Yuki Mitsufuji
Recent advancements in music large language models (LLMs) have significantly improved music understanding tasks, which involve the model’s ability to analyze and interpret various musical elements. These improvements primarily focused on integrating both music and text inputs. However, the potential of incorporating additional modalities such as images, videos and textual music features to enhance music understanding remains unexplored. To bridge this gap, we propose DeepResonance, a multimodal music understanding LLM fine-tuned via multi-way instruction tuning with multi-way aligned music, text, image, and video data. To this end, we construct Music4way-MI2T, Music4way-MV2T, and Music4way-Any2T, three 4-way training and evaluation datasets designed to enable DeepResonance to integrate both visual and textual music feature content. We also introduce multi-sampled ImageBind embeddings and a pre-LLM fusion Transformer to enhance modality fusion prior to input into text LLMs, tailoring for multi-way instruction tuning. Our model achieves state-of-the-art performances across six music understanding tasks, highlighting the benefits of the auxiliary modalities and the structural superiority of DeepResonance. We open-source the codes, models and datasets we constructed: github.com/sony/DeepResonance.
音乐大型语言模型(LLM)的最新进展极大地提高了音乐理解任务的能力,这些任务涉及模型分析和解释各种音乐元素的能力。这些改进主要集中在整合音乐和文本输入上。然而,结合图像、视频和文本音乐特征等额外模态以增强音乐理解的潜力尚未被探索。为了填补这一空白,我们提出了DeepResonance,这是一种多模态音乐理解LLM,通过多向指令调整与多向对齐的音乐、文本、图像和视频数据进行微调。为此,我们构建了Music4way-MI2T、Music4way-MV2T和Music4way-Any2T三个数据集,这三个数据集是为了让DeepResonance能够整合视觉和文本音乐特征内容而设计的4向训练和评估数据集。我们还引入了多采样ImageBind嵌入和预LLM融合Transformer,以增强模态融合,然后输入文本LLM,为多角度指令调整量身定制。我们的模型在六个音乐理解任务上达到了最先进的性能,凸显了辅助模态的益处和DeepResonance的结构优势。我们公开了我们构建的源代码、模型和数据集:github.com/sony/DeepResonance。
论文及项目相关链接
PDF Accepted to EMNLP 2025 main conference
Summary
音乐大型语言模型(LLM)的最新进展显著提高了音乐理解任务的能力,包括分析和解释各种音乐元素。研究集中在整合音乐和文本输入,但融入图像、视频和文本音乐特征等额外模态的潜力尚未被探索。为此,提出DeepResonance多模态音乐理解LLM,通过多向指令调整与多向对齐的音乐、文本、图像和视频数据微调。为此构建了Music4way-MI2T、Music4way-MV2T和Music4way-Any2T三个4向训练与评估数据集,使DeepResonance能够融合视觉和文本音乐特征内容。还引入了多采样ImageBind嵌入和预LLM融合Transformer,以加强模态融合,然后输入文本LLM中,为多方指令调整量身定制。该模型在六项音乐理解任务上取得了最先进的性能,突显了辅助模态的益处和DeepResonance的结构优越性。我们公开了构建的源代码、模型和数据集:github.com/sony/DeepResonance。
Key Takeaways
- 音乐LLM最新进展提高了音乐理解任务的能力,包括分析和解释音乐元素。
- 研究集中在整合音乐和文本输入,但额外模态(如图像、视频和文本音乐特征)的潜力未被充分探索。
- 提出DeepResonance多模态音乐理解LLM,通过多向指令调整与多模态数据微调。
- 构建了三个4向训练与评估数据集,以融合视觉和文本音乐特征内容。
- 引入多采样ImageBind嵌入和预LLM融合Transformer以加强模态融合。
- DeepResonance在多项音乐理解任务上取得最先进的性能。
点此查看论文截图





Flatten Graphs as Sequences: Transformers are Scalable Graph Generators
Authors:Dexiong Chen, Markus Krimmel, Karsten Borgwardt
We introduce AutoGraph, a scalable autoregressive model for attributed graph generation using decoder-only transformers. By flattening graphs into random sequences of tokens through a reversible process, AutoGraph enables modeling graphs as sequences without relying on additional node features that are expensive to compute, in contrast to diffusion-based approaches. This results in sampling complexity and sequence lengths that scale optimally linearly with the number of edges, making it scalable and efficient for large, sparse graphs. A key success factor of AutoGraph is that its sequence prefixes represent induced subgraphs, creating a direct link to sub-sentences in language modeling. Empirically, AutoGraph achieves state-of-the-art performance on synthetic and molecular benchmarks, with up to 100x faster generation and 3x faster training than leading diffusion models. It also supports substructure-conditioned generation without fine-tuning and shows promising transferability, bridging language modeling and graph generation to lay the groundwork for graph foundation models. Our code is available at https://github.com/BorgwardtLab/AutoGraph.
我们介绍了AutoGraph,这是一个利用仅解码器转换器进行属性图生成的可扩展自回归模型。通过可逆过程将图展平为随机令牌序列,AutoGraph能够建模图序列,而无需依赖计算成本高昂的附加节点特征,这与基于扩散的方法形成对比。这导致采样复杂性和序列长度与边的数量呈最优线性关系,对于大型稀疏图而言,它具有可扩展性和效率。AutoGraph的一个关键成功因素是它的序列前缀代表诱导子图,与语言建模中的句子直接相关。在合成和分子基准测试中,AutoGraph实现了最先进的性能,生成速度比领先的扩散模型快100倍,训练速度快3倍。它还支持子结构条件下的生成而无需微调,并显示出有希望的迁移性,在建立图形基础模型方面奠定了语言建模和图生成之间的桥梁。我们的代码可在https://github.com/BorgwardtLab/AutoGraph找到。
论文及项目相关链接
PDF To appear at NeurIPS 2025
Summary
AutoGraph是一个利用解码器为主的Transformer进行属性图生成的规模化自回归模型。它通过可逆过程将图展平为随机令牌序列,无需依赖昂贵的节点特征计算,不同于基于扩散的方法。因此,其采样复杂性和序列长度与边的数量呈最优线性关系,适用于大规模稀疏图的建模。AutoGraph的关键成功因素在于其序列前缀表示诱导子图,与语言建模中的子句建立直接联系。实证显示,AutoGraph在合成和分子基准测试中达到业界领先水平,生成速度最快达领先扩散模型的100倍,训练速度最快达3倍。此外,它支持子结构条件下的生成无需微调,显示出良好的可迁移性,为图基础模型的建立奠定了语言建模和图生成之间的桥梁。相关代码可在https://github.com/BorgwardtLab/AutoGraph上找到。
Key Takeaways
- AutoGraph是一个自回归模型,用于属性图生成。
- 通过将图展平为令牌序列,实现了图的序列建模。
- 该模型不需要依赖昂贵的节点特征计算。
- 采样复杂性和序列长度与边的数量呈线性关系,适合大规模稀疏图。
- AutoGraph序列前缀代表诱导子图,与语言建模中的子句有直接联系。
- 在合成和分子基准测试中达到业界领先水平,生成和训练速度均优于其他模型。
点此查看论文截图


Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models
Authors:Haonan He, Yuchen Ren, Yining Tang, Ziyang Xu, Junxian Li, Minghao Yang, Di Zhang, Dong Yuan, Tao Chen, Shufei Zhang, Yuqiang Li, Nanqing Dong, Wanli Ouyang, Dongzhan Zhou, Peng Ye
Large language models (LLMs) have shown remarkable capabilities in general domains, but their application to multi-omics biology remains underexplored. To address this gap, we introduce Biology-Instructions, the first large-scale instruction-tuning dataset for multi-omics biological sequences, including DNA, RNA, proteins, and multi-molecules. This dataset bridges LLMs and complex biological sequence-related tasks, enhancing their versatility and reasoning while maintaining conversational fluency. We also highlight significant limitations of current state-of-the-art LLMs on multi-omics tasks without specialized training. To overcome this, we propose ChatMultiOmics, a strong baseline with a novel three-stage training pipeline, demonstrating superior biological understanding through Biology-Instructions. Both resources are publicly available, paving the way for better integration of LLMs in multi-omics analysis. The Biology-Instructions is publicly available at: https://github.com/hhnqqq/Biology-Instructions.
大型语言模型(LLM)在通用领域表现出了显著的能力,但它们在多组学生物学中的应用仍然被探索得不够深入。为了弥补这一空白,我们引入了生物学指令数据集(Biology-Instructions),这是首个针对多组学生物序列的大规模指令调整数据集,包括DNA、RNA、蛋白质和多种分子。该数据集将LLM与复杂的生物序列相关任务联系起来,增强了它们的通用性和推理能力,同时保持了对话的流畅性。我们还强调了当前最先进的LLM在多组学任务上存在的重大局限性,没有经过专门的训练。为了克服这一问题,我们提出了ChatMultiOmics这一强大的基线模型,它采用了新型的三阶段训练管道,通过生物学指令展示了卓越的生物理解力。这两种资源均可公开访问,为多组学分析中LLM的更好集成铺平了道路。生物学指令公开可用的网址为:https://github.com/hhnqqq/Biology-Instructions。
论文及项目相关链接
PDF EMNLP 2025 findings
Summary
大型语言模型(LLM)在多领域表现卓越,但在多组学生物学领域的应用仍然有待探索。为解决此空白,我们推出生物学指令数据集,这是首个针对多组学生物序列的大型指令调优数据集,涵盖DNA、RNA、蛋白质和多分子。该数据集强化了LLM与复杂生物序列相关任务的联系,提高了其通用性和推理能力,同时保持对话流畅性。我们还指出了当前最先进LLM在多组学任务上的重要局限性,并提出通过ChatMultiOmics这一强大的基线模型和新型三阶段训练管道来克服这些局限性,通过生物学指令展示出色的生物学理解力。两个资源均公开可用,为多组学分析中LLM的更好集成铺平了道路。生物学指令数据集可在https://github.com/hhnqqq/Biology-Instructions获取。
Key Takeaways
- 大型语言模型(LLMs)在多组学生物学领域的应用尚待探索。
- 生物学指令数据集是首个针对多组学生物序列的大型指令调优数据集。
- 该数据集提高了LLM处理复杂生物序列任务的能力,并保持了对话的流畅性。
- 当前LLM在多组学任务上存在局限性。
- ChatMultiOmics是一个强大的基线模型,通过新型三阶段训练管道提高LLM在生物学领域的理解力。
- 生物学指令数据集和ChatMultiOmics都为多组学分析中LLM的集成提供了基础。
点此查看论文截图




Bias Similarity Measurement: A Black-Box Audit of Fairness Across LLMs
Authors:Hyejun Jeong, Shiqing Ma, Amir Houmansadr
Large Language Models (LLMs) reproduce social biases, yet prevailing evaluations score models in isolation, obscuring how biases persist across families and releases. We introduce Bias Similarity Measurement (BSM), which treats fairness as a relational property between models, unifying scalar, distributional, behavioral, and representational signals into a single similarity space. Evaluating 30 LLMs on 1M+ prompts, we find that instruction tuning primarily enforces abstention rather than altering internal representations; small models gain little accuracy and can become less fair under forced choice; and open-weight models can match or exceed proprietary systems. Family signatures diverge: Gemma favors refusal, LLaMA 3.1 approaches neutrality with fewer refusals, and converges toward abstention-heavy behavior overall. Counterintuitively, Gemma 3 Instruct matches GPT-4-level fairness at far lower cost, whereas Gemini’s heavy abstention suppresses utility. Beyond these findings, BSM offers an auditing workflow for procurement, regression testing, and lineage screening, and extends naturally to code and multilingual settings. Our results reframe fairness not as isolated scores but as comparative bias similarity, enabling systematic auditing of LLM ecosystems. Code available at https://github.com/HyejunJeong/bias_llm.
大型语言模型(LLM)会复制社会偏见,然而现行的评估方法都是孤立地评估模型,这掩盖了偏见如何在不同家族和版本之间持续存在。我们引入了偏见相似性度量(BSM),它将公平性视为模型之间的关联属性,将标量、分布、行为和表示信号统一到一个单一的相似度空间中。我们对30个LLM进行了超过100万条提示的评估,发现指令微调主要强制执行回避而不是改变内部表示;小型模型在强制选择下的准确率几乎没有提高,而且可能会变得不那么公平;而开放式权重模型可以匹配甚至超过专有系统。不同家族的特性也有所不同:Gemma更倾向于拒绝,LLaMA 3.1趋向于中性但拒绝较少,总体而言趋向于避免过度的拒绝行为。有些反直觉的是,Gemma 3 Instruct能够以更低的成本达到GPT-4级别的公平性,而Gemini的过度回避行为抑制了实用性。除了这些发现之外,BSM还提供了采购、回归测试和谱系筛查的审计工作流程,并自然地扩展到代码和多语言环境中。我们的研究结果重新定义了公平性的概念,不是孤立的分数,而是比较偏见相似性,能够系统地审计LLM生态系统。相关代码可在https://github.com/HyejunJeong/bias_llm找到。
论文及项目相关链接
PDF Code available at https://github.com/HyejunJeong/bias_llm
Summary
大型语言模型(LLM)存在社会偏见复制问题,但现有的评估方法通常孤立地评估模型,导致难以发现偏见如何在不同的家族和版本之间持续存在。本文提出了偏见相似性度量(BSM)方法,将公平性视为模型之间的关系属性,将标量、分布、行为和表示信号统一到一个相似性空间中。通过对30个LLM模型进行超过100万个提示进行评估,发现指令微调主要强制执行回避而非改变内部表示;小型模型的准确性提高不多,且在强制选择下可能变得更不公平;而开放权重模型可以达到或超过专有系统的水平。不同模型家族表现出不同的特点,如Gemma倾向于拒绝,LLaMA 3.1趋于中立且拒绝较少,整体表现出倾向于回避的行为。此外,BSM方法为采购、回归测试和谱系筛选提供了审计工作流程,并自然地扩展到代码和多语言环境中。本研究结果重新定义了公平性,将其视为比较性的偏见相似性,使LLM生态系统的系统性审计成为可能。
Key Takeaways
- 大型语言模型(LLM)存在社会偏见复制问题。
- 现有的评估方法孤立地评估模型,导致难以发现偏见在不同家族和版本间的持续存在。
- 提出了偏见相似性度量(BSM)方法,将公平性视为模型间的关系属性。
- 指令微调主要强制执行回避而非改变内部表示。
- 不同LLM模型家族展现出不同的偏见特点。
- BSM方法提供了审计工作流程,适用于采购、回归测试和谱系筛选。
- 本研究重新定义了公平性为比较性的偏见相似性,使LLM生态系统的系统性审计成为可能。
点此查看论文截图



