嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-08 更新

On Multilingual Encoder Language Model Compression for Low-Resource Languages

Authors:Daniil Gurgurov, Michal Gregor, Josef van Genabith, Simon Ostermann

In this paper, we combine two-step knowledge distillation, structured pruning, truncation, and vocabulary trimming for extremely compressing multilingual encoder-only language models for low-resource languages. Our novel approach systematically combines existing techniques and takes them to the extreme, reducing layer depth, feed-forward hidden size, and intermediate layer embedding size to create significantly smaller monolingual models while retaining essential language-specific knowledge. We achieve compression rates of up to 92% while maintaining competitive performance, with average drops of 2-10% for moderate compression and 8-13% at maximum compression in four downstream tasks, including sentiment analysis, topic classification, named entity recognition, and part-of-speech tagging, across three low-resource languages. Notably, the performance degradation correlates with the amount of language-specific data in the teacher model, with larger datasets resulting in smaller performance losses. Additionally, we conduct ablation studies to identify the best practices for multilingual model compression using these techniques.

在这篇论文中,我们结合了两步知识蒸馏、结构化剪枝、截断和词汇缩减等技术,对多语言编码器仅语言模型进行了极致压缩,适用于低资源语言。我们的新方法系统地结合了现有技术并将其推向极致,通过减少层深度、前馈隐藏大小和中间层嵌入大小,在保留关键语言特定知识的同时,创建显著更小的单语言模型。我们在四种下游任务中实现了最高达92%的压缩率,同时保持竞争力,在适度压缩时平均下降2-10%,在最大压缩时下降8-13%,这些任务包括情感分析、主题分类、命名实体识别和词性标注,涵盖三种低资源语言。值得注意的是,性能下降与教师模型中的语言特定数据量相关,更大的数据集导致更小的性能损失。此外,我们还进行了消融研究,以确定使用这些技术进行多语言模型压缩的最佳实践。

论文及项目相关链接

PDF Accepted to SRW AACL

摘要
本研究通过结合两步知识蒸馏、结构化剪枝、截断和词汇压缩技术,对多语言编码器语言模型进行了极致压缩,适用于低资源语言。通过系统结合现有技术并对其进行极致优化,减少了层深度、前馈隐藏大小和中间层嵌入大小,成功创建显著更小的单语种模型,同时保留关键的语言特定知识。在四种下游任务中,平均压缩率高达92%,性能下降在适度压缩时为2-10%,最大压缩时为8-13%,包括情感分析、主题分类、命名实体识别和词性标注等任务。在低资源语言领域取得了显著成果,性能下降与教师模型中的语言特定数据量有关。此外,本研究还通过消除研究确定了使用这些技术进行多语种模型压缩的最佳实践。

要点掌握

  1. 通过结合多种技术(两步知识蒸馏、结构化剪枝等),实现了多语言编码器语言模型的极致压缩。
  2. 压缩适用于低资源语言,显著减小模型大小同时保留关键语言特定知识。
  3. 达到高达92%的压缩率,在多种下游任务中性能下降在可控范围内。
  4. 性能下降与教师模型中的语言特定数据量有关,数据量越大,性能损失越小。
  5. 研究成果对于低资源语言领域具有显著意义。
  6. 通过消除研究确定了多语种模型压缩的最佳实践。
  7. 此方法对于创建更小、更高效的模型以适应资源受限环境具有潜在应用价值。

Cool Papers

点此查看论文截图

Pragmatic Reasoning improves LLM Code Generation

Authors:Zhuchen Cao, Sven Apel, Adish Singla, Vera Demberg

Large Language Models (LLMs) have demonstrated impressive potential in translating natural language (NL) instructions into program code. However, user instructions often contain inherent ambiguities, making it challenging for LLMs to generate code that accurately reflects the user’s true intent. To address this challenge, researchers have proposed approaches that produce multiple candidates of the program code and then rerank them to identify the best solution. In this paper, we propose CodeRSA, a novel code candidate reranking mechanism built upon the Rational Speech Act (RSA) framework, designed to guide LLMs toward more comprehensive pragmatic reasoning about user intent. We evaluate CodeRSA using Llama-3-8B-Instruct and Qwen-2.5-7B-Instruct on two widely used code generation benchmarks, HumanEval and MBPP. Our experiment results show that CodeRSA consistently outperforms common baselines, surpasses the state-of-the-art approach in most cases, and demonstrates robust overall performance. These findings underscore the effectiveness of integrating pragmatic reasoning into code candidate reranking, offering a promising direction for enhancing code generation quality in LLMs.

大型语言模型(LLM)在将自然语言(NL)指令翻译成程序代码方面展示出了令人印象深刻的潜力。然而,用户指令通常包含固有的歧义性,这使得LLM在生成准确反映用户真实意图的代码时面临挑战。为了应对这一挑战,研究者们已经提出了一些方法,生成多个程序代码候选,然后进行重新排序,以找出最佳解决方案。在本文中,我们提出了CodeRSA,这是一种基于理性言语行为(RSA)框架的新型代码候选重新排序机制,旨在引导LLM进行更全面的关于用户意图的实用推理。我们使用Llama-3-8B-Instruct和Qwen-2.5-7B-Instruct在广泛使用的人类评估和MBPP代码生成基准测试上对CodeRSA进行了评估。实验结果表明,CodeRSA持续超越常规基线,在大多数情况下超过最先进的方法,并表现出稳健的总体性能。这些发现强调了将实用推理整合到代码候选重新排序中的有效性,为增强LLM中代码生成质量提供了有前景的方向。

论文及项目相关链接

PDF

Summary

大型语言模型(LLMs)能够将自然语言指令翻译为程序代码,但用户指令中的固有歧义使其难以准确反映用户的真实意图。为解决这一挑战,研究者提出生成多个程序代码候选并进行重排的方法。本文提出基于理性言语行为(RSA)框架的CodeRSA重排机制,旨在引导LLMs进行更全面的用户意图的语用推理。在HumanEval和MBPP两个常用的代码生成基准测试上,CodeRSA表现优异,超越大多数基线方法和当前先进方法,证明了整合语用推理到代码候选重排中的有效性,为提升LLM中代码生成质量提供了有前景的方向。

Key Takeaways

  1. 大型语言模型能够翻译自然语言指令为程序代码,但面临用户指令中的歧义挑战。
  2. CodeRSA是一种基于理性言语行为框架的新型代码候选重排机制。
  3. CodeRSA旨在引导LLMs进行更全面的用户意图的语用推理。
  4. CodeRSA在HumanEval和MBPP基准测试中表现优异,超越基线方法和当前先进方法。
  5. 整合语用推理到代码候选重排中,有助于提高LLM的代码生成质量。
  6. CodeRSA为提升LLM在代码生成领域的性能提供了有前景的研究方向。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Face Swapping Face Swapping
Face Swapping 方向最新论文已更新,请持续关注 Update in 2025-11-08 WaveGuard Robust Deepfake Detection and Source Tracing via Dual-Tree Complex Wavelet and Graph Neural Networks
2025-11-08
下一篇 
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-11-08 PixCLIP Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning
  目录