嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-20 更新

IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention

Authors:Xinxin Tang, Bin Qin, Yufang Li

Achieving a balance between lightweight design and high performance remains a significant challenge for speech enhancement (SE) tasks on resource-constrained devices. Existing state-of-the-art methods, such as MUSE, have established a strong baseline with only 0.51M parameters by introducing a Multi-path Enhanced Taylor (MET) transformer and Deformable Embedding (DE). However, an in-depth analysis reveals that MUSE still suffers from efficiency bottlenecks: the MET module relies on a complex “approximate-compensate” mechanism to mitigate the limitations of Taylor-expansion-based attention, while the offset calculation for deformable embedding introduces additional computational burden. This paper proposes IMSE, a systematically optimized and ultra-lightweight network. We introduce two core innovations: 1) Replacing the MET module with Amplitude-Aware Linear Attention (MALA). MALA fundamentally rectifies the “amplitude-ignoring” problem in linear attention by explicitly preserving the norm information of query vectors in the attention calculation, achieving efficient global modeling without an auxiliary compensation branch. 2) Replacing the DE module with Inception Depthwise Convolution (IDConv). IDConv borrows the Inception concept, decomposing large-kernel operations into efficient parallel branches (square, horizontal, and vertical strips), thereby capturing spectrogram features with extremely low parameter redundancy. Extensive experiments on the VoiceBank+DEMAND dataset demonstrate that, compared to the MUSE baseline, IMSE significantly reduces the parameter count by 16.8% (from 0.513M to 0.427M) while achieving competitive performance comparable to the state-of-the-art on the PESQ metric (3.373). This study sets a new benchmark for the trade-off between model size and speech quality in ultra-lightweight speech enhancement.

在资源受限的设备上进行语音增强(SE)任务时,实现轻量化设计和高性能之间的平衡仍然是一个巨大的挑战。现有最前沿的方法,如MUSE,通过引入多路径增强泰勒(MET)变换器和可变形嵌入(DE),仅以0.51M的参数建立了一个强大的基线。然而,深入分析发现,MUSE仍存在效率瓶颈:MET模块依赖于复杂的“近似补偿”机制来缓解基于泰勒展开的注意力机制的局限性,而可变嵌入的偏移计算带来了额外的计算负担。本文提出了IMSE,这是一个系统优化和超低延迟的网络。我们引入了两个核心创新点:1)用幅度感知线性注意力(MALA)替换MET模块。MALA从根本上纠正了线性注意力中的“忽略幅度”问题,通过在注意力计算中显式保留查询向量的范数信息,实现了高效的全局建模,无需辅助补偿分支。2)用Inception深度卷积(IDConv)替换DE模块。IDConv借鉴了Inception的概念,将大内核操作分解为高效的并行分支(正方形、水平和垂直条纹),从而以极低的参数冗余捕获光谱特征。在VoiceBank+DEMAND数据集上的大量实验表明,与MUSE基线相比,IMSE将参数计数减少了16.8%(从0.513M减少到0.427M),同时在PESQ指标上实现了与最新技术相当的性能(3.373)。本研究为超轻量级语音增强中模型大小与语音质量之间的权衡设定了一个新的基准。

论文及项目相关链接

PDF

摘要

本文提出了IMSE,一个系统化优化和轻量级的网络模型,针对资源受限设备上的语音增强任务,解决了现有方法平衡设计轻量化和高性能的难题。通过引入两个核心创新点:一是采用振幅感知线性注意力(MALA)替代多路径增强泰勒(MET)模块,实现了高效全局建模;二是采用Inception深度卷积(IDConv)替代可变形嵌入(DE)模块,以捕获光谱图特征并降低参数冗余。在VoiceBank+DEMAND数据集上的实验表明,与MUSE相比,IMSE将参数数量减少了16.8%,同时实现了与最新技术相当的性能。这为模型大小与语音质量之间的权衡设定了新的基准。

关键见解

  1. 语音增强任务在资源受限设备上需要在轻量级设计和高性能之间取得平衡。
  2. 现有方法如MUSE虽然建立了强大的基线,但仍存在效率瓶颈。
  3. IMSE网络模型通过两个核心创新点进行系统优化:采用MALA模块实现高效全局建模,以及采用IDConv模块捕获光谱图特征并降低参数冗余。
  4. IMSE在VoiceBank+DEMAND数据集上的实验结果表明,与MUSE相比,参数数量减少了16.8%。
  5. IMSE在性能上达到了与最新技术相当的水平,特别是在PESQ指标上。
  6. IMSE为模型大小与语音质量之间的权衡设定了新的基准。

Cool Papers

点此查看论文截图

TTA: Transcribe, Translate and Alignment for Cross-lingual Speech Representation

Authors:Wei Liu, Jiahong Li, Yiwen Shao, Dong Yu

Speech-LLM models have demonstrated great performance in multi-modal and multi-task speech understanding. A typical speech-LLM paradigm is integrating speech modality with a large language model (LLM). While the Whisper encoder was frequently adopted in previous studies for speech input, it shows limitations regarding input format, model scale, and semantic performance. To this end, we propose a lightweight TTA model specialized in speech semantics for more effective LLM integration. With large-scale training of 358k hours of speech data on multilingual speech recognition (ASR), speech translation (ST) and speech-text alignment tasks, TTA is capable of producing robust cross-lingual speech representations. Extensive evaluations across diverse benchmarks, including ASR/ST, speech retrieval, and ASR-LLM performance assessments, demonstrate TTA’s superiority over Whisper. Furthermore, we rigorously validate the interplay between cross-lingual capabilities and ASR/ST performance. The model weights and training recipes of TTA will be released as part of an audio understanding toolkit Auden.

语音大语言模型(Speech-LLM)在多模态和多任务语音理解方面表现出了卓越的性能。典型的语音大语言模型范式是将语音模态与大型语言模型(LLM)相结合。尽管过去的研究中经常采用whisper编码器进行语音输入,但在输入格式、模型规模和语义性能等方面仍存在局限性。为此,我们提出了一种轻量级的专门用于语音语义的TTA模型,以实现更有效的LLM集成。通过大规模训练包含35万多小时的语音识别(ASR)、语音翻译(ST)和语音文本对齐任务的多种语言语音识别数据,TTA能够产生稳健的跨语言语音表示。在包括ASR/ST、语音检索和ASR-LLM性能评估在内的多种基准测试上的广泛评估表明,TTA优于whisper。此外,我们严格验证了跨语言能力与ASR/ST性能之间的相互作用。作为音频理解工具包Auden的一部分,将发布TTA的模型权重和培训配方。

论文及项目相关链接

PDF Submitted to ICASSP2026

Summary

本文介绍了Speech-LLM模型在多模态多任务语音理解方面展现出的优异性能。针对现有研究中采用的Whisper编码器在输入格式、模型规模和语义性能方面的局限性,提出了一种轻量级的TTA模型,专门用于语音语义。该模型通过大规模训练和多语种语音识别(ASR)、语音翻译(ST)和语音文本对齐任务,生成了稳健的跨语言语音表示。评估结果表明,TTA在多个基准测试中优于Whisper。此外,本文还验证了跨语言能力对ASR/ST性能的影响。TTA模型的权重和训练配方将作为音频理解工具包Auden的一部分发布。

Key Takeaways

  1. Speech-LLM模型在多模态多任务语音理解方面表现出卓越性能。
  2. 现有的Whisper编码器在语音输入方面存在局限性,包括输入格式、模型规模和语义性能。
  3. 提出了一种轻量级的TTA模型,专门用于语音语义,以解决Whisper编码器的局限性。
  4. TTA模型经过大规模训练和多语种任务,能生成稳健的跨语言语音表示。
  5. TTA在多个基准测试中优于Whisper。
  6. 验证了跨语言能力对ASR/ST性能的影响。

Cool Papers

点此查看论文截图

AfriSpeech-MultiBench: A Verticalized Multidomain Multicountry Benchmark Suite for African Accented English ASR

Authors:Gabrial Zencha Ashungafac, Mardhiyah Sanni, Busayo Awobade, Alex Gichamba, Tobi Olatunji

Recent advances in speech-enabled AI, including Google’s NotebookLM and OpenAI’s speech-to-speech API, are driving widespread interest in voice interfaces globally. Despite this momentum, there exists no publicly available application-specific model evaluation that caters to Africa’s linguistic diversity. We present AfriSpeech-MultiBench, the first domain-specific evaluation suite for over 100 African English accents across 10+ countries and seven application domains: Finance, Legal, Medical, General dialogue, Call Center, Named Entities and Hallucination Robustness. We benchmark a diverse range of open, closed, unimodal ASR and multimodal LLM-based speech recognition systems using both spontaneous and non-spontaneous speech conversation drawn from various open African accented English speech datasets. Our empirical analysis reveals systematic variation: open-source ASR models excels in spontaneous speech contexts but degrades on noisy, non-native dialogue; multimodal LLMs are more accent-robust yet struggle with domain-specific named entities; proprietary models deliver high accuracy on clean speech but vary significantly by country and domain. Models fine-tuned on African English achieve competitive accuracy with lower latency, a practical advantage for deployment, hallucinations still remain a big problem for most SOTA models. By releasing this comprehensive benchmark, we empower practitioners and researchers to select voice technologies suited to African use-cases, fostering inclusive voice applications for underserved communities.

近期语音赋能的AI(如Google的NotebookLM和OpenAI的语音转语音API)的最新进展,正在全球范围内激发对语音界面的广泛兴趣。尽管势头强劲,但非洲的语言多样性并没有得到相应的应用特定模型评估。我们推出了AfriSpeech-MultiBench,这是首个针对超过10个国家的100多种非洲英语口音以及金融、法律、医疗、通用对话、呼叫中心、命名实体和幻想稳健性这七个应用领域的特定领域评估套件。我们使用从各种非洲口音的公开英语语音数据集中提取的自发和非自发语音对话,对开放、封闭、单模态和多模态的基于大型语言模型的语音识别系统进行了广泛评估。我们的实证分析揭示了系统变化:开源语音识别模型在自发语音环境中表现优异,但在嘈杂、非原生对话中性能下降;多模态大型语言模型虽然更善于处理口音,但在特定领域的命名实体方面存在困难;专有模型在干净语音上具有较高的准确性,但各国和领域之间的差异很大。在非洲英语上进行微调模型能在保证竞争准确性的同时拥有较低的延迟,这对于部署是一个实际优势,但幻觉仍是大多数最新模型面临的一个大问题。通过发布这一全面的基准测试,我们使从业者和研究人员能够为非洲用例选择合适的语音技术,为服务不足的社区培养包容性语音应用程序。

论文及项目相关链接

PDF Accepted As a Conference Paper IJCNLP-AACL 2025

摘要
近期语音智能的进展推动全球对语音界面的广泛兴趣。针对非洲语言多样性的特定应用模型评估尚属空白,本文推出AfriSpeech-MultiBench,为超过100种非洲英语口音的10+国家和7个应用领域提供专属评估套件。包括金融、法律、医疗、通用对话等。对一系列开源、闭源、单模态和多模态语音识别系统进行基准测试,结果显示,开源ASR模型在自发语境下表现优异,但在嘈杂和非本土对话中表现较差;多模态LLM更偏向口音鲁棒性但对领域特定的命名实体有挑战;专有模型在清洁语音上表现高准确性但国家间差异显著。通过本次综合评估,推动适应非洲场景的语音技术选择和实践落地应用的发展。非洲英语口音对目前的顶尖模型依然构成不小的挑战,特别在于经常产生的幻听问题。此次推出的基准测试套件有助于推动业界针对非洲特定场景开发适合的语音技术,为服务不足的社区提供包容性语音应用。这也是推进相关实践的重要一步。本论文研究的重点是实际解决需要高度针对特定区域的复杂性语言的AI落地难题提供了方向性指引。此项研究的发现不仅将为未来语言技术的发展带来重要影响,而且也将助力提高自然语言处理技术在真实世界中的适应性和有效性。本论文研究的贡献在于,其强调了为非洲社区量身定制技术的重要性,并通过具体的实证分析和创新工具集开发验证了这一观点的有效性。这种技术本地化的发展方向有望在全球AI应用的广阔领域里树立一个新的范例。该研究呼吁相关从业者和研究者深入探究当前的问题并改进模型表现以适应实际应用场景的需要。在此背景下发布此项研究反映了行业内外对改善现状的共同关注以及对创新解决方案的期待。这为开发满足实际需求的先进语言处理系统提供了新的视角和工具集从而帮助研究人员更好地理解语音技术在非洲英语口音背景下的挑战和机遇从而推动相关领域的发展并促进技术的实际应用落地。同时该研究也强调了解决语音技术在不同地域和文化背景下所面临的挑战对于推动人工智能领域整体进步的重要性。通过此次研究人们将能够更深入地理解语音技术在不同环境下的表现从而推动技术的进一步发展和完善以满足不同地域和文化背景下的需求和挑战。这将对人工智能技术的未来发展产生深远的影响并为该领域的未来发展提供新的思路和方法论指导。关键见解
一、非洲英语口音的多样性给语音识别技术带来挑战,尚无针对此区域的特定应用模型评估工具。
二、推出AfriSpeech-MultiBench评估套件以覆盖超过100种非洲英语口音和七个应用领域。
三、ASR模型在自发语境下表现良好,但在嘈杂和非本土对话中性能下降。
四、多模态LLM更具口音鲁棒性,但在领域特定命名实体识别方面存在挑战。
五、专有模型在清洁语音上表现高准确性,但国家间和领域间存在差异。

Cool Papers

点此查看论文截图

Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge Distillation

Authors:Kumud Tripathi, Aditya Srinivas Menon, Aman Gaurav, Raj Prakash Gohil, Pankaj Wasnik

The Whisper model, an open-source automatic speech recognition system, is widely adopted for its strong performance across multilingual and zero-shot settings. However, it frequently suffers from hallucination errors, especially under noisy acoustic conditions. Previous works to reduce hallucinations in Whisper-style ASR systems have primarily focused on audio preprocessing or post-processing of transcriptions to filter out erroneous content. However, modifications to the Whisper model itself remain largely unexplored to mitigate hallucinations directly. To address this challenge, we present a two-stage architecture that first enhances encoder robustness through Adaptive Layer Attention (ALA) and further suppresses hallucinations using a multi-objective knowledge distillation (KD) framework. In the first stage, ALA groups encoder layers into semantically coherent blocks via inter-layer correlation analysis. A learnable multi-head attention module then fuses these block representations, enabling the model to jointly exploit low- and high-level features for more robust encoding. In the second stage, our KD framework trains the student model on noisy audio to align its semantic and attention distributions with a teacher model processing clean inputs. Our experiments on noisy speech benchmarks show notable reductions in hallucinations and word error rates, while preserving performance on clean speech. Together, ALA and KD offer a principled strategy to improve Whisper’s reliability under real-world noisy conditions.

whisper模型是一个开源的自动语音识别系统,广泛应用于多语种和零样本设置,表现出强大的性能。然而,在噪声环境下,它经常受到幻觉错误的影响。先前的工作为了减少whisper型ASR系统中的幻觉主要集中于音频预处理或转录后处理,以过滤掉错误内容。然而,对whisper模型本身的修改以直接减轻幻觉的研究仍然很少。为了应对这一挑战,我们提出了一种两阶段的架构,第一阶段通过自适应层注意力(ALA)增强编码器稳健性,第二阶段使用多目标知识蒸馏(KD)框架进一步抑制幻觉。在第一阶段,ALA通过层间关联分析将编码器层分组为语义连贯的块。然后,一个可学习的多头注意力模块融合这些块表示,使模型能够联合利用低级和高级特征进行更稳健的编码。在第二阶段,我们的KD框架训练学生模型处理噪声音频,使其语义和注意力分布与教师模型处理干净输入的分布对齐。我们在噪声语音基准测试上的实验表明,幻觉和词错误率显著降低,同时在干净语音上的性能保持不变。总之,ALA和KD提供了一种有原则的改进策略,提高了whisper在现实世界噪声条件下的可靠性。

论文及项目相关链接

PDF Accepted at AAAI 2026 - Main Technical Track

Summary

基于自适应层注意力(ALA)和多目标知识蒸馏(KD)框架的两阶段架构用于改善开源自动语音识别系统Whisper模型在多语种和零样本环境下的性能。该架构提高了编码器在噪声环境下的稳健性,减少了误读现象,降低了词错误率,并保留了干净语音的性能。ALA增强了模型在低级别和高级别特征上的稳健编码能力,而KD则通过训练学生模型处理噪声音频和对清洁输入的教师模型的语义和注意力分布进行对齐来抑制误读现象。这种结合策略提高了Whisper在真实噪声环境下的可靠性。

Key Takeaways

  • Whisper模型是一种在多语种和零样本环境下广泛应用的自动语音识别系统,但在噪声条件下存在误读现象。
  • 之前的研究主要关注音频预处理或转录后处理来过滤错误内容,但对Whisper模型本身的修改以减少误读现象的研究仍然很少。
  • 提出的两阶段架构使用自适应层注意力(ALA)来提高编码器在噪声环境下的稳健性。通过分组语义相干块并融合不同层的注意力来增强模型的稳健编码能力。
  • 知识蒸馏(KD)框架用于抑制误读现象,通过训练学生模型处理噪声音频并与处理清洁输入的教师模型的语义和注意力分布进行对齐。

Cool Papers

点此查看论文截图

Regularized Schrödinger Bridge: Alleviating Distortion and Exposure Bias in Solving Inverse Problems

Authors:Qing Yao, Lijian Gao, Qirong Mao, Dong Ming

Diffusion models serve as a powerful generative framework for solving inverse problems. However, they still face two key challenges: 1) the distortion-perception tradeoff, where improving perceptual quality often degrades reconstruction fidelity, and 2) the exposure bias problem, where the training-inference input mismatch leads to prediction error accumulation and reduced reconstruction quality. In this work, we propose the Regularized Schrödinger Bridge (RSB), an adaptation of Schrödinger Bridge tailored for inverse problems that addresses the above limitations. RSB employs a novel regularized training strategy that perturbs both the input states and targets, effectively mitigating exposure bias by exposing the model to simulated prediction errors and also alleviating distortion by well-designed interpolation via the posterior mean. Extensive experiments on two typical inverse problems for speech enhancement demonstrate that RSB outperforms state-of-the-art methods, significantly improving distortion metrics and effectively reducing exposure bias.

扩散模型是解决逆问题的强大生成框架。然而,它们仍然面临两个主要挑战:1)失真与感知之间的权衡,在提高感知质量的同时往往会降低重建的保真度;2)曝光偏差问题,训练与推理之间的输入不匹配导致预测误差积累和重建质量下降。针对以上限制,我们在本文中提出了正则化薛定谔桥(RSB),这是对薛定谔桥的适应性调整,特别适用于解决逆问题。RSB采用了一种新型的正则化训练策略,对输入状态和目标进行扰动,通过暴露模型模拟的预测误差,有效地减轻了曝光偏差,并通过精心设计后验均值插值来缓解失真。针对语音增强的两个典型逆问题的广泛实验表明,RSB优于最新技术方法,显著提高了失真指标,并有效减少了曝光偏差。

论文及项目相关链接

PDF

Summary

扩散模型是解决逆问题的强大生成框架,但仍面临失真与感知权衡以及暴露偏差问题。本研究提出正则化薛定谔桥(RSB),通过模拟预测误差和精心设计插值来解决这些问题,提高重建质量。在语音增强领域的两个典型逆问题上进行的实验表明,RSB优于现有技术,显著提高了失真指标并有效减少了暴露偏差。

Key Takeaways

  1. 扩散模型是逆问题生成框架的强大工具,但存在失真与感知权衡和暴露偏差问题。
  2. 正则化薛定谔桥(RSB)是一种针对逆问题的定制解决方案,旨在解决上述问题。
  3. RSB采用新型正则化训练策略,对输入状态和目标进行扰动,有效缓解暴露偏差。
  4. RSB通过模拟预测误差和精心设计插值,提高了重建质量。
  5. RSB在语音增强领域的两个典型逆问题实验中表现出优异性能。
  6. RSB显著提高了失真指标,优于现有技术。

Cool Papers

点此查看论文截图

In-context Language Learning for Endangered Languages in Speech Recognition

Authors:Zhaolin Li, Jan Niehues

With approximately 7,000 languages spoken worldwide, current large language models (LLMs) support only a small subset. Prior research indicates LLMs can learn new languages for certain tasks without supervised data. We extend this investigation to speech recognition, investigating whether LLMs can learn unseen, low-resource languages through in-context learning (ICL). With experiments on four diverse endangered languages that LLMs have not been trained on, we find that providing more relevant text samples enhances performance in both language modelling and Automatic Speech Recognition (ASR) tasks. Furthermore, we show that the probability-based approach outperforms the traditional instruction-based approach in language learning. Lastly, we show ICL enables LLMs to achieve ASR performance that is comparable to or even surpasses dedicated language models trained specifically for these languages, while preserving the original capabilities of the LLMs. Our code is publicly available.

全世界大约有7000种语言,而当前的大型语言模型(LLM)只支持一小部分。之前的研究表明,LLM可以在没有监督数据的情况下,为某些任务学习新的语言。我们将这一研究扩展到语音识别领域,研究LLM是否可以通过上下文学习(ICL)学习未见过的低资源语言。通过对LLM未曾训练过的四种不同的濒危语言进行实验,我们发现提供与任务更相关的文本样本可以提高语言建模和自动语音识别(ASR)任务的表现。此外,我们还表明基于概率的方法在语言学习方面优于传统的基于指令的方法。最后,我们证明了上下文学习使LLM能够达到与针对这些语言专门训练的专用语言模型相当的甚至更高的语音识别性能,同时保留LLM的原始能力。我们的代码已公开可用。

论文及项目相关链接

PDF Interspeech2025

Summary

本文探讨了大型语言模型(LLMs)在语音识别领域对未见过且资源匮乏的语言学习能力的问题。实验结果显示,通过提供更多的相关文本样本,可以提高语言建模和自动语音识别(ASR)任务的表现。概率方法优于传统的指令方法。此外,借助上下文学习(ICL),LLMs的ASR性能甚至可与或超越专门为这些语言训练的专用语言模型相当,同时保留LLMs的原始能力。代码已公开。

Key Takeaways

  1. 大型语言模型(LLMs)能够在语音识别领域学习未见过且资源匮乏的语言。
  2. 通过提供更多的相关文本样本,可以提高语言建模和自动语音识别(ASR)任务的表现。
  3. 概率方法相较于传统的指令方法在语言学习中表现更优。
  4. 上下文学习(ICL)使得LLMs的ASR性能与或超越专用语言模型的性能。
  5. LLMs能够在学习新语言的同时保留其原始能力。
  6. 实验涉及了四种不同的濒危语言,这些语言都是LLMs未曾训练过的。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
元宇宙/虚拟人 元宇宙/虚拟人
元宇宙/虚拟人 方向最新论文已更新,请持续关注 Update in 2025-11-20 PFAvatar Pose-Fusion 3D Personalized Avatar Reconstruction from Real-World Outfit-of-the-Day Photos
下一篇 
无监督/半监督/对比学习 无监督/半监督/对比学习
无监督/半监督/对比学习 方向最新论文已更新,请持续关注 Update in 2025-11-20 CD-DPE Dual-Prompt Expert Network based on Convolutional Dictionary Feature Decoupling for Multi-Contrast MRI Super-Resolution
  目录