嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-16 更新

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

Authors:Akshat Pandey, Karun Kumar, Raphael Tang

Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.

预训练的自动语音识别(ASR)模型,如Whisper表现良好,但仍需要领域适应来处理未见过的词汇和方言。在许多真实世界场景中,收集语音数据并不实际,需要进行纯文本适应。我们提出了WhisTLE,这是一种深度监督的、纯文本的适应方法,适用于预训练的编码器-解码器ASR模型。WhisTLE训练一个变分自编码器(VAE)来对编码器的文本输出进行建模,并使用学习到的文本到潜在编码器的知识对解码器进行微调,可结合文本到语音(TTS)适应。在推理过程中,恢复原始编码器,无需额外的运行成本。在四个跨领域数据集和四套ASR模型中,结合TTS的WhisTLE相对只使用TTS的适应方法降低了12.3%的单词错误率(WER),并在32个场景中的27个场景中表现优于所有非WhisTLE基线。

论文及项目相关链接

PDF 5 pages, 2 figures

Summary

预训练自动语音识别(ASR)模型如Whisper性能良好,但仍需领域适应来处理未见词汇和习惯用语。在真实场景中,收集语音数据不切实际,需要进行纯文本适应。提出一种深度监督的纯文本适应方法WhisTLE,用于预训练的编码器-解码器ASR模型。WhisTLE训练变分自编码器(VAE)从文本模拟编码器输出,并微调解码器,使用学习到的文本到潜在编码器的结合可选的文本到语音(TTS)适应。在推理过程中,恢复原始编码器,不产生额外运行成本。在四个跨域数据集和四个ASR模型上,带有TTS的WhisTLE相对于仅TTS适应降低了12.3%的单词错误率(WER),并在32个场景中27个超越了非WhisTLE基线方法。

Key Takeaways

  1. 预训练ASR模型如Whisper虽性能良好,但仍需领域适应处理未见词汇和习惯用语。
  2. 在真实场景中,语音数据收集不现实,因此纯文本适应方法至关重要。
  3. 提出一种名为WhisTLE的深度监督纯文本适应方法,适用于预训练的编码器-解码器ASR模型。
  4. WhisTLE通过训练变分自编码器(VAE)模拟编码器输出从文本,并微调解码器。
  5. WhisTLE结合文本到潜在编码器的使用以及可选的文本到语音(TTS)适应。
  6. 在推理过程中,WhisTLE恢复原始编码器,不产生额外运行成本。

Cool Papers

点此查看论文截图

Improving Audio Event Recognition with Consistency Regularization

Authors:Shanmuka Sadhu, Weiran Wang

Consistency regularization (CR), which enforces agreement between model predictions on augmented views, has found recent benefits in automatic speech recognition [1]. In this paper, we propose the use of consistency regularization for audio event recognition, and demonstrate its effectiveness on AudioSet. With extensive ablation studies for both small ($\sim$20k) and large ($\sim$1.8M) supervised training sets, we show that CR brings consistent improvement over supervised baselines which already heavily utilize data augmentation, and CR using stronger augmentation and multiple augmentations leads to additional gain for the small training set. Furthermore, we extend the use of CR into the semi-supervised setup with 20K labeled samples and 1.8M unlabeled samples, and obtain performance improvement over our best model trained on the small set.

一致性正则化(CR)强制增强视图上的模型预测一致性,最近在自动语音识别中获得了益处[1]。在本文中,我们提出将一致性正则化应用于音频事件识别,并在AudioSet上证明了其有效性。通过对小型(20k)和大型(1.8M)监督训练集的广泛消融研究,我们证明了CR在已经大量使用数据增强的监督基线之上带来了持续的改进。使用更强的增强和多增强技术的CR为小型训练集带来了额外的收益。此外,我们将CR的使用扩展到半监督设置,其中包含20K个标记样本和180万个未标记样本,并在小型数据集的最佳模型上获得了性能改进。

论文及项目相关链接

PDF Under Review

摘要
音频事件识别中的一致性正则化。该研究将一致性正则化(CR)应用于音频事件识别,并在AudioSet上验证了其有效性。通过广泛的消融研究,表明即使在大量(~180万)监督训练集上,CR也能在已经充分利用数据增强的基础上带来持续的改进。此外,在半监督设置下,使用CR并结合少量标签样本和大量无标签样本,性能得到了进一步提升。

关键见解

  1. 一致性正则化(CR)被引入到音频事件识别中,其在AudioSet上的有效性得到了验证。
  2. 在大量监督训练集上,CR能在已经充分利用数据增强的基础上带来持续的改进。
  3. 对于小规模训练集,使用更强的数据增强和多种数据增强方法,CR能带来额外收益。
  4. 在半监督设置下,结合少量标签样本和大量无标签样本,CR能够提高性能。
  5. CR通过强化模型预测在增强视图上的一致性,对自动语音识别有积极影响。
  6. 研究表明CR策略在音频事件识别任务中具有普遍适用性。
  7. CR对于提高模型在小数据集上的性能表现具有潜力。

Cool Papers

点此查看论文截图

Error Analysis in a Modular Meeting Transcription System

Authors:Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach

Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much as these leaked parts are largely ignored by the voice activity detection (VAD). Furthermore, different segmentations are compared showing that advanced diarization approaches are able to reduce the gap to oracle segmentation by a third compared to a simple energy-based VAD. We additionally reveal what factors contribute to the remaining difference. The results represent state-of-the-art performance on LibriCSS among systems that train the recognition module on LibriSpeech data only.

会议转录是一个高度相关且近年来取得显著进展的领域。尽管如此,仍然存在一些挑战,限制了其性能。在这项工作中,我们扩展了之前提出的框架,对语音分离中的泄漏进行了适当的敏感性分析。我们发现在只有主说话人活跃的区域存在明显的跨通道泄漏。同时,结果表明这并不会对最终性能产生太大影响,因为这些泄漏部分大多被语音活动检测(VAD)所忽略。此外,通过对比不同的分割方法,我们发现先进的语音识别方法能够将非活动语音的分割差距减少三分之一,相较于基于简单能量的VAD。我们还揭示了导致剩余差异的因素。该结果代表了仅在LibriSpeech数据上训练识别模块的系统中LibriCSS的最新性能水平。

论文及项目相关链接

PDF Accepted at ITG Conference on Speech Communication 2025

Summary

本文研究了会议转录领域的挑战与最新进展。通过扩展先前提出的框架,分析语音分离中的泄漏问题,并探讨了时间局部性对泄漏的影响。研究发现在只有主要发言人活跃的区域存在显著的跨通道泄漏,但这并未对最终性能产生太大影响,因为语音活动检测(VAD)会忽略这些泄漏部分。此外,对比了不同的分段方法,发现高级聚类方法能够将差距缩小三分之一,与基于能量的简单VAD相比有所减少。同时揭示了造成剩余差异的因素,该研究在仅使用LibriSpeech数据训练识别模块的系统中的表现达到LibriCSS的最新水平。

Key Takeaways

  1. 会议转录是一个具有挑战性和重要意义的领域,近年来取得了显著进展。
  2. 研究扩展了先前的框架,以分析语音分离中的泄漏问题,并考虑了时间局部性。
  3. 存在显著的跨通道泄漏,在只有主要发言人活跃的区域尤为明显。
  4. 语音活动检测(VAD)能够忽略大部分泄漏部分,对最终性能影响有限。
  5. 高级聚类方法能够减少与理想分段的差距,表现优于基于能量的简单VAD。
  6. 某些因素导致了剩余的差异,这些因素的识别对于进一步提高性能至关重要。

Cool Papers

点此查看论文截图

Diffusion Buffer: Online Diffusion-based Speech Enhancement with Sub-Second Latency

Authors:Bunlong Lay, Rostislav Makarov, Timo Gerkmann

Diffusion models are a class of generative models that have been recently used for speech enhancement with remarkable success but are computationally expensive at inference time. Therefore, these models are impractical for processing streaming data in real-time. In this work, we adapt a sliding window diffusion framework to the speech enhancement task. Our approach progressively corrupts speech signals through time, assigning more noise to frames close to the present in a buffer. This approach outputs denoised frames with a delay proportional to the chosen buffer size, enabling a trade-off between performance and latency. Empirical results demonstrate that our method outperforms standard diffusion models and runs efficiently on a GPU, achieving an input-output latency in the order of 0.3 to 1 seconds. This marks the first practical diffusion-based solution for online speech enhancement.

扩散模型是一类生成模型,最近被用于语音增强并取得了显著的成功,但在推理阶段计算成本较高。因此,这些模型不适用于处理实时流数据。在这项工作中,我们将滑动窗口扩散框架应用于语音增强任务。我们的方法通过时间逐步破坏语音信号,将更多噪声分配给缓冲区中接近当前时间的帧。这种方法输出的去噪帧延迟与所选缓冲区大小成比例,可以在性能和延迟之间实现权衡。经验结果表明,我们的方法优于标准扩散模型,在GPU上运行高效,输入输出延迟在0.3至1秒之间。这是首个基于扩散的在线语音增强实用解决方案。

论文及项目相关链接

PDF 5 pages, 2 figures, Accepted to Interspeech 2025

Summary

本文介绍了一种基于滑动窗口扩散框架的语音增强方法,该方法逐步对语音信号进行时间上的腐蚀,通过在缓冲区中将更多噪声分配给接近当前时刻的帧来实现。该方法在性能与延迟之间取得了平衡,输出降噪帧的延迟与所选缓冲区大小成比例。实验结果表明,该方法优于标准扩散模型,在GPU上运行高效,输入输出延迟在0.3至1秒之间。这是首个实用的基于扩散的在线语音增强解决方案。

Key Takeaways

  1. 扩散模型用于语音增强取得了显著成功,但计算成本较高,不适合处理实时流数据。
  2. 本文采用滑动窗口扩散框架进行语音增强。
  3. 方法通过逐步腐蚀语音信号,在缓冲区中将更多噪声分配给接近当前时刻的帧。
  4. 输出降噪帧的延迟与缓冲区大小成比例,实现了性能与延迟之间的平衡。
  5. 该方法优于标准扩散模型,并在GPU上高效运行。
  6. 实现了输入输出延迟在0.3至1秒之间的实用在线语音增强解决方案。

Cool Papers

点此查看论文截图

Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders

Authors:Weiqiao Shan, Yuang Li, Yuhao Zhang, Yingfeng Luo, Chen Xu, Xiaofeng Zhao, Long Meng, Yunfei Lu, Min Zhang, Hao Yang, Tong Xiao, Jingbo Zhu

Connecting audio encoders with large language models (LLMs) allows the LLM to perform various audio understanding tasks, such as automatic speech recognition (ASR) and audio captioning (AC). Most research focuses on training an adapter layer to generate a unified audio feature for the LLM. However, different tasks may require distinct features that emphasize either semantic or acoustic aspects, making task-specific audio features more desirable. In this paper, we propose Prompt-aware Mixture (PaM) to enhance the Speech LLM that uses multiple audio encoders. Our approach involves using different experts to extract different features based on the prompt that indicates different tasks. Experiments demonstrate that with PaM, only one Speech LLM surpasses the best performances achieved by all single-encoder Speech LLMs on ASR, Speaker Number Verification, and AC tasks. PaM also outperforms other feature fusion baselines, such as concatenation and averaging. Our code would be available at: https://github.com/shanweiqiao/PaM

将音频编码器与大型语言模型(LLM)相连接,可以使LLM执行各种音频理解任务,例如自动语音识别(ASR)和音频描述(AC)。大多数研究集中在训练适配器层以为LLM生成统一音频特征。然而,不同的任务可能需要强调语义或声学方面的不同特征,这使得任务特定的音频特征更为可取。在本文中,我们提出使用提示感知混合(PaM)技术增强使用多个音频编码器的语音LLM。我们的方法包括根据提示使用不同的专家来提取不同的特征,该提示表示不同的任务。实验表明,通过PaM技术,只有一个语音LLM在ASR、说话人数量验证和AC任务上的表现超过了所有单编码器语音LLM的最佳表现。PaM还优于其他特征融合基线方法,如拼接和平均化。我们的代码将在以下网址提供:https://github.com/shanweiqiao/PaM

论文及项目相关链接

PDF 16 pages,4 figures, 16 tables, to be published in EMNLP 2025 main conference

摘要

本文探讨了将音频编码器与大型语言模型(LLM)相结合的方法,使LLM能够执行多种音频理解任务,如自动语音识别(ASR)和音频描述(AC)。研究集中在训练适配器层以生成统一音频特征供LLM使用,但不同任务可能需要强调语义或声学方面的不同特征,因此任务特定音频特征更为理想。本文提出了基于提示感知混合(PaM)的语音LLM增强方法,该方法使用多个音频编码器提取不同特征,并根据提示进行任务区分。实验表明,使用PaM的单一语音LLM在ASR、说话人数验证和AC任务上的表现超过了所有单编码器语音LLM的最佳性能。PaM也优于其他特征融合基线方法,如拼接和平均化。相关代码将在GitHub上公开:链接

关键见解

  1. 音频编码器与大型语言模型的结合使得音频理解任务更为高效。
  2. 目前研究主要集中在训练适配器层生成统一音频特征,但任务特定音频特征具有更大潜力。
  3. 本文提出了基于提示感知混合(PaM)的方法,使用多个音频编码器并根据任务提示进行特征提取。
  4. PaM在自动语音识别、说话人数验证和音频描述任务上的表现超越了单编码器语音LLM的最佳性能。
  5. PaM在特征融合方面的性能优于拼接和平均化等基线方法。
  6. 该方法的代码将在GitHub上公开,便于他人使用和研究。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Face Swapping Face Swapping
Face Swapping 方向最新论文已更新,请持续关注 Update in 2025-09-16 Optimizing Inter-chip Coupler Link Placement for Modular and Chiplet Quantum Systems
2025-09-16
下一篇 
无监督/半监督/对比学习 无监督/半监督/对比学习
无监督/半监督/对比学习 方向最新论文已更新,请持续关注 Update in 2025-09-16 Prototypical Contrastive Learning For Improved Few-Shot Audio Classification
  目录