⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-20 更新
SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding
Authors:Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, YueRan Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao
Paralinguistic sounds, like laughter and sighs, are crucial for synthesizing more realistic and engaging speech. However, existing methods typically depend on proprietary datasets, while publicly available resources often suffer from incomplete speech, inaccurate or missing timestamps, and limited real-world relevance. To address these problems, we propose an automated framework for generating large-scale paralinguistic data and apply it to construct the SynParaSpeech dataset. The dataset comprises 6 paralinguistic categories with 118.75 hours of data and precise timestamps, all derived from natural conversational speech. Our contributions lie in introducing the first automated method for constructing large-scale paralinguistic datasets and releasing the SynParaSpeech corpus, which advances speech generation through more natural paralinguistic synthesis and enhances speech understanding by improving paralinguistic event detection. The dataset and audio samples are available at https://github.com/ShawnPi233/SynParaSpeech.
副语言声音,如笑声和叹息声,对于合成更真实、更吸引人的语音至关重要。然而,现有方法通常依赖于专有数据集,而公开可用的资源往往存在语音不完整、时间戳不准确或缺失、与真实世界的关联有限等问题。为了解决这些问题,我们提出了一个自动生成大规模副语言数据集的框架,并应用该框架构建了SynParaSpeech数据集。该数据集包含6个副语言类别,数据时长为118.75小时,带有精确的时间戳,均来自自然对话语音。我们的贡献在于引入了构建大规模副语言数据集的首个自动方法,并发布了SynParaSpeech语料库,这通过更自然的副语言合成推动了语音生成的发展,并通过提高副语言事件检测改善了语音理解。数据集和音频样本可在[https://github.com/ShawnPi233/SynParaSpeech获取。]
论文及项目相关链接
PDF submitted to ICASSP 2026
摘要
文章强调了辅语言声音(如笑声和叹息声)在合成更真实、更吸引人的语音方面的重要性。然而,现有方法通常依赖于专有数据集,而公开可用的资源往往存在语音不完整、时间戳不准确或缺失、现实相关性有限等问题。为解决这些问题,本文提出了一个用于生成大规模辅语言数据集的自动化框架,并据此构建了SynParaSpeech数据集。该数据集包含6个辅语言类别,数据时长为118.75小时,具有精确的时间戳,均来自自然对话语音。本文的贡献在于引入了构建大规模辅语言数据集的自动化方法,并发布了SynParaSpeech语料库,这通过更自然的辅语言合成推动了语音生成的发展,并通过改进辅语言事件检测提高了语音理解。数据集和音频样本可在链接中找到。
关键见解
- 辅语言声音对于合成更真实、更吸引人的语音至关重要。
- 现有数据集存在依赖专有数据、公开资源语音不完整、时间戳不准确或缺失等问题。
- 提出了一个自动化框架用于生成大规模辅语言数据集。
- 构建了包含6个辅语言类别、118.75小时数据的SynParaSpeech数据集,具有精确时间戳。
- 数据集来自自然对话语音,增强了现实相关性。
- 该数据集的发布推动了更自然的辅语言合成和语音生成的发展。
点此查看论文截图




From Hype to Insight: Rethinking Large Language Model Integration in Visual Speech Recognition
Authors:Rishabh Jain, Naomi Harte
Advances in self-supervised encoders have improved Visual Speech Recognition (VSR). Recent approaches integrating these encoders with LLM decoders improves transcription accuracy; however, it remains unclear whether these gains stem from visual understanding or stronger language modeling. In this work, we systematically evaluate LLM decoders by freezing or selectively updating the visual encoder, scaling decoder size, comparing adaptation strategies and architectures, and varying training data across LRS2, LRS3, and their combination. Evaluation on LRS2, LRS3, and WildVSR shows that scaling and adaptation yield limited improvements, while combining datasets enhances generalization. Semantic analysis reveals that gains arise primarily from lexical rather than semantic processing. Our Llama-2-13B model trained on the combined set achieves 24.7% WER on LRS3 and 47.0% on WildVSR, establishing SOTA among models trained without additional supervision. Our findings indicate LLM decoders refine contextual reasoning rather than visual features, emphasizing the need for stronger visual encoders to drive meaningful progress.
随着自监督编码器的进步,视觉语音识别(VSR)得到了提升。最近将这些编码器与大型语言模型(LLM)解码器结合的方法提高了转录准确性;然而,尚不清楚这些收益是来源于视觉理解还是更强大的语言建模。在这项工作中,我们通过冻结或选择性更新视觉编码器、扩展解码器规模、比较适应策略和架构、以及在不同数据集(LRS2、LRS3及其组合)之间改变训练数据来系统地评估LLM解码器。在LRS2、LRS3和WildVSR上的评估显示,扩展和适应带来有限的改进,而组合数据集增强了泛化能力。语义分析表明,收益主要来自于词汇而非语义处理。我们的在组合数据集上训练的Llama-2-13B模型在LRS3上实现了24.7%的字词错误率(WER),在WildVSR上实现了47.0%的字词错误率,成为在没有额外监督的情况下训练的模型中最新顶尖技术。我们的研究结果表明,LLM解码器提高了上下文推理能力,而非视觉特征,这强调了需要更强大的视觉编码器来推动有意义的进步。
论文及项目相关链接
PDF submitted to ICASSP 2026. This work has been submitted to the IEEE for possible publication
Summary
本文研究了在自监督编码器进展的基础上,如何改善视觉语音识别(VSR)的技术。文章深入评估了LLM解码器的效能,并通过实验验证了在固定或选择性更新视觉编码器、调整解码器规模、对比不同适应策略和架构以及使用LRS2、LRS3及其组合数据集进行训练的情况下,LLM解码器的表现。评估结果显示,结合数据集能提升泛化能力,语义分析表明效果主要来自于词汇而非语义处理。最佳模型在LRS3上达到24.7%的WER,在WildVSR上达到47.0%的WER,且在无需额外监督的情况下达到了先进的表现。研究指出LLM解码器强化了上下文推理而非视觉特征,强调了需要更强大的视觉编码器来推动技术进步。
Key Takeaways
- 自监督编码器的进展改善了视觉语音识别(VSR)。
- LLM解码器与视觉编码器的结合提高了转录准确性。
- 评估表明,解码器规模的扩大和适应策略仅带来有限改进,而结合数据集有助于增强泛化能力。
- 语义分析显示,效果主要来自于词汇处理而非语义处理。
- 最佳模型在LRS3和WildVSR上的表现达到先进水平。
- LLM解码器强化了上下文推理,而非视觉特征。
点此查看论文截图




AmbiDrop: Array-Agnostic Speech Enhancement Using Ambisonics Encoding and Dropout-Based Learning
Authors:Michael Tatarjitzky, Boaz Rafaely
Multichannel speech enhancement leverages spatial cues to improve intelligibility and quality, but most learning-based methods rely on specific microphone array geometry, unable to account for geometry changes. To mitigate this limitation, current array-agnostic approaches employ large multi-geometry datasets but may still fail to generalize to unseen layouts. We propose AmbiDrop (Ambisonics with Dropouts), an Ambisonics-based framework that encodes arbitrary array recordings into the spherical harmonics domain using Ambisonics Signal Matching (ASM). A deep neural network is trained on simulated Ambisonics data, combined with channel dropout for robustness against array-dependent encoding errors, therefore omitting the need for a diverse microphone array database. Experiments show that while the baseline and proposed models perform similarly on the training arrays, the baseline degrades on unseen arrays. In contrast, AmbiDrop consistently improves SI-SDR, PESQ, and STOI, demonstrating strong generalization and practical potential for array-agnostic speech enhancement.
多通道语音增强利用空间线索提高语音的清晰度和质量,但大多数基于学习的方法依赖于特定的麦克风阵列几何结构,无法适应几何变化。为了缓解这一局限性,当前的阵列无关方法采用大型多几何数据集,但仍可能无法推广到未见过的布局。我们提出了AmbiDrop(带有缺失值的四面体声技术),这是一种基于四面体声技术的框架,它使用四面体声信号匹配(ASM)将任意阵列录音编码到球面谐波域。深度神经网络在模拟的四面体声数据上进行训练,结合通道丢失以增强对阵列相关编码错误的鲁棒性,从而无需使用多样化的麦克风阵列数据库。实验表明,虽然在训练阵列上,基线模型和所提出的模型表现相似,但基线模型在未见过的阵列上性能下降。相比之下,AmbiDrop持续提高了SI-SDR、PESQ和STOI指标,显示出强大的通用性和阵列无关的语音增强的实际应用潜力。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
本文提出一种名为AmbiDrop的基于Ambisonics的框架,用于对任意阵列录音进行编码。该框架采用Ambisonics信号匹配(ASM)技术,将录音转化为球面谐波域。通过训练在模拟的Ambisonics数据上的深度神经网络,并结合通道丢弃策略,以增强对阵列依赖的编码错误的稳健性,从而无需使用多样化的麦克风阵列数据库。实验表明,在未见过的阵列上,AmbiDrop相较于基线模型在SI-SDR、PESQ和STOI等指标上表现更优,显示出强大的泛化能力和实际应用潜力。
Key Takeaways
- 多通道语音增强利用空间线索提高语音的清晰度和质量。
- 大多数基于学习的方法依赖于特定的麦克风阵列几何结构,无法适应几何变化。
- 当前的阵列无关方法使用多几何数据集,但仍可能无法泛化到未见过的布局。
- 提出的AmbiDrop框架采用Ambisonics技术,将任意阵列录音编码到球面谐波域。
- 通过训练在模拟的Ambisonics数据上的深度神经网络,结合通道丢弃策略,提高模型对阵列依赖的编码错误的稳健性。
- 实验表明,在未见过的阵列上,AmbiDrop相较于基线模型表现更优。
点此查看论文截图





Acoustic Simulation Framework for Multi-channel Replay Speech Detection
Authors:Michael Neri, Tuomas Virtanen
Replay speech attacks pose a significant threat to voice-controlled systems, especially in smart environments where voice assistants are widely deployed. While multi-channel audio offers spatial cues that can enhance replay detection robustness, existing datasets and methods predominantly rely on single-channel recordings. In this work, we introduce an acoustic simulation framework designed to simulate multi-channel replay speech configurations using publicly available resources. Our setup models both genuine and spoofed speech across varied environments, including realistic microphone and loudspeaker impulse responses, room acoustics, and noise conditions. The framework employs measured loudspeaker directionalities during the replay attack to improve the realism of the simulation. We define two spoofing settings, which simulate whether a reverberant or an anechoic speech is used in the replay scenario, and evaluate the impact of omnidirectional and diffuse noise on detection performance. Using the state-of-the-art M-ALRAD model for replay speech detection, we demonstrate that synthetic data can support the generalization capabilities of the detector across unseen enclosures.
回放语音攻击对声控系统构成重大威胁,特别是在广泛部署语音助手的智能环境中。虽然多通道音频提供了可以增强回放检测稳健性的空间线索,但现有数据集和方法主要依赖于单通道录音。在这项工作中,我们引入了一个声学模拟框架,利用公开资源设计模拟多通道回放语音配置。我们的设置模型涵盖了各种环境下的真实和假冒语音,包括真实的麦克风和扬声器脉冲响应、房间声学特性和噪声条件。该框架在回放攻击期间采用测量的扬声器方向性,以提高模拟的真实性。我们定义了两种欺骗设置,模拟回放场景中是否使用混响或无声语音,并评估了全向和扩散噪声对检测性能的影响。我们使用先进的M-ALRAD模型进行回放语音检测,证明合成数据可以支持检测器在未见过的封闭空间中的泛化能力。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
多通道回放语音对语音控制系统构成重大威胁,特别是在智能环境中广泛部署的语音助手。尽管多通道音频可以提供增强回放检测稳健性的空间线索,但现有数据集和方法主要依赖于单通道录音。本研究引入了一个声学模拟框架,利用公开资源模拟多通道回放语音配置。该框架模拟各种环境,包括真实的麦克风和扬声器冲击响应、房间声学特性和噪声条件。该框架采用回放攻击期间的实测扬声器方向性来提高模拟的真实性。定义了两个欺骗设置,模拟回放场景中是否使用混响或无声语音,并评估了全向和扩散噪声对检测性能的影响。利用先进的M-ALRAD模型进行回放语音检测,证明合成数据可以增强检测器在未见过的封闭空间中的泛化能力。
Key Takeaways
- 多通道回放语音对语音控制系统构成威胁,特别是在智能环境中。
- 现有数据集和方法主要依赖单通道录音,缺乏多通道音频的空间线索。
- 引入了一个声学模拟框架,用以模拟多通道回放语音配置和多种环境。
- 框架考虑真实的麦克风和扬声器冲击响应、房间声学特性和噪声条件。
- 该框架采用实测的扬声器方向性在回放攻击时提高模拟真实性。
- 定义了两个欺骗设置,以模拟回放场景中的混响或无声语音。
点此查看论文截图






MELA-TTS: Joint transformer-diffusion model with representation alignment for speech synthesis
Authors:Keyu An, Zhiyu Zhang, Changfeng Gao, Yabin Li, Zhendong Peng, Haoxu Wang, Zhihao Du, Han Zhao, Zhifu Gao, Xiangang Li
This work introduces MELA-TTS, a novel joint transformer-diffusion framework for end-to-end text-to-speech synthesis. By autoregressively generating continuous mel-spectrogram frames from linguistic and speaker conditions, our architecture eliminates the need for speech tokenization and multi-stage processing pipelines. To address the inherent difficulties of modeling continuous features, we propose a representation alignment module that aligns output representations of the transformer decoder with semantic embeddings from a pretrained ASR encoder during training. This mechanism not only speeds up training convergence, but also enhances cross-modal coherence between the textual and acoustic domains. Comprehensive experiments demonstrate that MELA-TTS achieves state-of-the-art performance across multiple evaluation metrics while maintaining robust zero-shot voice cloning capabilities, in both offline and streaming synthesis modes. Our results establish a new benchmark for continuous feature generation approaches in TTS, offering a compelling alternative to discrete-token-based paradigms.
本文介绍了MELA-TTS,这是一种新型端到端的文本到语音合成联合Transformer-Diffusion框架。通过自回归生成语言条件和说话者条件下的连续梅尔频谱帧,我们的架构消除了对语音标记化和多阶段处理管道的需求。为了解决建模连续特征固有的困难,我们提出了一个表示对齐模块,该模块在训练期间将对齐transformer解码器的输出表示与预训练的ASR编码器的语义嵌入。这种机制不仅加快了训练收敛速度,而且增强了文本和声学域之间的跨模态一致性。综合实验表明,MELA-TTS在多个评估指标上达到了最先进的性能,同时保持了离线合成模式和流式合成模式下的零样本语音克隆能力。我们的结果为TTS中的连续特征生成方法建立了新的基准,为基于离散标记的方法提供了引人注目的替代方案。
论文及项目相关链接
PDF submitted to ICASSP 2026
Summary
本文介绍了MELA-TTS,这是一种新颖的联合Transformer-Diffusion框架,用于端到端的文本到语音合成。通过自回归生成连续的梅尔频谱图帧,该架构消除了对语音标记化和多阶段处理管道的需求。为了解决连续特征建模的固有困难,本文提出了一种表示对齐模块,该模块在训练期间将Transformer解码器的输出表示与预训练的ASR编码器的语义嵌入进行对齐。这种机制不仅加快了训练收敛速度,而且增强了文本和声音域之间的跨模态一致性。实验表明,MELA-TTS在多个评估指标上达到了最先进的性能,同时保持了离线合成模式和流式合成模式下的零样本语音克隆能力。这为TTS中的连续特征生成方法建立了新的基准,为基于离散符号的方法提供了引人注目的替代方案。
Key Takeaways
- MELA-TTS是一种新颖的联合Transformer-Diffusion框架,用于端到端的文本到语音合成。
- 该架构通过自回归生成连续的梅尔频谱图帧,无需语音标记化和多阶段处理。
- 提出了一个表示对齐模块,以在训练期间提高文本和语音域之间的跨模态一致性。
- 该机制不仅加快了训练收敛速度,而且增强了模型的性能。
- MELA-TTS在多个评估指标上达到了最先进的性能。
- MELA-TTS支持离线合成模式和流式合成模式下的零样本语音克隆能力。
点此查看论文截图





HARNESS: Lightweight Distilled Arabic Speech Foundation Models
Authors:Vrunda N. sukhadia, Shammur Absar Chowdhury
Large pre-trained speech models excel in downstream tasks but their deployment is impractical for resource-limited environments. In this paper, we introduce HArnESS, the first Arabic-centric self-supervised speech model family, designed to capture Arabic speech nuances. Using iterative self-distillation, we train large bilingual HArnESS (HL) SSL models and then distill knowledge into compressed student models (HS, HST), preserving Arabic-specific representations. We use low-rank approximation to further compact the teacher’s discrete supervision into shallow, thin models. We evaluate HArnESS on Arabic ASR, Speaker Emotion Recognition (SER), and Dialect Identification (DID), demonstrating effectiveness against HuBERT and XLS-R. With minimal fine-tuning, HArnESS achieves SOTA or comparable performance, making it a lightweight yet powerful alternative for real-world use. We release our distilled models and findings to support responsible research and deployment in low-resource settings.
大型预训练语音模型在下游任务中表现出色,但在资源有限的环境中其部署并不实用。在本文中,我们介绍了HArnESS,这是一个以阿拉伯语为中心的自我监督语音模型家族,旨在捕捉阿拉伯语语音的细微差别。我们使用迭代自蒸馏技术训练大型双语HArnESS(HL)SSL模型,然后将知识蒸馏到压缩的学生模型(HS,HST)中,同时保留阿拉伯语的特定表示。我们使用低秩近似来进一步将教师的离散监督压缩成浅薄的模型。我们在阿拉伯语ASR、说话人情绪识别(SER)和方言识别(DID)上对HArnESS进行了评估,与HuBERT和XLS-R相比表现出其有效性。HArnESS在最小微调的情况下达到了SOTA或相当的性能,成为现实世界使用的轻便而强大的替代品。我们发布我们的蒸馏模型和研究成果,以支持低资源环境中的负责任研究和部署。
论文及项目相关链接
PDF 5 pages, 4 figures
摘要
阿拉伯语音处理模型的提出:引入首个阿拉伯语为中心的自监督语音模型家族HArnESS,采用迭代自蒸馏方法训练大型双语模型,再将其知识蒸馏为压缩的学生模型。采用低秩逼近将教师的离散监督压缩为浅瘦模型,以适应资源受限的环境。评估结果表明白其在阿拉伯语ASR、说话人情绪识别和方言识别方面的有效性,达到了最前沿或可比性能。
关键见解
点此查看论文截图






DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis
Authors:Ye-Xin Lu, Yu Gu, Kun Wei, Hui-Peng Du, Yang Ai, Zhen-Hua Ling
This paper presents DAIEN-TTS, a zero-shot text-to-speech (TTS) framework that enables ENvironment-aware synthesis through Disentangled Audio Infilling. By leveraging separate speaker and environment prompts, DAIEN-TTS allows independent control over the timbre and the background environment of the synthesized speech. Built upon F5-TTS, the proposed DAIEN-TTS first incorporates a pretrained speech-environment separation (SES) module to disentangle the environmental speech into mel-spectrograms of clean speech and environment audio. Two random span masks of varying lengths are then applied to both mel-spectrograms, which, together with the text embedding, serve as conditions for infilling the masked environmental mel-spectrogram, enabling the simultaneous continuation of personalized speech and time-varying environmental audio. To further enhance controllability during inference, we adopt dual class-free guidance (DCFG) for the speech and environment components and introduce a signal-to-noise ratio (SNR) adaptation strategy to align the synthesized speech with the environment prompt. Experimental results demonstrate that DAIEN-TTS generates environmental personalized speech with high naturalness, strong speaker similarity, and high environmental fidelity.
本文介绍了DAIEN-TTS,这是一个零样本文本到语音(TTS)框架,它通过解耦音频填充(Disentangled Audio Infilling)实现了环境感知合成。通过利用单独的说话人和环境提示,DAIEN-TTS可以独立控制合成语音的音调和背景环境。基于F5-TTS构建的DAIEN-TTS首先集成了一个预训练的语音环境分离(SES)模块,将环境语音分解成干净语音的梅尔频谱图和环境音频。然后,在梅尔频谱图上应用两个随机长度不同的跨度掩码,与文本嵌入一起作为填充掩码环境梅尔频谱图的条件,从而实现个性化语音和随时间变化的环境音频的同时延续。为了进一步提高推理过程中的可控性,我们采用了针对语音和环境组件的双重无类别引导(DCFG),并引入了一种信噪比(SNR)自适应策略,以使合成语音与环境提示保持一致。实验结果表明,DAIEN-TTS生成的环境个性化语音具有高度的自然性、强烈的说话人相似性和高环境保真度。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
本文介绍了DAIEN-TTS,一个零样本文本转语音(TTS)框架,它通过解耦音频填充实现了环境感知合成。该框架利用独立的说话人和环境提示,实现对合成语音的音调和背景环境的独立控制。实验结果表明,DAIEN-TTS生成的环境个性化语音具有高度的自然性、强烈的说话人相似性和高环境保真度。
Key Takeaways
- DAIEN-TTS是一个零样本文本转语音(TTS)框架,能实现环境感知合成。
- 通过解耦音频填充,DAIEN-TTS实现对合成语音的音调和背景环境的独立控制。
- DAIEN-TTS建立在F5-TTS之上,融入了一个预训练的语音环境分离(SES)模块,将环境语音分解为纯净语音和环境音频的mel-spectrogram。
- 通过应用两种随机跨度掩码到mel-spectrogram,结合文本嵌入,实现对掩码环境mel-spectrogram的填充,实现个性化语音和时间变化环境音频的同时延续。
- 采用无类别引导(DCFG)增强语音和环境组件的控制性,并引入信噪比(SNR)自适应策略,使合成语音与环境提示对齐。
- 实验结果表明,DAIEN-TTS生成的环境个性化语音具有高度的自然性、强烈的说话人相似性和高环境保真度。
点此查看论文截图




UMA-Split: unimodal aggregation for both English and Mandarin non-autoregressive speech recognition
Authors:Ying Fang, Xiaofei Li
This paper proposes a unimodal aggregation (UMA) based nonautoregressive model for both English and Mandarin speech recognition. The original UMA explicitly segments and aggregates acoustic frames (with unimodal weights that first monotonically increase and then decrease) of the same text token to learn better representations than regular connectionist temporal classification (CTC). However, it only works well in Mandarin. It struggles with other languages, such as English, for which a single syllable may be tokenized into multiple fine-grained tokens, or a token spans fewer than 3 acoustic frames and fails to form unimodal weights. To address this problem, we propose allowing each UMA-aggregated frame map to multiple tokens, via a simple split module that generates two tokens from each aggregated frame before computing the CTC loss.
本文提出了一种基于单模态聚合(UMA)的非自回归模型,用于英语和普通话的语音识别。原始的UMA会明确地分割并聚合同一文本标记的声学帧(使用先单调增加后减少的单模态权重),以学习比常规连接时序分类(CTC)更好的表示。然而,它只在普通话中表现良好。对于英语等其他语言,它很难处理,因为英语中的单个音节可能被细分为多个标记,或者一个标记跨越少于3个声学帧而无法形成单模态权重。为了解决这一问题,我们提出了一种允许每个UMA聚合帧映射到多个标记的方法,通过简单的分割模块在计算CTC损失之前从每个聚合帧生成两个标记。
论文及项目相关链接
PDF Submit to ICASSP 2026
Summary
本论文提出了一种基于单模态聚合(UMA)的非自回归模型,用于英语和普通话的语音识别。原始的UMA通过对同一文本标记的声帧进行分段和聚合(采用先递增后递减的单模态权重),以学习比连接时序分类(CTC)更好的表示。然而,它在普通话以外的语言,如英语中的表现并不理想。因为英语中的单个音节可能被细分为多个标记,或者一个标记跨越的声帧少于3个,导致无法形成单模态权重。为解决这一问题,论文提议允许每个UMA聚合的声帧映射到多个标记上,通过简单的分割模块为每个聚合的声帧生成两个标记,然后再计算CTC损失。
Key Takeaways
- 论文提出了一种基于单模态聚合(UMA)的非自回归模型,用于语音识别。
- 原始的UMA在普通话中表现良好,但在英语等其他语言中表现不佳。
- 英语中的语音标记比普通话更复杂,一个音节可能分为多个精细标记。
- 在英语中,由于声帧数量少于3个的标记较多,导致UMA无法形成稳定的单模态权重。
- 为解决这一问题,论文提出了允许每个UMA聚合的声帧映射到多个标记的方法。
- 通过简单的分割模块为每个聚合的声帧生成两个标记,提高模型的灵活性。
点此查看论文截图




Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation
Authors:Miseul Kim, Soo Jin Park, Kyungguen Byun, Hyeon-Kyeong Shin, Sunkuk Moon, Shuhua Zhang, Erik Visser
Speaker diarization systems often struggle with high intrinsic intra-speaker variability, such as shifts in emotion, health, or content. This can cause segments from the same speaker to be misclassified as different individuals, for example, when one raises their voice or speaks faster during conversation. To address this, we propose a style-controllable speech generation model that augments speech across diverse styles while preserving the target speaker’s identity. The proposed system starts with diarized segments from a conventional diarizer. For each diarized segment, it generates augmented speech samples enriched with phonetic and stylistic diversity. And then, speaker embeddings from both the original and generated audio are blended to enhance the system’s robustness in grouping segments with high intrinsic intra-speaker variability. We validate our approach on a simulated emotional speech dataset and the truncated AMI dataset, demonstrating significant improvements, with error rate reductions of 49% and 35% on each dataset, respectively.
说话人分类系统经常面临高内在说话人内部变化的问题,如情绪、健康状况或内容的改变。这可能导致来自同一说话人的片段被错误地分类为不同的个体,例如当某人提高声音或加快语速进行对话时。为了解决这一问题,我们提出了一种风格可控的语音生成模型,该模型可以在保持目标说话人身份的同时,增强不同风格的语音。该系统的起点是常规分类器生成的分类语音片段。对于每个分类语音片段,它生成了丰富语音学和风格多样性的增强语音样本。然后,将原始音频和生成音频的说话人嵌入融合在一起,以提高系统对具有较高内在说话人内部变化片段的分组稳健性。我们在模拟情感语音数据集和截断AMI数据集上验证了我们的方法,显示出显著改进,每个数据集上的错误率分别降低了49%和35%。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary:针对说话人识别系统中存在的高内在说话人内部变异问题,如情感、健康状况或内容的改变可能导致同一说话人的片段被错误地分类为不同个体。为此,我们提出了一种风格可控的语音生成模型,该模型能够在保持目标说话人身份的同时,增加语音风格的多样性。通过融合原始和生成音频的说话人嵌入,提高了系统对高内在说话人内部变异性的分段分组能力。在模拟的情感语音数据集和AMI截断数据集上的实验验证,该方法分别降低了错误率49%和35%。
Key Takeaways:
- 说话人识别系统面临高内在说话人内部变异问题。
- 同一说话人的片段可能因情感、健康状况或内容的变化而被误分类。
- 提出了一种风格可控的语音生成模型来增强语音的多样性和保持说话人身份。
- 该模型通过融合原始和生成音频的说话人嵌入来提高系统的鲁棒性。
- 验证实验在模拟的情感语音数据集和AMI截断数据集上进行。
- 该方法显著提高了说话人识别性能,分别降低了错误率49%和35%。
点此查看论文截图




Multi-Channel Differential ASR for Robust Wearer Speech Recognition on Smart Glasses
Authors:Yufeng Yang, Yiteng Huang, Yong Xu, Li Wan, Suwon Shon, Yang Liu, Yifeng Fan, Zhaojun Yang, Olivier Siohan, Yue Liu, Ming Sun, Florian Metze
With the growing adoption of wearable devices such as smart glasses for AI assistants, wearer speech recognition (WSR) is becoming increasingly critical to next-generation human-computer interfaces. However, in real environments, interference from side-talk speech remains a significant challenge to WSR and may cause accumulated errors for downstream tasks such as natural language processing. In this work, we introduce a novel multi-channel differential automatic speech recognition (ASR) method for robust WSR on smart glasses. The proposed system takes differential inputs from different frontends that complement each other to improve the robustness of WSR, including a beamformer, microphone selection, and a lightweight side-talk detection model. Evaluations on both simulated and real datasets demonstrate that the proposed system outperforms the traditional approach, achieving up to an 18.0% relative reduction in word error rate.
随着智能眼镜等可穿戴设备在人工智能助手方面的普及度不断增长,穿戴者语音识别(WSR)对于下一代人机交互界面变得日益关键。然而,在实际环境中,来自旁边说话的干扰仍然是WSR面临的重大挑战,并可能导致下游任务(如自然语言处理)出现累积错误。在这项工作中,我们针对智能眼镜上的稳健WSR引入了一种新型的多通道差分自动语音识别(ASR)方法。所提出系统从不同前端获取差分输入,这些输入相互补充,以提高WSR的稳健性,包括波束成形器、麦克风选择和轻量级旁边说话检测模型。对模拟和实际数据集的评估表明,所提出系统的性能优于传统方法,实现了高达18.0%的单词错误率相对降低。
论文及项目相关链接
摘要
随着智能眼镜等可穿戴设备的普及,佩戴者语音识别(WSR)对于下一代人机交互界面变得愈发关键。然而,在实际环境中,来自侧谈话语的干扰仍是WSR面临的一大挑战,并可能为自然语言处理等下游任务带来累积误差。本研究提出了一种新型的多通道差分自动语音识别(ASR)方法,旨在提升智能眼镜的稳健WSR。所提系统从不同前端采集差分输入,相互补充以提升WSR的稳健性,包括波束成形器、麦克风选择和轻量级侧谈检测模型。在模拟和真实数据集上的评估表明,所提系统优于传统方法,词错误率相对降低18.0%。
要点解析
- 智能眼镜等可穿戴设备的普及使得佩戴者语音识别(WSR)变得日益关键。
- 侧谈话语干扰是WSR面临的实际环境挑战之一,可能导致下游任务如自然语言处理的累积误差。
- 研究提出了一种多通道差分自动语音识别(ASR)新方法,旨在增强智能眼镜WSR的稳健性。
- 所提系统集成了波束成形器、麦克风选择和轻量级侧谈检测模型等不同的前端差分输入。
- 该系统相互补充这些输入以提升WSR性能。
- 在模拟和真实数据集上的评估表明,新系统较传统方法在词错误率方面有明显的改进,相对降低了18.0%。
- 此研究为智能眼镜的语音识别技术带来了新的突破和改进。
点此查看论文截图






SpeechOp: Inference-Time Task Composition for Generative Speech Processing
Authors:Justin Lovelace, Rithesh Kumar, Jiaqi Su, Ke Chen, Kilian Q Weinberger, Zeyu Jin
While generative Text-to-Speech (TTS) systems leverage vast ``in-the-wild” data to achieve remarkable success, speech-to-speech processing tasks like enhancement face data limitations, which lead data-hungry generative approaches to distort speech content and speaker identity. To bridge this gap, we present SpeechOp, a multi-task latent diffusion model that transforms pre-trained TTS models into a universal speech processor capable of performing a wide range of speech tasks and composing them in novel ways at inference time. By adapting a pre-trained TTS model, SpeechOp inherits a rich understanding of natural speech, accelerating training and improving S2S task quality, while simultaneously enhancing core TTS performance. Finally, we introduce Implicit Task Composition (ITC), a novel pipeline where ASR-derived transcripts (e.g., from Whisper) guide SpeechOp’s enhancement via our principled inference-time task composition. ITC achieves state-of-the-art content preservation by robustly combining web-scale speech understanding with SpeechOp’s generative capabilities. Audio samples are available at https://justinlovelace.github.io/projects/speechop
虽然生成式文本到语音(TTS)系统利用大量的“野生”数据取得了显著的成功,但语音到语音的处理任务如增强面部数据仍存在局限性,这导致数据饥饿的生成方法会扭曲语音内容和说话人身份。为了弥补这一差距,我们提出了SpeechOp,这是一个多任务潜在扩散模型,它将预训练的TTS模型转变为通用语音处理器,能够在推理时间执行各种语音任务并以新颖的方式组合它们。通过适应预训练的TTS模型,SpeechOp继承了丰富的自然语音理解,加速了训练,提高了S2S任务质量,同时提高了核心TTS性能。最后,我们引入了隐式任务组合(ITC),这是一种新型管道,其中ASR衍生的转录本(例如,来自whisper)通过我们的有原则的推理时间任务组合来指导SpeechOp的增强。ITC通过稳健地将网页规模的语音理解与SpeechOp的生成能力相结合,实现了最新的内容保留。音频样本可在https://justinlovelace.github.io/projects/speechop找到。
论文及项目相关链接
Summary
文本介绍了SpeechOp模型,这是一个多任务潜在扩散模型,能将预训练的文本转语音(TTS)模型转化为通用的语音处理器。SpeechOp可以执行多种语音任务并在推理时间以新颖的方式组合它们。通过适应预训练的TTS模型,SpeechOp继承了丰富的自然语音理解,加速训练,提高语音转语音(S2S)任务质量,同时提高TTS的核心性能。此外,还介绍了隐式任务组合(ITC)这一新流程,利用自动语音识别(ASR)产生的文本(如Whisper)引导SpeechOp的增强功能。ITC通过结合大规模的网页语音理解与SpeechOp的生成能力,实现了内容的最佳保留。
Key Takeaways
- SpeechOp是一个多任务潜在扩散模型,能够将预训练的TTS模型转化为能够执行多种语音任务的通用语音处理器。
- SpeechOp通过适应预训练的TTS模型,继承了丰富的自然语音理解,从而加速训练并提高语音处理任务的质量。
- SpeechOp在推理时间可以以新颖的方式组合不同的语音任务。
- ITC是一种隐式任务组合方法,利用ASR产生的文本引导SpeechOp进行语音增强。
- ITC结合大规模的网页语音理解与SpeechOp的生成能力,实现了内容的最佳保留。
- SpeechOp模型提高了TTS的核心性能。
点此查看论文截图





GLAD: Global-Local Aware Dynamic Mixture-of-Experts for Multi-Talker ASR
Authors:Yujie Guo, Jiaming Zhou, Yuhang Jia, Shiwan Zhao, Yong Qin
End-to-end multi-talker automatic speech recognition (MTASR) faces significant challenges in accurately transcribing overlapping speech, especially under high-overlap conditions. To address these challenges, we proposed Global-Local Aware Dynamic (GLAD) Mixture-of-Experts, which dynamically fuse speaker-aware global information and fine-grained local features to guide expert selection. This mechanism enables speaker-specific routing by leveraging both global context and local acoustic cues. Experiments on LibriSpeechMix show that GLAD outperforms existing MTASR approaches, particularly in challenging multi-talker scenarios. To our best knowledge, this is the first work to apply Mixture-of-Experts (MoE) to end-to-end MTASR with a global-local fusion strategy. Our code and train dataset can be found at https://github.com/NKU-HLT/GLAD.
端到端多说话人自动语音识别(MTASR)在准确转录重叠语音方面面临重大挑战,特别是在高重叠条件下。为了解决这些挑战,我们提出了Global-Local Aware Dynamic(GLAD)专家混合模型,该模型能够动态融合说话者感知全局信息和精细局部特征,以指导专家选择。这种机制通过利用全局上下文和局部声学线索,实现了针对说话者的特定路由。在LibriSpeechMix上的实验表明,GLAD优于现有的MTASR方法,特别是在具有挑战性的多说话人场景中。据我们所知,这是首次将专家混合(MoE)应用于端到端MTASR的全局-局部融合策略。我们的代码和训练数据集可在https://github.com/NKU-HLT/GLAD找到。
论文及项目相关链接
Summary
本文介绍了针对多说话人自动语音识别(MTASR)面临的挑战,提出了一种基于全局-局部感知动态(GLAD)的专家混合模型。该模型通过融合说话者感知的全局信息和精细的局部特征,实现了专家选择的动态融合,利用全局上下文和局部声学线索进行说话者特定路由。在LibriSpeechMix上的实验表明,GLAD在具有挑战性的多说话人场景下优于现有的MTASR方法。这是首次将专家混合(MoE)应用于端到端MTASR的全局-局部融合策略。
Key Takeaways
- 端到端的多说话人自动语音识别(MTASR)在转录重叠语音时面临挑战。
- 提出的GLAD Mixture-of-Experts模型通过融合全局和局部信息实现动态专家选择。
- GLAD模型利用全局上下文和局部声学线索进行说话者特定路由。
- GLAD在LibriSpeechMix上的实验表现优于现有的MTASR方法,特别是在多说话人场景下。
- 这是首次将Mixture-of-Experts(MoE)应用于端到端MTASR的全局-局部融合策略。
- 模型的代码和训练数据集可在https://github.com/NKU-HLT/GLAD找到。
点此查看论文截图





FunAudio-ASR Technical Report
Authors:Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou
In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integration, and reinforcement learning to achieve state-of-the-art performance across diverse and complex speech recognition scenarios. Moreover, FunAudio-ASR is specifically optimized for practical deployment, with enhancements in streaming capability, noise robustness, code-switching, hotword customization, and satisfying other real-world application requirements. Experimental results show that while most LLM-based ASR systems achieve strong performance on open-source benchmarks, they often underperform on real industry evaluation sets. Thanks to production-oriented optimizations, FunAudio-ASR achieves SOTA performance on real application datasets, demonstrating its effectiveness and robustness in practical settings.
近年来,自动语音识别(ASR)见证了由三个互补范式驱动的变革性进展:数据规模扩大、模型规模扩大,以及与大型语言模型(LLM)的深度集成。然而,LLM容易出现幻觉,这在真实世界的ASR应用中可能会显著地降低用户体验。在本文中,我们提出了FunAudio-ASR,这是一个基于LLM的大规模ASR系统,它协同结合了大规模数据、大型模型容量、LLM集成和强化学习,以在多样且复杂的语音识别场景中实现最先进的性能。此外,FunAudio-ASR针对实际部署进行了专门优化,增强了流式处理能力、噪声鲁棒性、代码切换、热词定制以及其他现实世界应用需求。实验结果表明,虽然大多数基于LLM的ASR系统在开源基准测试上表现强劲,但它们在真实的行业评估集上往往表现不佳。由于面向生产的优化,FunAudio-ASR在真实应用数据集上实现了SOTA性能,证明了其在现实环境中的有效性和稳健性。
论文及项目相关链接
PDF Authors are listed in alphabetical order
Summary
近年来,语音识别技术受益于数据扩充、模型规模扩大以及与大型语言模型的深度融合,取得了突破性进展。然而,大型语言模型容易引发幻觉现象,显著降低了在现实世界语音识别应用中的用户体验。本研究提出FunAudio-ASR系统,该系统结合大规模数据、强大模型能力、大型语言模型集成及强化学习,优化为实际应用部署设计。它在多样的复杂语音识别场景中实现领先性能。特别在流能力、噪声稳健性、代码切换等方面做了改进和提升。实验证明,相较于大多数大型语言模型主导的语音识别系统,在真实行业评估集上表现欠佳的状况有所改善。得益于面向生产的优化,FunAudio-ASR在真实应用数据集上取得了最佳性能表现,证明了其在现实环境中的有效性和稳健性。
Key Takeaways
- 自动语音识别技术近年来取得突破性进展,得益于数据规模扩大、模型规模增长和大型语言模型的深度融合。
- 大型语言模型容易引发幻觉现象,影响用户体验。
- FunAudio-ASR系统结合了大规模数据、大型模型、大型语言模型集成和强化学习技术,在多种复杂语音识别场景中实现先进性能。
- FunAudio-ASR针对实际应用场景进行了优化,如流处理能力、噪声环境下的稳健性、代码切换等。
- 实验结果显示FunAudio-ASR在真实应用数据集上表现优异,证明其在现实环境中的有效性和稳健性。
- 尽管大型语言模型主导的语音识别系统在开源基准测试上表现良好,但在真实行业评估集上表现往往欠佳。通过面向生产的优化措施,可有效改善其性能表现。
点此查看论文截图




A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations
Authors:Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li, Jingyu Li, Tan Lee
Speech self-supervised learning (SSL) models are known to learn hierarchical representations, yet how they encode different speaker-specific attributes remains under-explored. This study investigates the layer-wise disentanglement of speaker information across multiple speech SSL model families and their variants. Drawing from phonetic frameworks, we conduct a large-scale probing analysis of attributes categorised into functional groups: Acoustic (Gender), Prosodic (Pitch, Tempo, Energy), and Paralinguistic (Emotion), which we use to deconstruct the model’s representation of Speaker Identity. Our findings validate a consistent three-stage hierarchy: initial layers encode fundamental timbre and prosody; middle layers synthesise abstract traits; and final layers suppress speaker identity to abstract linguistic content. An ablation study shows that while specialised speaker embeddings excel at identifying speaker identity, the intermediate layers of speech SSL models better represent dynamic prosody. This work is the first large-scale study covering a wide range of speech SSL model families and variants with fine-grained speaker-specific attributes on how they hierarchically separate the dynamic style of speech from its intrinsic characteristics, offering practical implications for downstream tasks.
语音自监督学习(SSL)模型已经学会学习分层表示,但它们如何编码不同的说话人特定属性仍然知之甚少。本研究探讨了多个语音SSL模型家族及其变体中说话人信息的逐层分离。借鉴语音学框架,我们对属性进行了大规模探测分析,按功能组分类:声学(性别)、韵律学(音调、语速、能量)和副语言(情感),用于解构模型对说话人身份的表示。我们的研究结果验证了三个阶段的层次结构的一致性:初始层编码基本音色和韵律;中间层合成抽象特征;最终层抑制说话者身份以抽象语言内容。消融研究表明,虽然专业的说话者嵌入在识别说话者身份方面表现出色,但语音SSL模型的中间层更能代表动态的韵律。这项工作是第一项大规模研究,涵盖了多种语音SSL模型家族及其变体,并详细研究了说话人特定的属性,它们如何分层地将语音的动态风格与其内在特征区分开来,为下游任务提供了实际影响。
论文及项目相关链接
PDF Submitted to the 2026 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2026). Under review
Summary
本文探讨了不同语音自监督学习(SSL)模型在层级化表示中对说话人特定属性的编码方式。研究通过对多个SSL模型家族及其变种进行大规模探测分析,将属性分为功能组,包括声学(性别)、韵律(音调、语速、能量)和副语言(情感),以解构说话人身份的模型表示。研究发现了一个三层级的结构:初始层编码基本音色和韵律;中间层合成抽象特征;最终层抑制说话人身份以抽象语言内容。消融研究表明,虽然专业说话人嵌入在识别说话人身份方面表现出色,但语音SSL模型的中间层更能代表动态的韵律。本文首次大规模地研究了多种语音SSL模型家族及其变种如何层次分离语音的动态风格和其内在特征,为下游任务提供了实际启示。
Key Takeaways
- 语音自监督学习(SSL)模型学习层次化的表示,但它们在编码说话人特定属性方面的机制尚未得到充分探索。
- 研究通过对多个SSL模型的大规模探测分析,发现说话人信息在模型中的层级化编码方式。
- 将属性分为声学、韵律和副语言功能组,以解构说话人身份的模型表示。
- 研究揭示了一个三层级的结构:初始层编码基本音色和韵律特征;中间层合成抽象特征;最终层则侧重于语言内容的抽象表达。
- 专业说话人嵌入在识别说话人身份方面表现出色,但语音SSL模型的中间层更能捕捉动态的韵律信息。
- 这是首个涵盖多种语音SSL模型的大规模研究,揭示了如何层次分离语音的动态风格和内在特征。
点此查看论文截图





