⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-28 更新
MeanSE: Efficient Generative Speech Enhancement with Mean Flows
Authors:Jiahe Wang, Hongyu Wang, Wei Wang, Lei Yang, Chenda Li, Wangyou Zhang, Lufen Tan, Yanmin Qian
Speech enhancement (SE) improves degraded speech’s quality, with generative models like flow matching gaining attention for their outstanding perceptual quality. However, the flow-based model requires multiple numbers of function evaluations (NFEs) to achieve stable and satisfactory performance, leading to high computational load and poor 1-NFE performance. In this paper, we propose MeanSE, an efficient generative speech enhancement model using mean flows, which models the average velocity field to achieve high-quality 1-NFE enhancement. Experimental results demonstrate that our proposed MeanSE significantly outperforms the flow matching baseline with a single NFE, exhibiting extremely better out-of-domain generalization capabilities.
语音增强(SE)旨在提高退化语音的质量,生成模型如流匹配由于其出色的感知质量而受到关注。然而,基于流的模型需要在函数评估次数(NFE)上多次迭代才能达到稳定和满意的性能,从而导致计算负载较高以及单NFE性能较差。在本文中,我们提出了MeanSE,这是一种使用平均流的有效生成语音增强模型,通过建模平均速度场实现高质量的单NFE增强。实验结果表明,我们提出的MeanSE在单NFE的情况下显著优于流匹配基线,并表现出极强的跨域泛化能力。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
本文提出一种基于均值流的生成式语音增强模型MeanSE,通过建模平均速度场实现高质量的单步功能评估(1-NFE)增强。实验结果表明,与基于流动匹配的方法相比,MeanSE在单步评估时表现出显著优势,并具有较强的跨域泛化能力。
Key Takeaways
- 语音增强(SE)旨在提高退化语音的质量。
- 生成模型如流匹配已引起关注,因其出色的感知质量。
- 流模型需要多次功能评估(NFEs)以达到稳定和满意性能,导致计算负载高和单步评估性能差。
- 本文提出MeanSE模型,使用均值流实现高效生成式语音增强。
- MeanSE模型通过建模平均速度场实现高质量增强。
- 实验结果表明,MeanSE在单步功能评估时显著优于流动匹配方法。
点此查看论文截图


Hybrid Real- And Complex-Valued Neural Network Concept For Low-Complexity Phase-Aware Speech Enhancement
Authors:Luan Vinícius Fiorio, Alex Young, Ronald M. Aarts
In this paper, we propose hybrid real- and complex-valued neural networks for speech enhancement. Real- or complex-valued models are either inefficient or present high complexity. We devise a straightforward design method for extending a real-valued network into its hybrid counterpart. Based on speech intelligibility and quality metrics, we compare the real, complex, and hybrid versions of a convolutional and a convolutional-recurrent architecture. The hybrid network consistently outperforms its counterparts with the same number of parameters. Additionally, the hybrid models’ complexity in terms of multiply-accumulate operations is substantially lower than that of their counterparts.
在这篇论文中,我们提出了用于语音增强的混合实值和复值神经网络。实值或复值模型要么效率低下,要么复杂度较高。我们设计了一种将实值网络直接扩展为其混合对应网络的方法。基于语音清晰度和质量指标,我们比较了卷积和卷积递归架构的实值、复值和混合版本。混合网络在相同参数数量的情况下始终优于其他网络。此外,混合模型在乘积累加操作方面的复杂度远低于其他模型。
论文及项目相关链接
Summary:
本文提出混合实数和复数神经网络用于语音增强。文章介绍了将实值网络扩展为混合网络的设计方法,并通过语音清晰度和质量指标比较了实值网络、复数网络和混合网络的卷积和卷积递归架构。结果显示混合网络在参数数量相同的情况下性能更优秀,同时混合模型的乘积累加操作复杂度也较低。
Key Takeaways:
- 提出混合实数和复数神经网络用于语音增强。
- 介绍了一种将实值网络扩展为混合网络的设计方法。
- 对比了实值网络、复数网络和混合网络的卷积和卷积递归架构的语音增强效果。
- 混合网络在参数数量相同的情况下性能更优秀。
- 混合模型的复杂度低于实值和复数模型。
- 语音清晰度和质量指标是评估模型性能的重要标准。
点此查看论文截图




i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents
Authors:Anupam Purwar, Aditya Choudhary
We experiment with a low-latency, end-to-end voice-to-voice communication model to optimize it for real-time conversational applications. By analyzing components essential to voice to voice (V-2-V) system viz. automatic speech recognition (ASR), text-to-speech (TTS), and dialog management, our work analyzes how to reduce processing time while maintaining high-quality interactions to identify the levers for optimizing V-2-V system. Our work identifies that TTS component which generates life-like voice, full of emotions including natural pauses and exclamations has highest impact on Real time factor (RTF). The experimented V-2-V architecture utilizes CSM1b has the capability to understand tone as well as context of conversation by ingesting both audio and text of prior exchanges to generate contextually accurate speech. We explored optimization of Residual Vector Quantization (RVQ) iterations by the TTS decoder which come at a cost of decrease in the quality of voice generated. Our experimental evaluations also demonstrate that for V-2-V implementations based on CSM most important optimizations can be brought by reducing the number of RVQ Iterations along with the codebooks used in Mimi.
我们对一个低延迟、端到端的语音对语音通信模型进行了实验,以优化其适用于实时对话应用。通过分析语音对语音(V-2-V)系统的关键组件,即自动语音识别(ASR)、文本到语音(TTS)和对话管理,我们的工作分析了如何在保持高质量交互的同时减少处理时间,以确定优化V-2-V系统的关键因素。我们的工作发现,TTS组件产生逼真的语音,充满情感,包括自然停顿和感叹,对实时因子(RTF)的影响最大。经过实验的V-2-V架构采用CSM1b,它具有通过摄入先前对话的音频和文本来理解语调以及对话上下文的能力,以生成上下文准确的语音。我们探索了通过TTS解码器优化剩余矢量量化(RVQ)迭代,但这会导致生成的语音质量下降。我们的实验评估还表明,对于基于CSM的V-2-V实现,最重要的优化可以通过减少RVQ迭代次数以及Mimi中使用的代码簿来实现。
论文及项目相关链接
PDF This paper analyzes a low-latency, end-to-end voice-to-voice (V-2-V) architecture, identifying that the Text-to-Speech (TTS) component has the highest impact on real-time performance. By reducing the number of Residual Vector Quantization (RVQ) iterations in the TTS model, latency can be effectively halved, creating a direct trade-off between conversational speed and audio quality
Summary
该文本介绍了针对端到端的语音通信模型的实验研究,主要优化了语音到语音系统的核心组件以降低延迟并维护高质量交互。发现文本到语音组件对实时性因子影响最大,利用CSM的实验架构能够通过吸收先前对话的音频和文本来生成语境准确的语音。同时探索了通过减少RVQ迭代次数来优化TTS解码器的方法。
Key Takeaways
- 该实验针对端到端的语音通信模型进行研究,主要优化实时对话应用的性能。
- 实验涉及的核心组件包括自动语音识别、文本到语音和对话管理。
- 发现文本到语音组件对保持实时对话的实时性因子影响最大。
- 利用CSM的实验架构能够生成具有情感和语境准确的语音,理解对话的语调与上下文。
- 通过减少RVQ迭代次数来优化TTS解码器,但可能会降低生成的语音质量。
- 实验评估表明,对于基于CSM的语音到语音实现,最重要的优化是通过减少RVQ迭代次数以及使用Mimi中的码本。
点此查看论文截图









SingVERSE: A Diverse, Real-World Benchmark for Singing Voice Enhancement
Authors:Shaohan Jiang, Junan Zhang, Yunjia Zhang, Jing Yang, Fan Fan, Zhizheng Wu
This paper presents a benchmark for singing voice enhancement. The development of singing voice enhancement is limited by the lack of realistic evaluation data. To address this gap, this paper introduces SingVERSE, the first real-world benchmark for singing voice enhancement, covering diverse acoustic scenarios and providing paired, studio-quality clean references. Leveraging SingVERSE, we conduct a comprehensive evaluation of state-of-the-art models and uncover a consistent trade-off between perceptual quality and intelligibility. Finally, we show that training on in-domain singing data substantially improves enhancement performance without degrading speech capabilities, establishing a simple yet effective path forward. This work offers the community a foundational benchmark together with critical insights to guide future advances in this underexplored domain. Demopage: https://singverse.github.io
本文提出了一个歌唱声音增强的基准测试。歌唱声音增强的开发受到缺乏现实评估数据的限制。为了解决这一空白,本文介绍了SingVERSE,这是歌唱声音增强的第一个真实世界基准测试,涵盖了多种声学场景,并提供了配对、工作室质量的清洁参考。利用SingVERSE,我们对最先进的模型进行了全面评估,并发现了感知质量与可理解性之间的持续权衡。最后,我们证明了在域内歌唱数据上进行训练可以显著提高增强性能,而不会降低语音功能,为简单有效的前进方向铺平了道路。这项工作为社区提供了一个基准测试,以及关键的见解,以指导未来在这个未被充分探索的领域取得进展。Demo页面:https://singverse.github.io
论文及项目相关链接
PDF Demopage: https://singverse.github.io, Dataset: https://huggingface.co/datasets/amphion/SingVERSE
Summary
本文介绍了一个歌唱声音增强的基准测试。由于缺乏真实的评估数据,歌唱声音增强的开发受到限制。本文引入了SingVERSE,这是第一个真实的歌唱声音增强基准测试,涵盖了各种声学场景,并提供了配对的、工作室质量的干净参考。利用SingVERSE,我们对最新技术模型进行了全面评估,发现了感知质量与可理解性之间的权衡。最后,我们表明在歌唱数据域内进行训练能显著提高增强性能,且不影响语音能力,为未来的研究提供了一个基础性的基准测试和关键见解。更多详情可见:https://singverse.github.io。
Key Takeaways
- 介绍了SingVERSE基准测试:首个针对歌唱声音增强的真实世界基准测试。
- SingVERSE涵盖了多样的声学场景,并提供配对的、高质量干净参考。
- 通过对最新技术模型的评估,发现了感知质量与可理解性之间的权衡。
- 在歌唱数据域内训练能显著提高增强性能。
- 该训练策略不会影响语音能力。
- SingVERSE为歌唱声音增强领域提供了基础性基准测试。
点此查看论文截图





PAS-SE: Personalized Auxiliary-Sensor Speech Enhancement for Voice Pickup in Hearables
Authors:Mattes Ohlenbusch, Mikolaj Kegler, Marko Stamenovic
Speech enhancement for voice pickup in hearables aims to improve the user’s voice by suppressing noise and interfering talkers, while maintaining own-voice quality. For single-channel methods, it is particularly challenging to distinguish the target from interfering talkers without additional context. In this paper, we compare two strategies to resolve this ambiguity: personalized speech enhancement (PSE), which uses enrollment utterances to represent the target, and auxiliary-sensor speech enhancement (AS-SE), which uses in-ear microphones as additional input. We evaluate the strategies on two public datasets, employing different auxiliary sensor arrays, to investigate their cross-dataset generalization. We propose training-time augmentations to facilitate cross-dataset generalization of AS-SE systems. We also show that combining PSE and AS-SE (PAS-SE) provides complementary performance benefits, especially when enrollment speech is recorded with the in-ear microphone. We further demonstrate that PAS-SE personalized with noisy in-ear enrollments maintains performance benefits over the AS-SE system.
针对可佩戴设备中的语音采集语音增强旨在通过抑制噪声和干扰说话者来提高用户语音质量,同时保持自己的语音质量。对于单通道方法而言,尤其是在没有额外上下文的情况下区分目标是说话者特别具有挑战性。在本文中,我们比较了两种解决此模糊性的策略:个性化语音增强(PSE),使用注册语音来代表目标语音;辅助传感器语音增强(AS-SE),使用入耳式麦克风作为额外输入。我们在两个公共数据集上评估了这两种策略,使用不同的辅助传感器阵列,以研究它们的跨数据集泛化能力。我们提出了训练时增强技术,以促进AS-SE系统的跨数据集泛化。我们还表明,将PSE和AS-SE(PAS-SE)相结合提供了互补的性能优势,尤其是当注册语音使用入耳式麦克风录制时。我们进一步证明,使用带有噪声入耳式注册的PAS-SE在性能上仍然优于AS-SE系统。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
此文探讨了在可穿戴设备中进行语音增强的挑战和方法。针对单通道方法难以区分目标和干扰说话者的问题,比较了个性化语音增强(PSE)和使用入耳式麦克风作为额外输入的辅助传感器语音增强(AS-SE)两种策略。文章在公共数据集上评估了这两种策略,研究了它们的跨数据集泛化能力,并发现结合使用PSE和AS-SE可以提供额外的性能优势。此外,还介绍了增强系统泛化能力的训练时间增强技术。
Key Takeaways
- 语音增强在可穿戴设备中用于提高用户声音质量,抑制噪声和干扰说话者。
- 单通道方法区分目标和干扰说话者具有挑战性。
- 个性化语音增强(PSE)使用注册语音代表目标说话者。
- 辅助传感器语音增强(AS-SE)使用入耳式麦克风作为额外输入。
- 在公共数据集上评估了PSE和AS-SE的跨数据集泛化能力。
- 结合PSE和AS-SE(PAS-SE)提供额外的性能优势,尤其在注册语音使用入耳式麦克风录制时。
点此查看论文截图




Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition
Authors:Niclas Pokel, Pehuén Moure, Roman Boehringer, Shih-Chii Liu, Yingqiang Gao
Speech impairments resulting from congenital disorders, such as cerebral palsy, down syndrome, or apert syndrome, as well as acquired brain injuries due to stroke, traumatic accidents, or tumors, present major challenges to automatic speech recognition (ASR) systems. Despite recent advancements, state-of-the-art ASR models like Whisper still struggle with non-normative speech due to limited training data availability and high acoustic variability. Moreover, collecting and annotating non-normative speech is burdensome: speaking is effortful for many affected individuals, while laborious annotation often requires caregivers familiar with the speaker. This work introduces a novel ASR personalization method based on Bayesian Low-rank Adaptation for data-efficient fine-tuning. We validate our method on the English UA-Speech dataset and a newly collected German speech dataset, BF-Sprache, from a child with structural speech impairment. The dataset and approach are designed to reflect the challenges of low-resource settings that include individuals with speech impairments. Our method significantly improves ASR accuracy for impaired speech while maintaining data and annotation efficiency, offering a practical path toward inclusive ASR.
由于先天性疾病(如脑性瘫痪、唐氏综合征或 Apert 综合征)以及后天性脑损伤(如中风、事故或肿瘤)导致的言语障碍,给自动语音识别(ASR)系统带来了重大挑战。尽管最近取得了进展,但最先进的ASR模型(如Whisper)仍然难以处理非标准语音,这是由于训练数据有限和声音变化较大。此外,收集和注释非标准语音是一项艰巨的任务:对于许多受影响的人来说,说话是一项艰巨的任务,而繁琐的注释通常需要熟悉说话者的护理人员。这项工作介绍了一种基于贝叶斯低秩适应的新型ASR个性化方法,用于高效微调数据。我们在英文UA-Speech数据集和从一名有结构性言语障碍的儿童那里收集的全新德语语音数据集BF-Sprache上验证了我们的方法。数据集和方法旨在反映资源匮乏环境中的挑战,包括有言语障碍的个人。我们的方法在提高受损语音的ASR准确性方面取得了显著成效,同时保持了数据和注释的效率,为实现包容性ASR提供了一条实用途径。
论文及项目相关链接
Summary
针对先天性障碍(如脑性瘫痪、唐氏综合症或口裂综合症)以及后天性脑损伤(如中风、事故或肿瘤)导致的言语障碍,自动语音识别(ASR)系统面临重大挑战。尽管有最新技术进步,但最先进的ASR模型(如Whisper)仍因训练数据有限和声音变化大,难以识别非标准言语。此外,收集并标注非标准言语既困难又繁琐:对许多受影响的人来说说话已经很吃力,而繁琐的标注工作还需要熟悉发言者的护理人员参与。本文提出了一种新型的ASR个性化方法——基于贝叶斯低秩适应的少量数据精细调整法。我们在英语UA-Speech数据集和新收集的德语数据集BF-Sprache(来自一个有结构性言语障碍的儿童)上验证了该方法。数据集和方法反映了低资源设置中的挑战,包括患有言语障碍的人群。此方法显著提高了对受损语音的ASR准确性,同时保持了数据和标注的效率,为包容性ASR提供了实用途径。
Key Takeaways
- 先天性障碍和后天性脑损伤导致的言语障碍对ASR系统构成挑战。
- 当前ASR模型在识别非标准言语方面存在困难,主要原因是训练数据有限和声音变化大。
- 收集并标注非标准言语数据既困难又繁琐,需要护理人员参与。
- 提出了一种基于贝叶斯低秩适应的ASR个性化方法,旨在实现少量数据的精细调整。
- 方法在英语和德语数据集上进行了验证,特别是针对患有结构性言语障碍的人群。
- 此方法提高了对受损语音的ASR准确性。
点此查看论文截图




Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling
Authors:Niclas Pokel, Pehuén Moure, Roman Boehringer, Yingqiang Gao
Automatic speech recognition (ASR) systems struggle with non-normative speech from individuals with impairments caused by conditions like cerebral palsy or structural anomalies. The high acoustic variability and scarcity of training data severely degrade model performance. This work introduces a data-efficient personalization method that quantifies phoneme-level uncertainty to guide fine-tuning. We leverage Monte Carlo Dropout to estimate which phonemes a model finds most difficult and use these estimates for a targeted oversampling strategy. We validate our method on English and German datasets. Crucially, we demonstrate that our model-derived uncertainty strongly correlates with phonemes identified as challenging in an expert clinical logopedic report, marking, to our knowledge, the first work to successfully align model uncertainty with expert assessment of speech difficulty. Our results show that this clinically-validated, uncertainty-guided sampling significantly improves ASR accuracy, delivering a practical framework for personalized and inclusive ASR.
自动语音识别(ASR)系统在处理因脑性瘫痪或结构性异常等状况导致的个体非规范性语音时面临挑战。高音频变体和训练数据的稀缺严重降低了模型性能。这项工作引入了一种数据高效个性化方法,该方法量化音素级不确定性以指导微调。我们利用蒙特卡洛Dropout来估计模型认为哪些音素最困难,并使用这些估计值进行有针对性的过采样策略。我们在英语和德语数据集上验证了我们的方法。关键的是,我们证明我们的模型衍生出的不确定性与专家临床语音报告中识别的具有挑战性的音素密切相关,据我们所知,这是首次成功将模型不确定性与专家语音难度评估对齐的工作。我们的结果表明,这种经过临床验证的不确定性指导采样显著提高了ASR的准确性,为个性化和包容性的ASR提供了实用的框架。
论文及项目相关链接
Summary
本文介绍了一种数据高效的个性化方法,通过量化音素级不确定性来引导微调,以解决自动语音识别(ASR)系统对于非规范语音的识别难题。利用Monte Carlo Dropout估计模型难以识别的音素,并使用这些估计值进行有针对性的过采样策略。该方法在英语和德语数据集上得到验证,且模型衍生出的不确定性与专家临床语音困难评估结果高度一致。该方法显著提高了ASR的准确性,为个性化且包容性的ASR提供了实用框架。
Key Takeaways
- ASR系统对于非规范语音存在挑战,特别是对于那些因脑性瘫痪或结构异常等条件导致语音障碍的个体。
- 高声学变率和训练数据稀缺严重降低了模型的性能。
- 引入了一种数据高效的个性化方法,通过量化音素级不确定性来引导微调。
- 利用Monte Carlo Dropout估计模型难以识别的音素,并采用针对性过采样策略。
- 该方法在英语和德语数据集上得到验证。
- 模型衍生出的不确定性与专家临床语音困难评估结果一致。
点此查看论文截图




Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens
Authors:Pin-Jui Ku, He Huang, Jean-Marie Lemercier, Subham Sekhar Sahoo, Zhehuai Chen, Ante Jukić
This paper introduces a discrete diffusion model (DDM) framework for text-aligned speech tokenization and reconstruction. By replacing the auto-regressive speech decoder with a discrete diffusion counterpart, our model achieves significantly better reconstruction quality, stronger ASR performance, and faster inference. We provide a comprehensive analysis of applying DDMs to speech reconstruction, examining sampler choices, inference steps, and robustness to length-scale estimation errors. Furthermore, we improve the original TASTE by systematically comparing vector quantization modules, showing that FSQ yields up to a 35% relative WER reduction and +0.14 UT-MOS improvement over RVQ for AR models, while also enhancing DDM performance. Our model generates speech in just 10 denoising steps and even supports single-step generation with only minor quality degradation.
本文介绍了一种用于文本对齐语音分词和重建的离散扩散模型(DDM)框架。通过用离散扩散对应物替换自回归语音解码器,我们的模型在重建质量、语音识别性能以及推理速度上实现了显著提升。我们对将DDMs应用于语音重建进行了全面的分析,研究了采样器选择、推理步骤以及对长度尺度估计错误的稳健性。此外,我们通过系统地比较向量量化模块改进了原始的TASTE,表明FSQ相对于RVQ在AR模型上实现了高达35%的相对WER降低和+0.14的UT-MOS提升,同时也提升了DDM的性能。我们的模型仅在10个去噪步骤中生成语音,甚至支持单步生成,只有轻微的质量下降。
论文及项目相关链接
PDF 5 pages. submitted to ICASSP 2026
Summary
本文介绍了一种基于离散扩散模型(DDM)框架的文本对齐语音切分与重建技术。通过用离散扩散解码器替代自回归语音解码器,该模型实现了更高的重建质量、更强的语音识别性能以及更快的推理速度。文章全面分析了将DDM应用于语音重建的方法,探讨了采样器选择、推理步骤以及对长度尺度估算错误的稳健性。此外,该研究还改进了原始模型TASTE,对比了向量量化模块,发现FSQ在AR模型上相对于RVQ实现了最高达35%的相对WER减少和+0.14的UT-MOS提升,同时也提升了DDM的性能。该模型仅需在10步降噪过程中生成语音,并支持单步生成,仅伴有轻微质量损失。
Key Takeaways
- 离散扩散模型(DDM)框架用于文本对齐的语音切分与重建。
- DDM实现了更高的重建质量、增强的语音识别性能和更快的推理速度。
- 采样器选择、推理步骤和对长度尺度估算错误的稳健性是DDM应用于语音重建的关键分析点。
- 研究改进了原始模型TASTE,通过对比向量量化模块,发现FSQ在AR模型上显著提升了性能。
- FSQ相较于RVQ在AR模型上实现了WER和UT-MOS的显著改善。
- DDM模型在生成语音时仅需10步降噪过程,并支持单步生成。
点此查看论文截图




SynchroRaMa : Lip-Synchronized and Emotion-Aware Talking Face Generation via Multi-Modal Emotion Embedding
Authors:Phyo Thet Yee, Dimitrios Kollias, Sudeepta Mishra, Abhinav Dhall
Audio-driven talking face generation has received growing interest, particularly for applications requiring expressive and natural human-avatar interaction. However, most existing emotion-aware methods rely on a single modality (either audio or image) for emotion embedding, limiting their ability to capture nuanced affective cues. Additionally, most methods condition on a single reference image, restricting the model’s ability to represent dynamic changes in actions or attributes across time. To address these issues, we introduce SynchroRaMa, a novel framework that integrates a multi-modal emotion embedding by combining emotional signals from text (via sentiment analysis) and audio (via speech-based emotion recognition and audio-derived valence-arousal features), enabling the generation of talking face videos with richer and more authentic emotional expressiveness and fidelity. To ensure natural head motion and accurate lip synchronization, SynchroRaMa includes an audio-to-motion (A2M) module that generates motion frames aligned with the input audio. Finally, SynchroRaMa incorporates scene descriptions generated by Large Language Model (LLM) as additional textual input, enabling it to capture dynamic actions and high-level semantic attributes. Conditioning the model on both visual and textual cues enhances temporal consistency and visual realism. Quantitative and qualitative experiments on benchmark datasets demonstrate that SynchroRaMa outperforms the state-of-the-art, achieving improvements in image quality, expression preservation, and motion realism. A user study further confirms that SynchroRaMa achieves higher subjective ratings than competing methods in overall naturalness, motion diversity, and video smoothness. Our project page is available at https://novicemm.github.io/synchrorama.
音频驱动的说话人脸生成技术已引起广泛关注,特别是在需要表达自然的人形交互应用中。然而,大多数现有的情感感知方法依赖于单一模态(音频或图像)进行情感嵌入,这限制了它们捕捉微妙情感线索的能力。此外,大多数方法都依赖于单张参考图像,这限制了模型在动作或属性随时间变化时的表示能力。为了解决这些问题,我们引入了SynchroRaMa这一新型框架,它通过结合文本(通过情感分析)和音频(通过基于语音的情感识别和音频衍生的效价唤起特征)的多模态情感嵌入,使生成具有更丰富、更真实情感表现力和保真度的说话人脸视频成为可能。为确保自然头部运动和准确的唇部同步,SynchroRaMa包含一个音频到运动(A2M)模块,用于生成与输入音频对齐的运动帧。最后,SynchroRaMa还结合了大型语言模型(LLM)生成的场景描述作为额外的文本输入,使其能够捕捉动态动作和高级语义属性。以视觉和文本线索训练模型,提高了时间一致性和视觉真实性。在基准数据集上的定量和定性实验表明,SynchroRaMa优于最新技术,在图像质量、表情保持和运动真实性方面取得了改进。用户研究进一步证实,在整体自然性、运动多样性和视频平滑度方面,SynchroRaMa相较于其他方法获得了更高的主观评分。我们的项目页面可在https://novicemm.github.io/synchrorama找到。
论文及项目相关链接
PDF Accepted at WACV 2026, project page : https://novicemm.github.io/synchrorama
Summary
本文介绍了SynchroRaMa框架,该框架结合了文本和音频的多模态情感嵌入,用于生成具有更丰富和更真实情感表达力的动态人脸视频。通过情感文本分析、语音情感识别和音频衍生情感特征等技术,SynchroRaMa实现了更精细的情感捕捉。同时,它还包括音频到动作(A2M)模块,确保头部动作的自然性和唇部的精确同步。此外,SynchroRaMa还结合了大型语言模型生成的场景描述作为额外文本输入,捕捉动态动作和高层次语义属性。在基准数据集上的定量和定性实验表明,SynchroRaMa优于现有技术,在图像质量、表情保持和运动真实性方面有所改善。用户研究进一步证实,SynchroRaMa在整体自然性、运动多样性和视频流畅性方面获得更高的主观评分。
Key Takeaways
- SynchroRaMa结合了文本和音频的多模态情感嵌入,增强了动态人脸视频的情感表达力。
- 通过情感文本分析、语音情感识别和音频衍生情感特征等技术,实现了更精细的情感捕捉。
- SynchroRaMa包括音频到动作(A2M)模块,确保头部动作的自然性和唇部的精确同步。
- 结合大型语言模型生成的场景描述作为额外文本输入,捕捉动态动作和高层次语义属性。
- SynchroRaMa优于现有技术,在图像质量、表情保持和运动真实性方面有所改善。
- 用户研究证实,SynchroRaMa在整体自然性、运动多样性和视频流畅性方面获得更高的主观评分。
点此查看论文截图



WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction
Authors:Binbin Zhang, Chengdong Liang, Shuai Wang, Xuelong Geng, Zhao Guo, Haoyu Li, Hao Yin, Xipeng Yang, Pengshen Zhang, Changwei Ma, Lei Xie
In this paper, we present WEST(WE Speech Toolkit), a speech toolkit based on a large language model (LLM) for speech understanding, generation, and interaction. There are three key features of WEST: 1) Fully LLM-based: Standing on the shoulders of giants by reusing mature architectures, ecosystems (e.g., Hugging Face), and methods (e.g., sequence packing) from large models. 2) Full-stack: Supports tasks such as recognition, synthesis, understanding, dialogue, and multimodal capabilities, with extensibility to incorporate open-source models. 3) Simple and Stupid: A simple and stupid speech toolkit that everyone can Touch. In addition, WEST provides two types of recipes, models, and experimental results. The first is entirely based on open-source models and open-source data, allowing users to fully reproduce the experiments in this paper and serving as a verification system or minimal system baseline. The second is trained on massive data, offering superior performance so the user can directly apply it out of the box. WEST is publicly avilable at https://github.com/wenet-e2e/west/
本文介绍了WEST(WE语音工具包),这是一个基于大型语言模型(LLM)的语音工具包,用于语音理解、生成和交互。WEST有三个关键特点:1)完全基于LLM:利用大型模型的成熟架构、生态系统(例如Hugging Face)和方法(例如序列打包)站在巨人的肩膀上。2)全栈支持:支持识别、合成、理解、对话和多模式功能等任务,可扩展以纳入开源模型。3)简单易懂:一个简单明了的语音工具包,每个人都能轻松上手。此外,WEST提供两种类型的模型、食谱和实验结果。第一种完全基于开源模型和开源数据,允许用户充分重现本文中的实验,并作为验证系统或最小系统基线。第二种是在大量数据上训练的,提供卓越性能,用户可以直接开箱即用。WEST在https://github.com/wenet-e2e/west/公开可用。
论文及项目相关链接
Summary
文本介绍了WEST(WE Speech Toolkit),一个基于大型语言模型(LLM)的语音识别、生成和交互工具包。WEST具有三大特点:完全基于LLM、全栈支持以及简单易用。此外,WEST提供两种类型的模型与实验结果,一种完全基于开源模型和开源数据,用于验证或作为最小系统基线;另一种经过大量数据训练,提供卓越性能,可直接应用。WEST已公开可用。
Key Takeaways
- WEST是一个基于大型语言模型的语音工具包,用于语音理解、生成和交互。
- WEST具有三大特点:完全基于LLM、全栈支持和简单易用。
- WEST提供两种类型的模型和实验结果,分别基于开源模型和大规模数据训练。
- 开源模型与数据允许用户完全重现实验,可作为验证系统或最小系统基线。
- 经过大规模数据训练的模型提供卓越性能,可直接应用。
- WEST具有可扩展性,可融入开源模型。
- WEST支持多种任务,如识别、合成、理解、对话和多模式功能。
点此查看论文截图





MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generative Model
Authors:The Hieu Pham, Tan Dat Nguyen, Phuong Thanh Tran, Joon Son Chung, Duc Dung Nguyen
Speech enhancement remains challenging due to the trade-off between efficiency and perceptual quality. In this paper, we introduce MAGE, a Masked Audio Generative Enhancer that advances generative speech enhancement through a compact and robust design. Unlike prior masked generative models with random masking, MAGE employs a scarcity-aware coarse-to-fine masking strategy that prioritizes frequent tokens in early steps and rare tokens in later refinements, improving efficiency and generalization. We also propose a lightweight corrector module that further stabilizes inference by detecting low-confidence predictions and re-masking them for refinement. Built on BigCodec and finetuned from Qwen2.5-0.5B, MAGE is reduced to 200M parameters through selective layer retention. Experiments on DNS Challenge and noisy LibriSpeech show that MAGE achieves state-of-the-art perceptual quality and significantly reduces word error rate for downstream recognition, outperforming larger baselines. Audio examples are available at https://hieugiaosu.github.io/MAGE/.
语音增强因效率和感知质量之间的权衡而仍然具有挑战性。在本文中,我们介绍了MAGE,这是一种带有遮蔽音频生成增强器(Masked Audio Generative Enhancer)的技术,它通过紧凑而稳健的设计推动了生成式语音增强的发展。与先前采用随机遮蔽的遮蔽生成模型不同,MAGE采用了一种匮乏感知的由粗到细的遮蔽策略,该策略优先处理早期的频繁令牌,并在后期的改进中处理罕见的令牌,从而提高了效率和泛化能力。我们还提出了一种轻量级的校正模块,通过检测低置信度的预测并对其进行重新遮蔽以进行改进,从而进一步稳定了推断。MAGE建立在BigCodec之上,并以Qwen2.5-0.5B进行微调,通过选择性层保留减少到200M参数。在DNS Challenge和嘈杂的LibriSpeech上的实验表明,MAGE达到了最先进的感知质量,并显著降低了下游识别的词错误率,超越了较大的基准模型。音频示例可在https://hieugiaosu.github.io/MAGE/找到。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
本文介绍了一种名为MAGE的音频生成增强器,它采用紧凑且稳健的设计,推进了生成式语音增强的研究。不同于以往的随机掩模生成模型,MAGE采用了一种稀缺感知的粗到细掩模策略,提高了效率和泛化能力。此外,还提出了一种轻量级的校正模块,通过检测低置信度预测并进行重新掩模以进一步稳定推断。实验表明,MAGE在DNS挑战和嘈杂的LibriSpeech上实现了最佳感知质量和显著减少的词错误率,并在下游识别任务上优于大型基线模型。更多音频示例可通过https://hieugiaosu.github.io/MAGE/访问。
Key Takeaways
- MAGE是一种新型的音频生成增强器,具有紧凑和稳健的设计。
- 与其他随机掩模生成模型不同,MAGE采用了一种稀缺感知的粗到细掩模策略。
- MAGE在效率和泛化能力上有所提升。
- MAGE包含一个轻量级的校正模块,用于检测并重新掩模低置信度预测,从而稳定推断过程。
- 实验表明,MAGE在DNS挑战和LibriSpeech数据集上实现了最佳感知质量和词错误率降低。
- MAGE使用BigCodec构建并经过Qwen2.5-0.5B微调,最后通过选择性层保留减少至200M参数。
点此查看论文截图





MMedFD: A Real-world Healthcare Benchmark for Multi-turn Full-Duplex Automatic Speech Recognition
Authors:Hongzhao Chen, XiaoYang Wang, Jing Lan, Hexiao Ding, Yufeng Jiang MingHui Yang, DanHui Xu, Jun Luo, Nga-Chun Ng, Gerald W. Y. Cheng, Yunlin Mao, Jung Sun Yoo
Automatic speech recognition (ASR) in clinical dialogue demands robustness to full-duplex interaction, speaker overlap, and low-latency constraints, yet open benchmarks remain scarce. We present MMedFD, the first real-world Chinese healthcare ASR corpus designed for multi-turn, full-duplex settings. Captured from a deployed AI assistant, the dataset comprises 5,805 annotated sessions with synchronized user and mixed-channel views, RTTM/CTM timing, and role labels. We introduce a model-agnostic pipeline for streaming segmentation, speaker attribution, and dialogue memory, and fine-tune Whisper-small on role-concatenated audio for long-context recognition. ASR evaluation includes WER, CER, and HC-WER, which measures concept-level accuracy across healthcare settings. LLM-generated responses are assessed using rubric-based and pairwise protocols. MMedFD establishes a reproducible framework for benchmarking streaming ASR and end-to-end duplex agents in healthcare deployment. The dataset and related resources are publicly available at https://github.com/Kinetics-JOJO/MMedFD
自动语音识别(ASR)在临床对话中需要应对全双工交互、说话人重叠和低延迟约束的稳健性挑战,然而开放的标准测试集仍然稀缺。我们推出了MMedFD,这是首个为多轮、全双工环境设计的现实世界中文医疗ASR语料库。该数据集来自部署的AI助理的捕捉,包含5805个带注释的会话,具有同步的用户和混合通道视图、RTTM/CTM定时和角色标签。我们介绍了一个模型无关的管道,用于流式分割、说话人归属和对话记忆,并对用于长上下文识别的角色连接音频进行微调Whisper-small。ASR评估包括WER、CER和HC-WER,后者衡量医疗保健环境中的概念级准确性。对于大型语言模型生成的响应,我们采用基于评分标准和成对协议进行评估。MMedFD为医疗部署中的流式ASR和端到端双工代理建立了可重复使用的基准测试框架。数据集和相关资源可在https://github.com/Kinetics-JOJO/MMedFD公开获取。
论文及项目相关链接
Summary
针对临床对话中的自动语音识别(ASR)系统需要应对全双工交互、说话人重叠和低延迟约束的挑战,但现有的开放基准测试仍然缺乏。我们推出了MMedFD,首个为多轮、全双工设置设计的现实世界中用于中文医疗ASR语料库。该数据集从部署的AI助理中提取,包含5805个已标注的会话,具有用户同步和混合通道视图、RTTM/CTM定时和角色标签。我们引入了一个模型无关的管道,用于流式分割、说话人归属和对话记忆,并对角色连接的音频微调Whisper-small进行长上下文识别。ASR评估包括词错误率(WER)、字符错误率(CER)和医疗保健环境中的概念级准确度(HC-WER)。使用基于评分标准和配对协议的LLM生成响应进行评估。MMedFD为医疗部署中的流式ASR和端到端双工代理提供了可复制的基准测试框架。数据集和相关资源可在https://github.com/Kinetics-JOJO/MMedFD公开访问。
Key Takeaways
- MMedFD是首个针对多轮、全双工设置的现实世界中用于中文医疗ASR语料库。
- 数据集捕获自部署的AI助理,包含丰富多样的医疗对话场景。
- 引入模型无关的管道,用于流式分割、说话人归属和对话记忆处理。
- 对ASR系统评估包括词错误率、字符错误率和概念级准确度。
- 采用LLM生成的响应进行评估,确保系统的实际应用效果。
- MMedFD提供了可复制的基准测试框架,便于医疗部署中的流式ASR和端到端双工代理的评估。
- 数据集及相关资源已公开,便于研究和应用。
点此查看论文截图




Selective Classifier-free Guidance for Zero-shot Text-to-speech
Authors:John Zheng, Farhad Maleki
In zero-shot text-to-speech, achieving a balance between fidelity to the target speaker and adherence to text content remains a challenge. While classifier-free guidance (CFG) strategies have shown promising results in image generation, their application to speech synthesis are underexplored. Separating the conditions used for CFG enables trade-offs between different desired characteristics in speech synthesis. In this paper, we evaluate the adaptability of CFG strategies originally developed for image generation to speech synthesis and extend separated-condition CFG approaches for this domain. Our results show that CFG strategies effective in image generation generally fail to improve speech synthesis. We also find that we can improve speaker similarity while limiting degradation of text adherence by applying standard CFG during early timesteps and switching to selective CFG only in later timesteps. Surprisingly, we observe that the effectiveness of a selective CFG strategy is highly text-representation dependent, as differences between the two languages of English and Mandarin can lead to different results even with the same model.
在零样本文本到语音的任务中,如何在忠实于目标说话人和遵循文本内容之间取得平衡仍然是一个挑战。虽然无分类器引导(CFG)策略在图像生成中取得了有前景的结果,但它们在语音合成中的应用却被探索得很少。为CFG使用的条件分离能够实现语音合成中不同期望特征之间的权衡。在本文中,我们评估了原本为图像生成而开发的CFG策略的适应性,并将其扩展到语音合成领域。我们的结果表明,在图像生成中有效的CFG策略通常无法改善语音合成。我们还发现,通过在早期时间步长应用标准CFG,并在后期时间步长仅选择CFG,我们可以提高说话人相似性,同时限制文本贴合度的降低。令人惊讶的是,我们观察到选择性CFG策略的有效性高度依赖于文本表示,因为英语和普通话两种语言之间的差异即使在同一模型下也会导致不同的结果。
论文及项目相关链接
PDF 5 pages, 7 figures, 1 table. Submitted to ICASSP 2026
Summary
文本探讨了零样本文本到语音转换中的挑战,特别是如何在保持目标说话人保真度的同时遵循文本内容的问题。虽然无分类器引导策略在图像生成中表现出有前景的结果,但其在语音合成中的应用仍被忽视。本研究评估了原本为图像生成设计的无分类器引导策略的适应性,并扩展了针对语音合成领域的分离条件无分类器引导方法。研究结果显示,在图像生成中有效的无分类器引导策略通常无法改善语音合成。同时发现,通过在早期时间步应用标准无分类器引导,并在后期时间步仅选择性地应用该策略,可以在提高说话人相似性的同时限制文本粘附性的降低。有趣的是,选择性无分类器引导策略的有效性高度依赖于文本表示,因为英语和普通话两种语言的差异会导致即使使用相同模型也会产生不同的结果。
Key Takeaways
- 零样本文本到语音转换中保持目标说话人保真度和遵循文本内容的平衡是一个挑战。
- 无分类器引导策略在图像生成中有前景,但在语音合成中的应用尚未得到充分探索。
- 分离条件的无分类器引导方法可以提高语音合成的性能。
- 在语音合成中,无分类器引导策略并不总是有效,需要适应性地应用。
- 通过在早期和后期时间步采用不同的无分类器引导策略,可以在提高说话人相似性的同时保持文本粘附性。
- 文本表示对无分类器引导策略的有效性有重要影响,不同语言可能导致不同结果。
点此查看论文截图





Advancing Speech Summarization in Multi-modal LLMs with Reinforcement Learning
Authors:Shaoshi Ling, Gang Liu, Guoli Ye, Jinyu Li
Speech summarization is a critical component of spoken content understanding, particularly in the era of rapidly growing spoken and audiovisual data. Recent advances in multi-modal large language models (MLLMs), leveraging the power of LLMs, enable generating textual summaries directly from speech without intermediate transcriptions, while supporting controllable styles and zero-shot generalization. However, open-source MLLMs continue to lag behind the state-of-the-art text-based LLMs, limiting their practical deployment for speech summarization. In this work, we present a novel multi-stage reinforcement learning training framework to enhance the speech summarization capabilities in MLLMs. Our model delivers substantial improvements over strong baselines, outperforms much larger MLLMs, and significantly narrows the gap with state-of-the-art text-based LLMs.
语音识别摘要(Speech summarization)是口语内容理解的重要组成部分,特别是在口语和视听数据快速增长的时代。近期利用大型语言模型(LLMs)的多模态大型语言模型(MLLMs)的进步,能够直接从语音生成文本摘要,无需中间转录过程,同时支持可控风格和零样本泛化。然而,开源的MLLMs仍然落后于最新的基于文本的大型语言模型,限制了它们在语音摘要中的实际应用。在这项研究中,我们提出了一种新型的多阶段强化学习训练框架,旨在提高MLLMs的语音摘要能力。我们的模型在强大的基线模型上取得了实质性改进,优于更大的MLLMs,并显著缩小了与最新基于文本的LLMs的差距。
论文及项目相关链接
Summary
语音摘要是对口语内容理解的核心组成部分,尤其在口语和视听数据迅速增长的时重要代。多模态大型语言模型(MLLMs)能够直接从语音生成文本摘要,支持可控风格和零样本泛化。然而,开源MLLMs相较于最先进的文本基础LLLM仍显落后。本研究提出一种新型的多阶段强化学习训练框架,以提高MLLMs的语音摘要能力,模型相较于强大基线有显著改善,超越规模更大的MLLMs,并显著缩小与文本基础LLLM的差距。
Key Takeaways
- 语音摘要是口语内容理解的重要组成部分。
- 多模态大型语言模型(MLLMs)可以直接从语音生成文本摘要。
- MLLMs在语音摘要方面相较于文本基础LLMs仍有差距。
- 本研究提出了一种多阶段强化学习训练框架来提高MLLMs的语音摘要能力。
- 模型表现超越了一些强大的基线以及规模更大的MLLMs。
- 该模型显著缩小了与文本基础LLLM的差距。
点此查看论文截图





HD-PPT: Hierarchical Decoding of Content- and Prompt-Preference Tokens for Instruction-based TTS
Authors:Sihang Nie, Xiaofen Xing, Jingyuan Xing, Baiji Liu, Xiangmin Xu
Large Language Model (LLM)-based Text-to-Speech (TTS) models have already reached a high degree of naturalness. However, the precision control of TTS inference is still challenging. Although instruction-based Text-to-Speech (Instruct-TTS) models are proposed, these models still lack fine-grained control due to the modality gap between single-level text instructions and multilevel speech tokens. To address this limitation, we propose HD-PPT, a framework that transforms speech synthesis into a structured, hierarchical task. To enable fine-grained control, we introduce a novel speech codec to extract distinct prompt-preference and content-preference tokens from the complex speech tokens, supervised by automatic speech recognition (ASR) and cross-lingual audio-text pre-training (CLAP) objectives. To bridge the modality gap of these tokens, we propose a hierarchical decoding strategy, where the LLM generates tokens in a structured order: first semantic, then fine-grained style, and finally complete acoustic representation. Extensive experiments demonstrate that this hierarchical paradigm significantly improves instruction adherence and achieves state-of-the-art naturalness, validating our approach for precise and controllable speech synthesis. Audio samples are available at https://xxh333.github.io/.
基于大语言模型(LLM)的文本到语音(TTS)模型已经达到了很高的自然度。然而,TTS推理的精确控制仍然具有挑战性。虽然提出了基于指令的文本到语音(Instruct-TTS)模型,但这些模型仍然缺乏精细控制,原因是单一层次的文本指令和多层次语音令牌之间的模态差距。为了解决这一限制,我们提出了HD-PPT框架,将语音合成转化为一个结构化、分层的任务。为了实现精细控制,我们引入了一种新的语音编解码器,从复杂的语音令牌中提取出不同的提示偏好和内容偏好令牌,由自动语音识别(ASR)和跨语言音频文本预训练(CLAP)目标进行监督。为了弥合这些令牌的模态差距,我们提出了一种分层解码策略,LLM以结构化顺序生成令牌:首先是语义,然后是精细风格,最后是完整的声学表示。大量实验表明,这种分层范式显著提高了指令遵循能力,并实现了最先进的自然度,验证了我们方法在精确可控语音合成方面的有效性。音频样本可在链接找到。
论文及项目相关链接
PDF 5 pages, 2 figures, submitted to ICASSP2026
Summary
基于大语言模型(LLM)的文本到语音(TTS)模型已具备高度自然度,但TTS推理的精准控制仍具挑战。为缩小指令与多级语音标记间的模态差距,本文提出HD-PPT框架,将语音合成转化为结构化、层次化任务。通过引入新型语音编解码器,从复杂语音标记中提取不同的提示偏好和内容偏好标记,并借助自动语音识别(ASR)和跨语言音频文本预训练(CLAP)目标进行监督。为弥合这些标记的模态差距,本文采取层次解码策略,让LLM按结构化顺序生成标记:首先是语义,然后是精细风格,最后是完整的声音表达。实验证明,这种层次化范式显著提高了指令遵循度,并实现了业界领先的自然度,验证了我们在精准可控语音合成方面的方法。
Key Takeaways
- LLM-based TTS模型已具备高自然度,但推理控制仍存在挑战。
- 指令式TTS模型因模态差距限制了精细控制。
- HD-PPT框架将语音合成转化为结构化、层次化任务来解决模态差距问题。
- 引入新型语音编解码器,从复杂语音标记中提取不同的提示和内容偏好标记。
- 通过ASR和CLAP目标进行监督以改善模型性能。
- 采取层次解码策略,按语义、风格和声音表达的顺序生成标记。
- 实验证明该层次化范式提高指令遵循度并达到业界领先自然度。
点此查看论文截图



Generalizability of Predictive and Generative Speech Enhancement Models to Pathological Speakers
Authors:Mingchi Hou, Ante Jukic, Ina Kodrasi
State of the art speech enhancement (SE) models achieve strong performance on neurotypical speech, but their effectiveness is substantially reduced for pathological speech. In this paper, we investigate strategies to address this gap for both predictive and generative SE models, including i) training models from scratch using pathological data, ii) finetuning models pretrained on neurotypical speech with additional data from pathological speakers, and iii) speaker specific personalization using only data from the individual pathological test speaker. Our results show that, despite the limited size of pathological speech datasets, SE models can be successfully trained or finetuned on such data. Finetuning models with data from several pathological speakers yields the largest performance improvements, while speaker specific personalization is less effective, likely due to the small amount of data available per speaker. These findings highlight the challenges and potential strategies for improving SE performance for pathological speakers.
前沿的语音增强(SE)模型在神经典型语音上表现强劲,但其在病理性语音上的效果却大大降低。在本文中,我们针对预测性和生成性SE模型,探讨了解决这一差距的策略,包括一)使用病理性数据从头开始训练模型,二)使用来自病理性说话者的附加数据对神经典型语音上预训练的模型进行微调,以及三)仅使用来自个别病理性测试说话者的数据进行特定说话者个性化。我们的结果表明,尽管病理性语音数据集的大小有限,但SE模型可以在这些数据上进行成功训练或微调。使用来自多个病理性说话者的数据微调模型会带来最大的性能提升,而特定说话者个性化则效果较小,这可能是由于每个说话者的数据量较小所致。这些发现突出了改善病理性说话者SE性能的挑战和潜在策略。
论文及项目相关链接
Summary
这篇论文针对当前先进的语音增强模型在处理病理性语音时的性能下降问题进行了深入研究。文章探讨了针对预测型和生成型语音增强模型的改进策略,包括使用病理性数据从头开始训练模型、使用神经典型语音预训练模型进行微调以及仅使用个体病理性测试说话者的数据进行个性化设置。研究结果表明,尽管病理性语音数据集规模有限,但语音增强模型仍可在这些数据上进行成功训练或微调。使用多个病理性说话者的数据进行微调能带来最大的性能提升,而针对个别说话者的个性化设置效果较小,这可能是由于每个说话者的数据量较小。这些发现突出了提高病理性说话者语音增强性能的挑战和潜在策略。
Key Takeaways
- 当前先进的语音增强模型在处理病理性语音时性能下降。
- 论文探讨了针对预测型和生成型语音增强模型的改进策略,包括使用病理性数据训练新模型、微调预训练模型和个性化设置。
- 使用多个病理性说话者的数据进行微调能显著提高语音增强模型的性能。
- 相对于大规模数据,个性化设置因数据量较小而效果有限。
- 挑战在于病理性语音数据集规模有限。
- 研究结果强调了提高针对病理性说话者的语音增强性能的重要性和潜在策略。
点此查看论文截图




Influence of Clean Speech Characteristics on Speech Enhancement Performance
Authors:Mingchi Hou, Ina Kodrasi
Speech enhancement (SE) performance is known to depend on noise characteristics and signal to noise ratio (SNR), yet intrinsic properties of the clean speech signal itself remain an underexplored factor. In this work, we systematically analyze how clean speech characteristics influence enhancement difficulty across multiple state of the art SE models, languages, and noise conditions. We extract a set of pitch, formant, loudness, and spectral flux features from clean speech and compute correlations with objective SE metrics, including frequency weighted segmental SNR and PESQ. Our results show that formant amplitudes are consistently predictive of SE performance, with higher and more stable formants leading to larger enhancement gains. We further demonstrate that performance varies substantially even within a single speaker’s utterances, highlighting the importance of intraspeaker acoustic variability. These findings provide new insights into SE challenges, suggesting that intrinsic speech characteristics should be considered when designing datasets, evaluation protocols, and enhancement models.
语音增强的性能已知依赖于噪声特性和信噪比(SNR),但清洁语音信号本身的固有属性仍然是一个被忽略的因素。在这项工作中,我们系统地分析了清洁语音特征如何影响多个前沿语音增强模型、语言和噪声条件下的增强难度。我们从清洁语音中提取了音高、共振峰、响度和谱流特征,并计算了与客观语音增强指标的相关性,包括频率加权分段SNR和PESQ。我们的结果表明,共振峰幅度始终与语音增强性能相关,较高的共振峰幅度和更稳定的共振峰会带来更大的增强增益。我们进一步证明,即使在单个说话人的话语中,性能也有很大差异,这凸显了说话人内部声学变化的重要性。这些发现对语音增强挑战提供了新的见解,建议在设计数据集、评估协议和增强模型时考虑内在语音特征。
论文及项目相关链接
Summary
本文研究了干净语音特性对多种先进的语音增强模型性能的影响,涉及不同语言和噪声条件。通过提取干净语音的音调、共振峰、响度和频谱波动特征,与客观语音增强指标(如频率加权分段信噪比和PESQ)进行相关性分析。结果显示,共振峰幅度能预测语音增强性能,具有较高且稳定的共振峰能带来更大的增强效果。此外,即使在单个说话人的发音内,性能也存在显著变化,凸显出说话人内部声音变化的重要性。这些发现为设计数据集、评估协议和增强模型时考虑内在语音特性提供了新的见解。
Key Takeaways
- 干净语音特性对语音增强模型性能的影响被系统性地分析。
- 研究涉及多种先进的语音增强模型、语言和噪声条件。
- 通过提取干净语音的特征(如音调、共振峰、响度和频谱波动)与客观语音增强指标进行相关性分析。
- 共振峰幅度能预测语音增强性能。
- 具有较高且稳定的共振峰能带来更大的语音增强效果。
- 说话人内部的声音变化对语音增强性能有显著影响。
点此查看论文截图





Towards Evaluating Generative Audio: Insights from Neural Audio Codec Embedding Distances
Authors:Arijit Biswas, Lars Villemoes
Neural audio codecs (NACs) achieve low-bitrate compression by learning compact audio representations, which can also serve as features for perceptual quality evaluation. We introduce DACe, an enhanced, higher-fidelity version of the Descript Audio Codec (DAC), trained on diverse real and synthetic tonal data with balanced sampling. We systematically compare Fr'echet Audio Distance (FAD) and Maximum Mean Discrepancy (MMD) on MUSHRA tests across speech, music, and mixed content. FAD consistently outperforms MMD, and embeddings from higher-fidelity NACs (such as DACe) show stronger correlations with human judgments. While CLAP LAION Music (CLAP-M) and OpenL3 Mel128 (OpenL3-128M) embeddings achieve higher correlations, NAC embeddings provide a practical zero-shot approach to audio quality assessment, requiring only unencoded audio for training. These results demonstrate the dual utility of NACs for compression and perceptually informed audio evaluation.
神经音频编解码器(NACs)通过学习紧凑的音频表示来实现低比特率压缩,这些表示也可以作为感知质量评估的特征。我们介绍了DACe,这是增强型高保真版本的描述音频编解码器(DAC),在均衡采样的多样真实和合成音调数据上进行训练。我们在语音、音乐和混合内容上的MUSHRA测试中对Fr’echet音频距离(FAD)和最大均值差异(MMD)进行了系统比较。FAD持续优于MMD,并且来自高保真NAC(如DACe)的嵌入与人的判断表现出更强的相关性。虽然CLAP LAION音乐(CLAP-M)和OpenL3 Mel128(OpenL3-128M)嵌入实现了更高的相关性,但NAC嵌入提供了一种实用的零样本音频质量评估方法,仅需要未编码的音频进行训练。这些结果证明了NACs在压缩和感知驱动的音频评估中的双重实用性。
论文及项目相关链接
PDF Pre-review version submitted to ICASSP 2026
Summary
神经网络音频编码(NAC)通过学习紧凑的音频表示来实现低比特率压缩,这种表示也可以作为感知质量评估的特征。本文介绍了DACe,它是描述音频编码(DAC)的一个增强版,能够在多样化和平衡的真实和合成音调数据上进行训练。通过系统地比较Fréchet音频距离(FAD)和最大均值差异(MMD)在语音、音乐和混合内容上的MUSHRA测试,发现FAD始终优于MMD。高保真NAC(如DACe)的嵌入与人类判断表现出更强的相关性。虽然CLAP LAION音乐(CLAP-M)和OpenL3 Mel128(OpenL3-128M)嵌入具有更高的相关性,但NAC嵌入为音频质量评估提供了一个实用的无样本方法,只需要未编码的音频即可进行训练。这些结果证明了NACs在压缩和感知驱动的音频评估中的双重效用。
Key Takeaways
- 神经网络音频编码(NAC)结合了音频压缩和感知质量评估功能。
- DACe作为描述音频编码(DAC)的增强版本,训练时涉及多样化且平衡的真实和合成音调数据。
- Fréchet音频距离(FAD)在语音、音乐和混合内容的MUSHRA测试中表现优于最大均值差异(MMD)。
- 高保真NAC的嵌入与人类对音频质量的判断高度相关。
- CLAP LAION音乐(CLAP-M)和OpenL3 Mel128嵌入虽具有较高相关性,但NAC嵌入提供了一种零样本音频质量评估方法。
- NACs既可用于音频压缩,也可用于感知驱动的音频评估。
点此查看论文截图




Group Relative Policy Optimization for Text-to-Speech with Large Language Models
Authors:Chang Liu, Ya-Jun Hu, Ying-Ying Gao, Shi-Lei Zhang, Zhen-Hua Ling
This paper proposes a GRPO-based approach to enhance the performance of large language model (LLM)-based text-to-speech (TTS) models by deriving rewards from an off-the-shelf automatic speech recognition (ASR) model. Compared to previous reinforcement learning methods for LLM-based TTS, our method requires no dedicated model for reward computation or training. Moreover, we design a composite reward function that combines character error rate (CER) with negative log-likelihood (NLL) obtained from the ASR model, providing more informative and accurate reward signals. We apply GRPO fine-tuning to pre-trained LLM-based TTS models and evaluate their zero-shot TTS performance. Experimental results show that the proposed method substantially improves both the intelligibility and naturalness of synthesized speech. Ablation studies and further analyses confirm the effectiveness of integrating the two reward components.
本文提出了一种基于GRPO的方法,通过利用现成的自动语音识别(ASR)模型得到的奖励来提高基于大型语言模型(LLM)的文本到语音(TTS)模型的性能。与以前用于LLM-based TTS的强化学习方法相比,我们的方法不需要用于计算奖励或训练的专用模型。此外,我们设计了一个组合奖励函数,将字符错误率(CER)与从ASR模型获得的负对数似然值(NLL)相结合,以提供更准确且信息丰富的奖励信号。我们将GRPO微调应用于基于预训练LLM的TTS模型,并评估其零样本TTS性能。实验结果表明,该方法显著提高了合成语音的可理解性和自然度。消融研究和进一步的分析证实了整合两种奖励成分的有效性。
论文及项目相关链接
PDF 5 pages,submitted to ICASSP2026
摘要
本论文提出了一种基于GRPO的方法,通过利用现成的语音识别(ASR)模型来计算奖励,以提高大语言模型(LLM)为基础的文本到语音(TTS)模型的性能。与之前用于LLM-based TTS的强化学习方法相比,我们的方法无需专门的奖励计算或训练模型。此外,我们设计了一个组合奖励函数,将字符错误率(CER)与从ASR模型获得的负对数似然值(NLL)相结合,以提供更准确和更丰富的奖励信号。我们对预训练的LLM-based TTS模型应用GRPO微调技术,并评估其零样本TTS性能。实验结果表明,该方法可显著提高合成语音的清晰度和自然度。消融研究和进一步的分析证实了整合这两种奖励成分的有效性。
关键见解
- 提出了一种基于GRPO的方法,利用现成的语音识别(ASR)模型来提高文本到语音(TTS)模型的性能。
- 无需专门的奖励计算或训练模型,简化了强化学习过程。
- 设计了一个组合奖励函数,结合了字符错误率(CER)和负对数似然值(NLL),以提供更准确的奖励信号。
- 通过GRPO微调技术应用于预训练的TTS模型,提升了零样本TTS性能。
- 实验结果表明,该方法能提高合成语音的清晰度和自然度。
- 消融研究证实了整合奖励成分的有效性。
点此查看论文截图




M4SER: Multimodal, Multirepresentation, Multitask, and Multistrategy Learning for Speech Emotion Recognition
Authors:Jiajun He, Xiaohan Shi, Cheng-Hung Hu, Jinyi Mi, Xingfeng Li, Tomoki Toda
Multimodal speech emotion recognition (SER) has emerged as pivotal for improving human-machine interaction. Researchers are increasingly leveraging both speech and textual information obtained through automatic speech recognition (ASR) to comprehensively recognize emotional states from speakers. Although this approach reduces reliance on human-annotated text data, ASR errors possibly degrade emotion recognition performance. To address this challenge, in our previous work, we introduced two auxiliary tasks, namely, ASR error detection and ASR error correction, and we proposed a novel multimodal fusion (MF) method for learning modality-specific and modality-invariant representations across different modalities. Building on this foundation, in this paper, we introduce two additional training strategies. First, we propose an adversarial network to enhance the diversity of modality-specific representations. Second, we introduce a label-based contrastive learning strategy to better capture emotional features. We refer to our proposed method as M4SER and validate its superiority over state-of-the-art methods through extensive experiments using IEMOCAP and MELD datasets.
多模态语音情感识别(SER)对于改善人机交互至关重要。研究人员越来越多地利用通过自动语音识别(ASR)获得的语音和文本信息,以全面识别说话人的情感状态。虽然这种方法减少了对人类注释文本数据的依赖,但ASR错误可能会降低情感识别的性能。为了应对这一挑战,在我们之前的工作中,我们引入了两个辅助任务,即ASR错误检测和ASR错误校正,并提出了一种新的多模态融合(MF)方法,用于学习不同模态的模态特定和模态不变表示。在此基础上,本文介绍了两种额外的训练策略。首先,我们提出了一种对抗网络,以增强模态特定表示的多样性。其次,我们引入了一种基于标签的对比学习策略,以更好地捕捉情感特征。我们将所提出的方法称为M4SER,并通过在IEMOCAP和MELD数据集上进行的大量实验验证了其优于最新技术方法。
论文及项目相关链接
PDF Accepted by IEEE Transactions on Audio, Speech and Language Processing
Summary
本文介绍了多模态语音情感识别(SER)在改善人机交互中的重要作用。研究人员越来越多地利用语音和通过自动语音识别(ASR)获得的文本信息,以全面识别说话者的情感状态。针对ASR误差可能降低情感识别性能的问题,本文引入两种额外的训练策略:一是采用对抗网络增强模态特定表示的多样性;二是引入基于标签的对比学习策略以更好地捕捉情感特征。所提出的M4SER方法通过IEMOCAP和MELD数据集的广泛实验验证了其优越性。
Key Takeaways
- 多模态语音情感识别对改善人机交互至关重要。
- ASR误差可能影响情感识别的准确性。
点此查看论文截图



