⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-02-28 更新
Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis
Authors:Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces \textit{S-DiT}, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to S-DiT to reduce the difficulty of alignment learning without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that S-DiT achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.
虽然最近的零样本文本到语音(TTS)模型已经显著提高了语音质量和表达力,但主流系统仍然面临与语音文本对齐建模相关的问题:1)没有明确的语音文本对齐建模的模型表现出较低的稳健性,尤其是在实际应用中的难句;2)基于预定义对齐的模型受到强制对齐的自然性约束。本文介绍了S-DiT,一个具有创新稀疏对齐算法的TTS系统,该系统引导潜在扩散变压器(DiT)。具体来说,我们为S-DiT提供稀疏对齐边界,以减少对齐学习的难度,同时不限制搜索空间,从而实现高自然度。此外,我们采用多条件无分类指导策略进行口音强度调整,并采用分段整流流技术加速生成过程。实验表明,S-DiT达到了最先进的零样本TTS语音质量,并对口音强度实现了高度灵活的控制。值得注意的是,我们的系统可以在仅8个采样步骤内生成高质量的一分钟语音。音频样本可在https://sditdemo.github.io/sditdemo/找到。
论文及项目相关链接
Summary
文本介绍了一种新型的零样本文本到语音转换(TTS)系统S-DiT。该系统采用创新的稀疏对齐算法,指导潜在扩散转换器(DiT)进行语音和文本的自动对齐,以提高语音质量和自然度。此外,它还采用多条件无分类引导策略进行口音强度调整,并使用分段整流流技术加快生成过程。实验证明,S-DiT具有领先的零样本TTS语音质量,并支持高度灵活的口音强度控制。
Key Takeaways
- S-DiT是一种新型的零样本文本到语音转换(TTS)系统。
- S-DiT采用稀疏对齐算法,提高了语音质量和自然度。
- 该系统解决了主流TTS系统中存在的语音和文本对齐问题。
- S-DiT具有多条件无分类引导策略进行口音强度调整。
- 分段整流流技术用于加速语音生成过程。
- 实验证明S-DiT具有领先的语音质量,并支持高度灵活的口音强度控制。
点此查看论文截图




CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition
Authors:Jiaming Zhou, Yujie Guo, Shiwan Zhao, Haoqin Sun, Hui Wang, Jiabei He, Aobo Kong, Shiyao Wang, Xi Yang, Yequan Wang, Yonghua Lin, Yong Qin
Code-switching (CS), the alternation between two or more languages within a single conversation, presents significant challenges for automatic speech recognition (ASR) systems. Existing Mandarin-English code-switching datasets often suffer from limitations in size, spontaneity, and the lack of full-length dialogue recordings with transcriptions, hindering the development of robust ASR models for real-world conversational scenarios. This paper introduces CS-Dialogue, a novel large-scale Mandarin-English code-switching speech dataset comprising 104 hours of spontaneous conversations from 200 speakers. Unlike previous datasets, CS-Dialogue provides full-length dialogue recordings with complete transcriptions, capturing naturalistic code-switching patterns in continuous speech. We describe the data collection and annotation processes, present detailed statistics of the dataset, and establish benchmark ASR performance using state-of-the-art models. Our experiments, using Transformer, Conformer, and Branchformer, demonstrate the challenges of code-switching ASR, and show that existing pre-trained models such as Whisper still have the space to improve. The CS-Dialogue dataset will be made freely available for all academic purposes.
语言转换(CS)是指在单次对话中切换使用两种或多种语言,这给自动语音识别(ASR)系统带来了重大挑战。现有的普通话-英语转换数据集往往存在规模有限、缺乏自发性以及缺少全程对话录音和转录等问题,这阻碍了为现实对话场景开发稳健的ASR模型。本文介绍了CS-Dialogue,这是一个新的大规模普通话-英语转换语音数据集,包含来自200名发言人的104小时自然对话录音。与以前的数据集不同,CS-Dialogue提供了带有完整转录的全程对话录音,捕捉连续语音中的自然语言转换模式。我们描述了数据收集和注释过程,提供了数据集的详细统计信息,并使用最新模型建立了基准ASR性能。我们的实验使用了Transformer、Conformer和Branchformer,展示了语言转换ASR的挑战性,并表明现有的预训练模型如Whisper仍有改进空间。CS-Dialogue数据集将免费提供给所有学术用途。
论文及项目相关链接
Summary
本文主要介绍了CS-Dialogue数据集,这是一个大规模的、包含中英文切换的语音数据集,包含来自200名发言人的104小时自然对话录音和完整转录。该数据集解决了之前中英文切换数据集大小有限、缺乏自发性、没有完整对话录音和转录的问题。此外,本文还描述了数据收集和注释过程,提供了数据集的详细统计信息,并使用最先进的模型建立了ASR性能基准。
Key Takeaways
- CS-Dialogue是一个大规模的中英文切换语音数据集,包含104小时的自然对话录音和完整转录。
- 数据集解决了之前中英文切换数据集大小有限、缺乏自发性、没有完整对话录音的问题。
- 数据集可以用于学术目的并免费提供。
- 数据收集和注释过程被详细描述。
- 该数据集有助于建立ASR性能基准,使用最先进的模型如Transformer、Conformer和Branchformer。
- 实验表明,现有的预训练模型如Whisper在代码切换ASR方面仍有改进空间。
点此查看论文截图






Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper’s Encoder for Efficient Parameter Reduction in Automated Assessment
Authors:Huma Ameer, Seemab Latif, Mehwish Fatima
The automated classification of stuttered speech has significant implications for timely assessments providing assistance to speech language pathologists. Despite notable advancements in the field, the cases in which multiple disfluencies occur in speech require attention. We have taken a progressive approach to fill this gap by classifying multi-stuttered speech more efficiently. The problem has been addressed by firstly curating a dataset of multi-stuttered disfluencies from open source dataset SEP-28k audio clips. Secondly, employing Whisper, a state-of-the-art speech recognition model has been leveraged by using its encoder and taking the problem as multi label classification. Thirdly, using a 6 encoder layer Whisper and experimenting with various layer freezing strategies, a computationally efficient configuration of the model was identified. The proposed configuration achieved micro, macro, and weighted F1-scores of 0.88, 0.85, and 0.87, correspondingly on an external test dataset i.e. Fluency-Bank. In addition, through layer freezing strategies, we were able to achieve the aforementioned results by fine-tuning a single encoder layer, consequently, reducing the model’s trainable parameters from 20.27 million to 3.29 million. This research study unveils the contribution of the last encoder layer in the identification of disfluencies in stuttered speech. Consequently, it has led to a computationally efficient approach, 83.7% less parameters to train, making the proposed approach more adaptable for various dialects and languages.
对于失语病理专家而言,及时评估与提供帮助是流畅性的语病分类拥有重大价值的关键时刻所具有的普遍特征。尽管该领域取得了显著的进步,但那些存在多重语病的情况仍然需要关注。我们通过采用一种渐进的方法来解决这一问题,更加高效地实现对多次口语流利性的语病进行分类的目的。针对这一问题我们进行了专门解决,具体来说我们首先将从SEP-28k音频剪辑中公开来源的数据集中挑选出多次口语流利性的语病数据集;其次,我们采用了最先进的语音识别模型Whisper,将其编码器用于多标签分类问题;再次,通过采用具有六个编码器层的Whisper模型并尝试各种冻结层策略的实验,我们确定了模型的一个计算效率高的配置方案。该配置方案在外部测试数据集即流利银行上取得了相应的微观、宏观和加权F1分数分别为0.88、0.85和0.87的相应结果。此外,通过冻结层策略,我们能够仅通过微调单个编码器层来实现上述结果,从而将模型的训练参数从原来的两千零二十七万减少到三百二十九万。这项研究揭示了最后一个编码器层在识别口语流利性的语病方面的贡献,从而导致了一种计算效率较高的方法。最终显著降低了需要训练的参数数量,达到了八成以上减少,使得该提议的方法更加适应各种不同的方言和语言的未来适配场景实现全面加持适应所有语言文字的可取性或跨域实践扩展可能最终进一步提高口译译出的文章理解的完整性!尽管让设计精度也变得举足轻重也是性能强劲的模型!
论文及项目相关链接
摘要
该研究针对口吃语音的自动化分类,有助于提高语音语言病理学家及时评估并为其提供援助的效率。通过采集多口吃语音数据集、利用先进的语音识别模型和改进模型配置,该研究填补了多口吃语音分类的空白。利用开放数据集SEP-28k音频剪辑构建数据集,并采用whisper这一先进语音识别模型进行多标签分类。通过冻结不同层级的策略,最终确定了一个计算效率高的模型配置,在外部测试集Fluency-Bank上实现了微观、宏观和加权F1分数分别为0.88、0.85和0.87的成绩。通过冻结层级策略,只需微调单一编码器层就能达到上述效果,将模型可训练参数从2027万减少到329万。这项研究发现最后一个编码器层在识别口吃语音中的障碍方面起着重要作用,提供了一种计算效率高的方法,训练参数减少了83.7%,适用于各种方言和语言。
关键见解
- 研究涉及口吃语音的自动化分类,对语音语言病理学家提供及时的评估援助具有显著影响。
- 通过采集多口吃语音数据集和采用先进语音识别模型,填补了相关领域的空白。
- 利用开放数据集SEP-28k音频剪辑构建数据集,并采用whisper模型进行多标签分类。
- 通过实验确定了计算效率高的模型配置,实现了较高的F1分数。
- 通过冻结层级策略,减少了模型训练所需的参数数量,提高了模型的适应性。
- 研究发现最后一个编码器层在识别口吃语音中的障碍方面发挥重要作用。
点此查看论文截图





Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription
Authors:Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach
Many real-life applications of automatic speech recognition (ASR) require processing of overlapped speech. A common method involves first separating the speech into overlap-free streams on which ASR is performed. Recently, TF-GridNet has shown impressive performance in speech separation in real reverberant conditions. Furthermore, a mixture encoder was proposed that leverages the mixed speech to mitigate the effect of separation artifacts. In this work, we extended the mixture encoder from a static two-speaker scenario to a natural meeting context featuring an arbitrary number of speakers and varying degrees of overlap. We further demonstrate its limits by the integration with separators of varying strength including TF-GridNet. Our experiments result in a new state-of-the-art performance on LibriCSS using a single microphone. They show that TF-GridNet largely closes the gap between previous methods and oracle separation independent of mixture encoding. We further investigate the remaining potential for improvement.
自动语音识别(ASR)的许多实际应用都需要处理重叠语音。一种常见的方法是先将语音分离成无重叠的流,然后在其上进行ASR处理。最近,TF-GridNet在真实混响条件下的语音分离中表现出了令人印象深刻的效果。此外,还提出了一种混合编码器,它利用混合语音来减轻分离伪影的影响。在这项工作中,我们将混合编码器从静态的双说话人场景扩展到了具有任意说话人数和不同程度重叠的自然会议环境。我们通过与不同强度的分离器(包括TF-GridNet)的集成,进一步展示了其局限性。我们的实验在LibriCSS上取得了最新、最先进的性能,仅使用单个麦克风。实验表明,TF-GridNet在很大程度上缩小了之前方法和Oracle分离之间的差距,而无需依赖于混合编码。我们进一步探讨了改进的潜在可能性。
论文及项目相关链接
PDF Presented at SLT 2024
Summary:本文介绍了自动语音识别(ASR)在现实生活中的应用,特别是在处理重叠语音方面的应用。文章重点介绍了一种名为TF-GridNet的新技术,它在真实混响条件下的语音分离方面表现出卓越性能。此外,文章还提出了一种利用混合语音的混合编码器,以减轻分离伪影的影响。在此基础上,将混合编码器从静态双讲者场景扩展到具有任意发言人数和不同程度重叠的自然会议场景。通过集成不同强度的分离器,包括TF-GridNet,展示了其限制。实验结果表明,在LibriCSS上取得了最新性能,使用单个麦克风,TF-GridNet在很大程度上缩小了与之前方法和Oracle分离的差距,并探讨了进一步改进的潜力。
Key Takeaways:
- TF-GridNet技术在真实混响条件下的语音分离表现出卓越性能。
- 提出了一种混合编码器,利用混合语音以减轻分离伪影的影响。
- 将混合编码器扩展到自然会议场景,适应任意发言人数和不同程度重叠。
- 通过集成不同强度的分离器,包括TF-GridNet,进行实验并展示了其限制。
- 在LibriCSS上取得了最新性能,使用单个麦克风。
- TF-GridNet缩小了与之前方法的差距,在语音分离方面接近Oracle性能。
点此查看论文截图




