⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-01-31 更新
Compact Neural TTS Voices for Accessibility
Authors:Kunal Jain, Eoin Murphy, Deepanshu Gupta, Jonathan Dyke, Saumya Shah, Vasilieios Tsiaras, Petko Petkov, Alistair Conkie
Contemporary text-to-speech solutions for accessibility applications can typically be classified into two categories: (i) device-based statistical parametric speech synthesis (SPSS) or unit selection (USEL) and (ii) cloud-based neural TTS. SPSS and USEL offer low latency and low disk footprint at the expense of naturalness and audio quality. Cloud-based neural TTS systems provide significantly better audio quality and naturalness but regress in terms of latency and responsiveness, rendering these impractical for real-world applications. More recently, neural TTS models were made deployable to run on handheld devices. Nevertheless, latency remains higher than SPSS and USEL, while disk footprint prohibits pre-installation for multiple voices at once. In this work, we describe a high-quality compact neural TTS system achieving latency on the order of 15 ms with low disk footprint. The proposed solution is capable of running on low-power devices.
当代的文本转语音解决方案通常可分为两类:(i)基于设备的统计参数语音合成(SPSS)或单元选择(USEL),以及(ii)基于云的神经过文本转语音合成(TTS)。SPSS和USEL以自然度和音频质量为代价,实现了低延迟和低磁盘占用空间。基于云的神经过TTS系统虽然提供了显著的音频质量和自然度,但在延迟和响应性方面表现不佳,使得它们在现实世界的实际应用中并不实用。最近,神经过TTS模型已被部署在手持设备上运行。然而,其延迟仍然高于SPSS和USEL,同时磁盘占用空间不允许一次性预安装多种声音。在这项工作中,我们描述了一种高质量紧凑的神经过TTS系统,延迟时间达到15毫秒左右,同时磁盘占用空间较小。所提出的解决方案能够在低功耗设备上运行。
论文及项目相关链接
PDF Accepted at ICASSP 2025
摘要
当代文本到语音解决方案主要用于无障碍应用,可分为两类:设备端的统计参数语音合成(SPSS)或单元选择(USEL)和云端的神经TTS。SPSS和USEL具有低延迟和较小的磁盘占用空间,但在自然度和音质上有所欠缺。云端神经TTS系统在音质和自然度上表现更优,但在延迟和响应性上表现较差,不适用于现实世界应用。最近,已有可在手持设备上运行的神经TTS模型。然而,其延迟仍高于SPSS和USEL,且磁盘占用空间较大,无法同时预装多种声音。在此研究中,我们描述了一种高质量、紧凑的神经TTS系统,延迟低至15毫秒,磁盘占用空间较小,能在低功耗设备上运行。
关键见解
- 当代文本到语音解决方案分为设备端和云端两种类型。
- SPSS和USEL具有低延迟和小磁盘占用空间,但自然度和音质较低。
- 云端神经TTS在音质和自然度上表现更好,但在延迟和响应方面存在问题。
- 已有可在手持设备上运行的神经TTS模型,但延迟和磁盘占用空间仍需改进。
- 研究提出了一种新的神经TTS系统,具有高质量、紧凑、低延迟的特点。
- 该系统延迟低至15毫秒,能在低功耗设备上运行。
- 这一新系统为文本到语音转换领域带来了新的可能性,有助于推动无障碍应用的进一步发展。
点此查看论文截图





