TTS

发布日期: 2025-01-31

更新日期: 2025-02-12

文章字数: 968

阅读时长: 3 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-01-31 更新

Compact Neural TTS Voices for Accessibility

Authors:Kunal Jain, Eoin Murphy, Deepanshu Gupta, Jonathan Dyke, Saumya Shah, Vasilieios Tsiaras, Petko Petkov, Alistair Conkie

Contemporary text-to-speech solutions for accessibility applications can typically be classified into two categories: (i) device-based statistical parametric speech synthesis (SPSS) or unit selection (USEL) and (ii) cloud-based neural TTS. SPSS and USEL offer low latency and low disk footprint at the expense of naturalness and audio quality. Cloud-based neural TTS systems provide significantly better audio quality and naturalness but regress in terms of latency and responsiveness, rendering these impractical for real-world applications. More recently, neural TTS models were made deployable to run on handheld devices. Nevertheless, latency remains higher than SPSS and USEL, while disk footprint prohibits pre-installation for multiple voices at once. In this work, we describe a high-quality compact neural TTS system achieving latency on the order of 15 ms with low disk footprint. The proposed solution is capable of running on low-power devices.

当代的文本转语音解决方案通常可分为两类：（i）基于设备的统计参数语音合成（SPSS）或单元选择（USEL），以及（ii）基于云的神经过文本转语音合成（TTS）。SPSS和USEL以自然度和音频质量为代价，实现了低延迟和低磁盘占用空间。基于云的神经过TTS系统虽然提供了显著的音频质量和自然度，但在延迟和响应性方面表现不佳，使得它们在现实世界的实际应用中并不实用。最近，神经过TTS模型已被部署在手持设备上运行。然而，其延迟仍然高于SPSS和USEL，同时磁盘占用空间不允许一次性预安装多种声音。在这项工作中，我们描述了一种高质量紧凑的神经过TTS系统，延迟时间达到15毫秒左右，同时磁盘占用空间较小。所提出的解决方案能够在低功耗设备上运行。

论文及项目相关链接

PDF Accepted at ICASSP 2025

摘要

当代文本到语音解决方案主要用于无障碍应用，可分为两类：设备端的统计参数语音合成（SPSS）或单元选择（USEL）和云端的神经TTS。SPSS和USEL具有低延迟和较小的磁盘占用空间，但在自然度和音质上有所欠缺。云端神经TTS系统在音质和自然度上表现更优，但在延迟和响应性上表现较差，不适用于现实世界应用。最近，已有可在手持设备上运行的神经TTS模型。然而，其延迟仍高于SPSS和USEL，且磁盘占用空间较大，无法同时预装多种声音。在此研究中，我们描述了一种高质量、紧凑的神经TTS系统，延迟低至15毫秒，磁盘占用空间较小，能在低功耗设备上运行。

关键见解

当代文本到语音解决方案分为设备端和云端两种类型。
SPSS和USEL具有低延迟和小磁盘占用空间，但自然度和音质较低。
云端神经TTS在音质和自然度上表现更好，但在延迟和响应方面存在问题。
已有可在手持设备上运行的神经TTS模型，但延迟和磁盘占用空间仍需改进。
研究提出了一种新的神经TTS系统，具有高质量、紧凑、低延迟的特点。
该系统延迟低至15毫秒，能在低功耗设备上运行。
这一新系统为文本到语音转换领域带来了新的可能性，有助于推动无障碍应用的进一步发展。

Cool Papers

点此查看论文截图

Kedreamix

https://kedreamix.github.io/Talk2Paper/Paper/2025-01-31/TTS/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !

TTS

Interactive

Interactive 方向最新论文已更新，请持续关注 Update in 2025-01-31 Better Slow than Sorry Introducing Positive Friction for Reliable Dialogue Systems

2025-01-31 Interactive

Interactive

医学图像

医学图像方向最新论文已更新，请持续关注 Update in 2025-01-31 VICCA Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback

2025-01-31 医学图像

医学图像