嘘~ 正在从服务器偷取页面 . . .

TTS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-23 更新

ParaStyleTTS: Toward Efficient and Robust Paralinguistic Style Control for Expressive Text-to-Speech Generation

Authors:Haowei Lou, Hye-Young Paik, Wen Hu, Lina Yao

Controlling speaking style in text-to-speech (TTS) systems has become a growing focus in both academia and industry. While many existing approaches rely on reference audio to guide style generation, such methods are often impractical due to privacy concerns and limited accessibility. More recently, large language models (LLMs) have been used to control speaking style through natural language prompts; however, their high computational cost, lack of interpretability, and sensitivity to prompt phrasing limit their applicability in real-time and resource-constrained environments. In this work, we propose ParaStyleTTS, a lightweight and interpretable TTS framework that enables expressive style control from text prompts alone. ParaStyleTTS features a novel two-level style adaptation architecture that separates prosodic and paralinguistic speech style modeling. It allows fine-grained and robust control over factors such as emotion, gender, and age. Unlike LLM-based methods, ParaStyleTTS maintains consistent style realization across varied prompt formulations and is well-suited for real-world applications, including on-device and low-resource deployment. Experimental results show that ParaStyleTTS generates high-quality speech with performance comparable to state-of-the-art LLM-based systems while being 30x faster, using 8x fewer parameters, and requiring 2.5x less CUDA memory. Moreover, ParaStyleTTS exhibits superior robustness and controllability over paralinguistic speaking styles, providing a practical and efficient solution for style-controllable text-to-speech generation. Demo can be found at https://parastyletts.github.io/ParaStyleTTS_Demo/. Code can be found at https://github.com/haoweilou/ParaStyleTTS.

文本转语音(TTS)系统中的说话风格控制已成为学术界和工业界越来越关注的焦点。虽然许多现有方法依赖于参考音频来引导风格生成,但由于隐私担忧和有限的可访问性,这些方法通常不切实际。最近,人们开始使用大型语言模型(LLM)通过自然语言提示来控制说话风格;然而,它们计算成本高、缺乏可解释性、对提示措辞敏感,在实时和资源受限的环境中适用性有限。在这项工作中,我们提出了ParaStyleTTS,这是一个轻便且可解释的TTS框架,能够仅通过文本提示实现表达风格的控制。ParaStyleTTS具有新颖的两级风格适应架构,能够分离语音的风格建模中的韵律学和辅助语言因素。它允许对情感、性别和年龄等因素进行精细和稳健的控制。与基于LLM的方法不同,ParaStyleTTS在各种提示配方中保持一致的风格实现,非常适合实际应用,包括设备端和低资源部署。实验结果表明,ParaStyleTTS生成的语音质量很高,其性能与最先进的基于LLM的系统相当,但速度更快(快30倍),使用的参数更少(减少8倍),并且需要的CUDA内存更少(减少2. 5倍)。此外,ParaStyleTTS在辅助语言风格方面表现出卓越的稳定性和可控性,为风格可控的文本转语音生成提供了实用且高效的解决方案。演示地址:https://parastyletts.github.io/ParaStyleTTS_Demo/。代码地址:https://github.com/haoweilou/ParaStyleTTS。

论文及项目相关链接

PDF

摘要

文本中的TTS系统(文本转语音系统)在控制说话风格方面逐渐成为学术界和工业界关注的焦点。尽管现有的许多方法依赖于参考音频来引导风格生成,但这种方法常常由于隐私担忧和有限的可行性而变得不切实际。近期,大型语言模型(LLM)通过自然语言提示来控制说话风格,但其高计算成本、缺乏解释性和对提示措辞的敏感性限制了其在实时和资源受限环境中的适用性。在此研究中,我们提出了ParaStyleTTS,一个轻便且可解释的TTS框架,能够通过文本提示进行表达风格的精确控制。ParaStyleTTS采用新型两级风格适应架构,将韵律和语言辅助说话风格建模分离,允许精细且稳健地控制情感、性别和年龄等因素。与LLM方法不同,ParaStyleTTS在多种提示配方中保持一致的样式实现,非常适合现实世界应用,包括在设备和低资源部署场景中使用。实验结果显示,ParaStyleTTS生成的语音质量与最先进LLM系统的性能相当,但其运行速度为LLM的30倍,使用的参数减少8倍,CUDA内存需求减少2.5倍。此外,ParaStyleTTS在语言辅助说话风格方面具有出色的稳健性和可控性,为可控风格的文本转语音生成提供了实用且高效的解决方案。相关演示和代码分别位于[https://parastyletts.github.io/ParaStyleTTS_Demo/]和https://github.com/haoweilou/ParaStyleTTS。

关键见解

  1. TTS系统的说话风格控制已成为学术与工业界的关注重点。
  2. 当前方法依赖于参考音频或大型语言模型(LLM)进行风格引导,但各有缺点。
  3. 提出了一种新型TTS框架——ParaStyleTTS,它通过文本提示实现表达风格的精确控制。
  4. ParaStyleTTS具有轻量级、可解释性强的特点,并采用了两级风格适应架构来精细控制说话风格因素。
  5. ParaStyleTTS在保持一致的样式实现方面优于LLM方法,适用于多种实际应用场景。
  6. 实验结果表明,ParaStyleTTS的性能与LLM系统相当,但在速度、参数使用和内存需求方面表现出显著优势。

Cool Papers

点此查看论文截图

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

Authors:Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

With the growing requirement for natural human-computer interaction, speech-based systems receive increasing attention as speech is one of the most common forms of daily communication. However, the existing speech models still experience high latency when generating the first audio token during streaming, which poses a significant bottleneck for deployment. To address this issue, we propose VITA-Audio, an end-to-end large speech model with fast audio-text token generation. Specifically, we introduce a lightweight Multiple Cross-modal Token Prediction (MCTP) module that efficiently generates multiple audio tokens within a single model forward pass, which not only accelerates the inference but also significantly reduces the latency for generating the first audio in streaming scenarios. In addition, a four-stage progressive training strategy is explored to achieve model acceleration with minimal loss of speech quality. To our knowledge, VITA-Audio is the first multi-modal large language model capable of generating audio output during the first forward pass, enabling real-time conversational capabilities with minimal latency. VITA-Audio is fully reproducible and is trained on open-source data only. Experimental results demonstrate that our model achieves an inference speedup of 3~5x at the 7B parameter scale, but also significantly outperforms open-source models of similar model size on multiple benchmarks for automatic speech recognition (ASR), text-to-speech (TTS), and spoken question answering (SQA) tasks.

随着自然人机交互需求的不断增长,基于语音的系统越来越受到关注,因为语音是日常沟通中最常见的形式之一。然而,现有的语音模型在流媒体生成第一个音频令牌时仍然存在较高的延迟,这成为部署的瓶颈。为了解决这一问题,我们提出了VITA-Audio,这是一个端到端的大型语音模型,具有快速的音频文本令牌生成功能。具体来说,我们引入了一个轻量级的跨模态令牌预测(MCTP)模块,该模块可以在单个模型前向传递过程中有效地生成多个音频令牌,这不仅加速了推理,而且显著降低了流媒体场景中生成第一个音频的延迟。此外,我们探索了一种四阶段渐进式训练策略,以在尽可能不损失语音质量的情况下实现模型加速。据我们所知,VITA-Audio是第一个能够在第一次前向传递过程中生成音频输出的多模态大型语言模型,可实现实时对话功能,延迟极低。VITA-Audio可完全复现,仅使用开源数据进行训练。实验结果表明,我们的模型在7B参数规模上实现了3~5倍的推理速度提升,并且在多个自动语音识别(ASR)、文本到语音(TTS)和语音问答(SQA)任务基准测试中显著优于类似规模的开源模型。

论文及项目相关链接

PDF Training and Inference Codes: https://github.com/VITA-MLLM/VITA-Audio

Summary
随着人类与计算机交互需求的增长,语音系统得到了越来越多的关注。然而,现有语音模型在流生成首个音频令牌时存在高延迟问题。为解决此瓶颈,我们提出了VITA-Audio,一个端到端的大型快速音频文本令牌生成语音模型。通过引入轻量级的跨模态令牌预测模块,我们能够在单次模型前向传递中高效生成多个音频令牌,这不仅加速了推理,而且显著降低了流场景中生成第一个音频的延迟。此外,我们还探索了一种四阶段渐进训练策略,以实现模型加速,同时尽可能减少语音质量的损失。VITA-Audio是首个能够在首次前向传递中产生音频输出的多模态大型语言模型,具有实时对话能力,且延迟极低。实验结果表明,我们的模型在7B参数规模上实现了3~5倍的推理速度提升,并且在多个自动语音识别、文本到语音和语音问答任务上显著优于类似规模的开源模型。

Key Takeaways

  1. 语音系统因其日常沟通的普遍性而备受关注。
  2. 现有语音模型在生成首个音频令牌时存在高延迟问题。
  3. VITA-Audio通过引入MCTP模块解决此问题,实现快速音频文本令牌生成。
  4. MCTP模块在单次模型前向传递中生成多个音频令牌,加速推理并降低延迟。
  5. 采用四阶段渐进训练策略实现模型加速,同时保持语音质量。
  6. VITA-Audio是首个能在首次前向传递中产生音频输出的多模态大型语言模型。
  7. 实验结果显示,VITA-Audio在多个任务上显著优于类似规模的开源模型。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Interactive Interactive
Interactive 方向最新论文已更新,请持续关注 Update in 2025-10-23 Sherlock Your Queries Learning to Ask the Right Questions for Dialogue-Based Retrieval
2025-10-23
下一篇 
医学图像 医学图像
医学图像 方向最新论文已更新,请持续关注 Update in 2025-10-23 TreeFedDG Alleviating Global Drift in Federated Domain Generalization for Medical Image Segmentation
2025-10-23
  目录