嘘~ 正在从服务器偷取页面 . . .

TTS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-08 更新

Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora

Authors:Jing Xu, Daxin Tan, Jiaqi Wang, Xiao Chen

While Large Language Models (LLMs) have shown potential in speech generation and recognition, their applications are mainly confined to monolingual scenarios, with limited explorations in code-switched (CS) contexts. In this paper, we propose a Code-Switched Large Language Model (CS-LLM) to enhance the code-switched text-to-speech synthesis (CS TTS) capability in LLMs with only monolingual corpora. Specifically, we begin by enhancing the multilingual speech processing ability of LLMs through multilingual speech recognition and synthesis tasks. Then, we develop an effective code-switched (CS) data construction strategy that splits and concatenates words from different monolingual speech corpora to equip LLMs with improved CS TTS ability. Experiments show that our approach outperforms baselines in CS TTS in terms of naturalness, speaker consistency and similarity even with limited data. Additionally, the constructed CS data further improves multilingual speech synthesis and recognition.

虽然大型语言模型(LLM)在语音生成和识别方面显示出潜力,但它们的应用主要局限于单语场景,对混合语言(CS)环境的探索有限。在本文中,我们提出了一种混合语言大型语言模型(CS-LLM),旨在使用仅包含单语语料库的大型语言模型增强混合文本到语音合成(CS TTS)的能力。具体来说,我们首先通过多语言语音识别和合成任务增强LLM的多语言语音处理能力。然后,我们开发了一种有效的混合语言(CS)数据构建策略,该策略可以拆分和合并来自不同单语语音语料库的单词,以赋予LLM增强的CS TTS能力。实验表明,即使在有限数据的情况下,我们的方法在混合文本的语音合成自然度、说话人一致性和相似性方面也优于基准模型。此外,构建的混合语言数据还进一步提高了多语言语音合成和识别的性能。

论文及项目相关链接

PDF Accepted to ASRU2025

Summary

本论文针对大型语言模型(LLM)在代码切换文本转语音合成(CS TTS)领域的应用进行了改进。通过增强LLM的多语种语音处理能力,并结合代码切换数据构建策略,实现了在仅有单语语料库的情况下提高LLM的CS TTS能力。实验表明,该方法在自然度、说话人一致性和相似性方面超越了基线,即使在有限数据下也表现出色。同时,构建的CS数据进一步提高了多语种语音合成和识别能力。

Key Takeaways

  1. 大型语言模型(LLM)在语音生成和识别方面具潜力,但主要应用于单语场景,代码切换(CS)环境下的应用有限。
  2. 提出了一种名为CS-LLM的代码切换大型语言模型,旨在提高LLM在代码切换TTS方面的能力。
  3. 通过多语种语音识别和合成任务增强LLM的多语种语音处理能力。
  4. 开发了有效的代码切换(CS)数据构建策略,通过拆分和合并不同单语语音语料库中的单词,提高LLM的CS TTS能力。
  5. 实验表明,该方法在自然度、说话人一致性和相似性方面超越基线,即使在有限数据下也表现优异。
  6. 构建的CS数据不仅提高了CS TTS的性能,还进一步改善了多语种语音合成和识别。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-09-09 COGITAO A Visual Reasoning Framework To Study Compositionality & Generalization
2025-09-09
下一篇 
医学图像 医学图像
医学图像 方向最新论文已更新,请持续关注 Update in 2025-09-08 Masked Autoencoder Pretraining and BiXLSTM ResNet Architecture for PET/CT Tumor Segmentation
2025-09-08
  目录