⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-04 更新
Emotional Text-To-Speech Based on Mutual-Information-Guided Emotion-Timbre Disentanglement
Authors:Jianing Yang, Sheng Li, Takahiro Shinozaki, Yuki Saito, Hiroshi Saruwatari
Current emotional Text-To-Speech (TTS) and style transfer methods rely on reference encoders to control global style or emotion vectors, but do not capture nuanced acoustic details of the reference speech. To this end, we propose a novel emotional TTS method that enables fine-grained phoneme-level emotion embedding prediction while disentangling intrinsic attributes of the reference speech. The proposed method employs a style disentanglement method to guide two feature extractors, reducing mutual information between timbre and emotion features, and effectively separating distinct style components from the reference speech. Experimental results demonstrate that our method outperforms baseline TTS systems in generating natural and emotionally rich speech. This work highlights the potential of disentangled and fine-grained representations in advancing the quality and flexibility of emotional TTS systems.
当前的情感文本转语音(TTS)和风格转换方法依赖于参考编码器来控制全局风格或情感向量,但它们无法捕捉参考语音的细微声学细节。为此,我们提出了一种新的情感TTS方法,该方法能够实现精细的音素级情感嵌入预测,同时解开参考语音的内在属性。所提出的方法采用风格分解方法来指导两个特征提取器,减少音调和情感特征之间的互信息,有效地从参考语音中分离出不同的风格成分。实验结果表明,我们的方法在生成自然且情感丰富的语音方面优于基线TTS系统。这项工作强调了解开和精细表示在提升情感TTS系统的质量和灵活性方面的潜力。
论文及项目相关链接
PDF In Proceedings of the 17th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2025)
Summary
本文提出了一种新型的基于情感文本到语音(TTS)的方法,该方法能够精细粒度的预测语音中的情感嵌入,同时分离参考语音中的内在属性。通过使用风格分离技术引导两个特征提取器,本文的方法减少语音风格和情感特征之间的信息冗余,从而有效分离参考语音中的不同风格成分。实验结果表明,该方法在生成自然且情感丰富的语音方面优于传统的TTS系统。本文强调了分离和精细粒度表示在提升情感TTS系统的质量和灵活性方面的潜力。
Key Takeaways
- 当前的情感TTS和风格转移方法依赖于参考编码器来控制全局风格或情感向量,但无法捕捉参考语音的细微声学细节。
- 提出了一种新型的基于情感TTS的方法,能够精细粒度的预测语音中的情感嵌入。
- 通过使用风格分离技术,该方法引导两个特征提取器,减少语音风格和情感特征之间的信息冗余。
- 有效分离参考语音中的不同风格成分,实现语音风格的精细化控制。
- 实验结果表明,该方法在生成自然且情感丰富的语音方面优于传统的TTS系统。
- 提出的模型在提升情感TTS系统的质量方面表现出潜力。
点此查看论文截图





FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates
Authors:Jiaqi Li, Yao Qian, Yuxuan Hu, Leying Zhang, Xiaofei Wang, Heng Lu, Manthan Thakker, Jinyu Li, Sheng Zhao, Zhizheng Wu
Neural audio codecs are foundational to speech language models. It is expected to have a low frame rate and decoupled semantic and acoustic information. A lower frame rate codec can reduce the computational cost of speech language models by shortening the sequence length. Recent studies have developed 12.5Hz low-frame-rate audio codecs, but even lower frame rate codecs remain underexplored. We find that a major challenge for very low frame rate tokens is missing semantic information. This paper introduces FlexiCodec to address this limitation. FlexiCodec improves semantic preservation with a dynamic frame rate approach and introduces a novel architecture featuring an ASR feature-assisted dual stream encoding and Transformer bottlenecks. With dynamic frame rates, it uses less frames at information-sparse regions through adaptively merging semantically similar frames. A dynamic frame rate also allows FlexiCodec to support inference-time controllable frame rates between 3Hz and 12.5Hz. Experiments on 6.25Hz, 8.3Hz and 12.5Hz average frame rates confirm that FlexiCodec excels over baseline systems in semantic information preservation and delivers a high audio reconstruction quality. We also validate the effectiveness of FlexiCodec in language model-based TTS. Demos are available at: https://flexicodec.github.io
神经网络音频编码是语音语言模型的基础。它期望具有较低的帧率和解耦的语义和声音信息。较低的帧率编码可以减少语音语言模型的计算成本,缩短序列长度。最近的研究开发了12.5Hz低帧率音频编码,但更低帧率的编码仍然被忽视。我们发现对于极低帧率令牌来说,缺少语义信息是一个主要挑战。本文介绍FlexiCodec来解决这一限制。FlexiCodec采用动态帧率方法改进语义保留,并引入了一种新型架构,该架构具有由ASR特征辅助的双流编码和Transformer瓶颈。通过动态帧率,它在信息稀疏区域使用较少的帧,通过自适应合并语义相似的帧。动态帧率还允许FlexiCodec在3Hz至12.5Hz之间支持推理时间可控的帧率。在6.25Hz、8.3Hz和12.5Hz平均帧率上的实验证实,FlexiCodec在语义信息保留方面优于基线系统,并提供了较高的音频重建质量。我们还验证了FlexiCodec在语言模型基于TTS中的有效性。演示地址:https://flexicodec.github.io。
论文及项目相关链接
Summary
神经网络音频编码解码器是语音语言模型的基础。它期望具有低帧率和解耦的语义和声音信息。低帧率编码解码器可以通过缩短序列长度来降低语音语言模型的计算成本。FlexiCodec的出现解决了极低帧率下语义信息缺失的问题,采用动态帧率方法改善语义保留,并引入具有ASR特征辅助的双流编码和Transformer瓶颈的新型架构。实验证实,FlexiCodec在语义信息保留方面优于基线系统,并以较高的音频重建质量展现了其效能。此外,它在基于语言模型的TTS中也表现出色。
Key Takeaways
- 神经网络音频编码解码器是语音语言模型的核心基础。
- 低帧率编码解码器有助于降低语音语言模型的计算成本。
- FlexiCodec采用动态帧率方法,改善语义信息的保留。
- FlexiCodec引入新型架构,包括ASR特征辅助的双流编码和Transformer瓶颈。
- FlexiCodec通过自适应合并语义相似帧,在信息稀疏区域使用更少帧。
- FlexiCodec支持在3Hz至12.5Hz之间进行控制帧率的动态调整。
- FlexiCodec在语义信息保留和音频重建质量方面表现优异,并在TTS中展现出色效果。
点此查看论文截图


