嘘~ 正在从服务器偷取页面 . . .

TTS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-04-11 更新

F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization

Authors:Xiaohui Sun, Ruitong Xiao, Jianye Mo, Bowen Wu, Qun Yu, Baoxun Wang

We present F5R-TTS, a novel text-to-speech (TTS) system that integrates Gradient Reward Policy Optimization (GRPO) into a flow-matching based architecture. By reformulating the deterministic outputs of flow-matching TTS into probabilistic Gaussian distributions, our approach enables seamless integration of reinforcement learning algorithms. During pretraining, we train a probabilistically reformulated flow-matching based model which is derived from F5-TTS with an open-source dataset. In the subsequent reinforcement learning (RL) phase, we employ a GRPO-driven enhancement stage that leverages dual reward metrics: word error rate (WER) computed via automatic speech recognition and speaker similarity (SIM) assessed by verification models. Experimental results on zero-shot voice cloning demonstrate that F5R-TTS achieves significant improvements in both speech intelligibility (a 29.5% relative reduction in WER) and speaker similarity (a 4.6% relative increase in SIM score) compared to conventional flow-matching based TTS systems. Audio samples are available at https://frontierlabs.github.io/F5R.

我们提出了F5R-TTS,这是一种新型文本到语音(TTS)系统,它将梯度奖励策略优化(GRPO)集成到基于流匹配的架构中。我们通过将基于流匹配的TTS的确定性输出重新制定为概率高斯分布,使我们的方法能够无缝地结合强化学习算法。在预训练阶段,我们使用公开数据集对来自F5-TTS的基于流匹配的概率重构模型进行训练。在随后的强化学习(RL)阶段,我们采用GRPO驱动的增强阶段,利用双重奖励指标:通过自动语音识别计算的词错误率(WER)和通过验证模型评估的发音人相似性(SIM)。在零样本语音克隆方面的实验结果表明,与传统的基于流匹配的TTS系统相比,F5R-TTS在语音清晰度(相对减少29.5%的WER)和发音人相似性(相对提高4.6%的SIM得分)方面取得了显著改进。音频样本可在https://frontierlabs.github.io/F5R获取。

论文及项目相关链接

PDF

Summary

F5R-TTS是一个结合梯度奖励策略优化(GRPO)的文本转语音(TTS)系统。它通过概率性改革流匹配TTS的确定性输出来实现强化学习算法的无缝集成。预训练阶段使用概率性改革流匹配模型,源于开源数据集的F5-TTS。在随后的强化学习阶段,采用GRPO驱动的增强阶段,利用双奖励指标:通过自动语音识别计算的词错误率(WER)和通过验证模型评估的说话人相似性(SIM)。零样本语音克隆的实验结果表明,F5R-TTS在语音清晰度(相对减少29.5%的WER)和说话人相似性(相对增加4.6%的SIM得分)方面取得了显著的改进。

Key Takeaways

  1. F5R-TTS是一个新型的文本转语音(TTS)系统。
  2. 它结合了梯度奖励策略优化(GRPO)和流匹配技术。
  3. 通过将确定性输出转化为概率性高斯分布,实现了强化学习算法的集成。
  4. 在预训练阶段,使用了概率性改革流匹配模型,基于开源数据集F5-TTS。
  5. 强化学习阶段采用GRPO增强阶段,使用词错误率(WER)和说话人相似性(SIM)作为双奖励指标。
  6. F5R-TTS在零样本语音克隆的实验中,显著提高了语音的清晰度和说话人相似性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-04-12 GLUS Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation
2025-04-12
下一篇 
医学图像 医学图像
医学图像 方向最新论文已更新,请持续关注 Update in 2025-04-11 Probable evidence for a transient mega-electron volt emission line in the GRB 221023A
2025-04-11
  目录