嘘~ 正在从服务器偷取页面 . . .

TTS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-11 更新

Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis

Authors:Dogucan Yaman, Seymanur Akti, Fevziye Irem Eyiokur, Alexander Waibel

We propose a text-to-talking-face synthesis framework leveraging latent speech representations from HierSpeech++. A Text-to-Vec module generates Wav2Vec2 embeddings from text, which jointly condition speech and face generation. To handle distribution shifts between clean and TTS-predicted features, we adopt a two-stage training: pretraining on Wav2Vec2 embeddings and finetuning on TTS outputs. This enables tight audio-visual alignment, preserves speaker identity, and produces natural, expressive speech and synchronized facial motion without ground-truth audio at inference. Experiments show that conditioning on TTS-predicted latent features outperforms cascaded pipelines, improving both lip-sync and visual realism.

我们提出了一个利用HierSpeech++的潜在语音表征的文本到说话人脸合成框架。Text-to-Vec模块从文本生成Wav2Vec2嵌入,联合条件语音和面部生成。为了解决干净特征和TTS预测特征之间的分布偏移问题,我们采用两阶段训练:首先在Wav2Vec2嵌入上进行预训练,然后在TTS输出上进行微调。这实现了音频和视频的紧密对齐,保留了说话人的身份,并在推理时无需真实音频即可生成自然、富有表现力的语音和同步的面部动作。实验表明,以TTS预测的潜在特征为条件优于级联管道,提高了唇同步和视觉逼真度。

论文及项目相关链接

PDF

Summary

文本中提出了一种利用HierSpeech++的潜在语音表征的文本到说话人脸合成框架。通过Text-to-Vec模块生成Wav2Vec2嵌入文本,联合条件语音和面部生成。为解决干净特征与TTS预测特征之间的分布转移问题,采用两阶段训练:先在Wav2Vec2嵌入上进行预训练,再在TTS输出上进行微调。这实现了紧密的音视频对齐,保留了说话者身份,并在推理时无需真实音频即可生成自然、有表现力的语音和同步的面部动作。实验表明,以TTS预测的潜在特征为条件优于级联管道,提高了唇同步和视觉逼真度。

Key Takeaways

  1. 文本提出了一种新的文本到说话人脸合成框架。
  2. 该框架利用Wav2Vec2嵌入文本生成技术。
  3. 通过两阶段训练处理干净与TTS预测特征之间的分布转移问题。
  4. 该框架可实现紧密的音频视频对齐,同时保留说话者身份。
  5. 在无需真实音频的情况下,能生成自然、有表现力的语音和同步的面部动作。
  6. 实验结果显示,以TTS预测的潜在特征为条件的性能优于传统的级联管道。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录