TTS

发布日期: 2025-11-11

更新日期: 2025-11-27

文章字数: 770

阅读时长: 3 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-11-11 更新

Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis

Authors:Dogucan Yaman, Seymanur Akti, Fevziye Irem Eyiokur, Alexander Waibel

We propose a text-to-talking-face synthesis framework leveraging latent speech representations from HierSpeech++. A Text-to-Vec module generates Wav2Vec2 embeddings from text, which jointly condition speech and face generation. To handle distribution shifts between clean and TTS-predicted features, we adopt a two-stage training: pretraining on Wav2Vec2 embeddings and finetuning on TTS outputs. This enables tight audio-visual alignment, preserves speaker identity, and produces natural, expressive speech and synchronized facial motion without ground-truth audio at inference. Experiments show that conditioning on TTS-predicted latent features outperforms cascaded pipelines, improving both lip-sync and visual realism.

我们提出了一个利用HierSpeech++的潜在语音表征的文本到说话人脸合成框架。Text-to-Vec模块从文本生成Wav2Vec2嵌入，联合条件语音和面部生成。为了解决干净特征和TTS预测特征之间的分布偏移问题，我们采用两阶段训练：首先在Wav2Vec2嵌入上进行预训练，然后在TTS输出上进行微调。这实现了音频和视频的紧密对齐，保留了说话人的身份，并在推理时无需真实音频即可生成自然、富有表现力的语音和同步的面部动作。实验表明，以TTS预测的潜在特征为条件优于级联管道，提高了唇同步和视觉逼真度。

论文及项目相关链接

PDF

Summary

文本中提出了一种利用HierSpeech++的潜在语音表征的文本到说话人脸合成框架。通过Text-to-Vec模块生成Wav2Vec2嵌入文本，联合条件语音和面部生成。为解决干净特征与TTS预测特征之间的分布转移问题，采用两阶段训练：先在Wav2Vec2嵌入上进行预训练，再在TTS输出上进行微调。这实现了紧密的音视频对齐，保留了说话者身份，并在推理时无需真实音频即可生成自然、有表现力的语音和同步的面部动作。实验表明，以TTS预测的潜在特征为条件优于级联管道，提高了唇同步和视觉逼真度。

Key Takeaways