⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-11 更新
Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis
Authors:Dogucan Yaman, Seymanur Akti, Fevziye Irem Eyiokur, Alexander Waibel
We propose a text-to-talking-face synthesis framework leveraging latent speech representations from HierSpeech++. A Text-to-Vec module generates Wav2Vec2 embeddings from text, which jointly condition speech and face generation. To handle distribution shifts between clean and TTS-predicted features, we adopt a two-stage training: pretraining on Wav2Vec2 embeddings and finetuning on TTS outputs. This enables tight audio-visual alignment, preserves speaker identity, and produces natural, expressive speech and synchronized facial motion without ground-truth audio at inference. Experiments show that conditioning on TTS-predicted latent features outperforms cascaded pipelines, improving both lip-sync and visual realism.
我们提出了一个利用HierSpeech++的潜在语音表征的文本到说话人脸合成框架。Text-to-Vec模块从文本生成Wav2Vec2嵌入,联合条件语音和面部生成。为了解决干净特征和TTS预测特征之间的分布偏移问题,我们采用两阶段训练:首先在Wav2Vec2嵌入上进行预训练,然后在TTS输出上进行微调。这实现了音频和视频的紧密对齐,保留了说话人的身份,并在推理时无需真实音频即可生成自然、富有表现力的语音和同步的面部动作。实验表明,以TTS预测的潜在特征为条件优于级联管道,提高了唇同步和视觉逼真度。
论文及项目相关链接
Summary
文本中提出了一种利用HierSpeech++的潜在语音表征的文本到说话人脸合成框架。通过Text-to-Vec模块生成Wav2Vec2嵌入文本,联合条件语音和面部生成。为解决干净特征与TTS预测特征之间的分布转移问题,采用两阶段训练:先在Wav2Vec2嵌入上进行预训练,再在TTS输出上进行微调。这实现了紧密的音视频对齐,保留了说话者身份,并在推理时无需真实音频即可生成自然、有表现力的语音和同步的面部动作。实验表明,以TTS预测的潜在特征为条件优于级联管道,提高了唇同步和视觉逼真度。
Key Takeaways
- 文本提出了一种新的文本到说话人脸合成框架。
- 该框架利用Wav2Vec2嵌入文本生成技术。
- 通过两阶段训练处理干净与TTS预测特征之间的分布转移问题。
- 该框架可实现紧密的音频视频对齐,同时保留说话者身份。
- 在无需真实音频的情况下,能生成自然、有表现力的语音和同步的面部动作。
- 实验结果显示,以TTS预测的潜在特征为条件的性能优于传统的级联管道。