嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-11 更新

Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis

Authors:Dogucan Yaman, Seymanur Akti, Fevziye Irem Eyiokur, Alexander Waibel

We propose a text-to-talking-face synthesis framework leveraging latent speech representations from HierSpeech++. A Text-to-Vec module generates Wav2Vec2 embeddings from text, which jointly condition speech and face generation. To handle distribution shifts between clean and TTS-predicted features, we adopt a two-stage training: pretraining on Wav2Vec2 embeddings and finetuning on TTS outputs. This enables tight audio-visual alignment, preserves speaker identity, and produces natural, expressive speech and synchronized facial motion without ground-truth audio at inference. Experiments show that conditioning on TTS-predicted latent features outperforms cascaded pipelines, improving both lip-sync and visual realism.

我们提出了一种利用HierSpeech++的潜在语音表征的文本到说话人脸合成框架。Text-to-Vec模块从文本生成Wav2Vec2嵌入,联合条件语音和面部生成。为了处理干净特征和TTS预测特征之间的分布偏移,我们采用了两阶段训练:首先在Wav2Vec2嵌入上进行预训练,然后在TTS输出上进行微调。这实现了音频和视频的紧密对齐,保留了说话者的身份,并在推理时产生了自然、有表现力的语音和同步的面部动作,而无需真实音频。实验表明,以TTS预测的潜在特征为条件优于级联管道,能同时提高唇同步和视觉逼真度。

论文及项目相关链接

PDF

Summary

文本提出了一种利用HierSpeech++的潜在语音表示进行文本到语音合成框架的方法。通过Text-to-Vec模块生成Wav2Vec2嵌入,联合条件语音和面部生成。为解决干净特征和TTS预测特征之间的分布偏移问题,采用两阶段训练:先在Wav2Vec2嵌入上进行预训练,再在TTS输出上进行微调。这实现了紧密的音视频对齐,保持了说话者身份,并在推理时无需真实音频即可生成自然、有表现力的语音和同步的面部动作。实验表明,以TTS预测的潜在特征为条件优于级联管道,提高了唇同步和视觉真实感。

Key Takeaways

  1. 该框架利用文本到语音合成框架实现语音合成,融合了文本与语音特征的嵌入表示技术。
  2. 采用两阶段训练方法,先预训练再微调模型,以应对不同特征分布之间的偏移问题。
  3. 该方法实现了音频与视频之间的紧密对齐,确保了语音和面部动作的同步性。
  4. 方法能够保持说话者的身份,即使在推理阶段无需真实音频的情况下也能生成自然、有表现力的语音。
  5. 通过实验验证,该方法在唇同步和视觉真实感方面优于传统的级联管道方法。
  6. 该框架的核心在于利用潜在语音表示和TTS预测特征进行条件训练,从而提高了语音合成的质量。

Cool Papers

点此查看论文截图

THEval. Evaluation Framework for Talking Head Video Generation

Authors:Nabyl Quignon, Baptiste Chopin, Yaohui Wang, Antitza Dantcheva

Video generation has achieved remarkable progress, with generated videos increasingly resembling real ones. However, the rapid advance in generation has outpaced the development of adequate evaluation metrics. Currently, the assessment of talking head generation primarily relies on limited metrics, evaluating general video quality, lip synchronization, and on conducting user studies. Motivated by this, we propose a new evaluation framework comprising 8 metrics related to three dimensions (i) quality, (ii) naturalness, and (iii) synchronization. In selecting the metrics, we place emphasis on efficiency, as well as alignment with human preferences. Based on this considerations, we streamline to analyze fine-grained dynamics of head, mouth, and eyebrows, as well as face quality. Our extensive experiments on 85,000 videos generated by 17 state-of-the-art models suggest that while many algorithms excel in lip synchronization, they face challenges with generating expressiveness and artifact-free details. These videos were generated based on a novel real dataset, that we have curated, in order to mitigate bias of training data. Our proposed benchmark framework is aimed at evaluating the improvement of generative methods. Original code, dataset and leaderboards will be publicly released and regularly updated with new methods, in order to reflect progress in the field.

视频生成已经取得了显著的进步,生成的视频越来越逼真。然而,生成的迅速发展超出了评估指标的开发进度。目前,说话人头部生成的评估主要依赖于有限的指标,评估视频质量、唇同步以及进行用户研究。鉴于此,我们提出了一个新的评估框架,包含3个维度相关的8个指标:(i)质量、(ii)自然度、(iii)同步性。在选择指标时,我们强调效率以及与人类偏好的一致性。基于此考虑,我们简化了对头部、嘴巴、眉毛的细微动作以及面部质量的分析。我们在由17种最新技术模型生成的85000个视频上进行的大量实验表明,虽然许多算法在唇同步方面表现出色,但在生成表达力和无瑕疵的细节方面仍面临挑战。这些视频是基于我们整理的一个新型真实数据集生成的,旨在减轻训练数据的偏见。我们提出的基准框架旨在评估生成方法的改进。原始代码、数据集和排行榜将公开发布,并定期更新新的方法,以反映该领域的进展。

论文及项目相关链接

PDF

Summary
视频生成技术取得显著进展,生成视频越来越逼真。然而,目前评估指标的发展滞后于生成技术的迅速进步。针对说话人头部生成技术的评估,我们提出了一个包含8个指标的新评估框架,涉及质量、自然度和同步性三个维度。我们注重指标的有效性和与人类偏好的一致性,对头部、嘴巴、眉毛的细微动态以及面部质量进行分析。在由我们精心策划的新现实数据集生成的8.5万多个视频上进行的大量实验表明,虽然许多算法在唇同步方面表现出色,但在表达性和无瑕疵细节方面面临挑战。我们提出的基准框架旨在评估生成方法的改进情况。原始代码、数据集和排行榜将定期公开发布和更新,以反映该领域的进展。

Key Takeaways

  1. 视频生成技术发展迅速,但评估指标的发展滞后。
  2. 当前对说话头部生成的评估主要依赖于有限的指标,如视频质量、唇同步和用户研究。
  3. 提出新的评估框架,包含8个涉及质量、自然度和同步性的指标。
  4. 在选择指标时,强调效率和与人类偏好的一致性。
  5. 分析头部、嘴巴、眉毛的细微动态以及面部质量。
  6. 大量实验表明,许多算法在唇同步方面表现良好,但在表达性和无瑕疵细节方面存在挑战。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录