嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-03-04 更新

ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model

Authors:Xuangeng Chu, Nabarun Goswami, Ziteng Cui, Hanqin Wang, Tatsuya Harada

Speech-driven 3D facial animation aims to generate realistic lip movements and facial expressions for 3D head models from arbitrary audio clips. Although existing diffusion-based methods are capable of producing natural motions, their slow generation speed limits their application potential. In this paper, we introduce a novel autoregressive model that achieves real-time generation of highly synchronized lip movements and realistic head poses and eye blinks by learning a mapping from speech to a multi-scale motion codebook. Furthermore, our model can adapt to unseen speaking styles using sample motion sequences, enabling the creation of 3D talking avatars with unique personal styles beyond the identities seen during training. Extensive evaluations and user studies demonstrate that our method outperforms existing approaches in lip synchronization accuracy and perceived quality.

语音驱动的3D面部动画旨在从任意音频片段中为3D头部模型生成逼真的嘴唇动作和面部表情。尽管现有的基于扩散的方法能够产生自然运动,但其缓慢的生成速度限制了其应用潜力。在本文中,我们引入了一种新型自回归模型,通过从语音到多尺度运动码簿的映射学习,实现高度同步的嘴唇运动、逼真的头部姿势和眨眼动作的实时生成。此外,我们的模型可以使用样本运动序列适应未见过的讲话风格,从而创建具有独特个人风格的3D谈话角色,超越训练期间看到的身份。广泛的评估和用户研究证明,我们的方法在嘴唇同步准确性和感知质量方面优于现有方法。

论文及项目相关链接

PDF More video demonstrations, code, models and data can be found on our project website: http://xg-chu.site/project_artalk/

Summary

本文提出了一种新型的基于语音驱动的实时生成3D面部动画的自回归模型。该模型通过从语音到多尺度运动编码器的映射学习,实现了高度同步的唇部运动以及逼真的头部姿态和眨眼动作。模型能够实时生成高质量动画,并能适应未见过的说话风格,从而创建具有独特个性的个性化3D对话头像。用户评估和实验表明,该方法的唇同步精度和感知质量优于现有方法。

Key Takeaways

  1. 提出了一种新型的基于语音驱动的实时生成3D面部动画的自回归模型。
  2. 模型实现了高度同步的唇部运动及逼真的头部姿态和眨眼动作。
  3. 模型能够从任意音频剪辑中生成动画,并能适应不同的说话风格。
  4. 通过学习从语音到多尺度运动编码器的映射,模型能够创建具有独特个性的个性化3D对话头像。
  5. 模型在唇同步精度和感知质量方面优于现有方法。
  6. 模型具有广泛的应用潜力,可用于创建个性化的虚拟角色、游戏角色动画等。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
LLM LLM
LLM 方向最新论文已更新,请持续关注 Update in 2025-03-05 ECLeKTic a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer
2025-03-05
下一篇 
Interactive Interactive
Interactive 方向最新论文已更新,请持续关注 Update in 2025-03-04 Persuasion Should be Double-Blind A Multi-Domain Dialogue Dataset With Faithfulness Based on Causal Theory of Mind
2025-03-04
  目录