嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-02 更新

3DiFACE: Synthesizing and Editing Holistic 3D Facial Animation

Authors:Balamurugan Thambiraja, Malte Prinzler, Sadegh Aliakbarian, Darren Cosker, Justus Thies

Creating personalized 3D animations with precise control and realistic head motions remains challenging for current speech-driven 3D facial animation methods. Editing these animations is especially complex and time consuming, requires precise control and typically handled by highly skilled animators. Most existing works focus on controlling style or emotion of the synthesized animation and cannot edit/regenerate parts of an input animation. They also overlook the fact that multiple plausible lip and head movements can match the same audio input. To address these challenges, we present 3DiFACE, a novel method for holistic speech-driven 3D facial animation. Our approach produces diverse plausible lip and head motions for a single audio input and allows for editing via keyframing and interpolation. Specifically, we propose a fully-convolutional diffusion model that can leverage the viseme-level diversity in our training corpus. Additionally, we employ a speaking-style personalization and a novel sparsely-guided motion diffusion to enable precise control and editing. Through quantitative and qualitative evaluations, we demonstrate that our method is capable of generating and editing diverse holistic 3D facial animations given a single audio input, with control between high fidelity and diversity. Code and models are available here: https://balamuruganthambiraja.github.io/3DiFACE

创建具有精确控制和逼真头部运动的个性化3D动画对于当前的语音驱动3D面部动画方法来说仍然是一个挑战。编辑这些动画尤其复杂且耗时,需要精确的控制,通常由高度熟练的动画师处理。现有的大多数工作都集中在控制合成动画的风格或情感上,无法编辑或重新生成输入动画的部分。他们还忽略了这样一个事实,即多个合理的嘴唇和头部动作可以与相同的音频输入相匹配。为了解决这些挑战,我们提出了3DiFACE,这是一种新颖的语音驱动3D面部动画方法。我们的方法可以为单个音频输入生成多样的合理嘴唇和头部动作,并通过关键帧和插值进行编辑。具体来说,我们提出了一种全卷积扩散模型,可以利用我们训练语料库中的语音元素级多样性。此外,我们还采用了个性化说话风格和新型稀疏引导运动扩散来实现精确控制和编辑。通过定量和定性评估,我们证明了我们的方法能够在单个音频输入的情况下生成和编辑多种整体的3D面部动画,在高保真和多样性之间实现控制。代码和模型可在此处找到:https://balamuruganthambiraja.github.io/3DiFACE

论文及项目相关链接

PDF

Summary

当前语音驱动的3D面部动画方法在创建具有精确控制和逼真头部运动个性化动画时面临挑战。编辑这些动画尤为复杂耗时,需高度专业的动画师进行精确控制。现有作品多关注合成动画的风格或情感控制,无法编辑或重新生成输入动画的部分内容,同时忽略了相同音频输入可能对应多个合理的唇部和头部动作。为解决这些挑战,我们推出了一种全新的语音驱动的整体式3D面部动画方法——3DiFACE。我们的方法能为单一音频输入生成多样的合理唇部和头部动作,并可通过关键帧技术和插值进行编辑。具体来说,我们提出了一种基于全卷积的扩散模型,能够利用训练语料库中的语音层次多样性。此外,我们还采用了个性化说话风格和新型稀疏引导运动扩散来实现精确控制和编辑。通过定量和定性评估,我们证明了我们的方法能够根据单一音频输入生成和编辑多样化的整体式3D面部动画,并能在高保真和多样性之间实现控制。

Key Takeaways

  1. 当前语音驱动的3D面部动画方法存在创建个性化动画的挑战,尤其在精确控制和逼真头部运动方面。
  2. 编辑这些动画复杂且耗时,通常需要高度专业的动画师进行精确控制。
  3. 现有方法多关注动画的风格或情感控制,无法编辑或重新生成输入动画的特定部分。
  4. 同一音频输入可能对应多个合理的唇部和头部动作,这一事实被现有方法所忽略。
  5. 3DiFACE是一种全新的语音驱动的整体式3D面部动画方法,能够生成多样的合理唇部和头部动作。
  6. 3DiFACE通过关键帧技术和插值允许编辑动画。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录