嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-21 更新

StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model

Authors:Yifan Yang, Zhi Cen, Sida Peng, Xiangwei Chen, Yifu Deng, Xinyu Zhu, Fan Jia, Xiaowei Zhou, Hujun Bao

This paper focuses on the task of speech-driven 3D facial animation, which aims to generate realistic and synchronized facial motions driven by speech inputs. Recent methods have employed audio-conditioned diffusion models for 3D facial animation, achieving impressive results in generating expressive and natural animations. However, these methods process the whole audio sequences in a single pass, which poses two major challenges: they tend to perform poorly when handling audio sequences that exceed the training horizon and will suffer from significant latency when processing long audio inputs. To address these limitations, we propose a novel autoregressive diffusion model that processes input audio in a streaming manner. This design ensures flexibility with varying audio lengths and achieves low latency independent of audio duration. Specifically, we select a limited number of past frames as historical motion context and combine them with the audio input to create a dynamic condition. This condition guides the diffusion process to iteratively generate facial motion frames, enabling real-time synthesis with high-quality results. Additionally, we implemented a real-time interactive demo, highlighting the effectiveness and efficiency of our approach. We will release the code at https://zju3dv.github.io/StreamingTalker/.

本文重点关注语音驱动的三维面部动画任务,旨在通过语音输入生成真实且同步的面部运动。最近的方法采用音频条件扩散模型进行三维面部动画,在生成表情丰富、自然的动画方面取得了令人印象深刻的结果。然而,这些方法在一次通过中处理整个音频序列,这带来了两个主要挑战:当处理超过训练范围的音频序列时,它们的性能往往不佳,而且在处理长音频输入时会面临显著的延迟问题。为了解决这些局限性,我们提出了一种新的自回归扩散模型,以流的方式处理输入音频。这种设计确保了不同音频长度的灵活性,并实现了与音频持续时间无关的低延迟。具体来说,我们选择有限数量的过去帧作为历史运动上下文,并与音频输入相结合,创造一个动态条件。该条件引导扩散过程迭代生成面部运动帧,实现实时合成高质量结果。此外,我们还实现了一个实时交互演示,突出了我们方法的有效性和效率。我们将发布代码:https://zju3dv.github.io/StreamingTalker/。

论文及项目相关链接

PDF

Summary

本文探讨语音驱动的三维面部动画任务,旨在通过语音输入生成真实且同步的面部运动。针对现有方法在处理长音频序列时存在的性能不佳和延迟问题,本文提出了一种新颖的流式扩散模型。该模型以流式方式处理输入音频,确保对各种音频长度的灵活性并实现了与音频持续时间无关的低延迟。通过结合历史运动上下文和音频输入创建动态条件,指导扩散过程迭代生成面部运动帧,实现实时高质量合成。

Key Takeaways

  1. 本文专注于语音驱动的三维面部动画任务,旨在通过语音输入生成真实且同步的面部运动。
  2. 现有方法使用音频条件扩散模型,但处理长音频序列时存在性能挑战和延迟问题。
  3. 本文提出了一种新颖的流式扩散模型,以流式方式处理音频,适应不同音频长度并降低延迟。
  4. 模型结合历史运动上下文和音频输入创建动态条件,指导生成面部运动帧。
  5. 实现了实时互动演示,展示方法的有效性和效率。
  6. 将在[https://zju3dv.github.io/StreamingTalker/]上发布代码。
  7. 该方法为实现更真实、更同步的面部动画提供了新的解决方案。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 本篇
Talking Head Generation Talking Head Generation
Talking Head Generation 方向最新论文已更新,请持续关注 Update in 2025-11-21 StreamingTalker Audio-driven 3D Facial Animation with Autoregressive Diffusion Model
下一篇 
Text-to-Motion Text-to-Motion
Text-to-Motion 方向最新论文已更新,请持续关注 Update in 2025-11-21 Generating Natural-Language Surgical Feedback From Structured Representation to Domain-Grounded Evaluation
2025-11-21
  目录