⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-04 更新
Audio Driven Real-Time Facial Animation for Social Telepresence
Authors:Jiye Lee, Chenghui Li, Linh Tran, Shih-En Wei, Jason Saragih, Alexander Richard, Hanbyul Joo, Shaojie Bai
We present an audio-driven real-time system for animating photorealistic 3D facial avatars with minimal latency, designed for social interactions in virtual reality for anyone. Central to our approach is an encoder model that transforms audio signals into latent facial expression sequences in real time, which are then decoded as photorealistic 3D facial avatars. Leveraging the generative capabilities of diffusion models, we capture the rich spectrum of facial expressions necessary for natural communication while achieving real-time performance (<15ms GPU time). Our novel architecture minimizes latency through two key innovations: an online transformer that eliminates dependency on future inputs and a distillation pipeline that accelerates iterative denoising into a single step. We further address critical design challenges in live scenarios for processing continuous audio signals frame-by-frame while maintaining consistent animation quality. The versatility of our framework extends to multimodal applications, including semantic modalities such as emotion conditions and multimodal sensors with head-mounted eye cameras on VR headsets. Experimental results demonstrate significant improvements in facial animation accuracy over existing offline state-of-the-art baselines, achieving 100 to 1000 times faster inference speed. We validate our approach through live VR demonstrations and across various scenarios such as multilingual speeches.
我们呈现了一个音频驱动的实时系统,用于驱动带有极低延迟的光照真实三维面部化身动画,该系统专为任何人在虚拟现实中的社交互动设计。我们的方法核心是编码器模型,该模型将音频信号实时转换为潜在的面部表情序列,然后解码为光照真实的三维面部化身。我们利用扩散模型的生成能力,捕捉了自然交流所需的丰富面部表情谱,同时实现实时性能(<15毫秒GPU时间)。我们的新型架构通过两个关键创新来最小化延迟:一种在线变压器,消除对未来输入的依赖;一种提炼管道,将迭代去噪加速为单步完成。我们进一步解决了现场场景中处理连续音频信号时面临的关键设计挑战,通过逐帧保持一致的动画质量。我们框架的通用性扩展到了多模式应用,包括语义模式(如情绪条件)和带有头戴式眼摄像头的虚拟现实头盔的多模式传感器。实验结果表明,在面部动画准确性方面,我们的方法显著改进了现有的离线最先进基线,实现了100到1000倍更快的推理速度。我们通过现场虚拟现实演示和多种场景(如多语言演讲)验证了我们的方法。
论文及项目相关链接
PDF SIGGRAPH Asia 2025. Project page: https://jiyewise.github.io/projects/AudioRTA
Summary
本文介绍了一个基于音频驱动的真实面部动画系统的实时生成方法。该系统利用扩散模型的生成能力,通过音频信号实时转换为面部表情序列,再解码为真实的三维面部头像。系统通过在线转换器和蒸馏管道两个关键创新,实现了最小延迟的实时性能。同时,该系统还解决了处理连续音频信号时面临的帧同步和动画质量保持一致等挑战。此外,该系统还广泛应用于多模态应用程序,如情感条件和头戴式摄像头等,实验结果证明了其在面部动画准确性上的显著提升和极快的推理速度。
Key Takeaways
- 系统基于音频驱动实现真实面部动画的实时生成。
- 利用扩散模型的生成能力进行音频信号到面部表情序列的转换。
- 通过在线转换器和蒸馏管道实现最小延迟的实时性能。
- 解决处理连续音频信号时的帧同步和动画质量保持一致性的挑战。
- 系统适用于多模态应用程序,如情感条件和头戴式摄像头等。
- 实验结果证明了系统在面部动画准确性上的显著提升。
点此查看论文截图



