发布日期: 2025-06-25

更新日期: 2025-07-06

文章字数: 957

阅读时长: 3 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-06-25 更新

OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation

Authors:Qijun Gan, Ruizi Yang, Jianke Zhu, Shaofei Xue, Steven Hoi

Significant progress has been made in audio-driven human animation, while most existing methods focus mainly on facial movements, limiting their ability to create full-body animations with natural synchronization and fluidity. They also struggle with precise prompt control for fine-grained generation. To tackle these challenges, we introduce OmniAvatar, an innovative audio-driven full-body video generation model that enhances human animation with improved lip-sync accuracy and natural movements. OmniAvatar introduces a pixel-wise multi-hierarchical audio embedding strategy to better capture audio features in the latent space, enhancing lip-syncing across diverse scenes. To preserve the capability for prompt-driven control of foundation models while effectively incorporating audio features, we employ a LoRA-based training approach. Extensive experiments show that OmniAvatar surpasses existing models in both facial and semi-body video generation, offering precise text-based control for creating videos in various domains, such as podcasts, human interactions, dynamic scenes, and singing. Our project page is https://omni-avatar.github.io/.

在音频驱动的人形动画方面已经取得了重大进展，然而大多数现有方法主要集中在面部动作上，这限制了它们创建具有自然同步和流畅度的全身动画的能力。它们在精细粒度的生成精确提示控制方面也面临困难。为了应对这些挑战，我们推出了OmniAvatar，这是一款创新的音频驱动全身视频生成模型，通过提高唇同步精度和自然动作来增强人形动画。OmniAvatar采用像素级多层次音频嵌入策略，以更好地在潜在空间中捕获音频特征，增强不同场景的唇同步。为了保留基础模型的提示驱动控制能力，同时有效地融入音频特征，我们采用了基于LoRA的训练方法。大量实验表明，OmniAvatar在面部和半身视频生成方面都超越了现有模型，为创作视频提供了精确的文本控制功能，适用于多个领域，如播客、人机交互、动态场景和唱歌等。我们的项目页面是https://omni-avatar.github.io/。

论文及项目相关链接

PDF Project page: https://omni-avatar.github.io/

Summary

OmniAvatar是一款创新的音频驱动全身视频生成模型，可改进人脸动画的唇同步精度和自然动作。它采用像素级多层次音频嵌入策略，更好地在潜在空间中捕获音频特征，并在不同场景中提高唇同步。该研究采用LoRA基于训练的方法，在保留基础模型的提示驱动控制能力的同时，有效地融入了音频特征。OmniAvatar在面部和半身视频生成方面超越了现有模型，为不同领域（如播客、人机交互、动态场景和歌唱）的视频创作提供了精确的文字控制。

Key Takeaways