嘘~ 正在从服务器偷取页面 . . .

元宇宙/虚拟人


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-03-28 更新

AvatarArtist: Open-Domain 4D Avatarization

Authors:Hongyu Liu, Xuan Wang, Ziyu Wan, Yue Ma, Jingye Chen, Yanbo Fan, Yujun Shen, Yibing Song, Qifeng Chen

This work focuses on open-domain 4D avatarization, with the purpose of creating a 4D avatar from a portrait image in an arbitrary style. We select parametric triplanes as the intermediate 4D representation and propose a practical training paradigm that takes advantage of both generative adversarial networks (GANs) and diffusion models. Our design stems from the observation that 4D GANs excel at bridging images and triplanes without supervision yet usually face challenges in handling diverse data distributions. A robust 2D diffusion prior emerges as the solution, assisting the GAN in transferring its expertise across various domains. The synergy between these experts permits the construction of a multi-domain image-triplane dataset, which drives the development of a general 4D avatar creator. Extensive experiments suggest that our model, AvatarArtist, is capable of producing high-quality 4D avatars with strong robustness to various source image domains. The code, the data, and the models will be made publicly available to facilitate future studies.

本文专注于开放域4D个性化角色建模,旨在从任意风格的肖像图像创建4D个性化角色。我们选择参数化三平面作为中间4D表示,并提出了一种实用的训练范式,该范式结合了生成对抗网络(GANs)和扩散模型。我们的设计灵感来源于观察到4D GAN在桥接图像和三平面方面表现优异,无需监督,但在处理多样化数据分布时通常面临挑战。强大的二维扩散先验作为一个解决方案出现,它有助于GAN在不同的领域间传递专业知识。这些专家之间的协同作用使得能够构建多域图像-三平面数据集,从而推动通用4D个性化角色创建者的发展。大量实验表明,我们的模型AvatarArtist能够生成高质量的4D个性化角色,对各种源图像域具有较强的鲁棒性。我们将公开代码、数据和模型,以促进未来的研究。

论文及项目相关链接

PDF Accepted to CVPR 2025. Project page: https://kumapowerliu.github.io/AvatarArtist

摘要
实现开放域四维头像化技术,旨在从肖像图像创建任意风格的四维头像。研究采用参数化triplanes作为中间四维表示形式,并提出了一种利用生成对抗网络(GANs)和扩散模型优势的实际训练范式。研究的设计灵感来自于对现象的观察,即四维GANs在桥接图像和triplanes方面表现出色,无需监督,但在处理多样化数据分布时面临挑战。强大的二维扩散先验成为了解决方案,协助GAN在不同领域之间转移知识。这些专家之间的协同作用推动了多域图像-triplane数据集的建设,进而构建了通用的四维头像创建器。大量实验表明,研究中的AvatarArtist模型能够生成高质量的四维头像,对各种源图像域具有较强的稳健性。研究还将公开代码、数据和模型,以促进未来的研究。

关键见解

  1. 该研究关注开放域四维头像化技术,旨在创建任意风格的四维头像。
  2. 参数化triplanes被选为中间四维表示形式。
  3. 研究结合生成对抗网络(GANs)和扩散模型的训练范式进行实践。
  4. 四维GANs在无需监督的情况下在桥接图像和triplanes方面表现优异,但在处理多样化数据分布时面临挑战。
  5. 强大的二维扩散先验协助GAN在不同领域间转移知识。
  6. 多域图像-triplane数据集的建设推动了通用的四维头像创建器的开发。

Cool Papers

点此查看论文截图

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Authors:Hanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

Talking head generation intends to produce vivid and realistic talking head videos from a single portrait and speech audio clip. Although significant progress has been made in diffusion-based talking head generation, almost all methods rely on autoregressive strategies, which suffer from limited context utilization beyond the current generation step, error accumulation, and slower generation speed. To address these challenges, we present DAWN (Dynamic frame Avatar With Non-autoregressive diffusion), a framework that enables all-at-once generation of dynamic-length video sequences. Specifically, it consists of two main components: (1) audio-driven holistic facial dynamics generation in the latent motion space, and (2) audio-driven head pose and blink generation. Extensive experiments demonstrate that our method generates authentic and vivid videos with precise lip motions, and natural pose/blink movements. Additionally, with a high generation speed, DAWN possesses strong extrapolation capabilities, ensuring the stable production of high-quality long videos. These results highlight the considerable promise and potential impact of DAWN in the field of talking head video generation. Furthermore, we hope that DAWN sparks further exploration of non-autoregressive approaches in diffusion models. Our code will be publicly available at https://github.com/Hanbo-Cheng/DAWN-pytorch.

说话人头部生成旨在从单一肖像和语音音频片段中生成生动逼真的说话人头部视频。尽管基于扩散的说话人头部生成已经取得了重大进展,但几乎所有的方法都依赖于自回归策略,这导致了当前生成步骤之外上下文利用有限、误差累积和生成速度较慢的问题。为了解决这些挑战,我们推出了DAWN(具有非自回归扩散的动态帧化身)。这是一个框架,能够一次性生成动态长度视频序列。具体来说,它包含两个主要组成部分:(1)在潜在运动空间中音频驱动的面部整体动态生成;(2)音频驱动的头部姿势和眨眼生成。大量实验表明,我们的方法生成了真实且生动的视频,具有精确的唇部运动、自然的姿势/眨眼动作。此外,DAWN具有高速生成和强大的外推能力,可确保高质量长视频的稳定生产。这些结果凸显了DAWN在说话人头部视频生成领域的巨大潜力和影响力。此外,我们希望DAWN能激发扩散模型中非自回归方法的进一步探索。我们的代码将在https://github.com/Hanbo-Cheng/DAWN-pytorch上公开提供。

论文及项目相关链接

PDF

Summary
在单一肖像和语音音频剪辑的基础上生成逼真的动态对话视频是当前研究的热点。虽然基于扩散的说话人头部生成技术已经取得了显著的进展,但现有的方法大多依赖于自回归策略,存在上下文信息利用不足、误差累积和生成速度慢等问题。为解决这些挑战,我们提出了DAWN(动态帧化身非自回归扩散)框架,实现一次性生成动态长度的视频序列。包括两个部分:一是基于音频驱动的面部动作整体生成潜伏运动空间;二是基于音频驱动的头部姿态和眨眼生成。实验证明,该方法生成的视频真实生动,唇动精确,姿态和眨眼自然。此外,DAWN生成速度快,具有强大的外推能力,可稳定生成高质量的长视频。此研究在对话视频生成领域具有巨大的潜力和影响。

Key Takeaways

  • DAWN框架旨在解决现有说话人头部生成方法的局限,如自回归策略的上下文信息利用不足、误差累积和生成速度慢的问题。
  • DAWN框架包括音频驱动的面部动作整体生成潜伏运动空间和基于音频驱动的头部姿态及眨眼生成两个主要部分。
  • 实验证明DAWN能生成真实生动的视频,具有精确的唇动、自然的姿态和眨眼动作。
  • DAWN拥有快速生成和高外推能力,能稳定生成高质量的长视频。
  • DAWN的源代码将公开在GitHub上,以推动非自回归扩散方法的进一步研究。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-03-28 PGC Physics-Based Gaussian Cloth from a Single Pose
2025-03-28
下一篇 
GAN GAN
GAN 方向最新论文已更新,请持续关注 Update in 2025-03-28 RecTable Fast Modeling Tabular Data with Rectified Flow
2025-03-28
  目录