⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-12 更新
Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models
Authors:Zhibin Liu, Haoye Dong, Aviral Chharia, Hefeng Wu
Generating lifelike 3D humans from a single RGB image remains a challenging task in computer vision, as it requires accurate modeling of geometry, high-quality texture, and plausible unseen parts. Existing methods typically use multi-view diffusion models for 3D generation, but they often face inconsistent view issues, which hinder high-quality 3D human generation. To address this, we propose Human-VDM, a novel method for generating 3D human from a single RGB image using Video Diffusion Models. Human-VDM provides temporally consistent views for 3D human generation using Gaussian Splatting. It consists of three modules: a view-consistent human video diffusion module, a video augmentation module, and a Gaussian Splatting module. First, a single image is fed into a human video diffusion module to generate a coherent human video. Next, the video augmentation module applies super-resolution and video interpolation to enhance the textures and geometric smoothness of the generated video. Finally, the 3D Human Gaussian Splatting module learns lifelike humans under the guidance of these high-resolution and view-consistent images. Experiments demonstrate that Human-VDM achieves high-quality 3D human from a single image, outperforming state-of-the-art methods in both generation quality and quantity. Project page: https://human-vdm.github.io/Human-VDM/
从单个RGB图像生成逼真的3D人物仍然是计算机视觉领域的一项具有挑战性的任务,因为它需要准确地对几何结构、高质量纹理和合理的未见过部分进行建模。现有方法通常使用多视图扩散模型进行3D生成,但它们经常面临视图不一致的问题,这阻碍了高质量3D人物的生成。为了解决这一问题,我们提出了Human-VDM,这是一种利用视频扩散模型从单个RGB图像生成3D人物的新方法。Human-VDM通过高斯喷绘技术为3D人物生成提供了时间一致的视图。它包含三个模块:视图一致的人类视频扩散模块、视频增强模块和高斯喷绘模块。首先,将单张图像输入到人类视频扩散模块中,以生成连贯的人类视频。接下来,视频增强模块应用超分辨率和视频插值技术,以提高生成视频的纹理和几何平滑度。最后,在高清和视图一致的图像指导下,3D人物高斯喷绘模块学习逼真的人物。实验表明,Human-VDM能够从单张图像生成高质量的3D人物,在生成质量和数量方面都优于最先进的方法。项目页面:Human-VDM的GitHub页面链接。
论文及项目相关链接
PDF 14 Pages, 8 figures, Project page: https://human-vdm.github.io/Human-VDM/
Summary
本文提出一种基于视频扩散模型(Video Diffusion Models)的方法Human-VDM,能够从单一RGB图像生成逼真的三维人体。通过高斯混合法,实现了不同视角下的三维人体一致性生成。该方法包括三个模块:视角一致的人体视频扩散模块、视频增强模块和三维高斯混合模块。实验证明,Human-VDM在生成质量和数量上均优于现有技术。
Key Takeaways
- Human-VDM是一种基于视频扩散模型的方法,能够从单一RGB图像生成三维人体。
- 该方法通过高斯混合法实现不同视角下的三维人体一致性生成。
- Human-VDM包括三个核心模块:视角一致的人体视频扩散模块、视频增强模块和三维高斯混合模块。
- 视频扩散模块从单一图像生成连贯的人体视频。
- 视频增强模块通过超分辨率和视频插值技术提高了生成视频的纹理和几何平滑度。
- 三维高斯混合模块在高质量、视角一致图像的指导下学习生成逼真的三维人体。
点此查看论文截图