⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-08 更新
UMA: Ultra-detailed Human Avatars via Multi-level Surface Alignment
Authors:Heming Zhu, Guoxing Sun, Christian Theobalt, Marc Habermann
Learning an animatable and clothed human avatar model with vivid dynamics and photorealistic appearance from multi-view videos is an important foundational research problem in computer graphics and vision. Fueled by recent advances in implicit representations, the quality of the animatable avatars has achieved an unprecedented level by attaching the implicit representation to drivable human template meshes. However, they usually fail to preserve the highest level of detail, particularly apparent when the virtual camera is zoomed in and when rendering at 4K resolution and higher. We argue that this limitation stems from inaccurate surface tracking, specifically, depth misalignment and surface drift between character geometry and the ground truth surface, which forces the detailed appearance model to compensate for geometric errors. To address this, we propose a latent deformation model and supervising the 3D deformation of the animatable character using guidance from foundational 2D video point trackers, which offer improved robustness to shading and surface variations, and are less prone to local minima than differentiable rendering. To mitigate the drift over time and lack of 3D awareness of 2D point trackers, we introduce a cascaded training strategy that generates consistent 3D point tracks by anchoring point tracks to the rendered avatar, which ultimately supervises our avatar at the vertex and texel level. To validate the effectiveness of our approach, we introduce a novel dataset comprising five multi-view video sequences, each over 10 minutes in duration, captured using 40 calibrated 6K-resolution cameras, featuring subjects dressed in clothing with challenging texture patterns and wrinkle deformations. Our approach demonstrates significantly improved performance in rendering quality and geometric accuracy over the prior state of the art.
从多视角视频中学习可动画和穿衣的人体化身模型,具有生动动态和逼真的外观,是计算机图形学和视觉领域的一个重要基础性问题。受最近隐式表示进展的推动,通过将隐式表示附加到可驱动的人体模板网格上,可动画化身的质量达到了前所未有的水平。然而,它们通常无法保留最高级别的细节,特别是在虚拟相机放大以及呈现4K分辨率及更高分辨率时尤为明显。我们认为,这一限制源于表面跟踪的不准确,具体来说,字符几何与真实表面之间的深度不对齐和表面漂移,迫使详细的外观模型来弥补几何错误。为了解决这一问题,我们提出了一种潜在的变形模型,并利用基本的二维视频点跟踪器的指导来监督可动画角色的3D变形,它们对阴影和表面变化具有更强的稳健性,并且相比于可微分渲染更不容易陷入局部最小值。为了减少随时间推移的漂移以及二维点跟踪器缺乏三维感知能力的问题,我们引入了一种级联训练策略,通过将在点轨迹锚定在渲染化身上来生成一致的3D点轨迹,最终在我们的化身顶点和小纹理级别上进行监督。为了验证我们方法的有效性,我们引入了一个新颖的数据集,包含五个多视角视频序列,每个序列持续超过10分钟,使用40个校准的6K分辨率相机进行捕捉,包含穿着具有挑战性质地纹理和褶皱变形的服装的主体。我们的方法在渲染质量和几何精度方面表现出显著优于先前技术的性能。
论文及项目相关链接
PDF Project page: https://vcai.mpi-inf.mpg.de/projects/UMA/
Summary
动画化和着装虚拟人物模型,从多角度视频学习生动动态和逼真的外观是计算机图形学和视觉领域的基础研究问题。借助隐式表示的最新进展,动画化虚拟人物的质量达到了前所未有的水平。然而,在虚拟相机放大、4K分辨率及更高分辨率渲染时,细节层次缺失的问题尤为明显。本文认为这一限制源于表面跟踪不准确,特别是角色几何与地面真实表面之间的深度不对齐和表面漂移,迫使详细的外观模型对几何错误进行补偿。为解决这一问题,本文提出一种潜在变形模型,利用基础的二维视频点跟踪器指导三维变形的监督,提高了对阴影和表面变化的稳健性,且相对于可微分渲染更不易陷入局部最小值。为减轻随时间漂移和二维点跟踪器缺乏三维意识的问题,本文引入级联训练策略,通过锚定点跟踪到渲染的虚拟角色来生成一致的的三维点轨迹,最终在我们的虚拟角色顶点和小纹素级别进行监督。为验证方法的有效性,本文引入了一个包含五个多角度视频序列的新数据集,每个序列持续超过十分钟,使用40个校准的6K分辨率相机拍摄,主题穿着具有挑战纹理图案和皱纹变形的服装。本文方法在渲染质量和几何精度方面较之前技术有明显提升。
Key Takeaways
- 动画化和着装虚拟人物模型是计算机图形学和视觉领域的重要研究问题。
- 隐式表示的最新进展使得动画化虚拟人物的质量达到前所未有的水平。
- 虚拟人物在细节层次缺失方面存在问题,特别是在高分辨率渲染时。
- 表面跟踪不准确是限制虚拟人物质量的主要原因之一,包括深度不对齐和表面漂移。
- 提出了一种潜在变形模型来解决表面跟踪问题,利用二维视频点跟踪器指导三维变形的监督。
- 引入级联训练策略来减轻跟踪漂移问题,并通过锚定点跟踪到渲染的虚拟角色来生成一致的三维点轨迹。