⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-16 更新
Dynamic Avatar-Scene Rendering from Human-centric Context
Authors:Wenqing Wang, Haosen Yang, Josef Kittler, Xiatian Zhu
Reconstructing dynamic humans interacting with real-world environments from monocular videos is an important and challenging task. Despite considerable progress in 4D neural rendering, existing approaches either model dynamic scenes holistically or model scenes and backgrounds separately aim to introduce parametric human priors. However, these approaches either neglect distinct motion characteristics of various components in scene especially human, leading to incomplete reconstructions, or ignore the information exchange between the separately modeled components, resulting in spatial inconsistencies and visual artifacts at human-scene boundaries. To address this, we propose {\bf Separate-then-Map} (StM) strategy that introduces a dedicated information mapping mechanism to bridge separately defined and optimized models. Our method employs a shared transformation function for each Gaussian attribute to unify separately modeled components, enhancing computational efficiency by avoiding exhaustive pairwise interactions while ensuring spatial and visual coherence between humans and their surroundings. Extensive experiments on monocular video datasets demonstrate that StM significantly outperforms existing state-of-the-art methods in both visual quality and rendering accuracy, particularly at challenging human-scene interaction boundaries.
从单目视频中重建与真实世界环境互动的动态人类是一项重要且具有挑战性的任务。尽管4D神经渲染取得了很大的进展,但现有方法要么整体建模动态场景,要么分别建模场景和背景,旨在引入参数化人类先验。然而,这些方法要么忽视了场景中各种组件尤其是人类的独特运动特征,导致重建不完整,要么忽视了单独建模组件之间的信息交换,导致人物-场景边界的空间不一致和视觉伪影。为了解决这一问题,我们提出了先分离再映射(StM)策略,该策略引入了一种专用信息映射机制,以桥接单独定义和优化过的模型。我们的方法为每个高斯属性采用一个共享转换函数,以统一单独建模的组件,通过避免详尽的配对交互来提高计算效率,同时确保人物及其周围环境之间的空间和视觉连贯性。在单目视频数据集上的大量实验表明,StM在视觉质量和渲染精度上显著优于现有最先进的方法,特别是在具有挑战性的人物-场景交互边界上。
论文及项目相关链接
PDF 13 pages, 8 figures
Summary:提出一种基于动态视频的场景与人重建的方法,包括采用独立的建模方法并利用共享变换函数进行优化,确保人与场景之间的空间一致性。通过实验证明,该方法在视觉质量和渲染精度上均优于现有技术,特别是在人与场景交互边界的挑战中表现优异。
Key Takeaways:
- 该研究提出了一种动态视频场景中的人与环境的重建方法,旨在解决这一重要且具有挑战性的任务。
- 现有方法在建模动态场景时存在缺陷,如忽略场景中不同组件的运动特性或忽略单独建模组件之间的信息交换。
- 研究提出了一种名为“Separate-then-Map”(StM)的策略,通过引入专门的信息映射机制来桥接单独定义和优化的模型。
- StM方法采用共享变换函数对每个高斯属性进行统一处理,以提高计算效率并确保人与场景之间的空间一致性。
- 实验证明,StM方法在视觉质量和渲染精度上均优于现有技术。
- StM方法在解决人与场景交互边界的挑战时表现尤为出色。
点此查看论文截图
AHA! Animating Human Avatars in Diverse Scenes with Gaussian Splatting
Authors:Aymen Mir, Jian Wang, Riza Alp Guler, Chuan Guo, Gerard Pons-Moll, Bing Zhou
We present a novel framework for animating humans in 3D scenes using 3D Gaussian Splatting (3DGS), a neural scene representation that has recently achieved state-of-the-art photorealistic results for novel-view synthesis but remains under-explored for human-scene animation and interaction. Unlike existing animation pipelines that use meshes or point clouds as the underlying 3D representation, our approach introduces the use of 3DGS as the 3D representation to the problem of animating humans in scenes. By representing humans and scenes as Gaussians, our approach allows for geometry-consistent free-viewpoint rendering of humans interacting with 3D scenes. Our key insight is that the rendering can be decoupled from the motion synthesis and each sub-problem can be addressed independently, without the need for paired human-scene data. Central to our method is a Gaussian-aligned motion module that synthesizes motion without explicit scene geometry, using opacity-based cues and projected Gaussian structures to guide human placement and pose alignment. To ensure natural interactions, we further propose a human-scene Gaussian refinement optimization that enforces realistic contact and navigation. We evaluate our approach on scenes from Scannet++ and the SuperSplat library, and on avatars reconstructed from sparse and dense multi-view human capture. Finally, we demonstrate that our framework allows for novel applications such as geometry-consistent free-viewpoint rendering of edited monocular RGB videos with new animated humans, showcasing the unique advantage of 3DGS for monocular video-based human animation.
我们提出了一种利用三维高斯拼贴(3DGS)技术,在三维场景中对人物进行动画制作的全新框架。三维高斯拼贴是一种神经场景表示技术,最近在新视角合成方面取得了最先进的逼真效果,但在人物场景动画和交互方面仍待进一步探索。不同于现有的使用网格或点云作为底层三维表示的动画管道,我们的方法引入了三维高斯拼贴作为在场景中制作人物动画的三维表示。通过将人物和场景表示为高斯形式,我们的方法实现了人物与三维场景的几何一致性自由视点渲染。我们的关键见解是,渲染可以与运动合成解耦,每个子问题都可以独立解决,无需配对的人物场景数据。我们方法的核心是对齐高斯运动模块,该模块可在没有明确场景几何的情况下合成运动,利用基于不透明度的线索和投影高斯结构来指导人物放置和姿势对齐。为了确保自然交互,我们进一步提出了人物场景高斯优化算法,以强制实施逼真的接触和导航。我们在Scannet++和SuperSplat库的场景上评估了我们的方法,并在从稀疏和密集的多视角人物捕捉中重建的角色上进行了评估。最后,我们证明我们的框架允许新型应用,如编辑后的单目RGB视频中的几何一致性自由视点渲染新动画人物,展示了三维高斯拼贴在单目视频人物动画中的独特优势。
论文及项目相关链接
Summary
本文提出了一种基于三维高斯模糊技术(3DGS)的新型动画框架,用于在三维场景中模拟人物动画。与传统的使用网格或点云作为三维表示的动画流程不同,本文采用高斯模糊作为人物与场景的三维表示。通过高斯表示法,该框架可实现人物与场景之间的几何一致性自由视角渲染。其核心思想是将渲染与运动合成解耦,并独立解决每个子问题,无需配对的人物场景数据。此框架还包括高斯对齐运动模块和人物场景高斯细化优化方法,可实现无场景几何信息的合成运动、真实感接触和导航等效果。在多个数据集上的实验表明,该框架具有几何一致性自由视角渲染编辑单目RGB视频的能力。
Key Takeaways
- 提出了一种基于三维高斯模糊技术(3DGS)的新型动画框架,用于人物与场景的交互动画。
- 采用高斯模糊作为人物与场景的三维表示,实现了几何一致性自由视角渲染。
- 将渲染与运动合成解耦,可独立解决每个子问题,无需配对的人物场景数据。
- 高斯对齐运动模块可实现无场景几何信息的合成运动。
- 人物场景高斯细化优化方法可实现真实感接触和导航等效果。
- 在多个数据集上的实验验证了该框架的有效性。
点此查看论文截图
AvatarTex: High-Fidelity Facial Texture Reconstruction from Single-Image Stylized Avatars
Authors:Yuda Qiu, Zitong Xiao, Yiwei Zuo, Zisheng Ye, Weikai Chen, Xiaoguang Han
We present AvatarTex, a high-fidelity facial texture reconstruction framework capable of generating both stylized and photorealistic textures from a single image. Existing methods struggle with stylized avatars due to the lack of diverse multi-style datasets and challenges in maintaining geometric consistency in non-standard textures. To address these limitations, AvatarTex introduces a novel three-stage diffusion-to-GAN pipeline. Our key insight is that while diffusion models excel at generating diversified textures, they lack explicit UV constraints, whereas GANs provide a well-structured latent space that ensures style and topology consistency. By integrating these strengths, AvatarTex achieves high-quality topology-aligned texture synthesis with both artistic and geometric coherence. Specifically, our three-stage pipeline first completes missing texture regions via diffusion-based inpainting, refines style and structure consistency using GAN-based latent optimization, and enhances fine details through diffusion-based repainting. To address the need for a stylized texture dataset, we introduce TexHub, a high-resolution collection of 20,000 multi-style UV textures with precise UV-aligned layouts. By leveraging TexHub and our structured diffusion-to-GAN pipeline, AvatarTex establishes a new state-of-the-art in multi-style facial texture reconstruction. TexHub will be released upon publication to facilitate future research in this field.
我们推出AvatarTex,这是一款高保真面部纹理重建框架,能够从单张图片生成风格化和写实风格的纹理。现有方法由于缺少多样化的多风格数据集以及在非标准纹理中保持几何一致性的挑战,因此在风格化角色上表现挣扎。为了解决这些局限性,AvatarTex引入了一种新颖的三阶段扩散到生成对抗网络(GAN)管道。我们的关键见解是,虽然扩散模型在生成多样化纹理方面表现出色,但它们缺乏明确的UV约束,而GAN则提供了一个结构良好的潜在空间,确保风格和拓扑一致性。通过整合这些优势,AvatarTex实现了高质量拓扑对齐纹理合成,具有艺术性和几何一致性。具体来说,我们的三阶段管道首先通过基于扩散的补全完成缺失纹理区域,然后使用基于GAN的潜在优化来完善风格和结构的一致性,最后通过基于扩散的重绘增强细节。为了解决对风格化纹理数据集的需求,我们推出了TexHub,这是一个高分辨率的包含2万多个多风格UV纹理的集合,具有精确的UV对齐布局。通过利用TexHub和我们结构化扩散到GAN的管道,AvatarTex在多风格面部纹理重建方面达到了最新水平。TexHub将在发布时一并公开,以促进该领域的未来研究。
论文及项目相关链接
PDF 3DV 2026 Accepted
Summary
AvatarTex是一个高保真面部纹理重建框架,它可以从单张图片生成具有个性化及逼真效果的纹理。为了解决现有方法在处理个性化角色纹理时面临的缺乏多样风格数据集以及几何一致性维护上的挑战,提出了一个新的由扩散到生成对抗网络的分阶段模型。该模型结合了扩散模型的纹理多样性和生成对抗网络在风格与拓扑一致性上的优势,实现了高质量、拓扑对齐的纹理合成,同时保证了艺术性和几何一致性。此外,还引入了一个高分辨率的多风格UV纹理数据集TexHub,并采用了结构化扩散到生成对抗网络的流程。这为多风格面部纹理重建提供了新的研究里程碑。TexHub数据集将在论文发布时一并发布,为相关领域的研究提供便利。
Key Takeaways
- AvatarTex是一个高保真面部纹理重建框架,能够从单张图片生成个性化及逼真的纹理。
- 该框架解决了现有方法在个性化角色纹理处理上的挑战,通过引入一个新的由扩散到生成对抗网络的分阶段模型,结合了扩散模型和生成对抗网络的优势。
- 模型实现了高质量、拓扑对齐的纹理合成,保证了艺术性和几何一致性。
- 引入了一个高分辨率的多风格UV纹理数据集TexHub,用于支持模型训练和应用。
- 模型采用了结构化扩散到生成对抗网络的流程,提高了纹理合成的质量和效率。
- TexHub数据集将在论文发布时发布,为相关领域的研究提供便利。