嘘~ 正在从服务器偷取页面 . . .

元宇宙/虚拟人


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-05 更新

ESCA: Enabling Seamless Codec Avatar Execution through Algorithm and Hardware Co-Optimization for Virtual Reality

Authors:Mingzhi Zhu, Ding Shang, Sai Qian Zhang

Photorealistic Codec Avatars (PCA), which generate high-fidelity human face renderings, are increasingly being used in Virtual Reality (VR) environments to enable immersive communication and interaction through deep learning-based generative models. However, these models impose significant computational demands, making real-time inference challenging on resource-constrained VR devices such as head-mounted displays, where latency and power efficiency are critical. To address this challenge, we propose an efficient post-training quantization (PTQ) method tailored for Codec Avatar models, enabling low-precision execution without compromising output quality. In addition, we design a custom hardware accelerator that can be integrated into the system-on-chip of VR devices to further enhance processing efficiency. Building on these components, we introduce ESCA, a full-stack optimization framework that accelerates PCA inference on edge VR platforms. Experimental results demonstrate that ESCA boosts FovVideoVDP quality scores by up to $+0.39$ over the best 4-bit baseline, delivers up to $3.36\times$ latency reduction, and sustains a rendering rate of 100 frames per second in end-to-end tests, satisfying real-time VR requirements. These results demonstrate the feasibility of deploying high-fidelity codec avatars on resource-constrained devices, opening the door to more immersive and portable VR experiences.

超真实编码化身(PCA)技术生成高度逼真的人脸渲染图像,正越来越多地用于虚拟现实(VR)环境中,以通过基于深度学习的生成模型实现沉浸式通信和交互。然而,这些模型对计算能力提出了很高的要求,对资源有限的VR设备(如头戴显示器)进行实时推理具有挑战性,其中延迟和电源效率至关重要。为了应对这一挑战,我们提出了一种针对编码化身模型的高效训练后量化(PTQ)方法,可在不降低输出质量的情况下实现低精度执行。此外,我们还设计了一个可集成到VR设备系统芯片中的定制硬件加速器,以进一步提高处理效率。基于这些组件,我们引入了ESCA,这是一个面向边缘VR平台的PCA推理加速的全栈优化框架。实验结果表明,与最佳4位基线相比,ESCA可将FovVideoVDP质量评分提高高达+0.39,延迟减少高达3.36倍,在端到端测试中保持每秒100帧的渲染速率,满足实时VR的要求。这些结果证明了在资源受限的设备上部署高保真编码化身的可行性,为更沉浸式和便携的VR体验打开了大门。

论文及项目相关链接

PDF

Summary:针对虚拟现实(VR)环境中资源受限设备(如头戴显示器)运行高保真人脸渲染模型所面临的计算挑战,本文提出了一种针对Codec Avatar模型的优化方案。该方案通过采用高效的后训练量化(PTQ)方法以及定制硬件加速器,旨在提高模型的运行速度和质量。实验结果表明,该方案成功提升了渲染质量,降低了延迟,满足了实时VR的要求,为在资源受限设备上部署高保真编解码器头像提供了可能性,开启了更沉浸式的便携式VR体验。

Key Takeaways

  1. 文章中提到的Codec Avatars模型能够生成高保真的人脸渲染,广泛应用于VR环境中。
  2. 由于模型计算量大,实时推理在资源受限的VR设备上具有挑战性。
  3. 提出了一种针对Codec Avatar模型的高效后训练量化方法,允许在低精度下执行而不影响输出质量。
  4. 设计了一个可集成到VR设备系统芯片中的定制硬件加速器,以提高处理效率。
  5. 引入了ESCA优化框架,提高了FovVideoVDP质量评分,并实现了高达3.36倍的延迟降低。
  6. ESCA框架满足了实时VR的每秒百帧渲染率要求。

Cool Papers

点此查看论文截图

STG-Avatar: Animatable Human Avatars via Spacetime Gaussian

Authors:Guangan Jiang, Tianzi Zhang, Dong Li, Zhenjun Zhao, Haoang Li, Mingrui Li, Hongyu Wang

Realistic animatable human avatars from monocular videos are crucial for advancing human-robot interaction and enhancing immersive virtual experiences. While recent research on 3DGS-based human avatars has made progress, it still struggles with accurately representing detailed features of non-rigid objects (e.g., clothing deformations) and dynamic regions (e.g., rapidly moving limbs). To address these challenges, we present STG-Avatar, a 3DGS-based framework for high-fidelity animatable human avatar reconstruction. Specifically, our framework introduces a rigid-nonrigid coupled deformation framework that synergistically integrates Spacetime Gaussians (STG) with linear blend skinning (LBS). In this hybrid design, LBS enables real-time skeletal control by driving global pose transformations, while STG complements it through spacetime adaptive optimization of 3D Gaussians. Furthermore, we employ optical flow to identify high-dynamic regions and guide the adaptive densification of 3D Gaussians in these regions. Experimental results demonstrate that our method consistently outperforms state-of-the-art baselines in both reconstruction quality and operational efficiency, achieving superior quantitative metrics while retaining real-time rendering capabilities. Our code is available at https://github.com/jiangguangan/STG-Avatar

从单目视频中构建出逼真可动画的人类虚拟角色对于推动人机互动和提升沉浸式虚拟体验至关重要。尽管基于3DGS的人类虚拟角色的近期研究已经取得了一些进展,但它仍然难以准确表示非刚性物体的详细特征(例如服装变形)和动态区域(例如快速移动的四肢)。为了解决这些挑战,我们推出了STG-Avatar,这是一个基于3DGS的高保真可动画人类角色重建框架。具体来说,我们的框架引入了一个刚体-非刚体耦合变形框架,该框架协同整合了时空高斯(STG)和线性混合蒙皮(LBS)。在这种混合设计中,LBS通过驱动全局姿势变换实现实时骨骼控制,而STG则通过时空高斯的空间时间自适应优化对其进行补充。此外,我们还利用光流来确定高动态区域,并引导这些区域中3D高斯值的自适应密集化。实验结果表明,我们的方法在重建质量和操作效率方面均优于最先进的技术基线,实现了优异的定量指标,同时保留了实时渲染能力。我们的代码可在https://github.com/jiangguangan/STG-Avatar找到。

论文及项目相关链接

PDF Accepted by the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2025

Summary
基于单目视频的高度逼真可操控的人形化身对推进人机互动和提升沉浸式虚拟体验至关重要。最新基于3DGS的人形化身研究虽有所进展,但在准确表现非刚性物体的细节特征和动态区域方面仍面临挑战。为此,我们提出STG-Avatar框架,通过集成时空高斯和线性混合蒙皮技术,实现高度逼真可操控的人形化身重建。利用光学流动识别高动态区域,并在此区域指导三维高斯自适应密集化。实验结果证明,我们的方法在重建质量和运行效率方面均优于最新技术基准测试,同时保持实时渲染能力。

Key Takeaways

  1. 人形化身对人机互动和虚拟体验至关重要。
  2. 现有3DGS技术在表现非刚性物体和动态区域方面存在挑战。
  3. STG-Avatar框架通过集成时空高斯和线性混合蒙皮技术解决这些问题。
  4. 光学流动用于识别高动态区域,并在此区域指导三维高斯自适应密集化。
  5. STG-Avatar在重建质量和运行效率方面超越现有技术。
  6. STG-Avatar具备实时渲染能力。

Cool Papers

点此查看论文截图

Capture, Canonicalize, Splat: Zero-Shot 3D Gaussian Avatars from Unstructured Phone Images

Authors:Emanuel Garbin, Guy Adam, Oded Krams, Zohar Barzelay, Eran Guendelman, Michael Schwarz, Matteo Presutto, Moran Vatelmacher, Yigal Shenkman, Eli Peker, Itai Druker, Uri Patish, Yoav Blum, Max Bluvstein, Junxuan Li, Rawal Khirodkar, Shunsuke Saito

We present a novel, zero-shot pipeline for creating hyperrealistic, identity-preserving 3D avatars from a few unstructured phone images. Existing methods face several challenges: single-view approaches suffer from geometric inconsistencies and hallucinations, degrading identity preservation, while models trained on synthetic data fail to capture high-frequency details like skin wrinkles and fine hair, limiting realism. Our method introduces two key contributions: (1) a generative canonicalization module that processes multiple unstructured views into a standardized, consistent representation, and (2) a transformer-based model trained on a new, large-scale dataset of high-fidelity Gaussian splatting avatars derived from dome captures of real people. This “Capture, Canonicalize, Splat” pipeline produces static quarter-body avatars with compelling realism and robust identity preservation from unstructured photos.

我们提出了一种新颖的零样本管道,用于从少量非结构化手机图像中创建超逼真的身份保留3D化身。现有方法面临几个挑战:单视图方法受到几何不一致和幻觉的影响,身份保留功能退化,而基于合成数据训练的模型无法捕捉皮肤皱纹和精细头发等高频细节,限制了真实感。我们的方法引入了两个关键贡献:(1)一个生成规范化模块,该模块将多个非结构化视图处理为标准化、一致性的表示;(2)一个基于变压器的新模型,该模型是在从真实人物的穹顶捕获派生的高保真高斯平铺化身的大规模数据集上进行训练的。这种“捕获、规范化、平铺”管道能够从未经结构的照片中产生静态的四分之一身体化身,具有引人注目的真实感和稳健的身份保留功能。

论文及项目相关链接

PDF This work received the Best Paper Honorable Mention at the AMFG Workshop, ICCV 2025

Summary

本文介绍了一种全新的零样本管道,通过少量非结构化手机图像创建超逼真的身份保留3D头像。现有方法面临几何不一致性、幻象等挑战,影响身份保留;而依赖合成数据训练的模型无法捕捉高频细节,如皮肤皱纹和精细毛发,限制逼真度。本文的方法有两个关键贡献:一是生成规范化模块,将多个非结构化视图处理为标准化、一致性的表示;二是基于转换器的新大型高斯延展头像数据集训练模型,来源于真实人物的穹顶捕捉。此“捕捉、规范化、延展”管道能从非结构化照片中生成静态的四分之一体型头像,具有引人注目的逼真度和稳健的身份保留。

Key Takeaways

  1. 提出了一种全新的零样本管道,从少量非结构化手机图像创建超逼真的3D头像。
  2. 解决了现有方法面临的几何不一致性和幻象挑战。
  3. 引入了生成规范化模块,将多个非结构化视图转化为标准化、一致性的表示。
  4. 采用基于转换器的大型高斯延展头像数据集训练模型,提高了头像的逼真度和身份保留能力。
  5. 该方法能够捕捉高频细节,如皮肤皱纹和精细毛发。
  6. 采用了“捕捉、规范化、延展”的管道,生成静态的四分之一体型头像。
  7. 该方法具有引人注目的逼真度和稳健的身份保留效果。

Cool Papers

点此查看论文截图

HRM^2Avatar: High-Fidelity Real-Time Mobile Avatars from Monocular Phone Scans

Authors:Chao Shi, Shenghao Jia, Jinhui Liu, Yong Zhang, Liangchao Zhu, Zhonglei Yang, Jinze Ma, Chaoyue Niu, Chengfei Lv

We present HRM$^2$Avatar, a framework for creating high-fidelity avatars from monocular phone scans, which can be rendered and animated in real time on mobile devices. Monocular capture with smartphones provides a low-cost alternative to studio-grade multi-camera rigs, making avatar digitization accessible to non-expert users. Reconstructing high-fidelity avatars from single-view video sequences poses challenges due to limited visual and geometric data. To address these limitations, at the data level, our method leverages two types of data captured with smartphones: static pose sequences for texture reconstruction and dynamic motion sequences for learning pose-dependent deformations and lighting changes. At the representation level, we employ a lightweight yet expressive representation to reconstruct high-fidelity digital humans from sparse monocular data. We extract garment meshes from monocular data to model clothing deformations effectively, and attach illumination-aware Gaussians to the mesh surface, enabling high-fidelity rendering and capturing pose-dependent lighting. This representation efficiently learns high-resolution and dynamic information from monocular data, enabling the creation of detailed avatars. At the rendering level, real-time performance is critical for animating high-fidelity avatars in AR/VR, social gaming, and on-device creation. Our GPU-driven rendering pipeline delivers 120 FPS on mobile devices and 90 FPS on standalone VR devices at 2K resolution, over $2.7\times$ faster than representative mobile-engine baselines. Experiments show that HRM$^2$Avatar delivers superior visual realism and real-time interactivity, outperforming state-of-the-art monocular methods.

我们推出HRM$^2$Avatar框架,该框架可通过单目手机扫描创建高保真虚拟形象,并可在移动设备上实时呈现和动画。使用智能手机的单目捕获技术为专业级的多相机拍摄设备提供了低成本替代方案,使虚拟角色数字化对非专业用户变得触手可及。从单目视频序列重建高保真虚拟形象,由于有限的视觉和几何数据,这带来了挑战。为了克服这些限制,在数据层面,我们的方法利用智能手机捕获的两种类型的数据:静态姿势序列用于纹理重建和动态运动序列,以学习姿势相关的变形和光照变化。在表示层面,我们采用了一种轻便而富有表现力的表示方法,从稀疏的单目数据中重建高保真数字人类。我们从单目数据中提取服装网格,以有效地对服装变形进行建模,并将光照感知高斯附加到网格表面,以实现高保真渲染和捕捉姿势相关的照明。该表示法可以有效地从单目数据中学习高分辨率和动态信息,从而创建详细的虚拟形象。在渲染层面,对于在AR/VR、社交游戏和设备上创建中动画高保真虚拟形象而言,实时性能至关重要。我们的GPU驱动的渲染管道在移动设备上以每秒120帧的速度运行,在独立VR设备上以每秒90帧的速度运行,分辨率达到2K,比典型的移动引擎基准高出$ 2.7 \times $。实验表明,HRM$^2$Avatar在视觉真实感和实时交互方面表现出卓越的性能,优于最先进的单目方法。

论文及项目相关链接

PDF SIGGRAPH Asia 2025, Project Page: https://acennr-engine.github.io/HRM2Avatar

摘要

HRM$^2$Avatar框架可通过手机单目扫描创建高保真虚拟人,可在移动设备上实时渲染和动画化。单目捕获技术为专业级多相机提供了低成本替代方案,使虚拟人数字化对非专业用户也变得可行。从单视角视频序列重建高保真虚拟人面临视觉和几何数据有限的挑战。针对这些局限性,我们的方法从智能手机捕获的两种数据中汲取信息:静态姿势序列用于纹理重建和动态运动序列用于学习姿势相关的变形和光照变化。在表示层面,我们采用简洁而富有表现力的形式从稀疏的单目数据中重建高保真数字人。我们从单目数据中提取服装网格以有效地模拟服装变形,并将光照感知的高斯函数附加到网格表面,以实现高保真渲染和捕捉姿势相关的光照。此表示形式可从单目数据中有效学习高分辨率和动态信息,可用于创建详细的虚拟人。在渲染层面,对于AR/VR、社交游戏和实时创建等应用而言,实时性能至关重要。我们的GPU驱动的渲染管道在移动设备上以每秒120帧的速度运行,在独立VR设备上以每秒高达2K的分辨率运行高达每秒90帧,比移动引擎基准高出超过$2.7\times$的速度。实验表明,HRM$^2$Avatar的视觉效果更加逼真且实现了实时互动效果,超越了最新的单目方法。

要点总结

一、介绍了一种名为HRM$^2$Avatar的框架,可通过手机单目扫描创建高保真虚拟人,适用于移动设备上的实时渲染和动画化。
二、该技术提供了低成本的解决方案,取代了昂贵的专业级多相机设备,使得虚拟人数字化更加普及。
三、针对单目捕获的挑战,如视觉和几何数据的限制,提出了有效的解决方案,包括利用智能手机捕获的静态和动态数据以及采用简洁而富有表现力的表现形式。
四、通过提取服装网格并附加光照感知的高斯函数到网格表面,实现了高保真渲染和捕捉姿势相关的光照变化。
五、该框架的GPU驱动的渲染管道实现了高帧率渲染,在移动设备和独立VR设备上均表现出优异的性能。
六、实验结果表明,HRM$^2$Avatar在视觉真实感和实时互动性方面超越了现有的单目方法。

Cool Papers

点此查看论文截图

MixedGaussianAvatar: Realistically and Geometrically Accurate Head Avatar via Mixed 2D-3D Gaussians

Authors:Peng Chen, Xiaobao Wei, Qingpo Wuwu, Xinyi Wang, Xingyu Xiao, Ming Lu

Reconstructing high-fidelity 3D head avatars is crucial in various applications such as virtual reality. The pioneering methods reconstruct realistic head avatars with Neural Radiance Fields (NeRF), which have been limited by training and rendering speed. Recent methods based on 3D Gaussian Splatting (3DGS) significantly improve the efficiency of training and rendering. However, the surface inconsistency of 3DGS results in subpar geometric accuracy; later, 2DGS uses 2D surfels to enhance geometric accuracy at the expense of rendering fidelity. To leverage the benefits of both 2DGS and 3DGS, we propose a novel method named MixedGaussianAvatar for realistically and geometrically accurate head avatar reconstruction. Our main idea is to utilize 2D Gaussians to reconstruct the surface of the 3D head, ensuring geometric accuracy. We attach the 2D Gaussians to the triangular mesh of the FLAME model and connect additional 3D Gaussians to those 2D Gaussians where the rendering quality of 2DGS is inadequate, creating a mixed 2D-3D Gaussian representation. These 2D-3D Gaussians can then be animated using FLAME parameters. We further introduce a progressive training strategy that first trains the 2D Gaussians and then fine-tunes the mixed 2D-3D Gaussians. We use a unified mixed Gaussian representation to integrate the two modalities of 2D image and 3D mesh. Furthermore, the comprehensive experiments demonstrate the superiority of MixedGaussianAvatar. The code will be released.

在虚拟现实等应用中,重建高保真度的3D头像角色至关重要。开创性的方法使用神经辐射场(NeRF)重建逼真的头像,但由于训练和渲染速度的限制,存在局限。最近基于三维高斯绘图技术(3DGS)的方法显著提高了训练和渲染的效率。然而,这会导致表面不一致性问题并产生较差的几何精度。后来的二维高斯绘图表技术(二维绘图表),则采用二维绘本来提高几何精度,但同时也牺牲了渲染质量。为了充分利用二维绘图表和三维高斯绘图的优点,我们提出了一种名为MixedGaussianAvatar的新方法来进行真实且几何准确的头像角色重建。我们的主要思想是利用二维高斯重建三维头部的表面,以确保几何精度。我们将二维高斯附着在FLAME模型的三角网格上,并在二维高斯渲染质量不足的地方附加额外的三维高斯,创建混合的二维至三维高斯表示。这些二维至三维高斯可以使用FLAME参数进行动画渲染。我们还引入了一种逐步训练策略,即首先训练二维高斯并微调混合的二维至三维高斯表示法。我们使用统一的混合高斯表示来整合二维图像和三维网格的两种模式。此外,综合实验证明MixedGaussianAvatar方法的优越性。相关代码将会发布。

论文及项目相关链接

PDF

Summary
利用二维和三维高斯混合表示,提出一种名为MixedGaussianAvatar的新方法,用于真实且几何精度高的头部化身重建。该方法结合2DGS和3DGS的优点,通过利用二维高斯重建三维头部表面,保证几何精度,并通过附加三维高斯来提升渲染质量。采用渐进训练策略,先训练二维高斯,再微调混合的二维-三维高斯。统一混合高斯表示,整合二维图像和三维网格的两种模态。

Key Takeaways

  1. MixedGaussianAvatar方法结合了2DGS和3DGS的优势,旨在实现高真实度和几何精度的头部化身重建。
  2. 该方法利用二维高斯重建三维头部表面,确保几何精度,并通过附加三维高斯提升渲染质量。
  3. 采用渐进训练策略,先训练二维高斯,再对混合的二维-三维高斯进行微调。
  4. 统一混合高斯表示,整合二维图像和三维网格的两种模态,提高渲染效果。
  5. MixedGaussianAvatar方法通过综合实验验证其优越性。
  6. 该方法将释放代码,便于其他研究者使用与进一步开发。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-11-05 SAGS Self-Adaptive Alias-Free Gaussian Splatting for Dynamic Surgical Endoscopic Reconstruction
2025-11-05
下一篇 
GAN GAN
GAN 方向最新论文已更新,请持续关注 Update in 2025-11-05 GLYPH-SR Can We Achieve Both High-Quality Image Super-Resolution and High-Fidelity Text Recovery via VLM-guided Latent Diffusion Model?
2025-11-05
  目录