嘘~ 正在从服务器偷取页面 . . .

Face Swapping


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-06 更新

PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing

Authors:Antonio Oroz, Matthias Nießner, Tobias Kirschstein

We present PercHead, a method for single-image 3D head reconstruction and semantic 3D editing - two tasks that are inherently challenging due to severe view occlusions, weak perceptual supervision, and the ambiguity of editing in 3D space. We develop a unified base model for reconstructing view-consistent 3D heads from a single input image. The model employs a dual-branch encoder followed by a ViT-based decoder that lifts 2D features into 3D space through iterative cross-attention. Rendering is performed using Gaussian Splatting. At the heart of our approach is a novel perceptual supervision strategy based on DINOv2 and SAM2.1, which provides rich, generalized signals for both geometric and appearance fidelity. Our model achieves state-of-the-art performance in novel-view synthesis and, furthermore, exhibits exceptional robustness to extreme viewing angles compared to established baselines. Furthermore, this base model can be seamlessly extended for semantic 3D editing by swapping the encoder and finetuning the network. In this variant, we disentangle geometry and style through two distinct input modalities: a segmentation map to control geometry and either a text prompt or a reference image to specify appearance. We highlight the intuitive and powerful 3D editing capabilities of our model through a lightweight, interactive GUI, where users can effortlessly sculpt geometry by drawing segmentation maps and stylize appearance via natural language or image prompts. Project Page: https://antoniooroz.github.io/PercHead Video: https://www.youtube.com/watch?v=4hFybgTk4kE

我们提出了PercHead方法,这是一种用于单图像3D头部重建和语义3D编辑的方法——这两项任务由于严重的视图遮挡、微弱的感知监督和3D空间编辑的模糊性而具有固有的挑战性。我们开发了一个统一的基准模型,用于从单个输入图像重建视图一致的3D头部。该模型采用双分支编码器,后面是一个基于ViT的解码器,通过迭代交叉注意力将2D特征提升到3D空间。渲染是使用高斯拼贴技术完成的。我们的方法的核心在于一种基于DINOv2和SAM2.1的新型感知监督策略,它为几何和外观保真度提供了丰富且通用的信号。我们的模型在新视角合成方面达到了最先进的性能,并且与既定的基准线相比,对极端视角表现出惊人的稳健性。此外,这个基准模型可以通过交换编码器和微调网络无缝扩展到语义3D编辑。在这个变种中,我们通过两种不同输入模式:分割图控制几何,文本提示或参考图像指定外观,来分离几何和风格。我们通过一个轻便、交互式的GUI突出我们模型的直观和强大的3D编辑功能,用户可以通过绘制分割图轻松地塑造几何结构,并通过自然语言或图像提示来美化外观。项目页面:https://antoniooroz.github.io/PercHead 视频:https://www.youtube.com/watch?v=4hFybgTk4kE

论文及项目相关链接

PDF Project Page: https://antoniooroz.github.io/PercHead/ Video: https://www.youtube.com/watch?v=4hFybgTk4kE

摘要

本文介绍了PercHead方法,该方法用于单图像3D头部重建和语义3D编辑。通过统一的基础模型,实现从单个输入图像进行视图一致的3D头部重建。模型采用双分支编码器,后跟基于ViT的解码器,通过迭代交叉注意力将2D特征提升到3D空间。使用高斯拼贴进行渲染。我们的方法的核心在于基于DINOv2和SAM2.1的的新型感知监督策略,为几何和外观保真度提供丰富、通用的信号。在新型视图合成方面,我们的模型取得了最先进的性能,并且在极端观看角度方面表现出惊人的稳健性。此外,此基础模型可以无缝扩展进行语义3D编辑,通过交换编码器和微调网络来实现。在该变种中,我们通过两种不同输入模式:分割图控制几何,文本提示或参考图像指定外观,来分离几何和风格。我们通过一个轻量级、交互式的GUI突出模型的直观和强大的3D编辑能力,用户可以通过绘制分割图和通过自然语言或图像提示来轻松塑造几何和风格化外观。

关键见解

  1. PercHead是一种用于单图像3D头部重建和语义3D编辑的方法,实现了视图一致的3D头部重建。
  2. 采用统一的基础模型,通过双分支编码器和ViT解码器实现2D到3D的转换。
  3. 感知监督策略基于DINOv2和SAM2.1,为几何和外观保真度提供丰富信号。
  4. 在新型视图合成方面取得最先进的性能,并展现对极端视角的稳健性。
  5. 基础模型可扩展到语义3D编辑,通过交换编码器和微调网络来实现。
  6. 通过分离几何和风格(通过分割图和文本/图像提示)实现了强大的编辑能力。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
GAN GAN
GAN 方向最新论文已更新,请持续关注 Update in 2025-11-06 AI-Generated Image Detection An Empirical Study and Future Research Directions
2025-11-06
下一篇 
Speech Speech
Speech 方向最新论文已更新,请持续关注 Update in 2025-11-06 Improving DF-Conformer Using Hydra For High-Fidelity Generative Speech Enhancement on Discrete Codec Token
2025-11-06
  目录