嘘~ 正在从服务器偷取页面 . . .

NeRF


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-05-27 更新

CGS-GAN: 3D Consistent Gaussian Splatting GANs for High Resolution Human Head Synthesis

Authors:Florian Barthel, Wieland Morgenstern, Paul Hinzer, Anna Hilsmann, Peter Eisert

Recently, 3D GANs based on 3D Gaussian splatting have been proposed for high quality synthesis of human heads. However, existing methods stabilize training and enhance rendering quality from steep viewpoints by conditioning the random latent vector on the current camera position. This compromises 3D consistency, as we observe significant identity changes when re-synthesizing the 3D head with each camera shift. Conversely, fixing the camera to a single viewpoint yields high-quality renderings for that perspective but results in poor performance for novel views. Removing view-conditioning typically destabilizes GAN training, often causing the training to collapse. In response to these challenges, we introduce CGS-GAN, a novel 3D Gaussian Splatting GAN framework that enables stable training and high-quality 3D-consistent synthesis of human heads without relying on view-conditioning. To ensure training stability, we introduce a multi-view regularization technique that enhances generator convergence with minimal computational overhead. Additionally, we adapt the conditional loss used in existing 3D Gaussian splatting GANs and propose a generator architecture designed to not only stabilize training but also facilitate efficient rendering and straightforward scaling, enabling output resolutions up to $2048^2$. To evaluate the capabilities of CGS-GAN, we curate a new dataset derived from FFHQ. This dataset enables very high resolutions, focuses on larger portions of the human head, reduces view-dependent artifacts for improved 3D consistency, and excludes images where subjects are obscured by hands or other objects. As a result, our approach achieves very high rendering quality, supported by competitive FID scores, while ensuring consistent 3D scene generation. Check our our project page here: https://fraunhoferhhi.github.io/cgs-gan/

最近,基于三维高斯拼贴技术的三维GAN已被提出用于高质量的人头合成。然而,现有方法通过根据当前相机位置对随机潜在向量进行条件处理,从而稳定训练并从陡峭视角增强渲染质量。这会影响三维一致性,因为我们在重新合成三维头部时观察到身份的重大变化会随着每次相机移动而变化。相反,将相机固定在单一视角上为该视角产生了高质量的渲染,但对新视角的性能造成了负面影响。移除视图条件通常会破坏GAN训练,导致训练崩溃。针对这些挑战,我们引入了CGS-GAN,这是一种新型的三维高斯拼贴GAN框架,无需依赖视图条件即可实现稳定训练和高质量的三维一致人头合成。为了确保训练稳定性,我们引入了一种多视角正则化技术,该技术可以在最小计算开销的情况下增强生成器的收敛性。此外,我们适应了现有三维高斯拼贴GAN中的条件损失,并提出了一种设计新颖的生成器架构,不仅可稳定训练,还可实现高效渲染和直观缩放,支持高达$ 2048^2 $的输出分辨率。为了评估CGS-GAN的能力,我们从FFHQ中整理了一个新的数据集。该数据集可实现极高分辨率,侧重于人类头部的大部分区域,减少了视图相关的伪影以改善三维一致性,并排除了主体被手或其他物体遮挡的图像。因此,我们的方法在保证三维场景一致性生成的同时,达到了很高的渲染质量,并得到了有竞争力的FID分数。请访问我们的项目页面了解更多信息:[https://fraunhoferhhi.github.io/cgs-gan/]

论文及项目相关链接

PDF Main paper 12 pages, supplementary materials 8 pages

摘要
基于三维高斯拼贴技术的三维GAN近期被用于高质量的人头合成。现有方法通过当前相机位置对随机潜在向量进行条件化,以稳定训练和增强从陡峭视角的渲染质量,但这损害了三维一致性。我们的CGS-GAN框架无需依赖视图条件化,即可实现稳定训练和高质量的三维一致性人头合成。为确保训练稳定性,我们引入了一种多视角正则化技术,以最小的计算开销增强生成器收敛。此外,我们改进了现有三维高斯拼贴GAN中的条件损失,并提出了一个设计用于稳定训练、促进高效渲染和直观扩展的生成器架构,支持高达$ 2048^2 $的输出分辨率。为评估CGS-GAN的能力,我们从FFHQ中整理了一个新数据集,该数据集支持超高分辨率,重点关注人头的更大部分,减少视图相关的伪影以提高三维一致性,并排除被手或其他物体遮挡的主体图像。我们的方法实现了高质量渲染和高竞争力的FID得分,同时确保了一致的三维场景生成。更多详情,请访问我们的项目页面:[https://fraunhoferhhi.github.io/cgs-gan/]

关键见解

  1. 现有基于三维高斯拼贴的3D GAN在合成高质量人头时面临挑战。
  2. 训练稳定性和渲染质量之间存在权衡,尤其是在不同视角下的人头合成中。
  3. CGS-GAN框架引入了一种无需视图条件化的稳定训练模式。
  4. 提出的多视角正则化技术可提高生成器收敛性和训练稳定性。
  5. 对现有条件损失进行了改进,提高了生成器的性能并简化了渲染过程。
  6. 新数据集专注于人头的更大部分和更高分辨率渲染,并提高了三维一致性。

Cool Papers

点此查看论文截图

Preconditioners for the Stochastic Training of Neural Fields

Authors:Shin-Fang Chng, Hemanth Saratchandran, Simon Lucey

Neural fields encode continuous multidimensional signals as neural networks, enabling diverse applications in computer vision, robotics, and geometry. While Adam is effective for stochastic optimization, it often requires long training times. To address this, we explore alternative optimization techniques to accelerate training without sacrificing accuracy. Traditional second-order methods like L-BFGS are unsuitable for stochastic settings. We propose a theoretical framework for training neural fields with curvature-aware diagonal preconditioners, demonstrating their effectiveness across tasks such as image reconstruction, shape modeling, and Neural Radiance Fields (NeRF).

神经场通过神经网络编码连续的多维信号,为计算机视觉、机器人技术和几何等领域提供了多样化的应用。虽然Adam对于随机优化很有效,但它通常需要很长的训练时间。为了解决这一问题,我们探索了替代的优化技术以加快训练速度,同时不牺牲准确性。传统的二阶方法,如L-BFGS,不适合随机设置。我们提出了一个使用曲率感知对角预处理器的神经场训练理论框架,并展示了它在图像重建、形状建模和神经辐射场(NeRF)等任务中的有效性。

论文及项目相关链接

PDF The first two authors contributed equally. CVPR 2025

Summary

神经网络场通过神经网络编码连续多维信号,广泛应用于计算机视觉、机器人和几何领域。针对Adam在随机优化中需要长时间训练的问题,本文探索了使用替代优化技术来加速训练而不损失准确性。传统二阶方法如L-BFGS不适用于随机设置。本文提出了一个理论框架,使用曲率感知对角预处理器来训练神经网络场,并在图像重建、形状建模和神经辐射场(NeRF)等任务中证明了其有效性。

Key Takeaways

  1. 神经网络场(Neural Fields)能够编码连续多维信号,广泛应用于计算机视觉、机器人和几何领域。
  2. 当前优化方法如Adam需要长时间训练。
  3. 传统二阶优化方法如L-BFGS不适用于随机优化环境。
  4. 提出了一个理论框架,使用曲率感知对角预处理器来加速神经网络场的训练。
  5. 该方法能够有效应用于图像重建、形状建模和神经辐射场(NeRF)等任务。
  6. 替代优化技术可以在不损失准确性的情况下加速训练。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Diffusion Models Diffusion Models
Diffusion Models 方向最新论文已更新,请持续关注 Update in 2025-05-27 RestoreVAR Visual Autoregressive Generation for All-in-One Image Restoration
下一篇 
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-05-27 SplatCo Structure-View Collaborative Gaussian Splatting for Detail-Preserving Rendering of Large-Scale Unbounded Scenes
2025-05-27
  目录