嘘~ 正在从服务器偷取页面 . . .

NeRF


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-10 更新

VGGT-X: When VGGT Meets Dense Novel View Synthesis

Authors:Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang

We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel View Synthesis (NVS). Despite significant progress in Novel View Synthesis powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D attributes (e.g., camera poses and point clouds) acquired from Structure-from-Motion (SfM), which is often slow and fragile in low-texture or low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over the traditional pipeline and great potential for online NVS. But most of the validation and conclusions are confined to sparse-view settings. Our study reveals that naively scaling 3DFMs to dense views encounters two fundamental barriers: dramatically increasing VRAM burden and imperfect outputs that degrade initialization-sensitive 3D training. To address these barriers, we introduce VGGT-X, incorporating a memory-efficient VGGT implementation that scales to 1,000+ images, an adaptive global alignment for VGGT output enhancement, and robust 3DGS training practices. Extensive experiments show that these measures substantially close the fidelity gap with COLMAP-initialized pipelines, achieving state-of-the-art results in dense COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of remaining gaps with COLMAP-initialized rendering, providing insights for the future development of 3D foundation models and dense NVS. Our project page is available at https://dekuliutesla.github.io/vggt-x.github.io/

我们研究了将三维基础模型(3DFMs)应用于密集的新型视图合成(NVS)的问题。尽管NeRF和3DGS在新型视图合成方面取得了重大进展,但当前的方法仍然依赖于从运动结构(SfM)获得的准确三维属性(例如相机姿态和点云),这在低纹理或低重叠捕获中通常速度慢且脆弱。最近的3DFMs展示了对传统流程的显著加速,并为在线NVS提供了巨大的潜力。但是,大部分的验证和结论都局限于稀疏视图设置。我们的研究发现,直接将3DFMs扩展到密集视图会遇到两个基本障碍:急剧增加VRAM负担以及输出不理想会破坏对初始化敏感的三维训练。为了解决这些障碍,我们引入了VGGT-X,它结合了高效的VGGT实现(可扩展到1000+图像)、用于增强VGGT输出的自适应全局对齐和稳健的3DGS训练实践。大量实验表明,这些措施显著缩小了与COLMAP初始化流程的保真度差距,在无需COLMAP的密集NVS和姿态估计方面达到了最新结果。此外,我们还分析了与COLMAP初始化渲染之间剩余差距的原因,为三维基础模型和密集NVS的未来发展提供了见解。我们的项目页面位于 https://dekuliutesla.github.io/vggt-x.github.io/。

论文及项目相关链接

PDF Project Page: https://dekuliutesla.github.io/vggt-x.github.io/

摘要
基于神经网络渲染技术(NeRF)的3D基础模型(3DFMs)在无需结构从运动(SfM)获取准确的3D属性(如相机姿态和点云)的情况下,实现了密集新颖视图合成(NVS)。研究团队提出的VGGT-X方法通过高效的VGGT实现、自适应全局对齐和稳健的3DGS训练实践,解决了传统方法面临的内存负担大、输出质量不高等问题。实验表明,该方法在无需COLMAP初始化的密集NVS和姿态估计中取得了最先进的成果。同时,该研究还分析了与COLMAP初始化渲染仍存在差距的原因,为未来3DFM和密集NVS的发展提供了见解。

关键见解

  1. 3DFMs在密集NVS中的应用取得了显著进展,但仍需解决准确获取3D属性的问题,这一问题在纹理低或重叠度低的捕捉中尤为突出。
  2. VGGT-X方法通过引入高效的VGGT实现、自适应全局对齐和稳健的3DGS训练实践,解决了传统方法面临的内存负担大、输出质量不高等问题。
  3. 实验表明,VGGT-X方法在无需COLMAP初始化的密集NVS和姿态估计中实现了最先进的成果。
  4. VGGT-X方法显著缩小了与COLMAP初始化渲染的保真度差距。
  5. 研究分析了与COLMAP初始化渲染仍存在差距的原因,为未来改进提供了方向。
  6. VGGT-X项目的实施网页已公开,提供了详细的方法和实验结果。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Diffusion Models Diffusion Models
Diffusion Models 方向最新论文已更新,请持续关注 Update in 2025-10-10 StyleKeeper Prevent Content Leakage using Negative Visual Query Guidance
下一篇 
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-10-10 RTGS Real-Time 3D Gaussian Splatting SLAM via Multi-Level Redundancy Reduction
2025-10-10
  目录