嘘~ 正在从服务器偷取页面 . . .

3DGS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-07 更新

Seeing World Dynamics in a Nutshell

Authors:Qiuhong Shen, Xuanyu Yi, Mingbao Lin, Hanwang Zhang, Shuicheng Yan, Xinchao Wang

We consider the problem of efficiently representing casually captured monocular videos in a spatially- and temporally-coherent manner. While existing approaches predominantly rely on 2D/2.5D techniques treating videos as collections of spatiotemporal pixels, they struggle with complex motions, occlusions, and geometric consistency due to absence of temporal coherence and explicit 3D structure. Drawing inspiration from monocular video as a projection of the dynamic 3D world, we explore representing videos in their intrinsic 3D form through continuous flows of Gaussian primitives in space-time. In this paper, we propose NutWorld, a novel framework that efficiently transforms monocular videos into dynamic 3D Gaussian representations in a single forward pass. At its core, NutWorld introduces a structured spatial-temporal aligned Gaussian (STAG) representation, enabling optimization-free scene modeling with effective depth and flow regularization. Through comprehensive experiments, we demonstrate that NutWorld achieves high-fidelity video reconstruction quality while enabling various downstream applications in real-time. Demos and code will be available at https://github.com/Nut-World/NutWorld.

我们考虑以空间和时间上连贯的方式高效表示随意捕获的单目视频的问题。尽管现有的方法主要依赖将视频视为时空像素集合的二维/二维半技术,但由于缺少时间连贯性和明确的三维结构,它们在处理复杂运动、遮挡和几何一致性方面遇到了困难。从单目视频作为动态三维世界的投影中汲取灵感,我们探索通过在时空中的高斯原始连续流以视频的内在三维形式表示视频。在本文中,我们提出了NutWorld,这是一种新型框架,可在单次前向传递中将单目视频高效转换为动态三维高斯表示。其核心是NutWorld引入的结构化时空对齐高斯(STAG)表示,可实现无需优化的场景建模,并具有有效的深度和流正则化。通过全面的实验,我们证明了NutWorld实现了高保真视频重建质量,同时支持实时中的各种下游应用。演示和代码将在https://github.com/Nut-World/NutWorld上提供。

论文及项目相关链接

PDF

Summary

本文提出一种将单目视频高效转化为动态三维高斯表示的新方法NutWorld。该方法采用连续的高斯原始流时空表示,实现了无优化场景建模,有效进行深度和流动规则化。实验证明,NutWorld能够实现高质量的视频重建,并适用于各种实时下游应用。

Key Takeaways

  1. NutWorld将单目视频转化为动态三维高斯表示,实现高效的空间时间表达。
  2. 提出结构化时空对齐高斯(STAG)表示,实现无优化场景建模。
  3. STAG能够有效处理深度和流动规则化,提升了视频重建的质量。
  4. NutWorld具有高效的前向传递性,能够实现实时的视频处理。
  5. 该方法对各种下游应用具有广泛的应用潜力。
  6. 通过全面的实验验证,NutWorld在视频重建方面取得了高保真度。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
NeRF NeRF
NeRF 方向最新论文已更新,请持续关注 Update in 2025-02-07 SiLVR Scalable Lidar-Visual Radiance Field Reconstruction with Uncertainty Quantification
2025-02-07
下一篇 
GAN GAN
GAN 方向最新论文已更新,请持续关注 Update in 2025-02-07 AAD-DCE An Aggregated Multimodal Attention Mechanism for Early and Late Dynamic Contrast Enhanced Prostate MRI Synthesis
2025-02-07
  目录