嘘~ 正在从服务器偷取页面 . . .

3DGS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-28 更新

Gaussian splatting holography

Authors:Shuhe Zhang, Liangcai Cao

In-line holography offers high space-bandwidth product imaging with a simplified lens-free optical system. However, in-line holographic reconstruction is troubled by twin images arising from the Hermitian symmetry of complex fields. Twin images disrupt the reconstruction in solving the ill-posed phase retrieval problem. The known parameters are less than the unknown parameters, causing phase ambiguities. State-of-the-art deep-learning or non-learning methods face challenges in balancing data fidelity with twin-image disturbance. We propose the Gaussian splatting holography (GSH) for twin-image-suppressed holographic reconstruction. GSH uses Gaussian splatting for optical field representation and compresses the number of unknown parameters by a maximum of 15 folds, transforming the original ill-posed phase retrieval into a well-posed one with reduced phase ambiguities. Additionally, the Gaussian splatting tends to form sharp patterns rather than those with noisy twin-image backgrounds as each Gaussian has a spatially slow-varying profile. Experiments show that GSH achieves constraint-free recovery for in-line holography with accuracy comparable to state-of-the-art constraint-based methods, with an average peak signal-to-noise ratio equal to 26 dB, and structure similarity equal to 0.8. Combined with total variation, GSH can be further improved, obtaining a peak signal-to-noise ratio of 31 dB, and a high compression ability of up to 15 folds.

内联全息术通过简化的无透镜光学系统提供高空间带宽积成像。然而,内联全息重建受到来自复场Hermitian对称性的孪生图像的困扰。孪生图像破坏了解决不适定相位检索问题时的重建。已知参数少于未知参数,导致相位模糊。现有的最先进的深度学习或非学习方法在平衡数据保真与孪生图像干扰方面面临挑战。我们提出高斯斑点全息术(GSH)用于抑制孪生图像的全息重建。GSH使用高斯斑点进行光学场表示,并通过最多减少15倍未知参数的数量,将原始的不适定相位检索问题转变为具有较少相位模糊的良好定位问题。此外,高斯斑点倾向于形成清晰的图案,而不是带有嘈杂孪生图像背景的图案,因为每个高斯都具有空间缓慢变化的轮廓。实验表明,GSH实现了内联全息图的约束自由恢复,其准确性可与最先进的基于约束的方法相媲美,平均峰值信噪比达到26分贝,结构相似性为0.8。结合全变,GSH可以进一步改进,获得峰值信噪比31分贝,并具备高达15倍的出色压缩能力。

论文及项目相关链接

PDF

摘要
全息成像技术利用无透镜光学系统实现高空间带宽产品成像。然而,全息重建受到复场Hermite对称性的困扰,导致出现镜像干扰问题。由于已知参数少于未知参数,相位重建变得不明确。最新的深度学习方法或非学习方法在平衡数据保真度和镜像干扰方面面临挑战。本文提出高斯喷溅全息术(GSH)用于抑制镜像干扰的全息重建。GSH利用高斯喷溅表示光学场,将未知参数数量最多减少15倍,将原来的病态相位检索问题转化为具有较少相位模糊的良好相位检索问题。此外,高斯喷溅倾向于形成清晰模式,避免噪声较大的镜像背景干扰。实验表明,GSH实现无约束在线全息恢复,准确率与先进的约束方法相当,平均峰值信噪比达到26分贝,结构相似性为0.8。与总变差相结合时,GSH性能进一步提升,峰值信噪比可达31分贝,压缩能力高达15倍。

关键见解

  1. 在全息成像中,镜像干扰问题是由于复场的Hermite对称性引起的。
  2. 已知参数少于未知参数导致相位重建变得不明确。
  3. 高斯喷溅全息术(GSH)通过减少未知参数数量来简化全息重建问题。
  4. GSH可将病态相位检索问题转化为良好相位检索问题,降低相位模糊。
  5. 实验结果显示,GSH在在线全息恢复方面表现出色,准确率与现有方法相当。
  6. 结合总变差技术时,GSH的峰值信噪比和压缩能力得到进一步提升。

Cool Papers

点此查看论文截图

SeHDR: Single-Exposure HDR Novel View Synthesis via 3D Gaussian Bracketing

Authors:Yiyu Li, Haoyuan Wang, Ke Xu, Gerhard Petrus Hancke, Rynson W. H. Lau

This paper presents SeHDR, a novel high dynamic range 3D Gaussian Splatting (HDR-3DGS) approach for generating HDR novel views given multi-view LDR images. Unlike existing methods that typically require the multi-view LDR input images to be captured from different exposures, which are tedious to capture and more likely to suffer from errors (e.g., object motion blurs and calibration/alignment inaccuracies), our approach learns the HDR scene representation from multi-view LDR images of a single exposure. Our key insight to this ill-posed problem is that by first estimating Bracketed 3D Gaussians (i.e., with different exposures) from single-exposure multi-view LDR images, we may then be able to merge these bracketed 3D Gaussians into an HDR scene representation. Specifically, SeHDR first learns base 3D Gaussians from single-exposure LDR inputs, where the spherical harmonics parameterize colors in a linear color space. We then estimate multiple 3D Gaussians with identical geometry but varying linear colors conditioned on exposure manipulations. Finally, we propose the Differentiable Neural Exposure Fusion (NeEF) to integrate the base and estimated 3D Gaussians into HDR Gaussians for novel view rendering. Extensive experiments demonstrate that SeHDR outperforms existing methods as well as carefully designed baselines.

本文提出了SeHDR,这是一种新型的高动态范围3D高斯拼贴(HDR-3DGS)方法,用于根据多视角LDR图像生成HDR新颖视图。与通常需要从不同曝光的多视角LDR输入图像捕获现有方法不同,我们的方法可以从单曝光的多视角LDR图像中学习HDR场景表示。对于这个不适定问题的关键见解是,首先通过估计单曝光多视角LDR图像的括号3D高斯(即具有不同曝光的)来合并这些括号中的3D高斯值,然后将其合并成HDR场景表示。具体来说,SeHDR首先从单曝光LDR输入中学习基础3D高斯值,其中球面谐波在线性颜色空间中描述颜色。然后,我们估计具有相同几何形状但随曝光操作变化的不同线性颜色的多个3D高斯值。最后,我们提出了可区分的神经曝光融合(NeEF)方法,将基础和估计的3D高斯值集成到HDR高斯值中,用于新的视图渲染。大量实验表明,SeHDR的性能优于现有方法和精心设计的基线。

论文及项目相关链接

PDF ICCV 2025 accepted paper

摘要

本文提出一种名为SeHDR的新型高动态范围三维高斯点喷绘技术(HDR-3DGS),可从多视角的低动态范围图像生成高动态范围的新视角图像。与其他方法不同,我们的方法不需要从不同曝光的多视角LDR图像中获取输入,避免了捕捉时的繁琐和可能出现的误差(如物体运动模糊和校准/对齐不准确)。我们的关键见解是,首先通过单曝光多视角LDR图像估计不同曝光的括号三维高斯,然后将其合并为HDR场景表示。具体来说,SeHDR首先从单曝光LDR输入中学习基础三维高斯,使用球面谐波在线性色彩空间中描述颜色。然后,我们估计具有相同几何形状但不同线性颜色的多个三维高斯,并根据曝光调整进行调整。最后,我们提出了可微神经曝光融合(NeEF)技术,将基础估计的三维高斯融合为HDR高斯,用于新型视角渲染。大量实验表明,SeHDR在性能上优于现有方法和精心设计的基线。

要点

  1. SeHDR是一种新型HDR-3DGS技术,可从多视角LDR图像生成HDR新视角。
  2. 与其他方法不同,SeHDR从单曝光的多视角LDR图像中学习HDR场景表示,简化捕捉过程并减少误差。
  3. SeHDR通过学习基础三维高斯和估计的不同曝光三维高斯来解决这一问题。
  4. 利用球面谐波在线性色彩空间中描述颜色。
  5. 引入可微神经曝光融合(NeEF)技术,将基础与估计的三维高斯融合为HDR高斯。
  6. 实验证明,SeHDR在性能上优于现有方法和基线。
  7. SeHDR为生成HDR新视角提供了一种有效、高性能的方法。

Cool Papers

点此查看论文截图

4D Driving Scene Generation With Stereo Forcing

Authors:Hao Lu, Zhuang Ma, Guangfeng Jiang, Wenhang Ge, Bohan Li, Yuzhan Cai, Wenzhao Zheng, Yunpeng Zhang, Yingcong Chen

Current generative models struggle to synthesize dynamic 4D driving scenes that simultaneously support temporal extrapolation and spatial novel view synthesis (NVS) without per-scene optimization. Bridging generation and novel view synthesis remains a major challenge. We present PhiGenesis, a unified framework for 4D scene generation that extends video generation techniques with geometric and temporal consistency. Given multi-view image sequences and camera parameters, PhiGenesis produces temporally continuous 4D Gaussian splatting representations along target 3D trajectories. In its first stage, PhiGenesis leverages a pre-trained video VAE with a novel range-view adapter to enable feed-forward 4D reconstruction from multi-view images. This architecture supports single-frame or video inputs and outputs complete 4D scenes including geometry, semantics, and motion. In the second stage, PhiGenesis introduces a geometric-guided video diffusion model, using rendered historical 4D scenes as priors to generate future views conditioned on trajectories. To address geometric exposure bias in novel views, we propose Stereo Forcing, a novel conditioning strategy that integrates geometric uncertainty during denoising. This method enhances temporal coherence by dynamically adjusting generative influence based on uncertainty-aware perturbations. Our experimental results demonstrate that our method achieves state-of-the-art performance in both appearance and geometric reconstruction, temporal generation and novel view synthesis (NVS) tasks, while simultaneously delivering competitive performance in downstream evaluations. Homepage is at \href{https://jiangxb98.github.io/PhiGensis}{PhiGensis}.

当前生成模型在合成动态四维驾驶场景方面面临挑战,这些场景需要同时支持时间外推和空间新颖视图合成(NVS),而无需针对每个场景进行优化。生成和新颖视图合成之间的桥梁仍然是一个主要挑战。我们提出了PhiGenesis,这是一个用于四维场景生成的统一框架,它结合了视频生成技术,实现了几何和时间一致性。给定多视图图像序列和相机参数,PhiGenesis可以沿着目标三维轨迹生成时间上连续的四维高斯溅射表示。在第一阶段,PhiGenesis利用预训练的视频VAE和新颖的范围视图适配器,实现从多视图图像的前馈四维重建。此架构支持单帧或视频输入,并输出完整的四维场景,包括几何、语义和运动。在第二阶段,PhiGenesis引入了一个受几何指导的视频扩散模型,使用渲染的历史四维场景作为先验来根据轨迹生成未来视图。为了解决新颖视图中的几何曝光偏差问题,我们提出了立体强制(Stereo Forcing)这一新颖的条件策略,它在去噪过程中整合了几何不确定性。这种方法通过根据不确定性感知扰动动态调整生成影响,增强了时间连贯性。我们的实验结果表明,我们的方法在外观和几何重建、时间生成和新颖视图合成(NVS)任务方面达到了最新性能水平,同时在下游评估中表现出竞争力。主页是PhiGenesis

论文及项目相关链接

PDF

Summary

本文提出了一种名为PhiGenesis的统一框架,用于4D场景生成。该框架扩展了视频生成技术,具有几何和时间一致性。PhiGenesis可以从多视角图像序列和相机参数出发,生成时间上连续的4D高斯摊铺表示,沿着目标3D轨迹。它采用预训练的视频VAE和新型范围视图适配器,支持单帧或视频输入,并输出完整的4D场景,包括几何、语义和运动。第二阶段引入了几何指导的视频扩散模型,使用渲染的历史4D场景作为先验来生成未来视图。为解决新型视图中的几何曝光偏差,提出了Stereo Forcing这一新型条件策略,在降噪过程中整合几何不确定性。此方法通过基于不确定性感知扰动的动态调整生成影响,增强了时间连贯性。

Key Takeaways

  1. PhiGenesis是一个统一框架,用于4D场景生成,结合了视频生成技术与几何和时间的一致性。
  2. 利用多视角图像序列和相机参数生成4D高斯摊铺表示。
  3. 采用预训练的视频VAE和范围视图适配器进行4D重建。
  4. 支持单帧或视频输入,输出包括几何、语义和运动的完整4D场景。
  5. 引入几何指导的视频扩散模型,使用历史4D场景作为未来视图的先验。
  6. 提出Stereo Forcing策略来解决新型视图中的几何曝光偏差。
  7. 通过动态调整基于不确定性感知的扰动增强时间连贯性,达到先进性能。

Cool Papers

点此查看论文截图

PU-Gaussian: Point Cloud Upsampling using 3D Gaussian Representation

Authors:Mahmoud Khater, Mona Strauss, Philipp von Olshausen, Alexander Reiterer

Point clouds produced by 3D sensors are often sparse and noisy, posing challenges for tasks requiring dense and high-fidelity 3D representations. Prior work has explored both implicit feature-based upsampling and distance-function learning to address this, but often at the expense of geometric interpretability or robustness to input sparsity. To overcome these limitations, we propose PU-Gaussian, a novel upsampling network that models the local neighborhood around each point using anisotropic 3D Gaussian distributions. These Gaussians capture the underlying geometric structure, allowing us to perform upsampling explicitly in the local geometric domain by direct point sampling. The sampling process generates a dense, but coarse, point cloud. A subsequent refinement network adjusts the coarse output to produce a more uniform distribution and sharper edges. We perform extensive testing on the PU1K and PUGAN datasets, demonstrating that PU-Gaussian achieves state-of-the-art performance. We make code and model weights publicly available at https://github.com/mvg-inatech/PU-Gaussian.git.

由3D传感器产生的点云通常是稀疏且嘈杂的,这给需要密集和高保真度的3D表示的任务带来了挑战。早期的工作已经探索了基于隐特征的上采样和距离函数学习来解决这个问题,但这往往以牺牲几何解释性或对输入稀疏性的稳健性为代价。为了克服这些局限性,我们提出了PU-Gaussian,这是一种新型的上采样网络,它利用各向异性的3D高斯分布对每个点的局部邻域进行建模。这些高斯数捕捉了潜在的几何结构,使我们能够在局部几何域中通过直接点采样显式执行上采样。采样过程生成一个密集但粗糙的点云。随后的细化网络调整粗略输出,以产生更均匀的分部率和更清晰的边缘。我们在PU1K和PUGAN数据集上进行了广泛的测试,证明了PU-Gaussian实现了最先进的性能。我们将代码和模型权重公开发布在https://github.com/mvg-inatech/PU-Gaussian.git上。

论文及项目相关链接

PDF Accepted for the ICCV 2025 e2e3D Workshop. To be published in the Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (ICCVW)

Summary

本文提出了一种名为PU-Gaussian的新型点云上采样网络,通过利用各向异性的三维高斯分布对点云的局部邻域进行建模,解决了稀疏和噪声点云带来的挑战。该网络通过直接点采样在局部几何域中执行上采样,生成密集但粗糙的点云。随后,一个精炼网络对粗输出进行调整,以产生更均匀分布和更清晰边缘的点云。在PU1K和PUGAN数据集上的测试表明,PU-Gaussian达到了最先进的性能。

Key Takeaways

  1. PU-Gaussian网络解决了点云稀疏和噪声问题。
  2. 该网络利用各向异性的三维高斯分布对点云的局部邻域进行建模。
  3. 通过直接点采样在局部几何域中执行上采样,生成密集但粗糙的点云。
  4. 有一个后续的网络用于调整粗输出,产生更均匀分布和更清晰边缘的点云。
  5. 在PU1K和PUGAN数据集上的测试表明,PU-Gaussian性能达到最新水平。
  6. 公开了代码和模型权重以供使用。

Cool Papers

点此查看论文截图

GS-RoadPatching: Inpainting Gaussians via 3D Searching and Placing for Driving Scenes

Authors:Guo Chen, Jiarun Liu, Sicong Du, Chenming Wu, Deqi Li, Shi-Sheng Huang, Guofeng Zhang, Sheng Yang

This paper presents GS-RoadPatching, an inpainting method for driving scene completion by referring to completely reconstructed regions, which are represented by 3D Gaussian Splatting (3DGS). Unlike existing 3DGS inpainting methods that perform generative completion relying on 2D perspective-view-based diffusion or GAN models to predict limited appearance or depth cues for missing regions, our approach enables substitutional scene inpainting and editing directly through the 3DGS modality, extricating it from requiring spatial-temporal consistency of 2D cross-modals and eliminating the need for time-intensive retraining of Gaussians. Our key insight is that the highly repetitive patterns in driving scenes often share multi-modal similarities within the implicit 3DGS feature space and are particularly suitable for structural matching to enable effective 3DGS-based substitutional inpainting. Practically, we construct feature-embedded 3DGS scenes to incorporate a patch measurement method for abstracting local context at different scales and, subsequently, propose a structural search method to find candidate patches in 3D space effectively. Finally, we propose a simple yet effective substitution-and-fusion optimization for better visual harmony. We conduct extensive experiments on multiple publicly available datasets to demonstrate the effectiveness and efficiency of our proposed method in driving scenes, and the results validate that our method achieves state-of-the-art performance compared to the baseline methods in terms of both quality and interoperability. Additional experiments in general scenes also demonstrate the applicability of the proposed 3D inpainting strategy. The project page and code are available at: https://shanzhaguoo.github.io/GS-RoadPatching/

本文介绍了GS-RoadPatching,这是一种通过参考由三维高斯拼贴(3DGS)表示的完全重建区域来完成驾驶场景补全的内填方法。与传统的依赖于二维透视视图扩散或生成对抗网络(GAN)模型预测缺失区域的有限外观或深度线索的3DGS内填方法不同,我们的方法能够直接通过3DGS模式进行替代场景内填和编辑,无需依赖二维跨模态的时空一致性,并消除了对高斯模型耗时耗力的重新训练需求。我们的关键见解是,驾驶场景中高度重复的模式在隐式三维高斯拼贴特征空间内通常具有多模态相似性,非常适合结构匹配,以实现有效的基于三维高斯拼贴的替代性内填。在实践中,我们构建了特征嵌入的3DGS场景,并开发了一种贴片测量方法,以在不同尺度上抽象局部上下文,然后提出了一种结构搜索方法,以在三维空间中找到有效的候选贴片。最后,我们提出了一种简单而有效的替代和融合优化方法,以实现更好的视觉和谐。我们在多个公开数据集上进行了大量实验,以证明我们提出的方法在驾驶场景中的有效性和效率。结果验证了我们的方法在质量和可操作性方面均达到了最新水平。在一般场景中的额外实验也证明了所提出的3D内填策略的应用性。项目页面和代码可通过以下链接访问:https://shanzhaguoo.github.io/GS-RoadPatching/

论文及项目相关链接

PDF

Summary

本文提出了GS-RoadPatching方法,这是一种基于三维高斯喷溅(3DGS)的驾驶场景补全方法。不同于依赖二维透视视角扩散或GAN模型的现有3DGS补全方法,GS-RoadPatching直接在3DGS模式下进行替代场景补全和编辑,无需二维跨模态的空间时间一致性,并消除了高斯重训练的时间密集需求。其主要思想是利用驾驶场景中高度重复模式的隐式多模态相似性进行结构匹配,实现有效的基于结构匹配的替代补全。本文构建特征嵌入的3DGS场景,采用补丁测量方法在不同尺度上抽象局部上下文,并提出一种有效的结构搜索方法,在三维空间中找到候选补丁。最后,通过大量实验验证了该方法在驾驶场景中的有效性和高效性,达到当前领先水平。此外,在一般场景中的实验也证明了该方法的适用性。相关内容和代码可通过链接访问:[shanzhaguoo.github.io/GS-RoadPatching/]查看。

Key Takeaways

  • GS-RoadPatching是一种基于三维高斯喷溅(3DGS)的驾驶场景补全方法。
  • 该方法直接在3DGS模式下进行替代场景补全和编辑,避免二维跨模态的空间时间一致性问题。
  • 主要利用驾驶场景中高度重复模式的隐式多模态相似性进行结构匹配以实现有效补全。
  • 构建特征嵌入的3DGS场景并采用补丁测量方法在不同尺度上抽象局部上下文。
  • 提出结构搜索方法和替代融合优化技术来寻找合适的补丁并进行视觉融合。

Cool Papers

点此查看论文截图

PolGS: Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Authors:Yufei Han, Bowen Tie, Heng Guo, Youwei Lyu, Si Li, Boxin Shi, Yunpeng Jia, Zhanyu Ma

Efficient shape reconstruction for surfaces with complex reflectance properties is crucial for real-time virtual reality. While 3D Gaussian Splatting (3DGS)-based methods offer fast novel view rendering by leveraging their explicit surface representation, their reconstruction quality lags behind that of implicit neural representations, particularly in the case of recovering surfaces with complex reflective reflectance. To address these problems, we propose PolGS, a Polarimetric Gaussian Splatting model allowing fast reflective surface reconstruction in 10 minutes. By integrating polarimetric constraints into the 3DGS framework, PolGS effectively separates specular and diffuse components, enhancing reconstruction quality for challenging reflective materials. Experimental results on the synthetic and real-world dataset validate the effectiveness of our method.

对于具有复杂反射属性的表面进行高效形状重建对实时虚拟现实至关重要。虽然基于三维高斯贴图(3DGS)的方法通过利用其明确的表面表示实现了快速的新视角渲染,但在重建质量方面仍落后于隐式神经表示,特别是在恢复具有复杂反射反射的表面时。为了解决这些问题,我们提出了PolGS,一种极坐标高斯贴图模型,可在10分钟内快速重建反射表面。通过将极坐标约束集成到3DGS框架中,PolGS有效地分离了镜面反射和漫反射成分,提高了对具有挑战性的反射材料的重建质量。在合成数据集和真实世界数据集上的实验结果验证了我们的方法的有效性。

论文及项目相关链接

PDF Accepted by ICCV 2025

Summary

本文介绍了针对具有复杂反射属性的表面进行高效形状重建的重要性,特别是在实时虚拟现实领域。针对现有技术如基于三维高斯喷溅(3DGS)的方法在重建质量上存在的缺陷,提出了一种名为PolGS的极坐标高斯喷溅模型。该模型通过将极坐标约束融入3DGS框架,成功分离了镜面反射和漫反射成分,有效提升了复杂反射材料的重建质量。实验结果表明,该方法在合成和真实数据集上均表现出优异效果,可在十分钟内实现快速反射表面重建。

Key Takeaways

  • PolGS模型解决了具有复杂反射属性的表面在虚拟现实中的高效形状重建问题。
  • 通过结合极坐标约束到三维高斯喷溅(3DGS)框架中,提升了重建质量。
  • PolGS模型能有效分离镜面反射和漫反射成分,特别适用于处理复杂反射材料。
  • PolGS模型可实现快速反射表面重建,处理时间仅需十分钟。
  • 实验结果证明,该模型在合成和真实数据集上都有良好表现。
  • 该模型的提出推动了虚拟现实领域中的表面重建技术向前发展。

Cool Papers

点此查看论文截图

VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

Authors:Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang

Feed-forward 3D Gaussian Splatting (3DGS) has emerged as a highly effective solution for novel view synthesis. Existing methods predominantly rely on a pixel-aligned Gaussian prediction paradigm, where each 2D pixel is mapped to a 3D Gaussian. We rethink this widely adopted formulation and identify several inherent limitations: it renders the reconstructed 3D models heavily dependent on the number of input views, leads to view-biased density distributions, and introduces alignment errors, particularly when source views contain occlusions or low texture. To address these challenges, we introduce VolSplat, a new multi-view feed-forward paradigm that replaces pixel alignment with voxel-aligned Gaussians. By directly predicting Gaussians from a predicted 3D voxel grid, it overcomes pixel alignment’s reliance on error-prone 2D feature matching, ensuring robust multi-view consistency. Furthermore, it enables adaptive control over Gaussian density based on 3D scene complexity, yielding more faithful Gaussian point clouds, improved geometric consistency, and enhanced novel-view rendering quality. Experiments on widely used benchmarks including RealEstate10K and ScanNet demonstrate that VolSplat achieves state-of-the-art performance while producing more plausible and view-consistent Gaussian reconstructions. In addition to superior results, our approach establishes a more scalable framework for feed-forward 3D reconstruction with denser and more robust representations, paving the way for further research in wider communities. The video results, code and trained models are available on our project page: https://lhmd.top/volsplat.

前馈三维高斯展布(3DGS)已成为一种用于合成新视角的高效解决方案。现有方法主要依赖于像素对齐的高斯预测范式,其中每个二维像素被映射到三维高斯上。我们重新思考这一广泛应用的方法并发现了几个固有的局限性:它使得重建的3D模型严重依赖于输入视角的数量,导致视角偏向的密度分布,并在源视角包含遮挡或低纹理时引入对齐误差。为了解决这些挑战,我们引入了VolSplat,这是一种新的前馈多视角范式,它用体素对齐的高斯替换了像素对齐。通过直接从预测的3D体素网格预测高斯值,它克服了像素对齐对容易出现错误的二维特征匹配的依赖,确保了稳健的多视角一致性。此外,它可以根据3D场景的复杂性对高斯密度进行自适应控制,产生更真实的高斯点云、改进几何一致性和提高新颖视角的渲染质量。在包括RealEstate10K和ScanNet在内的常用基准测试上的实验表明,VolSplat达到了最先进的性能,同时产生了更合理和视角一致的高斯重建。除了优越的结果外,我们的方法为前馈三维重建建立了一个更可扩展的框架,具有更密集和更稳健的表示形式,为更广泛的社区中的进一步研究铺平了道路。视频结果、代码和训练模型可在我们的项目页面找到:https://lhmd.top/volsplat。

论文及项目相关链接

PDF Project Page: https://lhmd.top/volsplat, Code: https://github.com/ziplab/VolSplat

Summary
基于前馈的3D高斯点云(3DGS)已成为有效的视点合成解决方案。现有方法主要依赖像素对齐的高斯预测模式,存在依赖输入视角数量、视角密度分布偏差及对齐误差等问题。我们提出VolSplat,采用体素对齐高斯的新范式,预测三维体素网格上的高斯分布,克服像素对齐的缺陷,实现多视角一致性。此外,它可根据三维场景的复杂性自适应控制高斯密度,提高几何一致性及新视角渲染质量。在广泛使用的基准测试中表现卓越,实现更逼真、视角一致的高斯重建。同时建立可扩展的框架,为进一步的点云重建研究铺平道路。

Key Takeaways

  • 现有基于像素对齐的3DGS存在依赖输入视角数量、视角密度分布偏差及对齐误差等问题。
  • VolSplat采用体素对齐高斯的新范式,克服了像素对齐的缺陷,实现更稳定的多视角一致性。
  • VolSplat根据三维场景的复杂性自适应控制高斯密度,提高几何一致性及新视角渲染质量。
  • VolSplat在基准测试中表现卓越,实现了更逼真、视角一致的高斯重建,性能超越现有技术。

Cool Papers

点此查看论文截图

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

Authors:Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren

The ability to generate virtual environments is crucial for applications ranging from gaming to physical AI domains such as robotics, autonomous driving, and industrial AI. Current learning-based 3D reconstruction methods rely on the availability of captured real-world multi-view data, which is not always readily available. Recent advancements in video diffusion models have shown remarkable imagination capabilities, yet their 2D nature limits the applications to simulation where a robot needs to navigate and interact with the environment. In this paper, we propose a self-distillation framework that aims to distill the implicit 3D knowledge in the video diffusion models into an explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for multi-view training data. Specifically, we augment the typical RGB decoder with a 3DGS decoder, which is supervised by the output of the RGB decoder. In this approach, the 3DGS decoder can be purely trained with synthetic data generated by video diffusion models. At inference time, our model can synthesize 3D scenes from either a text prompt or a single image for real-time rendering. Our framework further extends to dynamic 3D scene generation from a monocular input video. Experimental results show that our framework achieves state-of-the-art performance in static and dynamic 3D scene generation.

生成虚拟环境的能力对于从游戏到物理人工智能领域(如机器人技术、自动驾驶和工业人工智能)的应用至关重要。当前基于学习的3D重建方法依赖于捕获的实时多视角数据的可用性,而这并非总是轻易可得。视频扩散模型的最新进展表现出了惊人的想象力能力,但它们的2D性质限制了其在机器人需要导航和与环境交互的模拟中的应用。在本文中,我们提出了一种自蒸馏框架,旨在将视频扩散模型中的隐式3D知识蒸馏成明确的3D高斯平铺(3DGS)表示,从而无需多视角训练数据。具体来说,我们用3DGS解码器扩充了典型的RGB解码器,该解码器由RGB解码器的输出进行监督。在这种方法中,3DGS解码器可以仅使用由视频扩散模型生成的合成数据进行训练。在推理时间,我们的模型可以从文本提示或单张图像中合成3D场景,以进行实时渲染。我们的框架进一步扩展到基于单目输入视频的动态3D场景生成。实验结果表明,我们的框架在静态和动态3D场景生成方面达到了最新技术水平。

论文及项目相关链接

PDF Project Page: https://research.nvidia.com/labs/toronto-ai/lyra/

Summary

本文提出了一种基于自蒸馏技术的框架,能够将视频扩散模型中的隐性三维知识转化为显式三维高斯飞溅(3DGS)表示形式,从而实现无需多视角训练数据的三维场景生成。该框架通过增加一个三维高斯飞溅解码器来扩展传统的RGB解码器,使其可以从文本提示或单幅图像中合成三维场景,支持实时渲染和从单目输入视频中生成动态三维场景。实验结果表明,该框架在静态和动态三维场景生成方面达到了最新技术水平。

Key Takeaways

  • 该框架能够将视频扩散模型中的隐性三维知识转化为显式三维高斯飞溅(3DGS)表示形式。
  • 提出了一种基于自蒸馏技术的框架,不需要多视角训练数据。
  • 通过增加一个三维高斯飞溅解码器来扩展传统的RGB解码器,以实现更好的三维场景生成。
  • 支持从文本提示或单幅图像中合成三维场景,并能够实现实时渲染。
  • 能够从单目输入视频中生成动态三维场景。

Cool Papers

点此查看论文截图

Seeing Through Reflections: Advancing 3D Scene Reconstruction in Mirror-Containing Environments with Gaussian Splatting

Authors:Zijing Guo, Yunyang Zhao, Lin Wang

Mirror-containing environments pose unique challenges for 3D reconstruction and novel view synthesis (NVS), as reflective surfaces introduce view-dependent distortions and inconsistencies. While cutting-edge methods such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) excel in typical scenes, their performance deteriorates in the presence of mirrors. Existing solutions mainly focus on handling mirror surfaces through symmetry mapping but often overlook the rich information carried by mirror reflections. These reflections offer complementary perspectives that can fill in absent details and significantly enhance reconstruction quality. To advance 3D reconstruction in mirror-rich environments, we present MirrorScene3D, a comprehensive dataset featuring diverse indoor scenes, 1256 high-quality images, and annotated mirror masks, providing a benchmark for evaluating reconstruction methods in reflective settings. Building on this, we propose ReflectiveGS, an extension of 3D Gaussian Splatting that utilizes mirror reflections as complementary viewpoints rather than simple symmetry artifacts, enhancing scene geometry and recovering absent details. Experiments on MirrorScene3D show that ReflectiveGaussian outperforms existing methods in SSIM, PSNR, LPIPS, and training speed, setting a new benchmark for 3D reconstruction in mirror-rich environments.

包含镜子的环境为三维重建和新颖视图合成(NVS)带来了独特的挑战,因为反射表面引入了视图相关的失真和不一致性。虽然最前沿的方法,如神经辐射场(NeRF)和三维高斯喷绘(3DGS)在典型场景中表现优异,但在存在镜子的情况下,它们的性能会下降。现有解决方案主要通过对称映射处理镜子表面,但往往忽略了镜子反射所携带的丰富信息。这些反射提供了可以补充的视角,可以填补缺失的细节,并显著提高重建质量。为了推进在镜子丰富的环境中的三维重建,我们推出了MirrorScene3D数据集,其中包含多样化的室内场景、1256张高质量图像和注释的镜子掩膜,为反射环境中重建方法的评估提供了基准。在此基础上,我们提出了ReflectiveGS,它是三维高斯喷绘的一个扩展,利用镜子反射作为补充视角,而不是简单的对称产物,从而增强场景几何并恢复缺失的细节。在MirrorScene3D上的实验表明,ReflectiveGaussian在SSIM、PSNR、LPIPS和训练速度上均优于现有方法,为镜子丰富的环境中的三维重建设定了新的基准。

论文及项目相关链接

PDF

Summary

该文介绍了在含有镜子的环境中进行3D重建和新型视图合成面临的挑战。现有方法如Neural Radiance Fields和3D Gaussian Splatting在处理镜子时性能下降。文章提出了MirrorScene3D数据集和ReflectiveGS方法,利用镜子反射作为补充视角,提高场景几何和恢复缺失细节的能力,为在镜子丰富的环境中进行3D重建设立了新的基准。

Key Takeaways

  1. 镜子包含的环境对3D重建和新型视图合成带来独特挑战,因反射表面引入视图依赖的失真和不一致性。
  2. 现有方法在镜子存在时性能下降,主要通过对称映射处理镜子表面,但忽视了镜子反射所携带的丰富信息。
  3. MirrorScene3D数据集提供室内场景的多样化图像和标注的镜子掩膜,为评估反射设置中的重建方法提供了基准。
  4. ReflectiveGS方法利用镜子反射作为补充视角,提高场景几何和恢复缺失细节的能力。
  5. ReflectiveGS是3D Gaussian Splatting的扩展,可以更好地利用镜子反射信息。
  6. 在MirrorScene3D上的实验表明,ReflectiveGaussian在SSIM、PSNR、LPIPS和训练速度上优于现有方法。

Cool Papers

点此查看论文截图

DeblurSplat: SfM-free 3D Gaussian Splatting with Event Camera for Robust Deblurring

Authors:Pengteng Li, Yunfan Lu, Pinhao Song, Weiyu Guo, Huizai Yao, F. Richard Yu, Hui Xiong

In this paper, we propose the first Structure-from-Motion (SfM)-free deblurring 3D Gaussian Splatting method via event camera, dubbed DeblurSplat. We address the motion-deblurring problem in two ways. First, we leverage the pretrained capability of the dense stereo module (DUSt3R) to directly obtain accurate initial point clouds from blurred images. Without calculating camera poses as an intermediate result, we avoid the cumulative errors transfer from inaccurate camera poses to the initial point clouds’ positions. Second, we introduce the event stream into the deblur pipeline for its high sensitivity to dynamic change. By decoding the latent sharp images from the event stream and blurred images, we can provide a fine-grained supervision signal for scene reconstruction optimization. Extensive experiments across a range of scenes demonstrate that DeblurSplat not only excels in generating high-fidelity novel views but also achieves significant rendering efficiency compared to the SOTAs in deblur 3D-GS.

在这篇论文中,我们提出了一种基于事件相机的无结构从运动(SfM)的模糊3D高斯点云散播方法,名为DeblurSplat。我们采用两种方法解决运动去模糊问题。首先,我们利用密集立体模块(DUSt3R)的预训练能力,直接从模糊图像中获取精确的点云初始位置。无需计算相机姿态作为中间结果,从而避免了由不准确的相机姿态对初始点云位置造成的累积误差传递。其次,我们将事件流引入去模糊流程中,利用其对动态变化的高灵敏度。通过解码事件流和模糊图像中的潜在清晰图像,我们可以为场景重建优化提供精细的监督信号。在多个场景的大量实验表明,DeblurSplat不仅在生成高保真新视角方面表现出色,而且在去模糊3D-GS的渲染效率方面也有显著提高。

论文及项目相关链接

PDF

Summary
本文提出了一种基于事件相机的无结构从运动(SfM)的3D高斯扩展去模糊方法,名为DeblurSplat。它通过两种方式解决运动去模糊问题:一是利用密集立体模块(DUSt3R)的预训练能力直接从模糊图像中获取精确初始点云;二是将事件流引入去模糊管道,通过解码事件流和模糊图像中的潜在尖锐图像,为场景重建优化提供精细的监督信号。实验表明,DeblurSplat不仅在高保真度生成新型视图方面表现出色,而且在3D-GS去模糊方面与当前最佳技术相比实现了显著的渲染效率。

Key Takeaways

  1. 提出了首个基于事件相机的无结构从运动(SfM)去模糊3D高斯扩展方法,名为DeblurSplat。
  2. 利用密集立体模块(DUSt3R)的预训练能力直接从模糊图像获取精确初始点云,避免了因相机姿态计算不准确导致的误差传递。
  3. 引入事件流到去模糊流程中,利用其对于动态变化的高敏感性。
  4. 通过解码事件流和模糊图像中的潜在尖锐图像,为场景重建优化提供精细监督信号。
  5. DeblurSplat能够生成高保真度的新型视图。
  6. 与当前最佳技术相比,DeblurSplat在去模糊3D-GS方面实现了显著的渲染效率。

Cool Papers

点此查看论文截图

FixingGS: Enhancing 3D Gaussian Splatting via Training-Free Score Distillation

Authors:Zhaorui Wang, Yi Gu, Deming Zhou, Renjing Xu

Recently, 3D Gaussian Splatting (3DGS) has demonstrated remarkable success in 3D reconstruction and novel view synthesis. However, reconstructing 3D scenes from sparse viewpoints remains highly challenging due to insufficient visual information, which results in noticeable artifacts persisting across the 3D representation. To address this limitation, recent methods have resorted to generative priors to remove artifacts and complete missing content in under-constrained areas. Despite their effectiveness, these approaches struggle to ensure multi-view consistency, resulting in blurred structures and implausible details. In this work, we propose FixingGS, a training-free method that fully exploits the capabilities of the existing diffusion model for sparse-view 3DGS reconstruction enhancement. At the core of FixingGS is our distillation approach, which delivers more accurate and cross-view coherent diffusion priors, thereby enabling effective artifact removal and inpainting. In addition, we propose an adaptive progressive enhancement scheme that further refines reconstructions in under-constrained regions. Extensive experiments demonstrate that FixingGS surpasses existing state-of-the-art methods with superior visual quality and reconstruction performance. Our code will be released publicly.

近期,3D高斯拼贴(3DGS)在3D重建和新型视角合成方面取得了显著的成功。然而,从稀疏视角重建3D场景仍然是一个巨大的挑战,因为视觉信息不足,导致3D表示中持续存在明显的伪影。为了解决这一局限性,最近的方法采用生成先验来消除伪影并完成约束不足区域的缺失内容。尽管这些方法很有效,但它们很难保证多视角的一致性,导致结构模糊和不切实际的细节。在这项工作中,我们提出了FixinGS,这是一种无需训练的方法,充分利用现有扩散模型的潜力,用于稀疏视角的3DGS重建增强。FixinGS的核心是我们的蒸馏方法,它提供了更准确和跨视角一致性的扩散先验,从而实现了有效的伪影消除和补全。此外,我们还提出了一种自适应渐进增强方案,进一步改进了约束不足区域的重建。大量实验表明,FixinGS超越了现有最先进的方法,具有优越的视觉质量和重建性能。我们的代码将公开发布。

论文及项目相关链接

PDF

Summary

3DGS在三维重建和新型视角合成方面取得了显著的成功,但从未约束视角重建三维场景仍存在挑战,因为缺乏足够的视觉信息导致重建结果中仍存在显著的人工痕迹。为解决此问题,现有方法采用生成先验来消除人工痕迹并完成缺失内容的填充。然而,这些方法难以确保多视角的一致性,导致结构模糊和不切实际的细节。本研究提出一种无需训练的 FixingGS 方法,充分利用现有扩散模型的潜力进行稀疏视角的 3DGS 重建增强。其核心在于蒸馏法,可生成更准确且跨视角一致的扩散先验,从而实现有效的人工痕迹去除和补全。此外,还提出了一种自适应渐进增强方案,进一步改进了重建结果的不足约束区域。实验证明,FixingGS 在视觉质量和重建性能上超越了现有最先进的方法。

Key Takeaways

  • 3DGS在三维重建和新型视角合成上取得了显著进展。
  • 从稀疏视角重建三维场景仍然具有挑战性,因为缺乏足够的视觉信息。
  • 现有方法使用生成先验去除人工痕迹并填充缺失内容,但难以确保多视角一致性。
  • FixingGS是一种无需训练的方法,利用扩散模型的潜力增强稀疏视角的3DGS重建。
  • FixingGS的核心在于生成更准确和跨视角一致的扩散先验,以实现更好的人工痕迹去除和补全。
  • FixingGS还采用自适应渐进增强方案改进了重建结果的不足约束区域。
  • 实验证明,FixingGS在视觉质量和重建性能上超越了现有方法。

Cool Papers

点此查看论文截图

SINGER: An Onboard Generalist Vision-Language Navigation Policy for Drones

Authors:Maximilian Adang, JunEn Low, Ola Shorinwa, Mac Schwager

Large vision-language models have driven remarkable progress in open-vocabulary robot policies, e.g., generalist robot manipulation policies, that enable robots to complete complex tasks specified in natural language. Despite these successes, open-vocabulary autonomous drone navigation remains an unsolved challenge due to the scarcity of large-scale demonstrations, real-time control demands of drones for stabilization, and lack of reliable external pose estimation modules. In this work, we present SINGER for language-guided autonomous drone navigation in the open world using only onboard sensing and compute. To train robust, open-vocabulary navigation policies, SINGER leverages three central components: (i) a photorealistic language-embedded flight simulator with minimal sim-to-real gap using Gaussian Splatting for efficient data generation, (ii) an RRT-inspired multi-trajectory generation expert for collision-free navigation demonstrations, and these are used to train (iii) a lightweight end-to-end visuomotor policy for real-time closed-loop control. Through extensive hardware flight experiments, we demonstrate superior zero-shot sim-to-real transfer of our policy to unseen environments and unseen language-conditioned goal objects. When trained on ~700k-1M observation action pairs of language conditioned visuomotor data and deployed on hardware, SINGER outperforms a velocity-controlled semantic guidance baseline by reaching the query 23.33% more on average, and maintains the query in the field of view 16.67% more on average, with 10% fewer collisions.

大型视觉语言模型已经推动了开放词汇机器人策略的巨大进步,例如通用机器人操作策略,这些策略使机器人能够完成自然语言指定的复杂任务。尽管取得了这些成功,但由于缺乏大规模演示、无人机稳定控制的实时需求以及可靠的外部姿态估计模块的缺失,开放词汇的自主无人机导航仍然是一个未解决的挑战。在这项工作中,我们提出了SINGER,一种仅使用机载传感器和计算设备进行开放世界语言指导的自主无人机导航的方法。为了训练稳健的开放词汇导航策略,SINGER利用三个核心组件:(i)使用高斯拼贴法生成高效数据的逼真的语言嵌入飞行模拟器,其模拟与现实的差距最小化;(ii)一种受RRT启发的多轨迹生成专家,用于实现无碰撞导航演示;这些被用来训练(iii)一个轻量级的端到端视觉运动策略,用于实时闭环控制。通过大量的硬件飞行实验,我们证明了我们的策略在未见过的环境和未见过的语言条件目标对象上的零样本模拟到现实转移优越性。当在约70万至1百万的语言条件视觉运动数据观察动作对上训练,并部署在硬件上,SINGER的表现优于速度控制的语义指导基准,平均到达查询目标的次数高出23.33%,平均保持查询目标在视野中的时间高出16.67%,碰撞次数减少了10%。

论文及项目相关链接

PDF

Summary

本文介绍了利用大型视觉语言模型实现无人机自主导航的新进展。通过使用三个关键组件:真实语言嵌入飞行模拟器、基于RRT的多轨迹生成专家以及轻量级端到端视觉运动策略,实现了零样本模拟到真实环境的迁移,并在硬件飞行实验中展现出卓越性能。该策略在未知环境和未知语言目标对象上表现优越,提高了目标到达率和视野保持率,并减少了碰撞。

Key Takeaways

  • 大型视觉语言模型推动了开放词汇机器人策略的显著进步。
  • 开放世界中的无人机自主导航仍是挑战,因为缺乏大规模演示、实时控制需求和可靠的外部姿态估计模块。
  • SINGER通过使用真实语言嵌入飞行模拟器解决无人机导航问题,具备鲁棒性和开放词汇导航策略。
  • 该模拟器利用高斯斑点法高效生成数据,减少模拟与现实的差距。
  • 使用基于RRT的多轨迹生成专家为无碰撞导航提供演示。
  • 训练轻量级端到端视觉运动策略用于实时闭环控制。
  • 在硬件飞行实验中,SINGER策略表现出卓越性能,优于速度控制的语义指导基线。

Cool Papers

点此查看论文截图

Event-guided 3D Gaussian Splatting for Dynamic Human and Scene Reconstruction

Authors:Xiaoting Yin, Hao Shi, Kailun Yang, Jiajun Zhai, Shangwei Guo, Lin Wang, Kaiwei Wang

Reconstructing dynamic humans together with static scenes from monocular videos remains difficult, especially under fast motion, where RGB frames suffer from motion blur. Event cameras exhibit distinct advantages, e.g., microsecond temporal resolution, making them a superior sensing choice for dynamic human reconstruction. Accordingly, we present a novel event-guided human-scene reconstruction framework that jointly models human and scene from a single monocular event camera via 3D Gaussian Splatting. Specifically, a unified set of 3D Gaussians carries a learnable semantic attribute; only Gaussians classified as human undergo deformation for animation, while scene Gaussians stay static. To combat blur, we propose an event-guided loss that matches simulated brightness changes between consecutive renderings with the event stream, improving local fidelity in fast-moving regions. Our approach removes the need for external human masks and simplifies managing separate Gaussian sets. On two benchmark datasets, ZJU-MoCap-Blur and MMHPSD-Blur, it delivers state-of-the-art human-scene reconstruction, with notable gains over strong baselines in PSNR/SSIM and reduced LPIPS, especially for high-speed subjects.

从单目视频中重建动态人体和静态场景仍然具有一定的挑战性,特别是在快速运动情况下,RGB帧会受到运动模糊的影响。事件相机具有独特的优势,例如微秒级的时序分辨率,使其成为动态人体重建的出色感知选择。因此,我们提出了一种新型的事件引导人体-场景重建框架,该框架通过3D高斯喷涂技术,利用单个单目事件相机对人体和场景进行联合建模。具体来说,一组统一的3D高斯携带可学习的语义属性;只有被分类为人类的高斯才会发生变形以实现动画效果,而场景高斯保持不变。为了对抗模糊,我们提出了一种事件引导损失,该损失匹配连续渲染之间的模拟亮度变化与事件流,提高了快速移动区域的局部保真度。我们的方法消除了对外部人体掩膜的需求,并简化了单独管理高斯集的过程。在ZJU-MoCap-Blur和MMHPSD-Blur两个基准数据集上,它实现了最先进的人体-场景重建,在PSNR/SSIM上有显著的收益,并且降低了LPIPS,特别是在高速主题上表现尤为出色。

论文及项目相关链接

PDF

Summary

本文提出了一种基于事件引导的人类场景重建框架,通过单目事件相机对动态人类和静态场景进行建模。采用动态与静态的分离表示方式,并结合三维高斯形态模板,提升了动态人类场景重建的准确度。提出的事件引导损失函数可有效解决快速运动区域中的模糊问题。该方法简化了任务,减少了单独的高斯集管理,并且在ZJU-MoCap-Blur和MMHPSD-Blur数据集上实现了最优的重建效果。

Key Takeaways

  • 利用事件相机的优势进行动态人类场景重建。
  • 提出一种新颖的事件引导的人类场景重建框架,通过单一事件相机对人和场景进行建模。
  • 采用三维高斯形态模板进行动态与静态分离表示,简化动画过程并提升重建精度。
  • 为解决快速运动区域的模糊问题,引入事件引导的损失函数,通过匹配连续渲染的亮度变化与事件流实现。
  • 不需要外部人类掩膜,简化了管理独立高斯集的过程。
  • 在两个基准数据集上实现了最优的重建效果,特别是在高速运动主体上表现突出。

Cool Papers

点此查看论文截图

BridgeSplat: Bidirectionally Coupled CT and Non-Rigid Gaussian Splatting for Deformable Intraoperative Surgical Navigation

Authors:Maximilian Fehrentz, Alexander Winkler, Thomas Heiliger, Nazim Haouchine, Christian Heiliger, Nassir Navab

We introduce BridgeSplat, a novel approach for deformable surgical navigation that couples intraoperative 3D reconstruction with preoperative CT data to bridge the gap between surgical video and volumetric patient data. Our method rigs 3D Gaussians to a CT mesh, enabling joint optimization of Gaussian parameters and mesh deformation through photometric supervision. By parametrizing each Gaussian relative to its parent mesh triangle, we enforce alignment between Gaussians and mesh and obtain deformations that can be propagated back to update the CT. We demonstrate BridgeSplat’s effectiveness on visceral pig surgeries and synthetic data of a human liver under simulation, showing sensible deformations of the preoperative CT on monocular RGB data. Code, data, and additional resources can be found at https://maxfehrentz.github.io/ct-informed-splatting/ .

我们介绍了BridgeSplat,这是一种新型的变形手术导航方法。它将术中3D重建与术前CT数据相结合,以弥手术视频和患者体积数据之间的鸿沟。我们的方法将3D高斯映射到CT网格上,通过光度监督实现高斯参数和网格变形的联合优化。通过将每个高斯相对于其父网格三角形进行参数化,我们强制高斯和网格之间的对齐,并获取可以传播回以更新CT的变形。我们在模拟的猪内脏手术和模拟的人类肝脏合成数据上展示了BridgeSplat的有效性,在单目RGB数据上显示出术前CT的敏感变形。代码、数据和附加资源可以在https://maxfehrentz.github.io/ct-informed-splatting/找到。

论文及项目相关链接

PDF Accepted at MICCAI 2025

Summary

本文介绍了BridgeSplat这一新型的可变形手术导航技术,该技术结合了术中三维重建与术前CT数据,从而拉近手术视频与病人三维体积数据之间的距离。BridgeSplat将3D高斯应用于CT网格上,使得可以通过光光度监控同时优化高斯参数和网格变形。通过相对其母网格三角形参数化每个高斯,确保了高斯与网格之间的对齐,从而取得能回溯至CT更新的变形效果。该方法对猪的腹腔内手术及模拟条件下的人体肝脏合成数据有很好的应用效果,证明可以在单色RGB数据上对术前CT进行有效变形处理。有关代码、数据和额外资源可以在网站上查阅(链接已提供)。

Key Takeaways

以下是文本中的关键要点:

  • BridgeSplat是一种新型的可变形手术导航技术。
  • 该技术结合了术中三维重建与术前CT数据,用于提高手术过程的准确性。
  • BridgeSplat采用的高斯优化方法使得在手术过程中能同时优化高斯参数和网格变形。

Cool Papers

点此查看论文截图

EmbodiedSplat: Personalized Real-to-Sim-to-Real Navigation with Gaussian Splats from a Mobile Device

Authors:Gunjan Chhablani, Xiaomeng Ye, Muhammad Zubair Irshad, Zsolt Kira

The field of Embodied AI predominantly relies on simulation for training and evaluation, often using either fully synthetic environments that lack photorealism or high-fidelity real-world reconstructions captured with expensive hardware. As a result, sim-to-real transfer remains a major challenge. In this paper, we introduce EmbodiedSplat, a novel approach that personalizes policy training by efficiently capturing the deployment environment and fine-tuning policies within the reconstructed scenes. Our method leverages 3D Gaussian Splatting (GS) and the Habitat-Sim simulator to bridge the gap between realistic scene capture and effective training environments. Using iPhone-captured deployment scenes, we reconstruct meshes via GS, enabling training in settings that closely approximate real-world conditions. We conduct a comprehensive analysis of training strategies, pre-training datasets, and mesh reconstruction techniques, evaluating their impact on sim-to-real predictivity in real-world scenarios. Experimental results demonstrate that agents fine-tuned with EmbodiedSplat outperform both zero-shot baselines pre-trained on large-scale real-world datasets (HM3D) and synthetically generated datasets (HSSD), achieving absolute success rate improvements of 20% and 40% on real-world Image Navigation task. Moreover, our approach yields a high sim-vs-real correlation (0.87-0.97) for the reconstructed meshes, underscoring its effectiveness in adapting policies to diverse environments with minimal effort. Project page: https://gchhablani.github.io/embodied-splat.

人工智能实体领域主要依赖模拟进行训练和评估,通常使用缺乏逼真感的全合成环境或使用昂贵的硬件捕捉的高保真现实世界重建。因此,模拟到现实的转移仍然是一个主要挑战。在本文中,我们介绍了EmbodiedSplat,这是一种通过高效捕获部署环境并在重建场景中对策略进行微调来个性化策略训练的新方法。我们的方法利用3D高斯喷绘(GS)和 Habitat-Sim模拟器来弥合现实场景捕捉和有效训练环境之间的差距。我们使用iPhone捕获的部署场景,通过GS重建网格,能够在接近真实世界条件的设置中进行培训。我们对训练策略、预训练数据集和网格重建技术进行了综合分析,评估了它们在现实场景中模拟到现实的预测能力的影响。实验结果表明,使用EmbodiedSplat进行微调的代理在真实世界的图像导航任务上优于零基准预训练的大型现实世界数据集(HM3D)和合成数据集(HSSD),成功率提高了20%和40%。此外,我们的方法对重建网格的模拟与真实相关性高达0.87-0.97,突显了其在适应各种环境并最小化努力调整策略方面的有效性。项目页面:https://gchhablani.github.io/embodied-splat。

论文及项目相关链接

PDF 16 pages, 18 figures, paper accepted at ICCV, 2025

Summary

本文介绍了一种名为EmbodiedSplat的新方法,该方法通过高效捕捉部署环境并对政策进行微调,解决了模拟到现实的转移问题。该方法利用3D高斯涂敷(GS)和栖息地模拟器,缩小了真实场景捕捉和有效训练环境之间的差距。通过iPhone捕捉的部署场景进行网格重建,使训练环境更贴近真实世界条件。实验结果表明,使用EmbodiedSplat进行微调的代理在现实世界图像导航任务上的表现优于预训练的大型现实世界数据集和合成数据集,成功率提高了20%和40%。该方法还实现了高模拟与真实相关性,表明其适应不同环境并最小化努力调整政策的有效性。

Key Takeaways

  1. EmbodiedSplat方法个性化政策训练,通过捕捉部署环境并微调政策,解决模拟到现实的转移问题。
  2. 利用3D高斯涂敷(GS)和栖息地模拟器,实现真实场景捕捉和训练环境之间的桥梁。
  3. 通过iPhone捕捉的部署场景进行网格重建,使训练更接近真实世界条件。
  4. 全面的策略分析,包括训练策略、预训练数据集和网格重建技术,对模拟到现实的预测能力进行评估。
  5. 实验结果表明,使用EmbodiedSplat的代理在现实世界任务上的表现优于其他方法,成功率显著提高。
  6. EmbodiedSplat方法实现了高模拟与真实的相关性,表明其适应各种环境的有效性。

Cool Papers

点此查看论文截图

HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis

Authors:Zipeng Wang, Dan Xu

Recently, 3D Gaussian Splatting (3DGS) has emerged as a powerful alternative to NeRF-based approaches, enabling real-time, high-quality novel view synthesis through explicit, optimizable 3D Gaussians. However, 3DGS suffers from significant memory overhead due to its reliance on per-Gaussian parameters to model view-dependent effects and anisotropic shapes. While recent works propose compressing 3DGS with neural fields, these methods struggle to capture high-frequency spatial variations in Gaussian properties, leading to degraded reconstruction of fine details. We present Hybrid Radiance Fields (HyRF), a novel scene representation that combines the strengths of explicit Gaussians and neural fields. HyRF decomposes the scene into (1) a compact set of explicit Gaussians storing only critical high-frequency parameters and (2) grid-based neural fields that predict remaining properties. To enhance representational capacity, we introduce a decoupled neural field architecture, separately modeling geometry (scale, opacity, rotation) and view-dependent color. Additionally, we propose a hybrid rendering scheme that composites Gaussian splatting with a neural field-predicted background, addressing limitations in distant scene representation. Experiments demonstrate that HyRF achieves state-of-the-art rendering quality while reducing model size by over 20 times compared to 3DGS and maintaining real-time performance. Our project page is available at https://wzpscott.github.io/hyrf/.

最近,3D高斯扩展(3DGS)作为一种强大的替代NeRF的方法出现,它通过明确的、可优化的3D高斯实现实时高质量的新视角合成。然而,由于3DGS依赖于高斯参数来模拟视角相关的效果和各向异性形状,因此存在较大的内存开销。虽然最近的工作提出使用神经网络对3DGS进行压缩,但这些方法在捕获高斯属性的高频空间变化方面表现较差,导致精细细节的重建退化。我们提出了混合辐射场(HyRF),这是一种结合显式高斯和神经网络优点的新型场景表示方法。HyRF将场景分解为(1)一组紧凑的显式高斯,仅存储关键的高频参数,(2)基于网格的神经网络场,预测其余属性。为了增强表示能力,我们引入了一个分离的神经网络体系结构,分别模拟几何(尺度、不透明度、旋转)和视角相关的颜色。此外,我们提出了一种混合渲染方案,将高斯扩展与神经网络预测的背景进行组合,解决远距离场景表示的局限性。实验表明,HyRF在达到最先进的渲染质量的同时,与3DGS相比将模型大小缩小了超过20倍,并保持实时性能。我们的项目页面可在https://wzpscott.github.io/hyrf/找到。

论文及项目相关链接

PDF Accepted at NeurIPS 2025

Summary

本文介绍了Hybrid Radiance Fields(HyRF)技术,该技术结合了显式高斯和神经场的优点,用于实时高质量的新型视图合成。针对现有技术的内存开销大和对高频空间变化捕捉能力弱的问题,HyRF通过分解场景为关键的高频参数显式高斯和基于网格的神经场进行预测来解决。此外,还引入了去耦的神经场架构和混合渲染方案,以提高表现力和解决远距离场景表示的限制。实验表明,HyRF达到了最先进的渲染质量,同时模型大小减少了超过20倍,且保持了实时性能。

Key Takeaways

  1. 3DGS已成为NeRF基方法的强大替代方案,可实现实时高质量的新型视图合成。
  2. 3DGS存在内存开销大的问题,依赖于高斯参数模拟视图相关效应和形状。
  3. 现有压缩方法难以捕捉高斯属性的高频空间变化,导致精细细节重建退化。
  4. HyRF结合了显式高斯和神经场的优点,分解场景为高频参数显式高斯和基于网格的神经场预测。
  5. 引入去耦的神经场架构,分别模拟几何和视图相关颜色,提高表现力。
  6. 提出混合渲染方案,解决远距离场景表示的限制。

Cool Papers

点此查看论文截图

MEGS$^{2}$: Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

Authors:Jiarui Chen, Yikeng Chen, Yingshuang Zou, Ye Huang, Peng Wang, Yuan Liu, Yujing Sun, Wenping Wang

3D Gaussian Splatting (3DGS) has emerged as a dominant novel-view synthesis technique, but its high memory consumption severely limits its applicability on edge devices. A growing number of 3DGS compression methods have been proposed to make 3DGS more efficient, yet most only focus on storage compression and fail to address the critical bottleneck of rendering memory. To address this problem, we introduce MEGS$^{2}$, a novel memory-efficient framework that tackles this challenge by jointly optimizing two key factors: the total primitive number and the parameters per primitive, achieving unprecedented memory compression. Specifically, we replace the memory-intensive spherical harmonics with lightweight, arbitrarily oriented spherical Gaussian lobes as our color representations. More importantly, we propose a unified soft pruning framework that models primitive-number and lobe-number pruning as a single constrained optimization problem. Experiments show that MEGS$^{2}$ achieves a 50% static VRAM reduction and a 40% rendering VRAM reduction compared to existing methods, while maintaining comparable rendering quality. Project page: https://megs-2.github.io/

3D高斯延展(3DGS)作为一种新兴的主导视图合成技术备受关注,但其高内存消耗严重限制了其在边缘设备上的应用。越来越多的3DGS压缩方法被提出以提高3DGS的效率,但大多数方法只关注存储压缩,未能解决渲染内存的关键瓶颈问题。为了解决这一问题,我们引入了MEGS$^{2}$,这是一种新型的内存高效框架,通过联合优化两个关键因素:总基元数量和每个基元的参数,来解决这一挑战,实现了前所未有的内存压缩。具体来说,我们用轻量级的任意方向球面高斯波瓣替代了内存密集型的球面谐波作为我们的颜色表示。更重要的是,我们提出了一个统一的软修剪框架,将基元数量和波瓣数量修剪建模为一个带有约束的优化问题。实验表明,与现有方法相比,MEGS$^{2}$实现了50%的静态VRAM减少和40%的渲染VRAM减少,同时保持了相当的渲染质量。项目页面:https://megs-2.github.io/

论文及项目相关链接

PDF 20 pages, 8 figures. Project page at https://megs-2.github.io/

Summary

3D Gaussian Splatting(3DGS)是一种新兴的主流视图合成技术,但其高内存消耗严重限制了其在边缘设备上的应用。针对这一问题,提出了MEGS^2记忆效率框架,通过同时优化原始总数和每个原始参数两个关键因素,实现了前所未有的内存压缩。采用轻量级、任意定向球面高斯波瓣代替内存密集型球面谐波作为颜色表示,并提出统一的软修剪框架,将原始数量波瓣数和修剪数建模为一个约束优化问题。实验表明,与现有方法相比,MEGS^2可实现静态VRAM减少50%,渲染VRAM减少40%,同时保持相当的渲染质量。

Key Takeaways

  1. 3DGS已成为主流视图合成技术,但内存消耗较高,限制了其在边缘设备上的应用。
  2. MEGS^2框架旨在解决这一问题,通过联合优化原始总数和每个原始参数实现高效内存使用。
  3. MEGS^2采用轻量级球面高斯波瓣替换内存密集型球面谐波作为颜色表示。
  4. 引入统一的软修剪框架,将原始数量波瓣数和修剪数建模为约束优化问题。
  5. MEGS^2实现了静态VRAM和渲染VRAM的显著减少,分别达到了50%和40%的缩减。
  6. MEGS^2在保持较高渲染质量的同时实现了内存的优化。

Cool Papers

点此查看论文截图

Temporal Smoothness-Aware Rate-Distortion Optimized 4D Gaussian Splatting

Authors:Hyeongmin Lee, Kyungjune Baek

Dynamic 4D Gaussian Splatting (4DGS) effectively extends the high-speed rendering capabilities of 3D Gaussian Splatting (3DGS) to represent volumetric videos. However, the large number of Gaussians, substantial temporal redundancies, and especially the absence of an entropy-aware compression framework result in large storage requirements. Consequently, this poses significant challenges for practical deployment, efficient edge-device processing, and data transmission. In this paper, we introduce a novel end-to-end RD-optimized compression framework tailored for 4DGS, aiming to enable flexible, high-fidelity rendering across varied computational platforms. Leveraging Fully Explicit Dynamic Gaussian Splatting (Ex4DGS), one of the state-of-the-art 4DGS methods, as our baseline, we start from the existing 3DGS compression methods for compatibility while effectively addressing additional challenges introduced by the temporal axis. In particular, instead of storing motion trajectories independently per point, we employ a wavelet transform to reflect the real-world smoothness prior, significantly enhancing storage efficiency. This approach yields significantly improved compression ratios and provides a user-controlled balance between compression efficiency and rendering quality. Extensive experiments demonstrate the effectiveness of our method, achieving up to 91$\times$ compression compared to the original Ex4DGS model while maintaining high visual fidelity. These results highlight the applicability of our framework for real-time dynamic scene rendering in diverse scenarios, from resource-constrained edge devices to high-performance environments. The source code is available at https://github.com/HyeongminLEE/RD4DGS.

动态四维高斯映射(4DGS)有效地将三维高斯映射(3DGS)的高速渲染能力扩展到体积视频表示。然而,大量的高斯、大量的时间冗余以及缺乏熵感知压缩框架导致存储需求巨大。因此,这给实际部署、高效的边缘设备处理和数据传输带来了重大挑战。在本文中,我们针对4DGS引入了一种新型端到端RD优化压缩框架,旨在实现在各种计算平台上的灵活、高保真渲染。我们以目前最先进的动态高斯映射方法之一的全显式动态高斯映射(Ex4DGS)为基线,从现有的兼容性良好的三维高斯映射压缩方法出发,有效解决了由时间轴引入的额外挑战。特别是,我们没有像传统方法那样独立存储每个点的运动轨迹,而是采用小波变换来反映现实世界中的平滑先验知识,从而显著提高存储效率。这种方法实现了显著的压缩比,并在压缩效率和渲染质量之间提供了用户可控的平衡。大量实验证明了我们的方法的有效性,与原始Ex4DGS模型相比,我们的方法实现了高达91倍的压缩,同时保持了高度的视觉保真度。这些结果突显了我们的框架在资源受限的边缘设备到高性能环境的各种场景中实时动态场景渲染的适用性。源代码可在https://github.com/HyeongminLEE/RD4DGS找到。

论文及项目相关链接

PDF 24 pages, 10 figures, NeurIPS 2025

Summary

这篇论文提出了一种针对动态四维高斯点绘(4DGS)的端到端优化压缩框架。该框架旨在实现跨不同计算平台的高保真渲染,通过利用小波变换来反映现实世界中的平滑先验信息,提高了存储效率,实现了高压缩比和高视觉保真度的平衡。

Key Takeaways

  1. 动态四维高斯点绘(4DGS)扩展了三维高斯点绘(3DGS)的高速渲染能力,以表示体积视频。
  2. 现有技术面临的挑战包括大量高斯、时间冗余和缺乏熵感知压缩框架导致的存储需求大。
  3. 新框架旨在解决这些问题并实现灵活的、高保真度的跨平台渲染。
  4. 通过利用小波变换反映现实世界平滑度先验信息,提高存储效率。
  5. 实现显著改进的压缩比和用户控制的压缩效率和渲染质量之间的平衡。
  6. 实验结果显示,与原始Ex4DGS模型相比,新方法可实现高达91倍的压缩,同时保持高视觉保真度。

Cool Papers

点此查看论文截图

DWTGS: Rethinking Frequency Regularization for Sparse-view 3D Gaussian Splatting

Authors:Hung Nguyen, Runfa Li, An Le, Truong Nguyen

Sparse-view 3D Gaussian Splatting (3DGS) presents significant challenges in reconstructing high-quality novel views, as it often overfits to the widely-varying high-frequency (HF) details of the sparse training views. While frequency regularization can be a promising approach, its typical reliance on Fourier transforms causes difficult parameter tuning and biases towards detrimental HF learning. We propose DWTGS, a framework that rethinks frequency regularization by leveraging wavelet-space losses that provide additional spatial supervision. Specifically, we supervise only the low-frequency (LF) LL subbands at multiple DWT levels, while enforcing sparsity on the HF HH subband in a self-supervised manner. Experiments across benchmarks show that DWTGS consistently outperforms Fourier-based counterparts, as this LF-centric strategy improves generalization and reduces HF hallucinations.

稀疏视角的3D高斯飞溅(3DGS)在重建高质量新颖视角方面存在重大挑战,因为它经常过度拟合稀疏训练视角中广泛变化的高频(HF)细节。虽然频率正则化可能是一种有前途的方法,但它通常依赖于傅里叶变换,导致参数调整困难,并偏向于有害的高频学习。我们提出了DWTGS,这是一个利用小波空间损失重新思考频率正则化的框架,它提供了额外的空间监督。具体来说,我们在多个DWT级别仅监督低频(LF)LL子带,同时以自我监督的方式在高频HH子带上强制执行稀疏性。跨基准的实验表明,DWTGS始终优于基于傅立叶的对应方法,因为这种以LF为中心的策略提高了泛化能力并减少了高频幻觉。

论文及项目相关链接

PDF Accepted to VCIP 2025

Summary

基于稀疏视角的3D高斯喷绘(3DGS)在重建高质量新视角时面临重大挑战,易对稀疏训练视角中变化多端的高频细节产生过拟合现象。虽然频率正则化是一种有前途的方法,但其通常依赖于傅里叶变换,导致参数调整困难且偏向有害的高频学习。本研究提出DWTGS框架,重新思考频率正则化,利用小波空间损失提供额外的空间监督。具体来说,我们在多个DWT级别仅监督低频LL子带,同时以自我监督的方式在高频HH子带上实施稀疏性。跨基准实验的测试表明,DWTGS在低频为中心的策略提高了泛化能力并减少了高频幻觉,因此它持续优于基于傅立叶的方法。

Key Takeaways

  1. 稀疏视角的3D高斯喷绘(3DGS)在重建高质量新视角时面临挑战,易过拟合于高频细节。
  2. 频率正则化是一种解决此问题的有前途的方法,但传统的频率正则化依赖于傅立叶变换,存在参数调整困难和偏向高频学习的缺陷。
  3. 本研究提出DWTGS框架,利用小波空间损失进行频率正则化,提供额外的空间监督。
  4. DWTGS通过监督多个DWT级别的低频LL子带并自我监督高频HH子带的稀疏性,实现了一种低频为中心的策略。
  5. 实验表明,DWTGS框架能提高泛化能力并减少高频幻觉。
  6. DWTGS持续优于基于傅立叶的方法。

Cool Papers

点此查看论文截图

GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation

Authors:Ying Chai, Litao Deng, Ruizhi Shao, Jiajun Zhang, Kangchen Lv, Liangjun Xing, Xiang Li, Hongwen Zhang, Yebin Liu

Accurate scene perception is critical for vision-based robotic manipulation. Existing approaches typically follow either a Vision-to-Action (V-A) paradigm, predicting actions directly from visual inputs, or a Vision-to-3D-to-Action (V-3D-A) paradigm, leveraging intermediate 3D representations. However, these methods often struggle with action inaccuracies due to the complexity and dynamic nature of manipulation scenes. In this paper, we adopt a V-4D-A framework that enables direct action reasoning from motion-aware 4D representations via a Gaussian Action Field (GAF). GAF extends 3D Gaussian Splatting (3DGS) by incorporating learnable motion attributes, allowing 4D modeling of dynamic scenes and manipulation actions. To learn time-varying scene geometry and action-aware robot motion, GAF provides three interrelated outputs: reconstruction of the current scene, prediction of future frames, and estimation of init action via Gaussian motion. Furthermore, we employ an action-vision-aligned denoising framework, conditioned on a unified representation that combines the init action and the Gaussian perception, both generated by the GAF, to further obtain more precise actions. Extensive experiments demonstrate significant improvements, with GAF achieving +11.5385 dB PSNR, +0.3864 SSIM and -0.5574 LPIPS improvements in reconstruction quality, while boosting the average +7.3% success rate in robotic manipulation tasks over state-of-the-art methods.

准确场景感知对于基于视觉的机器人操作至关重要。现有方法通常遵循视觉到动作(V-A)范式,直接从视觉输入预测动作,或者遵循视觉到三维到动作(V-3D-A)范式,利用中间三维表示。然而,这些方法通常由于操作场景的复杂性和动态性而面临动作不准确的问题。在本文中,我们采用了一种V-4D-A框架,该框架能够通过高斯动作场(GAF)从感知运动的4D表示中进行直接动作推理。GAF通过结合可学习的运动属性扩展了三维高斯拼贴(3DGS),允许对动态场景和操纵动作进行4D建模。为了学习随时间变化的场景几何和感知动作的机器人运动,GAF提供了三个相互关联的输出:当前场景的重建、未来帧的预测以及通过高斯运动估计的初始动作。此外,我们采用了一种与行动视觉对齐的去噪框架,该框架以由GAF生成的初始动作和高斯感知的结合的统一表示为条件,进一步获得更精确的动作。大量实验表明,GAF在重建质量方面实现了+11.5385分贝峰值信噪比(PSNR)、+0.3864结构相似性(SSIM)和-0.5574学习感知损失(LPIPS)的显著改善,同时在机器人操作任务上的成功率平均提高了+7.3%,超过了最先进的方法。

论文及项目相关链接

PDF http://chaiying1.github.io/GAF.github.io/project_page/

Summary

本文提出一个基于动态场景的V-4D-A框架,利用高斯动作场(GAF)实现直接从运动感知的4D表示中进行动作推理。GAF扩展了3D高斯拼贴技术,通过引入可学习的运动属性,实现对动态场景和操控动作的4D建模。此外,GAF还提供三种相关输出,用于学习随时间变化的场景几何和机器人动作感知。采用与动作视觉对齐的降噪框架,进一步提高动作的精确度。实验表明,GAF在重建质量和机器人操作任务上的成功率均显著提高。

Key Takeaways

  1. 引入V-4D-A框架,结合动态场景与直接动作推理。
  2. 提出高斯动作场(GAF),扩展3D高斯拼贴技术,实现4D建模。
  3. GAF提供三种输出:重建当前场景、预测未来帧、估计初始动作。
  4. 结合初始动作和高斯感知的统表示,采用动作视觉对齐的降噪框架。
  5. GAF在重建质量上较现有技术有显著改进,如PSNR、SSIM和LPIPS指标。
  6. 在机器人操作任务上,GAF较现有方法的成功率平均提升7.3%。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
NeRF NeRF
NeRF 方向最新论文已更新,请持续关注 Update in 2025-09-28 Integrating Object Interaction Self-Attention and GAN-Based Debiasing for Visual Question Answering
2025-09-28
下一篇 
元宇宙/虚拟人 元宇宙/虚拟人
元宇宙/虚拟人 方向最新论文已更新,请持续关注 Update in 2025-09-28 Audio-Driven Universal Gaussian Head Avatars
  目录