⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-19 更新
Plug-and-Play PDE Optimization for 3D Gaussian Splatting: Toward High-Quality Rendering and Reconstruction
Authors:Yifan Mo, Youcheng Cai, Ligang Liu
3D Gaussian Splatting (3DGS) has revolutionized radiance field reconstruction by achieving high-quality novel view synthesis with fast rendering speed, introducing 3D Gaussian primitives to represent the scene. However, 3DGS encounters blurring and floaters when applied to complex scenes, caused by the reconstruction of redundant and ambiguous geometric structures. We attribute this issue to the unstable optimization of the Gaussians. To address this limitation, we present a plug-and-play PDE-based optimization method that overcomes the optimization constraints of 3DGS-based approaches in various tasks, such as novel view synthesis and surface reconstruction. Firstly, we theoretically derive that the 3DGS optimization procedure can be modeled as a PDE, and introduce a viscous term to ensure stable optimization. Secondly, we use the Material Point Method (MPM) to obtain a stable numerical solution of the PDE, which enhances both global and local constraints. Additionally, an effective Gaussian densification strategy and particle constraints are introduced to ensure fine-grained details. Extensive qualitative and quantitative experiments confirm that our method achieves state-of-the-art rendering and reconstruction quality.
3D高斯贴图(3DGS)通过引入3D高斯原始图形实现了高质量的新型视图合成,并以快速的渲染速度实现了辐射场重建,从而彻底改变了辐射场重建。然而,当应用于复杂场景时,3DGS会遇到模糊和浮动的问题,这是由于冗余和模糊的几何结构重建所导致的。我们将这一问题归因于高斯的不稳定优化。为了解决这一局限性,我们提出了一种基于偏微分方程(PDE)的即插即用优化方法,克服了基于3DGS的方法在各种任务(例如新型视图合成和表面重建)中的优化约束。首先,我们从理论上推导了3DGS优化过程可以建模为PDE,并引入粘性项以确保稳定的优化。其次,我们使用物质点法(MPM)获得PDE的稳定数值解,这增强了全局和局部约束。此外,还引入了一种有效的高斯加密策略和粒子约束以确保精细的细节。大量的定性和定量实验证实,我们的方法达到了最先进的渲染和重建质量。
论文及项目相关链接
Summary
本文介绍了基于三维高斯描绘技术(3DGS)在场景重建领域的新进展。该技术能够高质量合成新型视角并快速渲染,然而应用于复杂场景时可能出现模糊和浮动的现象,问题根源在于高斯优化的不稳定。为此,本文提出了一种基于偏微分方程(PDE)的优化方法,可以有效解决这一问题。此方法不仅可以提高3DGS技术在新型视角合成和表面重建等任务中的性能,还引入了粘性项确保优化过程的稳定性,并利用物质点法(MPM)获得稳定的数值解。此外,本文还提出了一种高斯强化策略和粒子约束,以确保精细的细节表现。实验证明,该方法在渲染和重建质量上达到了业界领先水平。
Key Takeaways
以下是关于文本的关键见解:
- 3DGS技术实现了高质量的新型视角合成和快速渲染。
- 复杂场景中应用的挑战是模糊和浮动的现象,原因是高斯优化的不稳定。
- 本文提出了一种基于PDE的优化方法来解决上述问题,适用于多种任务如新型视角合成和表面重建。
- 通过引入粘性项和物质点法(MPM),确保优化的稳定性和数值解的稳定。
- 高斯强化策略和粒子约束确保了精细的细节表现。
- 实验证明该方法在渲染和重建质量上达到了业界领先水平。
点此查看论文截图




LamiGauss: Pitching Radiative Gaussian for Sparse-View X-ray Laminography Reconstruction
Authors:Chu Chen, Ander Biguri, Jean-Michel Morel, Raymond H. Chan, Carola-Bibiane Schönlieb, Jizhou Li
X-ray Computed Laminography (CL) is essential for non-destructive inspection of plate-like structures in applications such as microchips and composite battery materials, where traditional computed tomography (CT) struggles due to geometric constraints. However, reconstructing high-quality volumes from laminographic projections remains challenging, particularly under highly sparse-view acquisition conditions. In this paper, we propose a reconstruction algorithm, namely LamiGauss, that combines Gaussian Splatting radiative rasterization with a dedicated detector-to-world transformation model incorporating the laminographic tilt angle. LamiGauss leverages an initialization strategy that explicitly filters out common laminographic artifacts from the preliminary reconstruction, preventing redundant Gaussians from being allocated to false structures and thereby concentrating model capacity on representing the genuine object. Our approach effectively optimizes directly from sparse projections, enabling accurate and efficient reconstruction with limited data. Extensive experiments on both synthetic and real datasets demonstrate the effectiveness and superiority of the proposed method over existing techniques. LamiGauss uses only 3$%$ of full views to achieve superior performance over the iterative method optimized on a full dataset.
X射线计算层析术(CL)对于微芯片和复合电池材料等板状结构的非破坏性检测至关重要。由于几何约束,传统计算机断层扫描(CT)在这些应用中表现不佳。然而,从层析投影重建高质量体积仍然是一个挑战,特别是在高度稀疏视图采集条件下。本文提出了一种重建算法,即LamiGauss,它将高斯喷射辐射光栅化与结合层析倾斜角的专用检测器到世界转换模型相结合。LamiGauss利用初始化策略,从初步重建中明确过滤出常见的层析图像伪影,防止冗余高斯被分配到错误的结构上,从而集中模型的容量来表示真实物体。我们的方法直接从稀疏投影进行有效优化,可在有限数据的情况下实现准确高效的重建。在合成和真实数据集上的大量实验证明了所提方法的有效性及优于现有技术的表现。LamiGauss仅使用全视图的3%,即可在完整数据集上实现优于迭代方法的性能。
论文及项目相关链接
Summary
针对微芯片和复合电池材料等板状结构的非破坏性检测中,X射线计算层析成像(CL)至关重要,传统计算机断层扫描(CT)因几何约束而难以实现高质量成像。本文提出一种名为LamiGauss的重建算法,结合了高斯喷绘辐射光栅化与专用检测器到世界转换模型,该模型考虑了层析倾斜角度。LamiGauss采用过滤常见层析伪影的初始化策略,避免在虚假结构上分配冗余高斯,集中于真实物体的表达。此方法可直接从稀疏投影进行优化,可实现有限数据的准确高效重建。在合成和真实数据集上的大量实验证明了该方法的有效性及优于现有技术的表现。LamiGauss仅用3%的全视角数据便实现了对全数据优化迭代方法的优越性能。
Key Takeaways
- X射线计算层析成像(CL)在微芯片和复合电池材料的非破坏性检测中至关重要。
- 传统计算机断层扫描(CT)在板状结构的检测中受到几何约束的限制。
- LamiGauss算法结合了高斯喷绘辐射光栅化与检测器到世界的转换模型。
- LamiGauss能有效过滤层析伪影,专注于真实物体的表达。
- 该方法可直接从稀疏投影进行优化,实现有限数据的准确高效重建。
- LamiGauss在合成和真实数据集上的实验表现优越。
点此查看论文截图






Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction
Authors:Yumin Li, Dylan Campbell
Estimating metric relative camera pose from a pair of images is of great importance for 3D reconstruction and localisation. However, conventional two-view pose estimation methods are not metric, with camera translation known only up to a scale, and struggle with wide baselines and textureless or reflective surfaces. This paper introduces GARPS, a training-free framework that casts this problem as the direct alignment of two independently reconstructed 3D scenes. GARPS leverages a metric monocular depth estimator and a Gaussian scene reconstructor to obtain a metric 3D Gaussian Mixture Model (GMM) for each image. It then refines an initial pose from a feed-forward two-view pose estimator by optimising a differentiable GMM alignment objective. This objective jointly considers geometric structure, view-independent colour, anisotropic covariance, and semantic feature consistency, and is robust to occlusions and texture-poor regions without requiring explicit 2D correspondences. Extensive experiments on the Real-Estate10K dataset demonstrate that GARPS outperforms both classical and state-of-the-art learning-based methods, including MASt3R. These results highlight the potential of bridging single-view perception with multi-view geometry to achieve robust and metric relative pose estimation.
从一对图像中估计度量相对相机姿态对3D重建和定位非常重要。然而,传统的两视图姿态估计方法并非度量方法,仅知道相机的缩放比例,并且在宽基线、无纹理或反射表面上表现不佳。本文介绍了GARPS,这是一种无需训练的框架,将这个问题转化为两个独立重建的3D场景的直接对齐。GARPS利用单目深度估计器和高斯场景重建器为每个图像获得度量3D高斯混合模型(GMM)。然后,它通过优化可微分的GMM对齐目标来改进来自前馈两视图姿态估计器的初始姿态。此目标联合考虑了几何结构、与视图无关的颜色、各向异性协方差和语义特征的一致性,并且对遮挡和纹理不佳的区域具有很强的鲁棒性,无需明确的2D对应关系。在Real-Estate10K数据集上的大量实验表明,GARPS优于经典的和最新的学习方法,包括MASt3R。这些结果突出了将单视图感知与多视图几何相结合以实现稳健和度量相对姿态估计的潜力。
论文及项目相关链接
PDF 12 pages, 4 figures, accepted by AJCAI 2025
Summary
本文提出了一种无训练框架GARPS,用于从一对图像中估计度量相对相机姿态。该框架将问题转化为两个独立重建的3D场景的直接对齐,利用单目深度估计器和高斯场景重建器获得每个图像的度量3D高斯混合模型(GMM)。通过优化可微分的GMM对齐目标,对初始姿态进行精细化处理,该目标综合考虑了几何结构、视场独立颜色、各向异性协方差和语义特征一致性。在Real-Estate10K数据集上的广泛实验表明,GARPS在经典方法和基于学习的方法中表现出色,包括MASt3R。这显示了将单视图感知与多视图几何相结合以实现稳健和度量相对姿态估计的潜力。
Key Takeaways
- GARPS是一种无训练框架,用于从一对图像中估计度量相对相机姿态,适用于3D重建和定位。
- 该方法通过将问题转化为两个独立重建的3D场景的直接对齐来解决。
- GARPS利用单目深度估计器和高斯场景重建器获得每个图像的度量3D高斯混合模型(GMM)。
- 通过优化可微分的GMM对齐目标来精细化初始姿态。
- 该目标综合考虑了几何结构、视场独立颜色、各向异性协方差和语义特征一致性。
- GARPS在广泛实验中对多种场景具有稳健性,包括遮挡和纹理缺失区域。
点此查看论文截图



Reconstruction and Reenactment Separated Method for Realistic Gaussian Head
Authors:Zhiling Ye, Cong Zhou, Xiubao Zhang, Haifeng Shen, Weihong Deng, Quan Lu
In this paper, we explore a reconstruction and reenactment separated framework for 3D Gaussians head, which requires only a single portrait image as input to generate controllable avatar. Specifically, we developed a large-scale one-shot gaussian head generator built upon WebSSL and employed a two-stage training approach that significantly enhances the capabilities of generalization and high-frequency texture reconstruction. During inference, an ultra-lightweight gaussian avatar driven by control signals enables high frame-rate rendering, achieving 90 FPS at a resolution of 512x512. We further demonstrate that the proposed framework follows the scaling law, whereby increasing the parameter scale of the reconstruction module leads to improved performance. Moreover, thanks to the separation design, driving efficiency remains unaffected. Finally, extensive quantitative and qualitative experiments validate that our approach outperforms current state-of-the-art methods.
本文探索了一个针对3D高斯头像的重建和重现分离框架,该框架仅需一张肖像图像作为输入即可生成可控的虚拟角色。具体来说,我们基于WebSSL开发了一个大规模的单次高斯头像生成器,并采用了一种两阶段训练方法,这显著提高了泛化和高频纹理重建的能力。在推理过程中,一个由控制信号驱动的超轻量级高斯虚拟角色实现了高帧率渲染,在512x512的分辨率下达到90 FPS。我们还证明,所提出的框架遵循规模定律,即重建模块参数规模的增加会导致性能的提升。此外,由于分离设计,驱动效率不受影响。最后,大量的定量和定性实验验证了我们的方法优于当前最先进的方法。
论文及项目相关链接
Summary
该论文探讨了针对3D高斯头像的重建和再现分离框架,该框架仅需单幅肖像图像作为输入即可生成可控化身。研究团队基于WebSSL开发了大规模单镜头高斯头像生成器,并采用两阶段训练法,显著提升了其泛化能力和高频纹理重建能力。在推理过程中,受控制信号驱动的超轻量级高斯化身可实现高帧率渲染,达到512x512分辨率下的90 FPS。此外,该研究遵循扩展定律,即增加重建模块参数规模可提高性能且不影响驱动效率。经过广泛定量和定性实验验证,该方法优于当前最先进的技术。
Key Takeaways
- 论文提出了针对3D高斯头像的重建和再现分离框架,利用单幅肖像图像生成可控化身。
- 采用基于WebSSL的大规模单镜头高斯头像生成器。
- 首次采用两阶段训练法,提高了泛化能力和高频纹理重建能力。
- 实现超轻量级高斯化身的高帧率渲染,达到90 FPS的帧率。
- 研究遵循扩展定律,增加重建模块参数规模可提高性能。
- 分离设计使得驱动效率不受影响。
点此查看论文截图






GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
Authors:Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen, Ziwei Wang, Yansong Tang, Siyuan Huang
Training robot policies within a learned world model is trending due to the inefficiency of real-world interactions. The established image-based world models and policies have shown prior success, but lack robust geometric information that requires consistent spatial and physical understanding of the three-dimensional world, even pre-trained on internet-scale video sources. To this end, we propose a novel branch of world model named Gaussian World Model (GWM) for robotic manipulation, which reconstructs the future state by inferring the propagation of Gaussian primitives under the effect of robot actions. At its core is a latent Diffusion Transformer (DiT) combined with a 3D variational autoencoder, enabling fine-grained scene-level future state reconstruction with Gaussian Splatting. GWM can not only enhance the visual representation for imitation learning agent by self-supervised future prediction training, but can serve as a neural simulator that supports model-based reinforcement learning. Both simulated and real-world experiments depict that GWM can precisely predict future scenes conditioned on diverse robot actions, and can be further utilized to train policies that outperform the state-of-the-art by impressive margins, showcasing the initial data scaling potential of 3D world model.
在现实世界互动中,训练机器人策略变得越来越流行,因为在现实世界中训练的机器人模型效率较低。已经建立的基于图像的世界模型和策略已经取得了初步成功,但缺乏强大的几何信息,这需要对三维世界的空间和时间有一个清晰的认识和理解,即使在互联网规模的视频源上进行预训练也是如此。为此,我们提出了一种用于机器人操作的新型世界模型分支,即高斯世界模型(GWM)。它通过推断高斯原语在机器人动作影响下的传播来重建未来状态。其核心是一个结合了三维变分自编码器的潜在扩散转换器(DiT),通过高斯绘图实现精细的场景级未来状态重建。高斯世界模型不仅能通过自我监督的未来预测训练增强模仿学习代理的视觉表示,还可以作为支持基于模型的强化学习的神经网络模拟器。模拟和现实世界实验表明,高斯世界模型可以根据不同的机器人动作精确预测未来场景,并可以进一步用于训练策略,这些策略的表现优于最新技术,展示了三维世界模型的初始数据规模潜力。
论文及项目相关链接
PDF Published at ICCV 2025. Project page: https://gaussian-world-model.github.io/
Summary
针对现实世界交互的低效性,训练机器人策略时采用学习世界模型成为趋势。现有基于图像的世界模型和策略虽取得初步成功,但缺乏必要的几何信息,无法对三维世界进行持续的空间和物理理解。为此,我们提出名为高斯世界模型(GWM)的新型世界模型分支,用于机器人操作。它通过推断高斯原始数据的传播情况来重建未来状态。其核心是结合三维变分自动编码器的潜在扩散转换器(DiT),可实现精细的场景级未来状态重建,采用高斯拼贴技术。GWM不仅可以增强自我监督未来预测训练的模仿学习代理的视觉表示,还可以作为支持基于模型的强化学习的神经网络模拟器。实验表明,无论是在模拟还是真实世界中,GWM都能精确预测各种机器人动作下的未来场景,并可用于训练性能优于最新技术的策略,展现了三维世界模型的初始数据规模效应。
Key Takeaways
- 世界模型训练对于提高机器人策略的效率和性能至关重要。
- 现有基于图像的世界模型和策略缺乏必要的几何信息,限制了其在三维世界中的理解和操作。
- 高斯世界模型(GWM)是一种新型世界模型分支,旨在解决这一问题,通过推断高斯原始数据的传播来重建未来状态。
- GWM采用潜在扩散转换器(DiT)和三维变分自动编码器技术实现精细的场景级未来状态重建。
- GWM不仅可以用于增强模仿学习代理的视觉表示,还可以通过自我监督的未来预测训练提升性能。
- GWM作为一种神经网络模拟器,支持模型基础的强化学习。
点此查看论文截图



