⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-26 更新
DensifyBeforehand: LiDAR-assisted Content-aware Densification for Efficient and Quality 3D Gaussian Splatting
Authors:Phurtivilai Patt, Leyang Huang, Yinqiang Zhang, Yang Lei
This paper addresses the limitations of existing 3D Gaussian Splatting (3DGS) methods, particularly their reliance on adaptive density control, which can lead to floating artifacts and inefficient resource usage. We propose a novel densify beforehand approach that enhances the initialization of 3D scenes by combining sparse LiDAR data with monocular depth estimation from corresponding RGB images. Our ROI-aware sampling scheme prioritizes semantically and geometrically important regions, yielding a dense point cloud that improves visual fidelity and computational efficiency. This densify beforehand approach bypasses the adaptive density control that may introduce redundant Gaussians in the original pipeline, allowing the optimization to focus on the other attributes of 3D Gaussian primitives, reducing overlap while enhancing visual quality. Our method achieves comparable results to state-of-the-art techniques while significantly lowering resource consumption and training time. We validate our approach through extensive comparisons and ablation studies on four newly collected datasets, showcasing its effectiveness in preserving regions of interest in complex scenes.
本文解决了现有3D高斯展布(3DGS)方法的局限性,特别是它们对自适应密度控制的依赖,这可能导致漂浮伪影和资源使用效率低下。我们提出了一种新型的预先密集化方法,通过结合稀疏激光雷达数据与对应RGB图像的单目深度估计,增强了3D场景的初始化。我们的ROI感知采样方案优先处理语义和几何上重要的区域,生成密集的点云,提高了视觉逼真度和计算效率。这种预先密集化的方法绕过了可能在原始管道中引入冗余高斯函数的自适应密度控制,使优化能够专注于3D高斯原始数据的其他属性,减少重叠,提高视觉质量。我们的方法在实现与最新技术相当的结果的同时,显著降低了资源消耗和训练时间。我们通过四个新收集数据集上的广泛比较和消融研究验证了我们的方法,展示了其在复杂场景中保留感兴趣区域的有效性。
论文及项目相关链接
Summary
本文提出了一种新的三维高斯填充(3DGS)方法,解决了现有方法依赖自适应密度控制带来的浮点误差和资源利用不高效的问题。新方法结合稀疏激光雷达数据和来自对应RGB图像的单目深度估计,优化了三维场景的初始化。通过优先处理语义和几何上重要的区域,该方法生成了密集的点云,提高了视觉真实感和计算效率。新方法避免了自适应密度控制可能引入的冗余高斯,使优化能够专注于三维高斯原始点的其他属性,减少了重叠并提高了视觉质量。该方法在四个新收集的数据集上进行广泛比较和消融研究,验证了其在复杂场景中保留感兴趣区域的有效性,同时降低了资源消耗和训练时间。
Key Takeaways
- 新方法解决了现有三维高斯填充方法依赖自适应密度控制的局限性,减少了浮点误差和资源浪费。
- 结合稀疏激光雷达数据和RGB图像的单目深度估计,优化了三维场景的初始化。
- 通过优先处理语义和几何上重要的区域,生成密集的点云,提高视觉真实感和计算效率。
- 新方法绕过自适应密度控制,允许优化专注于三维高斯原始点的其他属性。
- 方法减少了重叠,提高了视觉质量。
- 在四个新数据集上的广泛比较和消融研究验证了方法的有效性。
点此查看论文截图
NVGS: Neural Visibility for Occlusion Culling in 3D Gaussian Splatting
Authors:Brent Zoomers, Florian Hahlbohm, Joni Vanherck, Lode Jorissen, Marcus Magnor, Nick Michiels
3D Gaussian Splatting can exploit frustum culling and level-of-detail strategies to accelerate rendering of scenes containing a large number of primitives. However, the semi-transparent nature of Gaussians prevents the application of another highly effective technique: occlusion culling. We address this limitation by proposing a novel method to learn the viewpoint-dependent visibility function of all Gaussians in a trained model using a small, shared MLP across instances of an asset in a scene. By querying it for Gaussians within the viewing frustum prior to rasterization, our method can discard occluded primitives during rendering. Leveraging Tensor Cores for efficient computation, we integrate these neural queries directly into a novel instanced software rasterizer. Our approach outperforms the current state of the art for composed scenes in terms of VRAM usage and image quality, utilizing a combination of our instanced rasterizer and occlusion culling MLP, and exhibits complementary properties to existing LoD techniques.
3D高斯混合法能够利用截锥体剔除(frustum culling)和细节层次策略(level-of-detail strategies)来加速渲染大量基本实体构成的场景。然而,高斯半透明的特性使得另一种高效技术——遮挡剔除(occlusion culling)无法应用。我们通过提出一种新方法来解决这一局限性,该方法通过训练模型学习所有高斯与视点相关的可见度函数,通过场景中资产实例的小型共享多层感知器(MLP)来实现这一点。在光栅化之前查询视锥体内的高斯,我们的方法能够在渲染过程中丢弃被遮挡的基本实体。利用Tensor Cores进行高效计算,我们将这些神经查询直接集成到新型实例软件光栅器中。我们的方法结合实例光栅器和遮挡剔除MLP,在VRAM使用量和图像质量方面优于复杂场景的现有技术顶尖水平,并且与现有的层次细节技术具有互补属性。
论文及项目相关链接
PDF 15 pages, 13 figures
摘要
三维高斯点扩展渲染可以利用渲染裁剪策略和层次细节技术来加速大规模渲染场景中的众多物体。然而,高斯特性的半透明性质限制了另一种高效技术——遮挡裁剪的应用。为解决这一问题,我们提出了一种新方法,通过训练模型学习所有高斯值的视点相关可见度函数,并在场景中资产实例间使用小型共享多层感知器。在渲染前查询视锥体内的高斯值,我们的方法能够在渲染过程中丢弃被遮挡的物体。利用Tensor Cores进行高效计算,我们将这些神经网络查询直接集成到新型实例软件渲染器中。我们的方法优于当前组合场景的最新技术,在VRAM使用和图像质量方面表现出优势,结合了我们的实例渲染器和遮挡裁剪多层感知器,并且与现有的层次细节技术具有互补性质。
要点提炼
- 三维高斯点扩展可以利用渲染裁剪策略和层次细节技术来加速渲染大量原始数据的过程。
- 高斯特性的半透明性质限制了遮挡裁剪技术的应用。
- 提出一种新方法,利用训练模型学习所有高斯值的视点相关可见度函数。
- 通过查询视锥体内的高斯值,能在渲染过程中丢弃被遮挡的物体,从而提高效率。
- 利用Tensor Cores进行高效计算,将神经网络查询集成到实例软件渲染器中。
- 该方法在VRAM使用和图像质量方面超越当前技术,结合了实例渲染器和遮挡裁剪多层感知器。
点此查看论文截图
Neural Texture Splatting: Expressive 3D Gaussian Splatting for View Synthesis, Geometry, and Dynamic Reconstruction
Authors:Yiming Wang, Shaofei Wang, Marko Mihajlovic, Siyu Tang
3D Gaussian Splatting (3DGS) has emerged as a leading approach for high-quality novel view synthesis, with numerous variants extending its applicability to a broad spectrum of 3D and 4D scene reconstruction tasks. Despite its success, the representational capacity of 3DGS remains limited by the use of 3D Gaussian kernels to model local variations. Recent works have proposed to augment 3DGS with additional per-primitive capacity, such as per-splat textures, to enhance its expressiveness. However, these per-splat texture approaches primarily target dense novel view synthesis with a reduced number of Gaussian primitives, and their effectiveness tends to diminish when applied to more general reconstruction scenarios. In this paper, we aim to achieve concrete performance improvement over state-of-the-art 3DGS variants across a wide range of reconstruction tasks, including novel view synthesis, geometry and dynamic reconstruction, under both sparse and dense input settings. To this end, we introduce Neural Texture Splatting (NTS). At the core of our approach is a global neural field (represented as a hybrid of a tri-plane and a neural decoder) that predicts local appearance and geometric fields for each primitive. By leveraging this shared global representation that models local texture fields across primitives, we significantly reduce model size and facilitate efficient global information exchange, demonstrating strong generalization across tasks. Furthermore, our neural modeling of local texture fields introduces expressive view- and time-dependent effects, a critical aspect that existing methods fail to account for. Extensive experiments show that Neural Texture Splatting consistently improves models and achieves state-of-the-art results across multiple benchmarks.
3D高斯融合(3DGS)已经成为高质量新型视角合成的主流方法,其多种变体将其应用范围扩展到了广泛的3D和4D场景重建任务。尽管取得了成功,但由于使用三维高斯核对局部变化进行建模,其代表性容量仍然受到限制。近期的工作已经提出通过增加每个基本元素(如每个斑点的纹理)来增强三维高斯融合的表达能力。然而,这些针对斑点的纹理方法主要针对具有较少高斯基本元素的新型密集视角合成,在应用于更一般的重建场景时,其效果往往会降低。在本文中,我们的目标是在广泛的重建任务上实现最新三维高斯融合性能的实质性改进,包括新型视角合成、几何和动态重建,以及在稀疏和密集输入设置下的任务。为此,我们引入了神经纹理融合(NTS)。我们的方法的核心是一个全局神经网络(表示为三平面和神经网络解码器的混合体),用于预测每个基本元素的局部外观和几何场。通过利用这一共享全局表示法来模拟基本元素之间的局部纹理场,我们显著减少了模型大小并促进了高效的全局信息交换,从而表现出强大的跨任务泛化能力。此外,我们对局部纹理场的神经建模引入了表达和视角以及时间相关的效果,这是现有方法所忽视的一个关键方面。大量实验表明,神经纹理融合始终改进了模型并实现了多个基准测试中的最新结果。
论文及项目相关链接
PDF SIGGRAPH Asia 2025 (conference track), Project page: https://19reborn.github.io/nts/
摘要
本文提出一种基于神经网络纹理拼接技术(Neural Texture Splatting,简称NTS)的方法,用于提升三维高斯拼接(3DGS)在不同重建任务上的性能。该方法引入全局神经网络,建模每个基本体素(primitive)的局部纹理场和几何场,能在稀疏和密集输入场景下均实现优越性能。此外,该神经网络建模具有视点和时间依赖性,能处理现有方法无法处理的复杂效果。实验证明,该方法在多基准测试中均取得最优结果。
关键见解
- 3DGS已成为高质量新视角合成的主要方法,并广泛应用于多种三维和四维场景重建任务。
- 尽管有诸多变体扩展了其应用范围,但现有方法的代表性能力仍然受限于使用三维高斯核来模拟局部变化的方式。
- 近期研究尝试通过为每个拼接增加额外的每基本体素纹理容量来提升其表现力,但这主要适用于密集的新视角合成且高斯基本体素数量较少的情况。当应用于更一般的重建场景时,其效果可能会降低。
- 本文提出Neural Texture Splatting(NTS)方法,旨在提高在广泛重建任务上的性能,包括新视角合成、几何和动态重建等。该方法的核心是一个全局神经网络模型,用于预测每个基本体素的局部外观和几何场。
- NTS通过利用共享全局表示法来模拟跨基本体素的局部纹理场,显著减少了模型大小并促进了有效的全局信息交流。这使得模型在不同任务中具有强大的泛化能力。
- NTS引入了对视点和时间依赖性的神经网络建模,能够处理现有方法无法处理的复杂效果。这是现有方法所忽视的关键方面。
点此查看论文截图
Splatonic: Architecture Support for 3D Gaussian Splatting SLAM via Sparse Processing
Authors:Xiaotong Huang, He Zhu, Tianrui Ma, Yuxiang Xiong, Fangxin Liu, Zhezhi He, Yiming Gan, Zihan Liu, Jingwen Leng, Yu Feng, Minyi Guo
3D Gaussian splatting (3DGS) has emerged as a promising direction for SLAM due to its high-fidelity reconstruction and rapid convergence. However, 3DGS-SLAM algorithms remain impractical for mobile platforms due to their high computational cost, especially for their tracking process. This work introduces Splatonic, a sparse and efficient real-time 3DGS-SLAM algorithm-hardware co-design for resource-constrained devices. Inspired by classical SLAMs, we propose an adaptive sparse pixel sampling algorithm that reduces the number of rendered pixels by up to 256$\times$ while retaining accuracy. To unlock this performance potential on mobile GPUs, we design a novel pixel-based rendering pipeline that improves hardware utilization via Gaussian-parallel rendering and preemptive $α$-checking. Together, these optimizations yield up to 121.7$\times$ speedup on the bottleneck stages and 14.6$\times$ end-to-end speedup on off-the-shelf GPUs. To further address new bottlenecks introduced by our rendering pipeline, we propose a pipelined architecture that simplifies the overall design while addressing newly emerged bottlenecks in projection and aggregation. Evaluated across four 3DGS-SLAM algorithms, Splatonic achieves up to 274.9$\times$ speedup and 4738.5$\times$ energy savings over mobile GPUs and up to 25.2$\times$ speedup and 241.1$\times$ energy savings over state-of-the-art accelerators, all with comparable accuracy.
3D高斯贴图(3DGS)由于其高保真重建和快速收敛的特性,已成为SLAM的一个非常有前景的研究方向。然而,由于计算成本高昂,尤其是跟踪过程的计算成本,3DGS-SLAM算法对于移动平台来说并不实用。本文介绍了Splatonic,这是一种针对资源受限设备的稀疏高效实时3DGS-SLAM算法硬件协同设计。我们受到经典SLAM的启发,提出了一种自适应稀疏像素采样算法,该算法可在保持精度的同时,将渲染的像素数量减少高达256倍。为了在移动GPU上释放这种性能潜力,我们设计了一种新颖的基于像素的渲染管线,通过高斯并行渲染和预防性α检查来提高硬件利用率。这些优化共同实现了瓶颈阶段的最大121.7倍加速,在现成的GPU上实现了端到端的最大14.6倍加速。为了进一步解决由我们的渲染管线引入的新瓶颈问题,我们提出了一种流水线架构,简化了整体设计,同时解决了投影和聚合中出现的新瓶颈问题。通过对四种3DGS-SLAM算法进行评估,Splatonic在移动GPU上实现了最大274.9倍的加速和4738.5倍的节能,在最新加速器上实现了最大25.2倍的加速和241.1倍的节能,同时保持了相当的准确性。
论文及项目相关链接
Summary
本文介绍了名为Splatonic的实时高效稀疏三维高斯扩展点云同步定位与地图构建(3DGS-SLAM)算法。该算法通过自适应稀疏像素采样技术减少了渲染像素数量,同时通过创新的像素渲染管线提高了GPU的硬件利用率,提升了渲染效率。实验结果显示,该算法能在移动设备GPU上大幅提升效率与能源利用率。
Key Takeaways
- 3DGS在SLAM领域具有前景,但计算成本高,不适用于移动平台。
- Splatonic是一个针对资源受限设备的实时高效稀疏3DGS-SLAM算法硬件协同设计。
- 通过自适应稀疏像素采样算法减少渲染像素数量,同时保持准确性。
- 创新像素渲染管线设计提高硬件利用率,并通过并行高斯渲染和预先检查α(preemptive α-checking)进一步优化性能。
点此查看论文截图
PhysGS: Bayesian-Inferred Gaussian Splatting for Physical Property Estimation
Authors:Samarth Chopra, Jing Liang, Gershom Seneviratne, Dinesh Manocha
Understanding physical properties such as friction, stiffness, hardness, and material composition is essential for enabling robots to interact safely and effectively with their surroundings. However, existing 3D reconstruction methods focus on geometry and appearance and cannot infer these underlying physical properties. We present PhysGS, a Bayesian-inferred extension of 3D Gaussian Splatting that estimates dense, per-point physical properties from visual cues and vision–language priors. We formulate property estimation as Bayesian inference over Gaussian splats, where material and property beliefs are iteratively refined as new observations arrive. PhysGS also models aleatoric and epistemic uncertainties, enabling uncertainty-aware object and scene interpretation. Across object-scale (ABO-500), indoor, and outdoor real-world datasets, PhysGS improves accuracy of the mass estimation by up to 22.8%, reduces Shore hardness error by up to 61.2%, and lowers kinetic friction error by up to 18.1% compared to deterministic baselines. Our results demonstrate that PhysGS unifies 3D reconstruction, uncertainty modeling, and physical reasoning in a single, spatially continuous framework for dense physical property estimation. Additional results are available at https://samchopra2003.github.io/physgs.
理解摩擦、刚度、硬度和材料组成等物理属性对于使机器人能够安全有效地与周围环境交互至关重要。然而,现有的3D重建方法主要关注几何和外观,无法推断这些基本物理属性。我们提出了PhysGS,它是3D高斯展布(Gaussian Splatting)的贝叶斯推断扩展,可从视觉线索和视觉语言先验信息中估计密集的点物理属性。我们将属性估计制定为高斯展布上的贝叶斯推断,随着新观察结果的到来,材料和属性信念会不断迭代优化。PhysGS还模拟了偶然不确定性和知识不确定性,能够实现不确定性的感知对象和场景解释。在对象尺度(ABO-500)、室内和室外真实世界数据集上,与确定性基准相比,PhysGS提高了质量估计的准确性高达22.8%,Shore硬度误差降低了高达61.2%,动摩擦误差降低了高达18.1%。我们的结果表明,PhysGS在一个空间连续框架中统一了3D重建、不确定性建模和物理推理,用于密集的物理属性估计。更多结果请访问:https://samchopra2003.github.io/physgs。
论文及项目相关链接
PDF Submitted to CVPR 2026
Summary
本文介绍了PhysGS,一个基于贝叶斯推断的3D高斯平滑扩展方法,能够从视觉线索和视觉语言先验知识中估计密集的点物理属性。该方法将物理属性估计表述为高斯平滑上的贝叶斯推断问题,并随着新观测数据的到来不断更新材料和属性信念。此外,PhysGS还模拟了随机不确定性和认知不确定性,实现了具有不确定性的物体和场景解读。在不同规模物体、室内和室外真实数据集上,PhysGS提高了质量估计的准确性,减少了硬度误差和动力学摩擦误差,展示了其在统一3D重建、不确定性建模和物理推理方面的能力。
Key Takeaways
- PhysGS是一个结合3D重建、不确定性建模和物理推理的方法,用于估计密集的物理属性。
- 通过贝叶斯推断,PhysGS能够从视觉线索和视觉语言先验中估计物理属性。
- 材料和属性信念会随着新观测数据的到来而不断更新。
- PhysGS模拟了随机不确定性和认知不确定性,实现不确定性的物体和场景解读。
- 在不同数据集上,PhysGS在质量估计、硬度误差和动力学摩擦误差方面表现出改善。
- PhysGS是一个统一的框架,能够处理多种物理属性的估计。
点此查看论文截图
Splatblox: Traversability-Aware Gaussian Splatting for Outdoor Robot Navigation
Authors:Samarth Chopra, Jing Liang, Gershom Seneviratne, Yonghan Lee, Jaehoon Choi, Jianyu An, Stephen Cheng, Dinesh Manocha
We present Splatblox, a real-time system for autonomous navigation in outdoor environments with dense vegetation, irregular obstacles, and complex terrain. Our method fuses segmented RGB images and LiDAR point clouds using Gaussian Splatting to construct a traversability-aware Euclidean Signed Distance Field (ESDF) that jointly encodes geometry and semantics. Updated online, this field enables semantic reasoning to distinguish traversable vegetation (e.g., tall grass) from rigid obstacles (e.g., trees), while LiDAR ensures 360-degree geometric coverage for extended planning horizons. We validate Splatblox on a quadruped robot and demonstrate transfer to a wheeled platform. In field trials across vegetation-rich scenarios, it outperforms state-of-the-art methods with over 50% higher success rate, 40% fewer freezing incidents, 5% shorter paths, and up to 13% faster time to goal, while supporting long-range missions up to 100 meters. Experiment videos and more details can be found on our project page: https://splatblox.github.io
我们推出了Splatblox系统,这是一个用于室外环境的实时自主导航系统,该系统可处理密集植被、不规则障碍物和复杂地形。我们的方法通过高斯Splatting融合分割后的RGB图像和激光雷达点云,构建了一个感知通行能力的欧几里得符号距离场(ESDF),该字段联合编码几何和语义信息。此字段在线更新,能够实现语义推理,以区分可通行的植被(例如,高高的草丛)和刚性障碍物(例如,树木),同时激光雷达确保360度的几何覆盖,以扩大规划视野。我们在四足机器人上验证了Splatblox,并展示了其在轮式平台上的可转移性。在丰富的植被场景中进行的现场试验表明,它优于最先进的方法,成功率提高了50%以上,冻结事件减少了40%,路径缩短了5%,到达目标的时间加快了最多达13%,同时支持长达100米的长距离任务。实验视频和更多详细信息可以在我们的项目页面找到:https://splatblox.github.io。
论文及项目相关链接
PDF Submitted to ICRA 2026
Summary
Splatblox系统实现了室外环境中自主导航的实时系统,该系统可处理密集植被、不规则障碍物和复杂地形。通过融合分段RGB图像和LiDAR点云,构建了一个可穿越的欧几里得符号距离场(ESDF),能联合编码几何和语义信息。在线更新此字段,使得系统能够进行语义推理,区分可穿越的植被(如高草)和刚性障碍物(如树木)。LiDAR确保360度几何覆盖,为扩展规划视野提供支持。在四足机器人和轮式平台上的实验验证了Splatblox的有效性。在丰富的植被场景中,其性能优于最新方法,成功率提高50%以上,冻结事件减少40%,路径缩短5%,到达目标的时间最快可提高13%,同时支持长达100米的远程任务。
Key Takeaways
- Splatblox是一个实时自主导航系统,适用于室外环境。
- 系统融合RGB图像和LiDAR点云,构建可穿越的欧几里得符号距离场(ESDF)。
- ESDF能联合编码几何和语义信息,进行在线更新。
- Splatblox可进行语义推理,区分可穿越的植被和刚性障碍物。
- LiDAR提供360度几何覆盖,支持扩展规划视野。
- 在四足机器人和轮式平台上的实验验证了Splatblox的有效性。
点此查看论文截图
ReCoGS: Real-time ReColoring for Gaussian Splatting scenes
Authors:Lorenzo Rutayisire, Nicola Capodieci, Fabio Pellacini
Gaussian Splatting has emerged as a leading method for novel view synthesis, offering superior training efficiency and real-time inference compared to NeRF approaches, while still delivering high-quality reconstructions. Beyond view synthesis, this 3D representation has also been explored for editing tasks. Many existing methods leverage 2D diffusion models to generate multi-view datasets for training, but they often suffer from limitations such as view inconsistencies, lack of fine-grained control, and high computational demand. In this work, we focus specifically on the editing task of recoloring. We introduce a user-friendly pipeline that enables precise selection and recoloring of regions within a pre-trained Gaussian Splatting scene. To demonstrate the real-time performance of our method, we also present an interactive tool that allows users to experiment with the pipeline in practice. Code is available at https://github.com/loryruta/recogs.
高斯贴片法已成为新型视角合成的主流方法,相比NeRF方法,它提供了更高的训练效率和实时推理能力,同时仍能提供高质量的重建。除了视角合成,这种3D表示还用于编辑任务。许多现有方法利用2D扩散模型生成多视角数据集进行训练,但它们常常受到视角不一致、缺乏精细控制和计算需求高等限制。在这项工作中,我们专注于重新上色的编辑任务。我们引入了一个用户友好的管道,可以精确选择和重新上色预训练的高斯贴片场景中的区域。为了展示我们方法的实时性能,我们还提供了一个交互工具,允许用户在实践中使用管道进行实验。代码可在<https://github.com/loryruta 结締釘认证页面链接处获取。
论文及项目相关链接
PDF Project page is available at https://github.com/loryruta/recogs
Summary
高斯贴片法已成为新型视图合成的主流方法,具有高效的训练与实时推理能力,同时仍能提供高质量的重建。此外,这种3D表示方法还被探索用于编辑任务。尽管许多现有方法利用2D扩散模型生成多视图数据集进行训练,但它们常面临视图不一致、缺乏精细控制和计算需求高等局限性。本文专注于编辑任务中的重新着色任务,并引入了一个用户友好的管道,实现对预训练高斯贴片场景中的区域进行精确选择和重新着色。为展示我们方法的实时性能,我们还提供了一个交互式工具,让用户能够在实际操作中体验该管道。
Key Takeaways
- Gaussian Splatting已成为高效、实时的新型视图合成的主流方法,提供高质量重建。
- 该方法在编辑任务中具有广泛的应用潜力。
- 现有方法虽然利用2D扩散模型生成多视图数据集进行训练,但仍存在视图不一致和计算需求高等问题。
- 本文专注于重新着色任务,并提出一个用户友好的管道进行精确选择和重新着色。
- 该方法提供了一个交互式工具,增强了用户体验。
- 该方法实现了实时性能,使得编辑任务更加便捷。
点此查看论文截图
SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation
Authors:Peter Siegel, Federico Tombari, Marc Pollefeys, Daniel Barath
We have introduced SegSplat, a novel framework designed to bridge the gap between rapid, feed-forward 3D reconstruction and rich, open-vocabulary semantic understanding. By constructing a compact semantic memory bank from multi-view 2D foundation model features and predicting discrete semantic indices alongside geometric and appearance attributes for each 3D Gaussian in a single pass, SegSplat efficiently imbues scenes with queryable semantics. Our experiments demonstrate that SegSplat achieves geometric fidelity comparable to state-of-the-art feed-forward 3D Gaussian Splatting methods while simultaneously enabling robust open-set semantic segmentation, crucially \textit{without} requiring any per-scene optimization for semantic feature integration. This work represents a significant step towards practical, on-the-fly generation of semantically aware 3D environments, vital for advancing robotic interaction, augmented reality, and other intelligent systems.
我们引入了SegSplat这一新型框架,旨在弥快速的前馈三维重建和丰富的开放式语义理解之间的差距。SegSplat通过构建紧凑的语义内存库(由多视角二维基础模型特性构成),并且在单个流程中对每个三维高斯几何属性和外观属性进行离散语义索引预测,有效地为场景赋予可查询语义。我们的实验表明,SegSplat在几何保真度方面达到了最先进的前馈三维高斯贴图方法的水平,同时实现了稳健的开放式语义分割,最重要的是无需为场景的语义特性整合进行任何优化操作。这一工作在实时生成具备语义意识的3D环境方面取得了重要进步,对促进机器人交互、增强现实以及其他智能系统的应用和发展具有重要意义。
论文及项目相关链接
Summary:我们引入了SegSplat这一新型框架,旨在缩小快速前馈3D重建与丰富开放词汇语义理解之间的差距。通过构建紧凑的语义内存库,利用多视角2D基础模型特性,并在单次传递中预测每个3D高斯点的离散语义指数、几何属性和外观属性,SegSplat能够高效地为场景赋予可查询的语义。实验表明,SegSplat在几何保真度方面与最先进的馈前3D高斯贴图方法相当,同时实现了稳健的开放式语义分割,且无需为场景的语义特征融合进行任何优化。这项研究是朝着实用、即时生成语义感知3D环境的重要一步,对于推动机器人交互、增强现实和其他智能系统的发展至关重要。
Key Takeaways:
- SegSplat是一个新型框架,旨在实现快速前馈3D重建与丰富语义理解的融合。
- 通过构建紧凑的语义内存库和多视角2D基础模型特性,SegSplat能高效赋予场景可查询的语义。
- SegSplat能在单次传递中预测每个3D高斯点的离散语义指数、几何属性和外观属性。
- 实验显示,SegSplat的几何保真度与最先进的馈前3D高斯贴图方法相当。
- SegSplat实现了稳健的开放式语义分割,无需为场景的语义特征融合进行任何优化。
- SegSplat的研究是朝着实时生成语义感知3D环境的重要一步。
点此查看论文截图
Alias-free 4D Gaussian Splatting
Authors:Zilong Chen, Huan-ang Gao, Delin Qu, Haohan Chi, Hao Tang, Kai Zhang, Hao Zhao
Existing dynamic scene reconstruction methods based on Gaussian Splatting enable real-time rendering and generate realistic images. However, adjusting the camera’s focal length or the distance between Gaussian primitives and the camera to modify rendering resolution often introduces strong artifacts, stemming from the frequency constraints of 4D Gaussians and Gaussian scale mismatch induced by the 2D dilated filter. To address this, we derive a maximum sampling frequency formulation for 4D Gaussian Splatting and introduce a 4D scale-adaptive filter and scale loss, which flexibly regulates the sampling frequency of 4D Gaussian Splatting. Our approach eliminates high-frequency artifacts under increased rendering frequencies while effectively reducing redundant Gaussians in multi-view video reconstruction. We validate the proposed method through monocular and multi-view video reconstruction experiments.Ours project page: https://4d-alias-free.github.io/4D-Alias-free/
基于高斯拼贴(Gaussian Splatting)的现有动态场景重建方法能够实现实时渲染并生成逼真的图像。然而,通过调整相机的焦距或高斯原始点之间的距离来修改渲染分辨率时,往往会引入强烈的伪影,这些伪影源于四维高斯(4D Gaussians)的频率约束以及由二维膨胀滤波器(dilated filter)引发的高斯尺度不匹配问题。为了解决这一问题,我们为四维高斯拼贴(Gaussian Splatting)推导出了最大采样频率公式,并引入了一个四维尺度自适应滤波器(scale-adaptive filter)和尺度损失(scale loss),能够灵活地调节四维高斯拼贴的采样频率。我们的方法能够在提高渲染频率的同时消除高频伪影,并且有效减少多视图视频重建中的冗余高斯值。我们通过单眼和多视图视频重建实验验证了所提出的方法。更多详细信息请访问我们的项目页面:https://4d-alias-free.github.io/4D-Alias-free/(中文网站可能无法直接打开)。
论文及项目相关链接
PDF Project page: https://4d-alias-free.github.io/4D-Alias-free/
Summary
本文介绍了基于高斯贴图技术的动态场景重建方法。针对现有技术中由于相机焦距调整或高斯原始与相机之间的距离引起的渲染分辨率问题,文章提出了一种解决方案。通过推导4D高斯贴图的最大采样频率公式,引入4D自适应滤波器和尺度损失,该方法能够在提高渲染频率的同时消除高频伪影,并有效减少多视图视频重建中的冗余高斯成分。最后,通过单目和多视图视频重建实验验证了所提方法的有效性。
Key Takeaways
- 动态场景重建方法基于高斯贴图技术实现。
- 调整相机焦距或高斯原始与相机之间的距离会影响渲染分辨率。
- 现有技术存在由于频率约束和尺度不匹配导致的高频伪影问题。
- 提出了一种解决方案,包括推导最大采样频率公式、引入自适应滤波器和尺度损失等。
- 方法在消除高频伪影和提高渲染频率方面具有显著效果。
点此查看论文截图
Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting
Authors:Yilong Wang, Cheng Qian, Ruomeng Fan, Edward Johns
We propose Observer Actor (ObAct), a novel framework for active vision imitation learning in which the observer moves to optimal visual observations for the actor. We study ObAct on a dual-arm robotic system equipped with wrist-mounted cameras. At test time, ObAct dynamically assigns observer and actor roles: the observer arm constructs a 3D Gaussian Splatting (3DGS) representation from three images, virtually explores this to find an optimal camera pose, then moves to this pose; the actor arm then executes a policy using the observer’s observations. This formulation enhances the clarity and visibility of both the object and the gripper in the policy’s observations. As a result, we enable the training of ambidextrous policies on observations that remain closer to the occlusion-free training distribution, leading to more robust policies. We study this formulation with two existing imitation learning methods – trajectory transfer and behavior cloning – and experiments show that ObAct significantly outperforms static-camera setups: trajectory transfer improves by 145% without occlusion and 233% with occlusion, while behavior cloning improves by 75% and 143%, respectively. Videos are available at https://obact.github.io.
我们提出了观察者行动者(ObAct)这一新型主动视觉模仿学习框架,其中观察者会移动到行动者的最佳视觉观察位置。我们在配备有腕部摄像头的双肢机器人系统上研究了ObAct。在测试阶段,ObAct会动态分配观察者和行动者的角色:观察者手臂从三张图像中构建出三维高斯喷涂(3DGS)表示,对其进行虚拟探索以找到最佳的相机姿态,然后移动到该姿态;行动者手臂则利用观察者的观察结果执行策略。这种表述提高了策略和观察中物体和夹持器的清晰度和可见度。因此,我们能够在更接近无遮挡训练分布的观察结果上训练双手策略,从而得到更稳健的策略。我们采用现有的两种模仿学习方法——轨迹转移和行为克隆,进行了实验研究,结果表明ObAct显著优于静态相机设置:在有无遮挡情况下,轨迹转移分别提高了145%和233%,而行为克隆则分别提高了75%和143%。相关视频可通过https://obact.github.io查看。
论文及项目相关链接
PDF Videos are available on our project webpage at https://obact.github.io
Summary
本文提出一种名为Observer Actor(ObAct)的新型框架,用于主动视觉模仿学习。在配备有腕部安装摄像头的双肢机器人系统上研究ObAct。在测试阶段,ObAct动态分配观察者和行动者的角色:观察者手臂通过三张图像构建三维高斯平铺(3DGS)表示,虚拟探索以找到最佳相机姿态并移至该姿态;行动者手臂则使用观察者的观察结果执行策略。这种方法提高了策略和观察中物体和夹持器的清晰度和可见度。因此,我们能够在更接近无遮挡训练分布的观察结果上训练双肢策略,从而得到更稳健的策略。本文采用两种现有的模仿学习方法——轨迹转移和行为克隆来研究这一形式,实验表明ObAct显著优于静态相机设置:轨迹转移在无遮挡情况下提高了145%,在有遮挡情况下提高了233%;行为克隆分别提高了75%和143%。
Key Takeaways
- Observer Actor (ObAct) 是一种用于主动视觉模仿学习的新型框架。
- ObAct 在双肢机器人系统上进行研究,该系统配备有腕部安装摄像头。
- 在测试阶段,ObAct 动态分配观察者和行动者的角色。
- 观察者手臂构建 3DGS 表示并找到最佳相机姿态,然后行动者手臂根据观察者的观察结果执行策略。
- 该方法提高了策略和观察中物体和夹持器的清晰度和可见度。
- ObAct 使得训练更接近无遮挡训练分布的观察结果,从而得到更稳健的策略。
点此查看论文截图
RoboArmGS: High-Quality Robotic Arm Splatting via Bézier Curve Refinement
Authors:Hao Wang, Xiaobao Wei, Ying Li, Qingpo Wuwu, Dongli Wu, Jiajun Cao, Ming Lu, Wenzhao Zheng, Shanghang Zhang
Building high-quality digital assets of robotic arms is crucial yet challenging for the Real2Sim2Real pipeline. Current approaches naively bind static 3D Gaussians according to URDF links, forcing them to follow an URDF-rigged motion passively. However, real-world arm motion is noisy, and the idealized URDF-rigged motion cannot accurately model it, leading to severe rendering artifacts in 3D Gaussians. To address these challenges, we propose RoboArmGS, a novel hybrid representation that refines the URDF-rigged motion with learnable Bézier curves, enabling more accurate real-world motion modeling. To be more specific, we present a learnable Bézier Curve motion refiner that corrects per-joint residuals to address mismatches between real-world motion and URDF-rigged motion. RoboArmGS enables the learning of more accurate real-world motion while achieving a coherent binding of 3D Gaussians across arm parts. To support future research, we contribute a carefully collected dataset named RoboArm4D, which comprises several widely used robotic arms for evaluating the quality of building high-quality digital assets. We evaluate our approach on RoboArm4D, and RoboArmGS achieves state-of-the-art performance in real-world motion modeling and rendering quality. The code and dataset will be released.
在Real2Sim2Real流程中,构建高质量的机器人手臂数字资产是至关重要的,但也颇具挑战。当前的方法是根据URDF链接盲目地绑定静态的3D高斯,迫使它们被动地遵循URDF控制的运动。然而,现实世界的机械臂运动是充满噪声的,理想化的URDF控制的运动无法准确对其进行建模,从而导致在三维高斯渲染中产生严重的伪影。为了应对这些挑战,我们提出了RoboArmGS,这是一种新型混合表示法,它使用可学习的贝塞尔曲线对URDF控制的运动进行细化,从而实现更准确的现实世界运动建模。更具体地说,我们提出了一种可学习的贝塞尔曲线运动细化器,用于纠正关节残差,以解决现实世界运动和URDF控制运动之间的不匹配问题。RoboArmGS能够在构建高质量数字资产的同时学习更准确的现实世界运动,同时实现机械臂各部分之间三维高斯的一致绑定。为了支持未来的研究,我们贡献了一个精心收集的数据集RoboArm4D,该数据集包含多个广泛使用的机械臂,用于评估构建高质量数字资产的质量。我们在RoboArm4D上评估了我们的方法,RoboArmGS在现实世界运动建模和渲染质量方面达到了最先进的表现。代码和数据集将一并发布。
论文及项目相关链接
Summary
针对Real2Sim2Real流程中创建机器人手臂的高质量数字资产的重要性和挑战,本文提出了一种新型混合表示方法RoboArmGS。该方法通过引入可学习的贝塞尔曲线对URDF刚体动力学进行精细化修正,提高了现实世界运动建模的准确性。同时,RoboArmGS还实现了手臂各部分3D高斯模型的一致绑定。为支持未来研究,本文还贡献了一个精心收集的名为RoboArm4D的数据集,用于评估创建高质量数字资产的质量评估。评估和实验结果表明,RoboArmGS在现实世界运动建模和渲染质量方面达到了最新技术水平。
Key Takeaways
- Real2Sim2Real流程中创建机器人手臂高质量数字资产的重要性及挑战。
- 当前方法通过静态3D高斯模型绑定URDF链接来模拟机器人手臂运动,但存在局限性。
- 现实世界中的机器人手臂运动存在噪声,理想化的URDF刚体动力学无法准确模拟。
- RoboArmGS通过引入可学习的贝塞尔曲线对URDF刚体动力学进行精细化修正,提高运动建模准确性。
- RoboArmGS实现了手臂部分间3D高斯模型的一致绑定。
- 为支持研究,贡献了一个名为RoboArm4D的机器人手臂数据集,用于评估数字资产质量。
点此查看论文截图
Novel View Synthesis from A Few Glimpses via Test-Time Natural Video Completion
Authors:Yan Xu, Yixing Wang, Stella X. Yu
Given just a few glimpses of a scene, can you imagine the movie playing out as the camera glides through it? That’s the lens we take on \emph{sparse-input novel view synthesis}, not only as filling spatial gaps between widely spaced views, but also as \emph{completing a natural video} unfolding through space. We recast the task as \emph{test-time natural video completion}, using powerful priors from \emph{pretrained video diffusion models} to hallucinate plausible in-between views. Our \emph{zero-shot, generation-guided} framework produces pseudo views at novel camera poses, modulated by an \emph{uncertainty-aware mechanism} for spatial coherence. These synthesized frames densify supervision for \emph{3D Gaussian Splatting} (3D-GS) for scene reconstruction, especially in under-observed regions. An iterative feedback loop lets 3D geometry and 2D view synthesis inform each other, improving both the scene reconstruction and the generated views. The result is coherent, high-fidelity renderings from sparse inputs \emph{without any scene-specific training or fine-tuning}. On LLFF, DTU, DL3DV, and MipNeRF-360, our method significantly outperforms strong 3D-GS baselines under extreme sparsity.
只需瞥一眼场景,你能想象出摄像机镜头穿梭其间时电影如何发展吗T我们以此视角研究稀疏输入的新视角合成技术,该技术不仅用于填补相隔甚远的视图之间的空间间隔,还用于完成在空间中展开的自然视频。我们将此任务重新定位为测试时的自然视频补全,利用预先训练的视频扩散模型中的强大先验知识来虚构合理的中间视图。我们的零样本生成导向框架在新型相机姿态下产生伪视图,并由一种感知不确定性的机制来调节空间连贯性。这些合成的帧为三维高斯拼贴(3D-GS)提供了密集的监督,特别是在未观察到的区域。一个迭代反馈循环使三维几何和二维视图合成能够相互提供信息,从而提高场景重建和生成的视图的质量。结果是从稀疏输入中生成连贯、高保真度的渲染,无需任何针对场景的特定训练或微调。在LLFF、DTU、DL3DV和MipNeRF-360上,我们的方法在极端稀疏情况下显著优于强大的3D-GS基准测试。
论文及项目相关链接
PDF Accepted to NeurIPS 2025
Summary
该文本介绍了基于稀疏输入的全新视角合成技术,该技术将任务重塑为测试时的自然视频补全,利用预训练的视频扩散模型来构想合理的中间视角。其零样本、生成导向的框架能够产生新颖相机姿态下的伪视图,并通过不确定性感知机制进行空间连贯性调制。这些合成的帧为3D高斯拼贴提供密集监督,用于场景重建,特别是在未观察到的区域。通过迭代反馈循环,使3D几何和2D视图合成相互补充,从而提高场景重建和生成的视图质量。结果是从稀疏输入中生成连贯、高保真度的渲染,无需任何特定场景的培训和微调。
Key Takeaways
- 该技术实现了基于稀疏输入的全新视角合成,能够构想出合理的中间视角。
- 通过重塑任务为测试时的自然视频补全,提高了视图合成的自然性和连贯性。
- 利用预训练的视频扩散模型,实现了零样本、生成导向的伪视图产生。
- 引入不确定性感知机制,增强了空间连贯性。
- 合成帧为3D高斯拼贴提供密集监督,特别适用于场景重建中的未观察区域。
- 通过迭代反馈循环,实现了3D几何和2D视图合成的相互补充,提高了场景重建和视图生成的质量。
点此查看论文截图
Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization
Authors:Youngsik Yun, Dongjun Gu, Youngjung Uh
Despite 3D Gaussian Splatting (3DGS) excelling in most configurations, it lacks generalization across novel viewpoints in a few-shot scenario because it overfits to the sparse observations. We revisit 3DGS optimization from a machine learning perspective, framing novel view synthesis as a generalization problem to unseen viewpoints-an underexplored direction. We propose Frequency-Adaptive Sharpness Regularization (FASR), which reformulates the 3DGS training objective, thereby guiding 3DGS to converge toward a better generalization solution. Although Sharpness-Aware Minimization (SAM) similarly reduces the sharpness of the loss landscape to improve generalization of classification models, directly employing it to 3DGS is suboptimal due to the discrepancy between the tasks. Specifically, it hinders reconstructing high-frequency details due to excessive regularization, while reducing its strength leads to under-penalizing sharpness. To address this, we reflect the local frequency of images to set the regularization weight and the neighborhood radius when estimating the local sharpness. It prevents floater artifacts in novel viewpoints and reconstructs fine details that SAM tends to oversmooth. Across datasets with various configurations, our method consistently improves a wide range of baselines. Code will be available at https://bbangsik13.github.io/FASR.
尽管3D高斯Splatting(3DGS)在大多数配置中都表现出色,但在少数拍摄场景中,由于它对稀疏观察的过度拟合,导致其在新型视角上的泛化能力受限。我们从机器学习的角度重新审视了3DGS的优化问题,将新颖视角的合成作为一个泛化问题来看待,这是一个尚未被充分探索的方向。我们提出了频率自适应锐度正则化(FASR),它重新定义了3DGS的训练目标,从而引导3DGS向更好的泛化解决方案收敛。尽管锐度感知最小化(SAM)同样通过减少损失景观的锐度来提高分类模型的泛化能力,但直接将其应用于3DGS则效果欠佳,原因在于任务之间的差异。具体来说,由于过度正则化,它阻碍了高频细节的重构,而降低其强度则会导致对锐度的惩罚不足。为了解决这个问题,我们根据图像的局部频率来设置正则化权重和估计局部锐度时的邻域半径。这避免了新型视角中的浮动物体伪影,并重构了SAM倾向于过度平滑的细微细节。我们的方法在各种数据集和各种配置中都能持续提升一系列基准线的性能。代码将在https://bbangsik13.github.io/FASR上提供。
论文及项目相关链接
PDF Project page: https://bbangsik13.github.io/FASR
Summary
本文探讨了三维高斯融合(3DGS)在少数场景下的局限性,并针对这一问题从机器学习角度进行优化。文章提出了一种新的方法——频率自适应锐度正则化(FASR),该方法改进了三维高斯融合的通用化能力,使其能够应对未见视角的合成问题。通过调整正则化权重和邻域半径,FASR能够在保持细节重建的同时避免浮标伪影。此方法在各种数据集和配置下均表现优异。
Key Takeaways
- 3DGS在少数场景中存在过拟合问题,缺乏对新视角的泛化能力。
- FASR方法通过改革三维高斯融合的训练目标,提升其泛化能力,解决新视角合成问题。
- FASR采用频率自适应的锐度调整策略,根据图像的局部频率调整正则化权重和邻域半径。
- FASR能有效防止浮标伪影,同时保留图像的高频细节。
- 与直接将SAM应用于3DGS相比,FASR更好地适应了任务差异,实现了更优的性能。
- FASR方法在各种数据集和配置下表现稳定,可广泛应用于不同类型的三维场景重建任务。
点此查看论文截图
REArtGS++: Generalizable Articulation Reconstruction with Temporal Geometry Constraint via Planar Gaussian Splatting
Authors:Di Wu, Liu Liu, Anran Huang, Yuyan Liu, Qiaojun Yu, Shaofan Liu, Liangtu Song, Cewu Lu
Articulated objects are pervasive in daily environments, such as drawers and refrigerators. Towards their part-level surface reconstruction and joint parameter estimation, REArtGS introduces a category-agnostic approach using multi-view RGB images at two different states. However, we observe that REArtGS still struggles with screw-joint or multi-part objects and lacks geometric constraints for unseen states. In this paper, we propose REArtGS++, a novel method towards generalizable articulated object reconstruction with temporal geometry constraint and planar Gaussian splatting. We first model a decoupled screw motion for each joint without type prior, and jointly optimize part-aware Gaussians with joint parameters through part motion blending. To introduce time-continuous geometric constraint for articulated modeling, we encourage Gaussians to be planar and propose a temporally consistent regularization between planar normal and depth through Taylor first-order expansion. Extensive experiments on both synthetic and real-world articulated objects demonstrate our superiority in generalizable part-level surface reconstruction and joint parameter estimation, compared to existing approaches. Project Site: https://sites.google.com/view/reartgs2/home.
在日常环境中,可旋转物体非常普遍,如抽屉和冰箱等。关于其部分级别的表面重建和关节参数估计,REArtGS采用一种基于两种不同状态的多视角RGB图像的类别无关方法。然而,我们观察到REArtGS在处理螺钉式关节或多部件物体方面仍然存在困难,并且对不可见状态缺乏几何约束。在本文中,我们提出了REArtGS++,这是一种新的可推广可旋转物体重建方法,采用时间几何约束和平面高斯喷涂技术。我们首先为每个关节建立无类型先验的解耦螺旋运动模型,并通过部分运动混合对部分感知高斯和关节参数进行联合优化。为了引入可旋转建模的时间连续几何约束,我们鼓励高斯平面化,并通过泰勒一阶展开提出平面法线和深度之间的时间一致性正则化。在合成和真实世界的可旋转物体上的大量实验表明,与现有方法相比,我们在可推广的部分级别表面重建和关节参数估计方面具有优势。项目网站:https://sites.google.com/view/reartgs2/home。
论文及项目相关链接
PDF 10 pages, 7 figures
Summary
REArtGS++是一种针对可弯曲物体的重建方法,通过时间几何约束和平面高斯贴图技术实现通用化。该方法对关节运动进行解耦建模,无需类型先验,通过部分运动混合优化关节参数和高斯参数。引入时间连续几何约束,鼓励高斯平面化,并通过泰勒一阶展开提出平面法线与深度之间的时间一致性正则化。实验证明,与现有方法相比,REArtGS++在部分级别的表面重建和关节参数估计方面表现优越。
Key Takeaways
- REArtGS++是一种针对可弯曲物体的重建方法的升级版。
- 使用多视角RGB图像和两种不同状态的信息进行表面重建和关节参数估计。
- 该方法通过对关节运动进行解耦建模,无需类型先验知识。
- 通过部分运动混合技术优化关节参数和高斯参数。
- 引入时间连续的几何约束,为可弯曲物体的建模提供更准确的约束。
- 鼓励高斯平面化,提高模型对物体表面的拟合精度。
点此查看论文截图
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
Authors:Minseok Seo, Mark Hamilton, Changick Kim
We present \textbf{Upsample Anything}, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only $\approx0.419 \text{s}$ per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. \textbf{Project page:} \href{https://seominseok0429.github.io/Upsample-Anything/}{https://seominseok0429.github.io/Upsample-Anything/}
我们提出了Upsample Anything,这是一个轻量级的测试时优化(TTO)框架,它能够在无需任何训练的情况下,将低分辨率特征恢复为高分辨率的像素级输出。尽管视觉基础模型(Vision Foundation Models)在多种下游任务中表现出了强大的泛化能力,但它们的表示通常会被下采样到原来的十四分之一或十六分之一(例如ViT),这限制了它们在像素级应用中的直接使用。现有的特征上采样方法依赖于特定数据集的重训练或隐式优化,这限制了其可扩展性和泛化能力。Upsample Anything通过简单的单图像优化解决了这些问题,它通过结合空间和范围线索学习各向异性的高斯核,有效地结合了高斯描摹和联合双边上采样。学习到的核作为一种通用、边缘感知算子,能够无缝地跨架构和模态进行转移,实现对特征、深度或概率地图的高精度高分辨率重建。它处理每张224x224图像的时间仅为约0.419秒,在语义分割、深度估计以及深度和概率地图上采样方面达到了最先进的表现。项目页面:[https://seominseok0429.github.io/Upsample-Anything/] 。
论文及项目相关链接
PDF 15 pages, 12 figures
Summary
本文介绍了一个名为“Upsample Anything”的轻量级测试时优化(TTO)框架,该框架能够在无需任何训练的情况下,将低分辨率特征恢复为高分辨率的像素级输出。它解决了现有特征上采样方法依赖于特定数据集的重训或隐式优化的问题,通过简单的单图像优化,学习一个结合空间和范围线索的各向异性高斯内核,有效地桥接了高斯飞溅和联合双边上采样。所学习的内核作为一个通用、边缘感知的操作符,可以无缝地跨越架构和模态,实现对特征、深度或概率地图的高精度高分辨率重建。
Key Takeaways
- “Upsample Anything”是一个轻量级的测试时优化(TTO)框架,用于将低分辨率特征恢复为高分辨率的像素级输出。
- 该框架通过学习一个结合空间和范围线索的各向异性高斯内核来解决现有特征上采样方法的问题。
- 所学习的内核可以作为一个通用、边缘感知的操作符,无缝地应用于不同的架构和模态。
- Upsample Anything框架可以实现精确的高分辨率特征、深度或概率地图的重建。
- 该框架的性能在语义分割、深度估计和深度及概率图上采样方面达到了先进水平。
- Upsample Anything框架具有快速的处理速度,大约每秒可以处理一个224x224大小的图像。
点此查看论文截图
2D Gaussians Spatial Transport for Point-supervised Density Regression
Authors:Miao Shang, Xiaopeng Hong
This paper introduces Gaussian Spatial Transport (GST), a novel framework that leverages Gaussian splatting to facilitate transport from the probability measure in the image coordinate space to the annotation map. We propose a Gaussian splatting-based method to estimate pixel-annotation correspondence, which is then used to compute a transport plan derived from Bayesian probability. To integrate the resulting transport plan into standard network optimization in typical computer vision tasks, we derive a loss function that measures discrepancy after transport. Extensive experiments on representative computer vision tasks, including crowd counting and landmark detection, validate the effectiveness of our approach. Compared to conventional optimal transport schemes, GST eliminates iterative transport plan computation during training, significantly improving efficiency. Code is available at https://github.com/infinite0522/GST.
本文介绍了高斯空间传输(GST)这一新型框架,它利用高斯涂抹技术,促进图像坐标空间中的概率测度向标注图的传输。我们提出了一种基于高斯涂抹的方法,估计像素与标注之间的对应关系,然后根据贝叶斯概率计算传输方案。为了将得到的传输方案整合到典型计算机视觉任务的常规网络优化中,我们推导出了一个损失函数,该函数在传输后衡量差异。在包括人群计数和地标检测等代表性的计算机视觉任务上进行的广泛实验验证了我们方法的有效性。与常规的最佳传输方案相比,GST在训练过程中消除了迭代传输方案计算,大大提高了效率。代码可在https://github.com/infinite0522/GST获取。
论文及项目相关链接
PDF 15 pages, 6 figures. This is the preprint version of the paper and supplemental material to appear in AAAI, 2026. Please cite the final published version. Code is available at https://github.com/infinite0522/GST
Summary
该文提出一种名为高斯空间传输(GST)的新框架,利用高斯涂抹技术实现图像坐标空间中概率测度到标注图的传输。文章通过高斯涂抹法估算像素与标注之间的对应关系,并据此计算基于贝叶斯概率的传输计划。为了将所得传输计划融入典型计算机视觉任务的常规网络优化中,文章推导了一种衡量传输后差异的损失函数。在人群计数和地标检测等代表性计算机视觉任务上的广泛实验验证了该方法的有效性。与常规最优传输方案相比,GST消除了训练过程中的迭代传输计划计算,显著提高了效率。
Key Takeaways
- 高斯空间传输(GST)框架结合了高斯涂抹技术,实现了从图像坐标空间到标注图的概率测度传输。
- 通过高斯涂抹法估算像素与标注之间的对应关系,以此计算基于贝叶斯概率的传输计划。
- 推导了一个损失函数,用于衡量传输后的差异,并融入计算机视觉任务的常规网络优化中。
- 在代表性计算机视觉任务上进行了广泛实验验证,包括人群计数和地标检测等。
- GST框架相比传统最优传输方案,消除了训练过程中的迭代传输计划计算,提高了效率。
- GST框架的代码已公开可用。
点此查看论文截图
Physics-Informed Deformable Gaussian Splatting: Towards Unified Constitutive Laws for Time-Evolving Material Field
Authors:Haoqin Hong, Ding Fan, Fubin Dou, Zhi-Li Zhou, Haoran Sun, Congcong Zhu, Jingrun Chen
Recently, 3D Gaussian Splatting (3DGS), an explicit scene representation technique, has shown significant promise for dynamic novel-view synthesis from monocular video input. However, purely data-driven 3DGS often struggles to capture the diverse physics-driven motion patterns in dynamic scenes. To fill this gap, we propose Physics-Informed Deformable Gaussian Splatting (PIDG), which treats each Gaussian particle as a Lagrangian material point with time-varying constitutive parameters and is supervised by 2D optical flow via motion projection. Specifically, we adopt static-dynamic decoupled 4D decomposed hash encoding to reconstruct geometry and motion efficiently. Subsequently, we impose the Cauchy momentum residual as a physics constraint, enabling independent prediction of each particle’s velocity and constitutive stress via a time-evolving material field. Finally, we further supervise data fitting by matching Lagrangian particle flow to camera-compensated optical flow, which accelerates convergence and improves generalization. Experiments on a custom physics-driven dataset as well as on standard synthetic and real-world datasets demonstrate significant gains in physical consistency and monocular dynamic reconstruction quality.
最近,3D高斯贴图(3DGS)作为一种显式场景表示技术,在从单目视频输入进行动态新视角合成方面显示出巨大潜力。然而,纯粹的基于数据的3DGS在捕捉动态场景中的多种物理驱动的运动模式时常常遇到困难。为了填补这一空白,我们提出了基于物理信息的可变形高斯贴图(PIDG),它将每个高斯粒子视为具有随时间变化的组成参数的拉格朗日物质点,并通过运动投影由2D光流进行监督。具体来说,我们采用静态-动态解耦的4D分解哈希编码来高效重建几何和运动。随后,我们施加柯西动量残差作为物理约束,使得能够通过随时间演化的材料场独立预测每个粒子的速度和组成应力。最后,我们通过将拉格朗日粒子流与相机补偿的光流进行匹配来进一步监督数据拟合,这加快了收敛速度并提高了泛化能力。在自定义的物理驱动数据集以及标准合成和真实世界数据集上的实验表明,在物理一致性和单目动态重建质量方面取得了显著的提升。
论文及项目相关链接
PDF Accepted by AAAI-26
摘要
最近,基于高斯涂抹技术的新型显式场景表示方法三维高斯涂抹法(3DGS)在从单视角视频输入中实现动态新型视角合成方面展现出巨大的潜力。然而,单纯的基于数据的三维高斯涂抹法在捕捉动态场景的多样化物理驱动的运动模式方面存在困难。为解决这一缺陷,我们提出了融合物理信息的可变形高斯涂抹法(PIDG)。该方法将每个高斯粒子视为具有随时间变化的本构参数的拉格朗日物质点,并通过运动投影由二维光流进行监控。具体而言,我们采用静态-动态解耦的四维分解哈希编码来高效重建几何和运动。随后,我们引入柯西动量残差作为物理约束,使每个粒子通过随时间变化材料场独立预测其速度和本构应力成为可能。最后,通过拉格朗日粒子流与相机补偿光流的匹配来进一步监督数据拟合,这加快了收敛速度并提高了泛化能力。在定制的基于物理的数据集以及标准合成和真实世界数据集上的实验表明,在物理一致性和单视角动态重建质量方面取得了显著的提升。
关键要点:
- 介绍了最新的场景表示技术——三维高斯涂抹法(3DGS)在动态视角合成方面的潜力。
- 纯数据驱动的三维高斯涂抹法在捕捉动态场景的物理运动模式方面存在挑战。
- 提出了一种新的方法——融合物理信息的可变形高斯涂抹法(PIDG),结合了物理信息和数据驱动的优势。
- PIDG将每个高斯粒子视为拉格朗日物质点,并引入柯西动量残差作为物理约束。
- 采用静态-动态解耦的四维分解哈希编码来提高几何和运动的重建效率。
- 通过拉格朗日粒子流与相机补偿光流的匹配来监督数据拟合,提高了模型的收敛速度和泛化能力。
点此查看论文截图
STT-GS: Sample-Then-Transmit Edge Gaussian Splatting with Joint Client Selection and Power Control
Authors:Zhen Li, Xibin Jin, Guoliang Li, Shuai Wang, Miaowen Wen, Huseyin Arslan, Derrick Wing Kwan Ng, Chengzhong Xu
Edge Gaussian splatting (EGS), which aggregates data from distributed clients and trains a global GS model at the edge server, is an emerging paradigm for scene reconstruction. Unlike traditional edge resource management methods that emphasize communication throughput or general-purpose learning performance, EGS explicitly aims to maximize the GS qualities, rendering existing approaches inapplicable. To address this problem, this paper formulates a novel GS-oriented objective function that distinguishes the heterogeneous view contributions of different clients. However, evaluating this function in turn requires clients’ images, leading to a causality dilemma. To this end, this paper further proposes a sample-then-transmit EGS (or STT-GS for short) strategy, which first samples a subset of images as pilot data from each client for loss prediction. Based on the first-stage evaluation, communication resources are then prioritized towards more valuable clients. To achieve efficient sampling, a feature-domain clustering (FDC) scheme is proposed to select the most representative data and pilot transmission time minimization (PTTM) is adopted to reduce the pilot overhead.Subsequently, we develop a joint client selection and power control (JCSPC) framework to maximize the GS-oriented function under communication resource constraints. Despite the nonconvexity of the problem, we propose a low-complexity efficient solution based on the penalty alternating majorization minimization (PAMM) algorithm. Experiments unveil that the proposed scheme significantly outperforms existing benchmarks on real-world datasets. It is found that the GS-oriented objective can be accurately predicted with low sampling ratios (e.g.,10%), and our method achieves an excellent tradeoff between view contributions and communication costs.
边缘高斯扩散(EGS)是一种新兴的场景重建范式,它从分布式客户端聚合数据并在边缘服务器训练全局GS模型。与传统的侧重于通信吞吐量或通用学习性能的边缘资源管理方法不同,EGS明确旨在最大化GS质量,使得现有方法不适用。为了解决这个问题,本文制定了一个新的面向GS的目标函数,该函数能够区分不同客户端的异构视图贡献。然而,评估该函数需要客户端的图像,这导致了因果困境。为此,本文进一步提出了一种采样后传输的EGS(或STT-GS)策略,首先从每个客户端采样一部分图像作为试点数据进行损失预测。基于第一阶段的评估,通信资源将优先分配给更有价值的客户端。为了实现有效的采样,提出了一种特征域聚类(FDC)方案来选择最具代表性的数据,并采用传输时间最小化(PTTM)来减少试点开销。随后,我们开发了一个联合客户端选择和功率控制(JCSPC)框架,以在通信资源约束下最大化面向GS的函数。尽管问题具有非凸性,我们提出了一种基于惩罚交替主要最小化(PAMM)算法的低复杂度有效解决方案。实验表明,与现有基准测试相比,该方案在真实数据集上表现出显著的优势。研究发现,面向GS的目标可以通过低采样率(例如10%)进行准确预测,我们的方法在视图贡献和通信成本之间实现了出色的权衡。
论文及项目相关链接
Summary
边缘高斯拼贴(EGS)是一种新兴的场景重建范式,它聚合来自分布式客户端的数据,并在边缘服务器训练全局GS模型。针对EGS的最大化GS质量的目标,本文提出了一种新型的GS导向目标函数,该函数能够区分不同客户的异构视图贡献。为评估该函数需要客户的图像,导致因果困境。因此,本文进一步提出一种采样后传输的EGS(STT-GS)策略,首先从每个客户端采样一部分图像作为试点数据进行损失预测。基于第一阶段的评估,优先为更有价值的客户提供通信资源。为实现高效采样,提出了特征域聚类(FDC)方案以选择最具代表性的数据,并采用传输时间最小化(PTTM)减少试点开销。然后,开发了一个联合客户端选择和功率控制(JCSPC)框架,在通信资源约束下最大化GS导向函数。尽管问题非凸,但基于惩罚交替主要最小化(PAMM)算法提出了低复杂度解决方案。实验表明,该方案在真实数据集上显著优于现有基准测试。
Key Takeaways
- EGS旨在最大化场景重建的GS质量,与传统边缘资源管理方法不同。
- 提出了一种新型的GS导向目标函数,以区分不同客户端的异构视图贡献。
- 面临评估目标函数所需的因果困境,因此提出STT-GS策略,通过采样图像进行损失预测。
- 为优先为有价值的客户提供通信资源。
- 通过特征域聚类(FDC)和传输时间最小化(PTTM)实现高效采样。
- 开发JCSPC框架以在通信资源约束下最大化GS导向函数。
点此查看论文截图
Vision-Only Gaussian Splatting for Collaborative Semantic Occupancy Prediction
Authors:Cheng Chen, Hao Huang, Saurabh Bagchi
Collaborative perception enables connected vehicles to share information, overcoming occlusions and extending the limited sensing range inherent in single-agent (non-collaborative) systems. Existing vision-only methods for 3D semantic occupancy prediction commonly rely on dense 3D voxels, which incur high communication costs, or 2D planar features, which require accurate depth estimation or additional supervision, limiting their applicability to collaborative scenarios. To address these challenges, we propose the first approach leveraging sparse 3D semantic Gaussian splatting for collaborative 3D semantic occupancy prediction. By sharing and fusing intermediate Gaussian primitives, our method provides three benefits: a neighborhood-based cross-agent fusion that removes duplicates and suppresses noisy or inconsistent Gaussians; a joint encoding of geometry and semantics in each primitive, which reduces reliance on depth supervision and allows simple rigid alignment; and sparse, object-centric messages that preserve structural information while reducing communication volume. Extensive experiments demonstrate that our approach outperforms single-agent perception and baseline collaborative methods by +8.42 and +3.28 points in mIoU, and +5.11 and +22.41 points in IoU, respectively. When further reducing the number of transmitted Gaussians, our method still achieves a +1.9 improvement in mIoU, using only 34.6% communication volume, highlighting robust performance under limited communication budgets.
协同感知使连接车辆能够共享信息,克服遮挡并扩展单个代理(非协同)系统固有的有限感知范围。现有的仅用于3D语义占用预测的视觉方法通常依赖于密集的3D体素,这会产生较高的通信成本,或依赖于2D平面特征,这需要准确的深度估计或额外的监督,从而限制了它们在协同场景中的应用。为了解决这些挑战,我们首次提出利用稀疏的3D语义高斯映射进行协同3D语义占用预测。通过共享和融合中间的Gaussian primitives(高斯原始数据),我们的方法提供了三大优势:基于邻域的跨代理融合,可以消除重复并抑制嘈杂或不一致的高斯数据;每个原始数据中的几何和语义联合编码,降低了对深度监督的依赖,并允许简单的刚性对齐;以及稀疏的、以对象为中心的消息,保留结构信息的同时减少了通信量。大量实验表明,我们的方法在mIoU指标上比单代理感知和基线协同方法高出+8.42和+3.28个点,在IoU指标上分别高出+5.11和+22.41个点。在进一步减少传输的高斯数据量时,我们的方法在mIoU指标上仍实现了+1.9的改进,仅使用34.6%的通信量,突显了在有限的通信预算下稳健的性能。
论文及项目相关链接
PDF Accepted by AAAI 2026 (Oral)
Summary
该文探讨了合作感知在智能车辆中的应用研究,提出了基于稀疏三维语义高斯扩展法(splatting)的合作三维语义占据预测方法。此方法克服了单独车辆的感知范围局限性及遮挡问题,通过共享和融合中间高斯原语实现去重、降噪和一致性增强,减少了对深度监督的依赖,同时实现了简单的刚体对齐。实验证明,该方法相较于单车感知和基准合作方法提高了mIoU和IoU表现,并在有限通信条件下展现稳健性能。
Key Takeaways
- 合作感知能提升车辆之间的信息分享能力,克服了非合作系统中的感知局限性。
- 高密度三维立体单元对通信负担较高,限制其在合作场景中的应用。现有三维语义占据预测方法依赖于高密度三维立体单元或二维平面特征,需准确深度估计或额外监督。
- 提出利用稀疏三维语义高斯扩展法进行合作三维语义占据预测方法。通过共享和融合中间高斯原语,实现了高效合作感知。该方法提供了三个主要优势:基于邻域的跨智能车辆融合、几何与语义联合编码以及稀疏对象中心消息传递。
点此查看论文截图
Optimization-Free Style Transfer for 3D Gaussian Splats
Authors:Raphael Du Sablon, David Hart
The task of style transfer for 3D Gaussian splats has been explored in many previous works, but these require reconstructing or fine-tuning the splat while incorporating style information or optimizing a feature extraction network on the splat representation. We propose a reconstruction- and optimization-free approach to stylizing 3D Gaussian splats, allowing for direct stylization on a .ply or .splat file without requiring the original camera views. This is done by generating a graph structure across the implicit surface of the splat representation. A feed-forward, surface-based stylization method is then used and interpolated back to the individual splats in the scene. This also allows for fast stylization of splats with no additional training, achieving speeds under 2 minutes even on CPU-based consumer hardware. We demonstrate the quality results this approach achieves and compare to other 3D Gaussian splat style transfer methods. Code is publicly available at https://github.com/davidmhart/FastSplatStyler.
关于三维高斯光斑的风格转换任务,之前的研究工作已经进行了许多探索,但这些方法需要在结合风格信息的同时重建或微调光斑,或在光斑表示上优化特征提取网络。我们提出了一种无需重建和优化的三维高斯光斑风格化方法,允许在.ply或.splat文件上进行直接风格化,而无需原始相机视图。这是通过在光斑表示的隐式表面之间生成图形结构来实现的。然后采用前馈的基于表面的风格化方法,并插值回场景中的各个光斑。这也允许在不需要额外训练的情况下快速风格化光斑,即使在基于CPU的常规硬件上也能在2分钟内完成。我们展示了这种方法所达到的高质量结果,并将其与其他三维高斯光斑风格转换方法进行了比较。代码可在https://github.com/davidmhart/FastSplatStyler公开访问。
论文及项目相关链接
Summary
本文提出了一种无需重建和优化,直接对3D高斯平面进行风格化的方法。该方法通过生成平面隐面的图结构,使用前馈的表面风格化方法,并插值回到场景中的各个平面,实现快速且无需额外训练的风格化。该方法的实现代码已公开在GitHub上。
Key Takeaways
- 提出了一种无需重建或优化的方法对3D高斯平面进行风格化。
- 能够直接对.ply或.splat文件进行风格化,无需原始相机视角。
- 通过在隐面生成图结构,实现了前馈的表面风格化方法。
- 方法能够快速地风格化平面,无需额外的训练。
- 风格化的质量得到了验证,并与其他3D高斯平面的风格转移方法进行了比较。
- 该方法的实现代码已经公开可用。