⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-27 更新
Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI
Authors:Xinhao Liu, Jiaqi Li, Youming Deng, Ruxin Chen, Yingjia Zhang, Yifei Ma, Li Guo, Yiming Li, Jing Zhang, Chen Feng
Reproducible closed-loop evaluation remains a major bottleneck in Embodied AI such as visual navigation. A promising path forward is high-fidelity simulation that combines photorealistic sensor rendering with geometrically grounded interaction in complex, open-world urban environments. Although recent video-3DGS methods ease open-world scene capturing, they are still unsuitable for benchmarking due to large visual and geometric sim-to-real gaps. To address these challenges, we introduce Wanderland, a real-to-sim framework that features multi-sensor capture, reliable reconstruction, accurate geometry, and robust view synthesis. Using this pipeline, we curate a diverse dataset of indoor-outdoor urban scenes and systematically demonstrate how image-only pipelines scale poorly, how geometry quality impacts novel view synthesis, and how all of these adversely affect navigation policy learning and evaluation reliability. Beyond serving as a trusted testbed for embodied navigation, Wanderland’s rich raw sensor data further allows benchmarking of 3D reconstruction and novel view synthesis models. Our work establishes a new foundation for reproducible research in open-world embodied AI. Project website is at https://ai4ce.github.io/wanderland/.
在诸如视觉导航之类的嵌入式人工智能中,可重复闭环评估仍然是一个主要的瓶颈。一条有前途的道路是高清仿真,它将逼真的传感器渲染与复杂开放世界城市环境中的几何交互相结合。尽管最近的视频三维仿真方法缓解了开放世界场景的捕获问题,但由于视觉和几何仿真到现实的巨大差距,它们仍然不适合作为基准测试。为了解决这些挑战,我们引入了Wanderland,这是一个从现实到仿真的框架,具有多传感器捕获、可靠重建、精确几何和稳健的视图合成等特点。使用该管道,我们编制了室内外城市场景的多样化数据集,并系统地展示了仅图像管道如何表现不佳、几何质量如何影响新颖视图合成以及所有这些如何不利于导航策略的学习和评估可靠性。除了作为可靠的测试平台外,Wanderland丰富的原始传感器数据还允许对三维重建和新颖视图合成模型进行基准测试。我们的工作为开放世界嵌入式人工智能的可重复研究建立了新的基础。项目网站地址为https://ai4ce.github.io/wanderland/。
论文及项目相关链接
Summary
该文本介绍了Embodied AI领域(如视觉导航)面临的一个主要瓶颈,即缺乏可重复的闭环评估。文章提出了一种有前途的解决方案,即高保真模拟技术,该技术结合了逼真的传感器渲染和复杂的开放世界城市环境中的几何交互。为了应对从模拟到现实场景中的视觉和几何差距,文章引入了Wanderland,一个由多传感器捕捉、可靠重建、精确几何和稳健视图合成组成的真实模拟框架。利用此框架,文章创建了一个室内外城市场景的多样化数据集,并系统地展示了仅图像管道的可扩展性较差、几何质量对新颖视图合成的影响以及这些因素如何对导航策略的学习和评估可靠性产生负面影响。除了作为可靠的测试平台外,Wanderland丰富的原始传感器数据还允许对三维重建和新颖视图合成模型进行基准测试。这项工作为开放世界Embodied AI的可重复研究奠定了新基础。
Key Takeaways
- Embodied AI领域面临缺乏可重复的闭环评估的挑战。
- 高保真模拟技术是解决此挑战的有前途的方案,它结合了逼真的传感器渲染和几何交互技术。
- 最近出现的视频-3DGS方法虽然有助于开放世界场景的捕捉,但由于视觉和几何的模拟到现实的差距较大,仍不适合作为基准测试。
- Wanderland框架解决了上述问题,具备多传感器捕捉、可靠重建、精确几何和稳健视图合成等特点。
- Wanderland创建了一个室内外城市场景的多样化数据集,并展示了图像管道和几何质量对导航策略学习和评估的影响。
- Wanderland不仅是一个可靠的测试平台,还允许对三维重建和新颖视图合成模型进行基准测试。
点此查看论文截图
GS-Checker: Tampering Localization for 3D Gaussian Splatting
Authors:Haoliang Han, Ziyuan Luo, Jun Qi, Anderson Rocha, Renjie Wan
Recent advances in editing technologies for 3D Gaussian Splatting (3DGS) have made it simple to manipulate 3D scenes. However, these technologies raise concerns about potential malicious manipulation of 3D content. To avoid such malicious applications, localizing tampered regions becomes crucial. In this paper, we propose GS-Checker, a novel method for locating tampered areas in 3DGS models. Our approach integrates a 3D tampering attribute into the 3D Gaussian parameters to indicate whether the Gaussian has been tampered. Additionally, we design a 3D contrastive mechanism by comparing the similarity of key attributes between 3D Gaussians to seek tampering cues at 3D level. Furthermore, we introduce a cyclic optimization strategy to refine the 3D tampering attribute, enabling more accurate tampering localization. Notably, our approach does not require expensive 3D labels for supervision. Extensive experimental results demonstrate the effectiveness of our proposed method to locate the tampered 3DGS area.
随着针对三维高斯飞溅(3DGS)的编辑技术不断进步,如今已能够轻松操作三维场景。然而,这些技术也引发了关于可能恶意操纵三维内容的担忧。为了避免这类恶意应用,定位被篡改区域变得至关重要。在本文中,我们提出了一种名为GS-Checker的新方法,用于定位3DGS模型中的篡改区域。我们的方法通过将三维篡改属性集成到三维高斯参数中,来指示高斯是否被篡改。此外,我们设计了一种三维对比机制,通过比较三维高斯之间关键属性的相似性来寻找篡改线索。我们还引入了一种循环优化策略,以改进三维篡改属性,从而实现更准确的篡改定位。值得注意的是,我们的方法不需要昂贵的三维标签来进行监督。大量的实验结果表明,我们提出的方法能够有效地定位被篡改的3DGS区域。
论文及项目相关链接
PDF Accepted by AAAI2026
Summary
本文介绍了针对3D高斯混合技术(3DGS)编辑技术的最新进展及其潜在恶意操作风险。为此,提出一种名为GS-Checker的新方法,通过在3D高斯参数中融入3D干扰属性来定位干扰区域。同时,设计了一个对比机制来对比不同高斯之间的关键属性相似性,并在循环优化策略的帮助下完善定位精度。该方法无需昂贵的3D标签进行监管,实验结果证明了其定位干扰区域的有效性。
Key Takeaways
- 介绍了针对3DGS编辑技术的最新进展及其潜在恶意操作风险。
- 提出了一种名为GS-Checker的新方法,用于定位被干扰的3DGS模型区域。
- 通过在3D高斯参数中融入3D干扰属性来指示是否被干扰。
- 设计了一个对比机制来对比不同高斯之间的关键属性相似性以寻找干扰线索。
- 通过循环优化策略来完善定位精度。
- 该方法无需使用昂贵的3D标签进行监管。
点此查看论文截图
Active3D: Active High-Fidelity 3D Reconstruction via Hierarchical Uncertainty Quantification
Authors:Yan Li, Yingzhao Li, Gim Hee Lee
In this paper, we present an active exploration framework for high-fidelity 3D reconstruction that incrementally builds a multi-level uncertainty space and selects next-best-views through an uncertainty-driven motion planner. We introduce a hybrid implicit-explicit representation that fuses neural fields with Gaussian primitives to jointly capture global structural priors and locally observed details. Based on this hybrid state, we derive a hierarchical uncertainty volume that quantifies both implicit global structure quality and explicit local surface confidence. To focus optimization on the most informative regions, we propose an uncertainty-driven keyframe selection strategy that anchors high-entropy viewpoints as sparse attention nodes, coupled with a viewpoint-space sliding window for uncertainty-aware local refinement. The planning module formulates next-best-view selection as an Expected Hybrid Information Gain problem and incorporates a risk-sensitive path planner to ensure efficient and safe exploration. Extensive experiments on challenging benchmarks demonstrate that our approach consistently achieves state-of-the-art accuracy, completeness, and rendering quality, highlighting its effectiveness for real-world active reconstruction and robotic perception tasks.
本文提出了一种针对高保真度3D重建的主动探索框架,该框架逐步构建了一个多级不确定性空间,并通过一个不确定性驱动的移动规划器选择下一个最佳视图。我们引入了一种混合隐式-显式表示法,将神经场与高斯原始数据融合,以联合捕获全局结构先验和局部观察到的细节。基于此混合状态,我们推导出一个分层不确定性体积,该体积既量化隐式全局结构的质量,又量化显式局部表面置信度。为了将优化集中在信息最丰富的区域,我们提出了一种不确定性驱动的关键帧选择策略,该策略将高熵观点作为稀疏注意力节点进行固定,并结合一个视点空间滑动窗口进行不确定性感知局部细化。规划模块将下一个最佳视图的选择制定为预期混合信息增益问题,并融入风险敏感路径规划器以确保高效且安全的探索。在具有挑战性的基准测试上的广泛实验表明,我们的方法始终达到了最先进的准确性、完整性和渲染质量,突显其在现实世界中的主动重建和机器人感知任务中的有效性。
论文及项目相关链接
Summary
本文提出了一种用于高保真度3D重建的主动探索框架,该框架通过增量构建多级不确定性空间,并采用不确定性驱动的规划器选择最佳视点。文章引入了一种混合隐式-显式表示法,融合神经场和高斯基本体来捕捉全局结构先验和局部观察细节。基于该混合状态,我们推导出一个层次化不确定性体积,量化隐式全局结构质量和显式局部表面置信度。为了优化最具信息量的区域,我们提出了一种不确定性驱动的关键帧选择策略,将高熵观点作为稀疏注意力节点进行锚定,并结合视点空间滑动窗口进行不确定性感知局部细化。规划模块将下一个最佳视点的选择表述为预期混合信息增益问题,并融入风险敏感路径规划器,以确保高效安全的探索。大量实验表明,该方法在挑战性基准测试上实现了最先进准确度、完整性和渲染质量。对于真实世界的主动重建和机器人感知任务具有较高实用价值。
Key Takeaways
以下是基于上述文本的关键要点:
- 提出了一种用于高保真度3D重建的主动探索框架。
- 通过增量构建多级不确定性空间进行选择最佳视点。
- 引入混合隐式-显式表示法,融合神经场和高斯基本体来捕捉全局和局部细节。
- 提出层次化不确定性体积概念来量化结构质量和表面置信度。
- 利用不确定性驱动的关键帧选择策略来优化信息获取。
- 规划模块解决了预期混合信息增益问题,并融入风险敏感路径规划器以确保高效安全的探索。
点此查看论文截图
STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction
Authors:Jiankuo Zhao, Xiangyu Zhu, Zidu Wang, Zhen Lei
Reconstructing high-fidelity and animatable 3D head avatars from monocular videos remains a challenging yet essential task. Existing methods based on 3D Gaussian Splatting typically bind Gaussians to mesh triangles and model deformations solely via Linear Blend Skinning, which results in rigid motion and limited expressiveness. Moreover, they lack specialized strategies to handle frequently occluded regions (e.g., mouth interiors, eyelids). To address these limitations, we propose STAvatar, which consists of two key components: (1) a UV-Adaptive Soft Binding framework that leverages both image-based and geometric priors to learn per-Gaussian feature offsets within the UV space. This UV representation supports dynamic resampling, ensuring full compatibility with Adaptive Density Control (ADC) and enhanced adaptability to shape and textural variations. (2) a Temporal ADC strategy, which first clusters structurally similar frames to facilitate more targeted computation of the densification criterion. It further introduces a novel fused perceptual error as clone criterion to jointly capture geometric and textural discrepancies, encouraging densification in regions requiring finer details. Extensive experiments on four benchmark datasets demonstrate that STAvatar achieves state-of-the-art reconstruction performance, especially in capturing fine-grained details and reconstructing frequently occluded regions. The code will be publicly available.
从单目视频中重建高保真和可动画的3D头像仍然是一个具有挑战性但必不可少的任务。现有方法通常基于3D高斯喷绘技术,将高斯绑定到网格三角形上,并通过线性混合蒙皮技术建模变形,这导致动作僵硬和表现力有限。此外,他们缺乏处理频繁被遮挡区域的专门策略(例如嘴巴内部、眼皮)。为了解决这些局限性,我们提出了STAvatar,它包括两个关键组件:(1)UV自适应软绑定框架,它利用图像和几何先验来学习UV空间内的每个高斯特征偏移。这种UV表示支持动态重采样,确保与自适应密度控制(ADC)完全兼容,并提高对形状和纹理变化的适应性。(2)时间ADC策略,首先通过结构相似帧聚类以促进增密标准的更有针对性的计算。它进一步引入了一种新型融合感知误差作为克隆标准,以联合捕获几何和纹理差异,鼓励在需要精细细节的区域进行增密。在四个基准数据集上的大量实验表明,STAvatar达到了最先进的重建性能,特别是在捕捉精细细节和重建频繁遮挡区域方面。代码将公开可用。
论文及项目相关链接
PDF 17 pages, 14 figures
Summary
本文提出了一种名为STAvatar的方法,用于从单目视频中重建高保真和可动画的3D头像。它包含两个关键组件:UV-Adaptive Soft Binding框架和Temporal ADC策略,分别解决了现有方法的局限性和挑战,如刚性运动、表达有限以及处理频繁遮挡区域的问题。实验证明,STAvatar在重建效果和细节捕捉上达到了最新水平。
Key Takeaways
- STAvatar方法能够从单目视频中重建高保真和可动画的3D头像。
- 现有方法基于3D高斯拼贴技术存在局限性,如刚性运动和表达有限。
- STAvatar包含两个关键组件:UV-Adaptive Soft Binding框架和Temporal ADC策略。
- UV-Adaptive Soft Binding框架利用图像和几何先验信息学习高斯特征的UV空间偏移,支持动态重采样,增强了形状和纹理变化的适应性。
- Temporal ADC策略通过聚类结构相似的帧来更精确地计算密化标准,并引入新的融合感知误差作为克隆标准,以联合捕捉几何和纹理差异。
- STAvatar在四个基准数据集上的实验表明,它在捕捉细节和重建频繁遮挡区域方面达到了最新水平。
点此查看论文截图
Proxy-Free Gaussian Splats Deformation with Splat-Based Surface Estimation
Authors:Jaeyeong Kim, Seungwoo Yoo, Minhyuk Sung
We introduce SpLap, a proxy-free deformation method for Gaussian splats (GS) based on a Laplacian operator computed from our novel surface-aware splat graph. Existing approaches to GS deformation typically rely on deformation proxies such as cages or meshes, but they suffer from dependency on proxy quality and additional computational overhead. An alternative is to directly apply Laplacian-based deformation techniques by treating splats as point clouds. However, this often fail to properly capture surface information due to lack of explicit structure. To address this, we propose a novel method that constructs a surface-aware splat graph, enabling the Laplacian operator derived from it to support more plausible deformations that preserve details and topology. Our key idea is to leverage the spatial arrangement encoded in splats, defining neighboring splats not merely by the distance between their centers, but by their intersections. Furthermore, we introduce a Gaussian kernel adaptation technique that preserves surface structure under deformation, thereby improving rendering quality after deformation. In our experiments, we demonstrate the superior performance of our method compared to both proxy-based and proxy-free baselines, evaluated on 50 challenging objects from the ShapeNet, Objaverse, and Sketchfab datasets, as well as the NeRF-Synthetic dataset. Code is available at https://github.com/kjae0/SpLap.
我们介绍了SpLap,这是一种无需代理的高斯喷溅物(GS)变形方法,它基于从我们新型的表面感知喷溅图计算得到的拉普拉斯算子。现有的GS变形方法通常依赖于如笼子或网格的变形代理,但它们受到代理质量依赖和额外计算开销的困扰。另一种方法是直接将喷溅物视为点云,应用基于拉普拉斯的变形技术。然而,这往往因为缺乏明确的结构而无法正确捕获表面信息。为了解决这一问题,我们提出了一种新方法,构建了一个表面感知喷溅图,使得从它推导出的拉普拉斯算子能够支持更逼真的变形,保留细节和拓扑。我们的关键想法是利用喷溅物中的空间排列,定义相邻的喷溅物不仅仅是通过它们中心之间的距离,而是通过它们的交集。此外,我们引入了一种高斯核适应技术,在变形过程中保留表面结构,从而提高变形后的渲染质量。在我们的实验中,我们在ShapeNet、Objaverse、Sketchfab数据集以及NeRF-Synthetic数据集上的50个具有挑战性的对象上展示了我们的方法与基于代理和无代理基线相比的优越性能。代码可在https://github.com/kjae0/SpLap获得。
论文及项目相关链接
PDF 17 pages, Accepted to 3DV 2026 (IEEE/CVF International Conference on 3D Vision)
Summary
本文介绍了SpLap,一种基于拉普拉斯算子的无代理变形方法,用于高斯splat(GS)变形。该方法通过构建表面感知splat图,克服了现有GS变形方法依赖代理和计算开销大的问题。SpLap利用splat的空间布局,通过考虑邻接splat的交集而不仅仅是它们中心的距离,来支持更逼真的变形。此外,还引入了一种高斯核自适应技术,以提高变形后的渲染质量。实验表明,该方法在ShapeNet、Objaverse、Sketchfab和NeRF-Synthetic数据集上的50个挑战对象上,相较于基于代理和无代理的基线方法,表现出卓越的性能。
Key Takeaways
- SpLap是一种基于拉普拉斯算子的无代理变形方法,用于高斯splat(GS)变形。
- 现有GS变形方法通常依赖代理,存在质量依赖和计算开销大的问题。
- SpLap通过构建表面感知splat图,克服上述问题,支持更逼真的变形。
- SpLap利用邻接splat的交集定义邻居关系,考虑空间布局。
- SpLap引入高斯核自适应技术,提高变形后的渲染质量。
- 实验表明,SpLap在多个数据集上的性能优越。
点此查看论文截图
FastGS: Training 3D Gaussian Splatting in 100 Seconds
Authors:Shiwei Ren, Tianci Wen, Yongchun Fang, Biao Lu
The dominant 3D Gaussian splatting (3DGS) acceleration methods fail to properly regulate the number of Gaussians during training, causing redundant computational time overhead. In this paper, we propose FastGS, a novel, simple, and general acceleration framework that fully considers the importance of each Gaussian based on multi-view consistency, efficiently solving the trade-off between training time and rendering quality. We innovatively design a densification and pruning strategy based on multi-view consistency, dispensing with the budgeting mechanism. Extensive experiments on Mip-NeRF 360, Tanks & Temples, and Deep Blending datasets demonstrate that our method significantly outperforms the state-of-the-art methods in training speed, achieving a 3.32$\times$ training acceleration and comparable rendering quality compared with DashGaussian on the Mip-NeRF 360 dataset and a 15.45$\times$ acceleration compared with vanilla 3DGS on the Deep Blending dataset. We demonstrate that FastGS exhibits strong generality, delivering 2-7$\times$ training acceleration across various tasks, including dynamic scene reconstruction, surface reconstruction, sparse-view reconstruction, large-scale reconstruction, and simultaneous localization and mapping. The project page is available at https://fastgs.github.io/
主流的3D高斯摊铺(3DGS)加速方法未能妥善管理训练过程中的高斯数量,导致计算时间冗余。在本文中,我们提出了FastGS,这是一种新颖、简单且通用的加速框架,它充分考虑了每个高斯的重要性,基于多视角一致性,有效地解决了训练时间和渲染质量之间的权衡问题。我们创新地设计了一种基于多视角一致性的密集化和修剪策略,摒弃了预算机制。在Mip-NeRF 360、Tanks & Temples以及Deep Blending数据集上的大量实验表明,我们的方法在训练速度上显著优于最新技术,在Mip-NeRF 360数据集上与DashGaussian相比实现了3.32×的训练加速和可比的渲染质量,在Deep Blending数据集上与普通3DGS相比实现了15.45×的加速。我们证明FastGS具有很强的通用性,在各种任务中实现了2-7×的训练加速,包括动态场景重建、表面重建、稀疏视图重建、大规模重建以及同时定位和地图绘制。项目页面可在https://fastgs.github.io/上找到。
论文及项目相关链接
PDF Project page: https://fastgs.github.io/
Summary
本文提出一种名为FastGS的新型加速框架,解决了现有主导的三维高斯展布(3DGS)加速方法在训练过程中无法适当调控高斯数量的问题。该框架考虑每个高斯的重要性,通过多视角一致性进行优化,实现训练时间与渲染质量的平衡。创新设计的密度化与基于多视角一致性的修剪策略无需预算机制。通过实验验证,FastGS在Mip-NeRF 360、Tanks & Temples以及Deep Blending数据集上显著提升了训练速度,且在Mip-NeRF 360数据集上与DashGaussian相比拥有更高的渲染质量,在Deep Blending数据集上实现了高达15.45倍的加速。FastGS展现强大通用性,在动态场景重建、表面重建、稀疏视角重建、大规模重建以及即时定位与地图构建等任务中均有显著提升训练速度的效果。
Key Takeaways
- FastGS解决了现有主导的三维高斯展布(3DGS)加速方法存在的问题,实现了更高效和高质量的渲染。
- FastGS基于多视角一致性考虑每个高斯的重要性,优化了训练过程。
- 创新设计的密度化与修剪策略,提高了训练效率,无需额外的预算机制。
- 在多个数据集上的实验表明,FastGS显著提升了训练速度,同时保持了高质量的渲染效果。
- FastGS具有强大的通用性,适用于多种任务,包括动态场景重建、表面重建等。
- FastGS在Mip-NeRF 360数据集上与DashGaussian相比有更高的渲染质量,同时在Deep Blending数据集上实现了显著加速。
点此查看论文截图
STT-GS: Sample-Then-Transmit Edge Gaussian Splatting with Joint Client Selection and Power Control
Authors:Zhen Li, Xibin Jin, Guoliang Li, Shuai Wang, Miaowen Wen, Huseyin Arslan, Derrick Wing Kwan Ng, Chengzhong Xu
Edge Gaussian splatting (EGS), which aggregates data from distributed clients (e.g., drones) and trains a global GS model at the edge (e.g., ground server), is an emerging paradigm for scene reconstruction in low-altitude economy. Unlike traditional edge resource management methods that emphasize communication throughput or general-purpose learning performance, EGS explicitly aims to maximize the GS qualities, rendering existing approaches inapplicable. To address this problem, this paper formulates a novel GS-oriented objective function that distinguishes the heterogeneous view contributions of different clients. However, evaluating this function in turn requires clients’ images, leading to a causality dilemma. To this end, this paper further proposes a sample-then-transmit EGS (or STT-GS for short) strategy, which first samples a subset of images as pilot data from each client for loss prediction. Based on the first-stage evaluation, communication resources are then prioritized towards more valuable clients. To achieve efficient sampling, a feature-domain clustering (FDC) scheme is proposed to select the most representative data and pilot transmission time minimization (PTTM) is adopted to reduce the pilot overhead.Subsequently, we develop a joint client selection and power control (JCSPC) framework to maximize the GS-oriented function under communication resource constraints. Despite the nonconvexity of the problem, we propose a low-complexity efficient solution based on the penalty alternating majorization minimization (PAMM) algorithm. Experiments reveal that the proposed scheme significantly outperforms existing benchmarks on real-world datasets. The GS-oriented objective can be accurately predicted with low sampling ratios (e.g., 10%), and our method achieves an excellent tradeoff between view contributions and communication costs.
边缘高斯插值(EGS)是一种新兴的场景重建范式,它从分布式客户端(例如无人机)聚集数据,并在边缘(例如地面服务器)训练全局GS模型,适用于低空经济。与传统的边缘资源管理方法不同,这些方法侧重于通信吞吐量或通用学习性能,EGS旨在最大化GS质量,这使得现有方法不适用。为了解决这一问题,本文制定了一种新型的面向GS的目标函数,该函数能够区分不同客户端的异质视图贡献。然而,评估该函数需要客户端的图像,这导致了因果困境。为此,本文进一步提出了一种采样后传输的EGS(简称STT-GS)策略,该策略首先从每个客户端采样一部分图像作为试点数据进行损失预测。基于第一阶段的评估,通信资源将优先分配给更有价值的客户端。为了实现有效的采样,提出了特征域聚类(FDC)方案来选择最具代表性的数据,并采用传输时间最小化(PTTM)来减少试点开销。随后,我们开发了一个联合客户端选择和功率控制(JCSPC)框架,以在通信资源约束下最大化面向GS的功能。尽管该问题具有非凸性,我们基于惩罚交替最大化最小化(PAMM)算法提出了一种低复杂度的高效解决方案。实验表明,与现有基准测试相比,该方案在真实数据集上表现出显著的优势。面向GS的目标可以通过低采样率(例如10%)进行准确预测,我们的方法在视图贡献和通信成本之间实现了出色的权衡。
论文及项目相关链接
Summary
本文介绍了边缘高斯点云技术(EGS)在场景重建中的新兴应用模式。针对传统边缘资源管理方法无法最大化全局高斯模型(GS)质量的问题,本文提出了一种以GS为导向的目标函数,并据此提出了采样后传输的EGS策略(STT-GS)。通过特征域聚类(FDC)方案实现高效采样,采用试点传输时间最小化(PTTM)减少试点开销。同时,本文还开发了联合客户端选择和功率控制(JCSPC)框架,以在通信资源限制下最大化GS导向功能。实验证明,该方案在真实数据集上的表现显著优于现有基准测试,GS导向目标可以准确预测,且在低采样比下仍表现出色。
Key Takeaways
- EGS技术旨在最大化全局高斯模型(GS)的质量,与传统边缘资源管理方法不同。
- 提出了一种以GS为导向的目标函数,以区分不同客户的异构视图贡献。
- 为了解决目标函数的评估问题,提出了采样后传输的EGS策略(STT-GS)。
- 通过特征域聚类(FDC)实现高效采样,减少通信资源消耗。
- 采用试点传输时间最小化(PTTM)策略,降低试点数据的开销。
- 开发联合客户端选择和功率控制(JCSPC)框架,以在有限的通信资源下最大化GS导向功能。
点此查看论文截图
MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting
Authors:Hanzhi Chang, Ruijie Zhu, Wenjie Chang, Mulin Yu, Yanzhe Liang, Jiahao Lu, Zhuoyuan Li, Tianzhu Zhang
Surface reconstruction has been widely studied in computer vision and graphics. However, existing surface reconstruction works struggle to recover accurate scene geometry when the input views are extremely sparse. To address this issue, we propose MeshSplat, a generalizable sparse-view surface reconstruction framework via Gaussian Splatting. Our key idea is to leverage 2DGS as a bridge, which connects novel view synthesis to learned geometric priors and then transfers these priors to achieve surface reconstruction. Specifically, we incorporate a feed-forward network to predict per-view pixel-aligned 2DGS, which enables the network to synthesize novel view images and thus eliminates the need for direct 3D ground-truth supervision. To improve the accuracy of 2DGS position and orientation prediction, we propose a Weighted Chamfer Distance Loss to regularize the depth maps, especially in overlapping areas of input views, and also a normal prediction network to align the orientation of 2DGS with normal vectors predicted by a monocular normal estimator. Extensive experiments validate the effectiveness of our proposed improvement, demonstrating that our method achieves state-of-the-art performance in generalizable sparse-view mesh reconstruction tasks. Project Page: https://hanzhichang.github.io/meshsplat_web
表面重建在计算机视觉和图形学领域已得到广泛研究。然而,当输入视角极其稀疏时,现有的表面重建工作很难恢复准确的场景几何结构。为了解决这一问题,我们提出了MeshSplat,这是一种通过高斯展开实现的通用稀疏视角表面重建框架。我们的核心思想是利用2DGS作为桥梁,将新颖视图合成与学习的几何先验知识连接起来,然后利用这些先验知识实现表面重建。具体来说,我们采用前馈网络来预测每视图像素对齐的2DGS,这使得网络能够合成新颖视图图像,从而不需要直接的3D真实值监督。为了提高2DGS位置和方向预测的准确性,我们提出了加权Chamfer距离损失来规范深度图,特别是在输入视图的重叠区域,以及一个法向预测网络,使2DGS的方向与由单眼法线估计器预测的法线矢量对齐。大量的实验验证了我们所提出改进的有效性,表明我们的方法在可泛化的稀疏视角网格重建任务中达到了最先进的性能。项目页面:https://hanzhichang.github.io/meshsplat_web
论文及项目相关链接
PDF Accepted by AAAI 2026
Summary
本文提出一种名为MeshSplat的通用稀疏视图表面重建框架,利用高斯拼接技术解决现有表面重建在输入视图极稀疏时难以恢复准确场景几何的问题。该框架通过连接新型视图合成与学习的几何先验,利用2DGS作为桥梁实现表面重建。文章引入前馈网络预测与视图像素对齐的2DGS,实现新型视图图像的合成,无需直接的3D真实值监督。为提高2DGS位置和方向预测的准确度,文章还提出了加权Chamfer距离损失来规范深度图,并引入法向预测网络使2DGS的方向与单眼法向估计器预测的法向量对齐。实验证明,该方法在通用稀疏视图网格重建任务中取得了最佳性能。
Key Takeaways
- MeshSplat是一个针对稀疏视图表面重建的通用框架,利用高斯拼接技术解决现有难题。
- 该框架通过连接新型视图合成与学习的几何先验,使用2DGS作为桥梁实现表面重建。
- 引入前馈网络预测与视图像素对齐的2DGS,实现新型视图图像合成,无需直接3D真实值监督。
- 提出加权Chamfer距离损失,以提高深度图预测的准确度,特别是在输入视图的重叠区域。
- 引入法向预测网络,使2DGS的方向与法向估计器预测的法向量对齐,提高方向预测的准确度。
- 实验证明该方法在通用稀疏视图网格重建任务中表现最佳。
点此查看论文截图
Learning Hierarchical Sparse Transform Coding of 3DGS
Authors:Hao Xu, Xiaolin Wu, Xi Zhang
3D Gaussian Splatting (3DGS) supports fast, high quality, novel view synthesis but has a heavy memory footprint, making the compression of its model crucial. Current state-of-the-art (SOTA) 3DGS compression methods adopt an anchor-based architecture that pairs the Scaffold-GS representation with conditional entropy coding. However, these methods forego the analysis-synthesis transform, a vital mechanism in visual data compression. As a result, redundancy remains intact in the signal and its removal is left to the entropy coder, which computationally overburdens the entropy coding module, increasing coding latency. Even with added complexity thorough redundancy removal is a task unsuited to an entropy coder. To fix this critical omission, we introduce a Sparsity-guided Hierarchical Transform Coding (SHTC) method, the first study on the end-to-end learned neural transform coding of 3DGS. SHTC applies KLT to decorrelate intra-anchor attributes, followed by quantization and entropy coding, and then compresses KLT residuals with a low-complexity, scene-adaptive neural transform. Aided by the sparsity prior and deep unfolding technique, the learned transform uses only a few trainable parameters, reducing the memory usage. Overall, SHTC achieves an appreciably improved R-D performance and at the same time higher decoding speed over SOTA. Its prior-guided, parameter-efficient design may also inspire low-complexity neural image and video codecs. Our code will be released at https://github.com/hxu160/SHTC_for_3DGS_compression.
3D高斯展开(3DGS)支持快速、高质量的新视角合成,但占用大量内存,因此其模型的压缩至关重要。当前最前沿的3DGS压缩方法采用基于锚点的架构,将支架GS表示与条件熵编码配对。然而,这些方法放弃了分析-合成变换这一视觉数据压缩中的关键机制。因此,信号中的冗余仍然保持完整,去除冗余的任务留给熵编码器,这增加了熵编码模块的负担,并提高了编码延迟。即使增加了复杂性,彻底去除冗余的任务也不适合熵编码器。为了解决这一关键遗漏,我们引入了稀疏性引导分层变换编码(SHTC)方法,这是首次研究3DGS端到端学习神经网络变换编码的研究。SHTC应用KLT消除锚点内部属性之间的相关性,然后进行量化和熵编码,接着用低复杂度、场景自适应的神经网络变换压缩KLT残差。借助稀疏先验和深度展开技术,学习到的变换仅使用少量可训练参数,降低了内存使用。总体而言,与当前最前沿技术相比,SHTC在R-D性能上取得了显著改进,同时解码速度也更快。其先验引导、参数高效的设计也可能为低复杂度神经网络图像和视频编解码器提供灵感。我们的代码将在https://github.com/hxu160/SHTC_for_3DGS_compression上发布。
论文及项目相关链接
PDF Our code will be released at \href{https://github.com/hxu160/SHTC_for_3DGS_compression}{here}
Summary
本文介绍了针对3D Gaussian Splatting(3DGS)模型的压缩问题,提出了一种新的压缩方法——稀疏性引导分层变换编码(SHTC)。该方法弥补了当前先进压缩方法缺少分析合成变换这一关键机制的问题,旨在解决现有方法中遗留的冗余信号和计算冗余问题。通过使用KL变换和场景自适应神经网络变换等技术,实现了对信号的深度压缩和高效的解码速度提升。
Key Takeaways
- SHTC是一种新的基于神经网络对3D Gaussian Splatting模型的压缩方法。它引入了分析和合成的变换过程。该过程的目的是解决信号中的冗余问题,减少熵编码器的计算负担。
- SHTC使用KL变换对锚点内的属性进行去关联,随后进行量化和熵编码。这使得模型具有更强的可压缩性,并利用稀疏先验信息和深度展开技术优化了神经网络的训练过程。其稀疏性和学习自适应的特征有效提升了存储性能和解码效率。它不仅适用于高精度的3D场景建模,还可在低复杂度条件下展现出出色的性能表现。
点此查看论文截图
SplatCo: Structure-View Collaborative Gaussian Splatting for Detail-Preserving Rendering of Large-Scale Unbounded Scenes
Authors:Haihong Xiao, Jianan Zou, Yuxin Zhou, Ying He, Wenxiong Kang
We present SplatCo, a structure-view collaborative Gaussian splatting framework for high-fidelity rendering of complex outdoor environments. SplatCo builds upon two novel components: (1) a cross-structure collaboration module that combines global tri-plane representations, which capture coarse scene layouts, with local context grid features that represent fine surface details. This fusion is achieved through a novel hierarchical compensation strategy, ensuring both global consistency and local detail preservation; and (2) a cross-view assisted training strategy that enhances multi-view consistency by synchronizing gradient updates across viewpoints, applying visibility-aware densification, and pruning overfitted or inaccurate Gaussians based on structural consistency. Through joint optimization of structural representation and multi-view coherence, SplatCo effectively reconstructs fine-grained geometric structures and complex textures in large-scale scenes. Comprehensive evaluations on 13 diverse large-scale scenes, including Mill19, MatrixCity, Tanks & Temples, WHU, and custom aerial captures, demonstrate that SplatCo consistently achieves higher reconstruction quality than state-of-the-art methods, with PSNR improvements of 1-2 dB and SSIM gains of 0.1 to 0.2. These results establish a new benchmark for high-fidelity rendering of large-scale unbounded scenes. Code and additional information are available at https://github.com/SCUT-BIP-Lab/SplatCo.
我们提出了SplatCo,这是一个用于复杂室外环境高保真渲染的结构视图协同高斯平展框架。SplatCo建立在两个新颖组件之上:(1)一个跨结构协作模块,它结合了全局三平面表示(捕捉粗糙场景布局)和局部上下文网格特征(表示精细表面细节)。这种融合是通过一种新颖的分层次补偿策略实现的,确保全局一致性和局部细节保留;(2)一种跨视图辅助训练策略,它通过同步各视点的梯度更新、应用可见性感知加密,并根据结构一致性剔除过度拟合或不准确的高斯值,提高多视图一致性。通过结构表示和多视图一致性的联合优化,SplatCo有效地重建了大规模场景中的精细几何结构和复杂纹理。在包括Mill19、MatrixCity、Tanks & Temples、WHU和自定义航空拍摄在内的13个不同的大规模场景上的综合评估表明,SplatCo的重建质量始终高于最先进的方法,PSNR提高了1-2分贝,SSIM提高了0.1到0.2。这些结果为大规模无界场景的高保真渲染设定了新的基准。有关代码和额外信息,请访问https://github.com/SCUT-BIP-Lab/SplatCo。
论文及项目相关链接
Summary
本文介绍了SplatCo,一种用于复杂户外环境高保真渲染的结构视图协同高斯涂斑框架。SplatCo包括两个新颖组件:一是跨结构协作模块,结合全局三平面表示与局部上下文网格特征,通过分层补偿策略实现融合,确保全局一致性和局部细节保留;二是跨视图辅助训练策略,通过同步各视点的梯度更新、应用可见性感知加密和基于结构一致性的过拟合或不准确的高斯剪枝,提高多视图一致性。SplatCo通过优化结构表示和多视图一致性,有效地重建了大场景中的精细几何结构和复杂纹理。在13个不同的大规模场景上的综合评估表明,SplatCo的重建质量高于最新方法,PSNR提高1-2分贝,SSIM提高0.1至0.2。
Key Takeaways
- SplatCo是一个用于高保真渲染复杂户外环境的结构视图协同高斯涂斑框架。
- 它包括跨结构协作模块,融合全局三平面表示和局部上下文网格特征,确保全局一致性和局部细节。
- 采用跨视图辅助训练策略,提高多视图一致性,通过同步梯度更新、可见性感知加密和结构一致性剪枝优化。
- SplatCo在大量场景上实现了较高的重建质量,相比最新方法,PSNR和SSIM有所改进。
- 该方法适用于大规模无界场景的渲染。
- SplatCo的代码和额外信息可在https://github.com/SCUT-BIP-Lab/SplatCo上找到。
点此查看论文截图
Learning Efficient Fuse-and-Refine for Feed-Forward 3D Gaussian Splatting
Authors:Yiming Wang, Lucy Chai, Xuan Luo, Michael Niemeyer, Manuel Lagunas, Stephen Lombardi, Siyu Tang, Tiancheng Sun
Recent advances in feed-forward 3D Gaussian Splatting have led to rapid improvements in efficient scene reconstruction from sparse views. However, most existing approaches construct Gaussian primitives directly aligned with the pixels in one or more of the input images. This leads to redundancies in the representation when input views overlap and constrains the position of the primitives to lie along the input rays without full flexibility in 3D space. Moreover, these pixel-aligned approaches do not naturally generalize to dynamic scenes, where effectively leveraging temporal information requires resolving both redundant and newly appearing content across frames. To address these limitations, we introduce a novel Fuse-and-Refine module that enhances existing feed-forward models by merging and refining the primitives in a canonical 3D space. At the core of our method is an efficient hybrid Splat-Voxel representation: from an initial set of pixel-aligned Gaussian primitives, we aggregate local features into a coarse-to-fine voxel hierarchy, and then use a sparse voxel transformer to process these voxel features and generate refined Gaussian primitives. By fusing and refining an arbitrary number of inputs into a consistent set of primitives, our representation effectively reduces redundancy and naturally adapts to temporal frames, enabling history-aware online reconstruction of dynamic scenes. Our approach achieves state-of-the-art performance in both static and streaming scene reconstructions while running at interactive rates (15 fps with 350ms delay) on a single H100 GPU.
近期前馈3D高斯展开技术的进展在从无稀疏视角高效重建场景方面取得了快速进步。然而,大多数现有方法直接将与一个或多个输入图像中的像素对齐的高斯基本体进行构建。当输入视图重叠时,这会导致表示中的冗余,并将基本体的位置限制在输入射线上,而缺乏在三维空间中的完全灵活性。此外,这些像素对齐的方法并不自然地适用于动态场景,有效地利用时间信息需要解决跨帧的冗余和新增内容。为了解决这些局限性,我们引入了一种新型的融合和细化模块,它通过在一个规范的三维空间中合并和细化基本体,增强了现有的前馈模型。我们方法的核心是一种高效的混合Splat-Voxel表示:从最初的一组像素对齐的高斯基本体开始,我们将局部特征聚集到一个从粗糙到精细的体素层次结构中,然后使用稀疏体素转换器处理这些体素特征并生成细化后的高斯基本体。通过融合和细化任意数量的输入为一组一致的基本体,我们的表示有效地减少了冗余,并自然地适应了时间帧,实现了对动态场景的历史感知在线重建。我们的方法在静态和流式场景重建中都达到了最先进的性能,同时在单个H100 GPU上以交互速率(每秒15帧,延迟350毫秒)运行。
论文及项目相关链接
PDF NeurIPS 2025, Previously titled “SplatVoxel: History-Aware Novel View Streaming without Temporal Training”, Project Page: https://19reborn.github.io/SplatVoxel/
Summary
该摘要使用简化中文表达了该文本的核心内容,可以总结为:最新的前馈三维高斯涂鸦技术进展为从稀疏视角快速重建场景提供了新的可能性。但当前的方法常常构建与输入图像像素直接对齐的高斯基本体,这导致在输入视图重叠时表示中的冗余,并限制了基本体的位置只能位于输入射线上,缺乏在三维空间中的灵活性。针对动态场景,这种像素对齐的方法无法自然地进行泛化。为解决这些问题,我们引入了新颖的“融合与细化”模块,通过融合和细化现有前馈模型中的基本体来增强场景重建能力。该方法结合了粗糙到精细的体素层次结构和稀疏体素变换器技术,能够从初始的像素对齐高斯基本体生成细化后的高斯基本体。该方法有效减少了冗余并自然适应时间帧,实现了动态场景的在线重建。该方法的性能在静态和流式场景重建中均达到了最新水平,并且在单个H100 GPU上以交互式速率(每秒处理约15帧,延迟约350毫秒)运行。文中引入的混合涂鸦体素表示是这一技术的关键。通过对任意数量的输入进行融合和细化,我们构建了一致的基本体集,从而实现了高效的场景重建。
Key Takeaways
以下是文本中的关键要点,以简化中文列出:
- 最新进展使得基于前馈的三维高斯涂鸦技术在场景重建中取得了快速进步。
- 当前大多数方法采用像素对齐的高斯基本体表示导致冗余表示和在动态场景中的限制。
- 为解决这一问题,引入了一个新的“融合与细化”模块来增强现有前馈模型的能力。
- 该方法结合了涂鸦体素表示法,通过从初始像素对齐的高斯基本体生成细化后的基本体来减少冗余并适应动态场景。
- 所提出的方法能够在静态和流式场景重建中实现最新性能水平。
点此查看论文截图
LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction
Authors:Pou-Chun Kung, Xianling Zhang, Katherine A. Skinner, Nikita Jaipuria
Photorealistic 3D scene reconstruction plays an important role in autonomous driving, enabling the generation of novel data from existing datasets to simulate safety-critical scenarios and expand training data without additional acquisition costs. Gaussian Splatting (GS) facilitates real-time, photorealistic rendering with an explicit 3D Gaussian representation of the scene, providing faster processing and more intuitive scene editing than the implicit Neural Radiance Fields (NeRFs). While extensive GS research has yielded promising advancements in autonomous driving applications, they overlook two critical aspects: First, existing methods mainly focus on low-speed and feature-rich urban scenes and ignore the fact that highway scenarios play a significant role in autonomous driving. Second, while LiDARs are commonplace in autonomous driving platforms, existing methods learn primarily from images and use LiDAR only for initial estimates or without precise sensor modeling, thus missing out on leveraging the rich depth information LiDAR offers and limiting the ability to synthesize LiDAR data. In this paper, we propose a novel GS method for dynamic scene synthesis and editing with improved scene reconstruction through LiDAR supervision and support for LiDAR rendering. Unlike prior works that are tested mostly on urban datasets, to the best of our knowledge, we are the first to focus on the more challenging and highly relevant highway scenes for autonomous driving, with sparse sensor views and monotone backgrounds. Visit our project page at: https://umautobots.github.io/lihi_gs
光写实主义的3D场景重建在自动驾驶中扮演着重要角色,它能够从现有数据集中生成新型数据,模拟安全关键场景,并且在无需额外采集成本的情况下扩展训练数据。高斯贴图(GS)技术通过明确的3D高斯表示场景,实现了实时、光写实主义的渲染,相较于隐式神经辐射场(NeRFs)提供了更快的处理和更直观的场景编辑。尽管关于GS的广泛研究已经在自动驾驶应用方面取得了有前景的进展,但它们忽略了两个关键方面:首先,现有方法主要集中在低速和特征丰富的城市场景上,忽略了高速公路场景在自动驾驶中的重要作用。其次,虽然激光雷达在自动驾驶平台中很普遍,但现有方法主要从图像中学习,仅将激光雷达用于初步估计或没有精确的传感器建模,因此未能充分利用激光雷达提供的丰富的深度信息,并限制了合成激光雷达数据的能力。在本文中,我们提出了一种新型的高斯贴图方法,用于动态场景合成和编辑,通过激光雷达监督和改进的场景重建,支持激光雷达渲染。据我们所知,与主要测试城市数据集的前期作品不同,我们是第一个专注于更具挑战性和高度相关的自动驾驶高速公路场景的团队,具备稀疏传感器视图和单色背景。请访问我们的项目页面:https://umautobots.github.io/lihi_gs
论文及项目相关链接
PDF RA-L 2025
摘要
实时动态场景合成与编辑的新方法,利用高斯泼斑技术结合激光雷达监督,提高自主驾驶场景重建的逼真度和准确性。该方法不仅支持图像渲染,更能有效利用激光雷达提供的丰富深度信息,并在高速公路场景上表现优异,填补了现有技术的空白。
要点速览
- 高斯泼斑技术用于自主驾驶中的场景重建,能生成新的数据集模拟安全关键场景,无需额外采集成本。
- 现有方法主要关注低速、特征丰富的城市场景,忽视高速公路场景在自主驾驶中的重要性。
- 本文提出的新方法结合激光雷达监督,改进场景重建,支持LiDAR渲染。
- 与仅依赖图像的学习方法不同,新方法充分利用激光雷达的丰富深度信息。
- 新方法在高速公路场景上表现优异,面对稀疏传感器观点和单调背景更具挑战性。
- 新方法的引入填补了现有技术在自主驾驶场景重建中的空白。
- 项目详细信息可访问:链接。
点此查看论文截图
Temporally Compressed 3D Gaussian Splatting for Dynamic Scenes
Authors:Saqib Javed, Ahmad Jarrar Khan, Corentin Dumery, Chen Zhao, Mathieu Salzmann
Recent advancements in high-fidelity dynamic scene reconstruction have leveraged dynamic 3D Gaussians and 4D Gaussian Splatting for realistic scene representation. However, to make these methods viable for real-time applications such as AR/VR, gaming, and rendering on low-power devices, substantial reductions in memory usage and improvements in rendering efficiency are required. While many state-of-the-art methods prioritize lightweight implementations, they struggle in handling {scenes with complex motions or long sequences}. In this work, we introduce Temporally Compressed 3D Gaussian Splatting (TC3DGS), a novel technique designed specifically to effectively compress dynamic 3D Gaussian representations. TC3DGS selectively prunes Gaussians based on their temporal relevance and employs gradient-aware mixed-precision quantization to dynamically compress Gaussian parameters. In addition, TC3DGS exploits an adapted version of the Ramer-Douglas-Peucker algorithm to further reduce storage by interpolating Gaussian trajectories across frames. Our experiments on multiple datasets demonstrate that TC3DGS achieves up to 67$\times$ compression with minimal or no degradation in visual quality. More results and videos are provided in the supplementary. Project Page: https://ahmad-jarrar.github.io/tc-3dgs/
近年来,在高保真动态场景重建方面的进展利用了动态3D高斯和4D高斯贴图技术来进行真实场景表示。然而,为了使这些方法对于增强现实/虚拟现实、游戏和在低功耗设备上进行渲染等实时应用变得可行,需要对内存使用进行大量减少并提高渲染效率。虽然许多最先进的方法优先考虑轻量级实现,但它们在处理复杂运动场景或长序列时遇到困难。在这项工作中,我们引入了时间压缩3D高斯贴图(TC3DGS)技术,这是一种专门设计用于有效压缩动态3D高斯表示的新技术。TC3DGS有选择地删除基于时间相关性的高斯,并采用梯度感知混合精度量化来动态压缩高斯参数。此外,TC3DGS利用Ramer-Douglas-Peucker算法的改编版来通过插值帧之间的高斯轨迹进一步减少存储。我们在多个数据集上的实验表明,TC3DGS实现了高达67倍压缩,视觉质量几乎没有或没有降低。更多结果和视频请参见补充材料。项目页面:https://ahmad-jarrar.github.io/tc-3dgs/
论文及项目相关链接
PDF Accepted at British Machine Vision Conference (BMVC) 2025
Summary
本文介绍了最新动态场景重建技术,采用动态三维高斯和四维高斯绘制进行真实场景表示。为实现在增强现实、虚拟现实、游戏和低功耗设备上的渲染等实时应用,提出一种名为TC3DGS的新技术,该技术能有效压缩动态三维高斯表示。通过基于时间相关性的高斯选择性修剪、梯度感知混合精度量化和改进的Ramer-Douglas-Peucker算法,实现了高效的存储和渲染。实验证明,TC3DGS可在保持视觉质量的同时,实现高达67倍的数据压缩。
Key Takeaways
- 最新动态场景重建技术利用动态三维高斯和四维高斯绘制进行真实场景表示。
- 实时应用如AR/VR、游戏和低功耗设备渲染需要降低内存使用和提高渲染效率。
- TC3DGS技术能有效压缩动态三维高斯表示,通过选择性修剪高斯、梯度感知混合精度量化和改进的Ramer-Douglas-Peucker算法实现高效存储和渲染。
- TC3DGS实现了高达67倍的数据压缩,同时保持视觉质量。
- TC3DGS在多个数据集上的实验证明了其有效性和优越性。
- 项目页面提供了更多结果和视频展示。
点此查看论文截图
Splats in Splats: Robust and Effective 3D Steganography towards Gaussian Splatting
Authors:Yijia Guo, Wenkai Huang, Yang Li, Gaolei Li, Hang Zhang, Liwen Hu, Jianhua Li, Tiejun Huang, Lei Ma
3D Gaussian splatting (3DGS) has demonstrated impressive 3D reconstruction performance with explicit scene representations. Given the widespread application of 3DGS in 3D reconstruction and generation tasks, there is an urgent need to protect the copyright of 3DGS assets. However, existing copyright protection techniques for 3DGS overlook the usability of 3D assets, posing challenges for practical deployment. Here we describe splats in splats, the first 3DGS steganography framework that embeds 3D content in 3DGS itself without modifying any attributes. To achieve this, we take a deep insight into spherical harmonics (SH) and devise an importance-graded SH coefficient encryption strategy to embed the hidden SH coefficients. Furthermore, we employ a convolutional autoencoder to establish a mapping between the original Gaussian primitives’ opacity and the hidden Gaussian primitives’ opacity. Extensive experiments indicate that our method significantly outperforms existing 3D steganography techniques, with 5.31% higher scene fidelity and 3x faster rendering speed, while ensuring security, robustness, and user experience.
3D高斯拼贴(3DGS)凭借明确的场景表示展现了令人印象深刻的3D重建性能。考虑到3DGS在3D重建和生成任务中的广泛应用,对3DGS资产的版权保护有着迫切的需求。然而,现有的版权保护技术在处理实际应用场景中的部署挑战时忽略了利用拼贴的保护措施来保护拼贴形式下的资产可用性。在这里,我们介绍了拼贴内的拼贴技术,这是一种基于嵌入技术实现的无需修改任何属性的新型的第一款保护型拼贴结构的可视化软件保护形式,以实现我们对第一场景元素的建模和操作的新范式。通过深入探究球面谐波(SH),我们提出了一种基于重要性分级的SH系数加密策略来嵌入隐藏的SH系数。此外,我们还使用卷积自编码器建立了原始高斯原始图像和隐藏高斯原始图像的透明度之间的映射关系。大量的实验结果表明,我们的方法在保持高度保密性和用户友好的前提下显著优于现有的3D隐写术技术,场景保真度提高了5.31%,渲染速度提高了三倍。我们的方法确保了安全性、鲁棒性和用户体验。
论文及项目相关链接
PDF Accepted by AAAI 2026
Summary
基于上述文本内容,可以简要概括为:本文主要介绍了使用三维高斯喷射(3DGS)技术的版权保护问题,提出了一种新的三维高斯喷射隐写术框架(splats in splats),可以在不影响3D场景外观的同时在图像中嵌入水印信息。通过使用球面谐波加密技术并引入卷积自编码器实现高效的渲染性能,该方法在场景保真度、渲染速度和安全性方面均优于现有技术。
Key Takeaways
以下是七个关键见解:
- 三维高斯喷射(3DGS)具有广泛的应用前景和卓越的建模能力。随着其在三维重建和生成任务中的广泛应用,对三维资产的版权保护变得尤为重要。
- 当前版权保护技术在处理三维资产时面临实用性挑战,忽略了资产的可使用性。因此,新的保护策略必须考虑到这一点。
- Splats in splats是首个在不改变任何属性的情况下将三维内容嵌入到三维高斯喷射技术中的隐写术框架。这种技术的核心在于巧妙地使用球面谐波系数进行加密操作。这为在保护知识产权的同时确保数据的完整性提供了新的途径。
- 利用球面谐波特性设计了一种重要性分级系数加密策略,以嵌入隐藏的SH系数。通过这种方式,能够更灵活地存储信息而不影响原始数据的外观和性能。