嘘~ 正在从服务器偷取页面 . . .

3DGS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-17 更新

A Controllable 3D Deepfake Generation Framework with Gaussian Splatting

Authors:Wending Liu, Siyun Liang, Huy H. Nguyen, Isao Echizen

We propose a novel 3D deepfake generation framework based on 3D Gaussian Splatting that enables realistic, identity-preserving face swapping and reenactment in a fully controllable 3D space. Compared to conventional 2D deepfake approaches that suffer from geometric inconsistencies and limited generalization to novel view, our method combines a parametric head model with dynamic Gaussian representations to support multi-view consistent rendering, precise expression control, and seamless background integration. To address editing challenges in point-based representations, we explicitly separate the head and background Gaussians and use pre-trained 2D guidance to optimize the facial region across views. We further introduce a repair module to enhance visual consistency under extreme poses and expressions. Experiments on NeRSemble and additional evaluation videos demonstrate that our method achieves comparable performance to state-of-the-art 2D approaches in identity preservation, as well as pose and expression consistency, while significantly outperforming them in multi-view rendering quality and 3D consistency. Our approach bridges the gap between 3D modeling and deepfake synthesis, enabling new directions for scene-aware, controllable, and immersive visual forgeries, revealing the threat that emerging 3D Gaussian Splatting technique could be used for manipulation attacks.

我们提出了一种基于3D高斯拼贴的新型3D深度伪造生成框架,该框架能够在完全可控的3D空间中进行逼真的身份保留面部交换和重建。与传统的2D深度伪造方法相比,我们的方法克服了几何不一致性和对新型视角的有限泛化能力的问题。它将参数化头部模型与动态高斯表示相结合,支持多视角一致渲染、精确的表情控制和无缝背景集成。为了解决点基表示中的编辑挑战,我们明确地将头部和背景高斯分离,并使用预先训练的2D指导来优化各视角的面部区域。我们还引入了一个修复模块,以提高极端姿势和表情下的视觉一致性。在NeRSemble上的实验和额外的评估视频表明,我们的方法在身份保留、姿势和表情一致性方面达到了最先进水平的2D方法的性能水平,同时在多视角渲染质量和3D一致性方面显著优于它们。我们的方法填补了三维建模和深度伪造合成之间的空白,为场景感知、可控和沉浸式视觉伪造提供了新的方向,揭示了新兴的高斯拼贴技术在操纵攻击中的潜在威胁。

论文及项目相关链接

PDF

Summary
本研究提出了一种基于3D高斯拼贴的新型深度伪造生成框架,可实现全可控的3D空间中真实、身份保留的面部交换和重演。相较于传统的2D深度伪造方法存在的几何不一致性和对新型视角的有限泛化能力,本研究结合参数化头部模型和动态高斯表示,支持多视角一致渲染、精确的表情控制和无缝背景集成。针对点云表示中的编辑挑战,本研究明确区分头部和背景高斯,并使用预训练的2D指导来优化面部区域的跨视角表现。此外,引入修复模块以在极端姿势和表情下增强视觉一致性。实验结果表明,本研究的方法在身份保留、姿势和表情一致性方面达到与最新2D方法相当的性能,同时在多视角渲染质量和3D一致性方面显著优于它们。本研究的方法填补了3D建模和深度伪造合成之间的鸿沟,为场景感知、可控和沉浸式视觉伪造开启了新的方向,揭示了新兴的3D高斯拼贴技术可能用于操纵攻击的风险。

Key Takeaways

  1. 提出了一种基于3D高斯拼贴的新型深度伪造生成框架,用于实现全可控的3D空间中的面部交换和重演。
  2. 结合参数化头部模型和动态高斯表示,支持多视角一致渲染、精确的表情控制及无缝背景集成。
  3. 通过区分头部和背景高斯,优化面部区域的跨视角表现,并引入修复模块增强视觉一致性。
  4. 方法在身份保留、姿势和表情一致性方面表现优异,尤其在多视角渲染质量和3D一致性方面优于现有方法。
  5. 填补了3D建模和深度伪造合成之间的鸿沟,为场景感知、可控和沉浸式视觉伪造提供了新方向。
  6. 提出的方法具有潜在风险,可能被用于操纵攻击等不正当用途。

Cool Papers

点此查看论文截图

Gaussian-Plus-SDF SLAM: High-fidelity 3D Reconstruction at 150+ fps

Authors:Zhexi Peng, Kun Zhou, Tianjia Shao

While recent Gaussian-based SLAM methods achieve photorealistic reconstruction from RGB-D data, their computational performance remains a critical bottleneck. State-of-the-art techniques operate at less than 20 fps, significantly lagging behind geometry-centric approaches like KinectFusion (hundreds of fps). This limitation stems from the heavy computational burden: modeling scenes requires numerous Gaussians and complex iterative optimization to fit RGB-D data, where insufficient Gaussian counts or optimization iterations cause severe quality degradation. To address this, we propose a Gaussian-SDF hybrid representation, combining a colorized Signed Distance Field (SDF) for smooth geometry and appearance with 3D Gaussians to capture underrepresented details. The SDF is efficiently constructed via RGB-D fusion (as in geometry-centric methods), while Gaussians undergo iterative optimization. Our representation enables drastic Gaussian reduction (50% fewer) by avoiding full-scene Gaussian modeling, and efficient Gaussian optimization (75% fewer iterations) through targeted appearance refinement. Building upon this representation, we develop GPS-SLAM (Gaussian-Plus-SDF SLAM), a real-time 3D reconstruction system achieving over 150 fps on real-world Azure Kinect sequences – delivering an order-of-magnitude speedup over state-of-the-art techniques while maintaining comparable reconstruction quality. We will release the source code and data to facilitate future research.

虽然最近的基于高斯SLAM方法可以从RGB-D数据中实现逼真的重建,但其计算性能仍然是一个关键的瓶颈。目前的技术运行速率低于每秒20帧,远远落后于以几何为中心的KinectFusion方法(数百帧每秒)。这种限制源于巨大的计算负担:建模场景需要大量的高斯和复杂的迭代优化以适应RGB-D数据,高斯数量不足或优化迭代不足会导致严重质量下降。为了解决这一问题,我们提出了一种混合高斯-SDF表示法,结合了彩色有符号距离场(SDF)用于平滑几何形状和外观与三维高斯捕捉细节。SDF通过RGB-D融合(如几何中心方法)有效地构建,而高斯则进行迭代优化。我们的表示法通过避免全场景高斯建模实现了高斯数量大幅减少(减少50%),并且通过有针对性的外观改进实现了高斯优化效率提高(迭代次数减少75%)。在此基础上,我们开发了GPS-SLAM(高斯加SDF SLAM),这是一个实时三维重建系统,在真实世界的Azure Kinect序列上实现超过每秒150帧的速率,相对于目前技术实现了数量级的加速,同时保持了相当不错的重建质量。我们将发布源代码和数据以促进未来研究。

论文及项目相关链接

PDF

Summary

基于高斯的SLAM方法能够实现从RGB-D数据的真实感重建,但其计算性能仍是关键瓶颈。最新技术运行速率低于每秒20帧,远远落后于如KinectFusion等以几何为中心的方案(数百帧每秒)。本文提出了一种高斯-SDF混合表示法,结合了彩色化有向距离场(SDF)用于平滑几何和外观与三维高斯捕捉细节。通过RGB-D融合高效地构建SDF,而高斯则通过迭代优化处理。此表示法实现了高斯数量减少一半并有效减少迭代优化次数,提升了重建速度并减少了计算负担。基于该表示法开发了GPS-SLAM系统,实现了实时三维重建,在真实世界Azure Kinect序列上运行速度超过每秒150帧,大幅提高了运行速度并保持相当重建质量。我们将公开源代码和数据以推动未来研究。

Key Takeaways

  • 最新基于高斯的SLAM方法虽然能实现真实感重建,但计算性能仍是瓶颈,运行速率低于每秒20帧。
  • 提出了一种新的高斯-SDF混合表示法,结合了彩色化SDF与三维高斯捕捉细节,提高几何和外观的平滑度。
  • 通过RGB-D融合高效地构建SDF,而高斯则通过迭代优化处理,减少计算负担。
  • 此混合表示法实现了高斯数量减少一半并有效减少迭代优化次数。
  • 基于该混合表示法开发了GPS-SLAM系统,在真实世界Azure Kinect序列上运行速度超过每秒150帧,大幅提升运行速度并保持重建质量。

Cool Papers

点此查看论文截图

ROSGS: Relightable Outdoor Scenes With Gaussian Splatting

Authors:Lianjun Liao, Chunhui Zhang, Tong Wu, Henglei Lv, Bailin Deng, Lin Gao

Image data captured outdoors often exhibit unbounded scenes and unconstrained, varying lighting conditions, making it challenging to decompose them into geometry, reflectance, and illumination. Recent works have focused on achieving this decomposition using Neural Radiance Fields (NeRF) or the 3D Gaussian Splatting (3DGS) representation but remain hindered by two key limitations: the high computational overhead associated with neural networks of NeRF and the use of low-frequency lighting representations, which often result in inefficient rendering and suboptimal relighting accuracy. We propose ROSGS, a two-stage pipeline designed to efficiently reconstruct relightable outdoor scenes using the Gaussian Splatting representation. By leveraging monocular normal priors, ROSGS first reconstructs the scene’s geometry with the compact 2D Gaussian Splatting (2DGS) representation, providing an efficient and accurate geometric foundation. Building upon this reconstructed geometry, ROSGS then decomposes the scene’s texture and lighting through a hybrid lighting model. This model effectively represents typical outdoor lighting by employing a spherical Gaussian function to capture the directional, high-frequency components of sunlight, while learning a radiance transfer function via Spherical Harmonic coefficients to model the remaining low-frequency skylight comprehensively. Both quantitative metrics and qualitative comparisons demonstrate that ROSGS achieves state-of-the-art performance in relighting outdoor scenes and highlight its ability to deliver superior relighting accuracy and rendering efficiency.

户外采集的图像数据通常呈现无边界场景和无约束、多变的照明条件,将其分解为几何、反射和照明具有挑战性。近期的研究工作主要集中在利用神经辐射场(NeRF)或3D高斯喷涂(3DGS)表示法来实现这种分解,但仍受到两个主要限制:与NeRF神经网络相关的高计算开销,以及使用低频光照表示形式,这通常导致渲染效率低下和重照明精度不佳。我们提出ROSGS,这是一个两阶段管道,旨在利用高斯喷涂表示法有效地重建可重新照明的户外场景。ROSGS通过利用单眼法线先验知识,首先使用紧凑的2D高斯喷涂(2DGS)表示法重建场景的几何结构,提供高效且准确的几何基础。在此基础上,ROSGS通过混合光照模型分解场景纹理和照明。该模型通过采用球形高斯函数来捕捉阳光的方向性、高频成分,同时通过学习球面谐波系数来模拟剩余的低频天空光,有效地表示了典型的外光照明。定量指标和定性比较均表明,ROSGS在重新照明户外场景方面达到了最新技术水平,并突出了其提供卓越的重照明精度和渲染效率的能力。

论文及项目相关链接

PDF

Summary

基于户外图像数据难以分解为几何、反射和照明等部分的问题,最新工作通过Neural Radiance Fields(NeRF)或3D Gaussian Splatting(3DGS)进行尝试但仍面临挑战。本研究提出ROSGS方法,通过两阶段管道利用单眼先验进行高效户外场景重建并利用高斯混合模型实现重光照。初步使用紧凑的二维高斯混合模型重建场景几何,再基于此几何结构通过混合照明模型分解场景纹理和照明。该模型采用球面高斯函数捕捉日光的高频方向成分,并用球面谐波系数学习剩余的低频天空光模型。此方法实现了高水平的户外场景重光照效果和渲染效率。

Key Takeaways

  1. 户外图像数据分解面临挑战,包括无界场景、无约束的照明条件等。
  2. 最新方法如NeRF和3DGS在解决此问题上虽有所进展,但仍面临计算量大和低频照明表示等问题。
  3. ROSGS是一种高效重建可重新光照户外场景的两阶段管道。
  4. ROSGS使用单眼先验进行几何重建,采用紧凑的二维高斯混合模型为基础。
  5. 基于重建的几何结构,ROSGS通过混合照明模型分解场景纹理和照明。
  6. ROSGS采用球面高斯函数捕捉日光的高频方向成分。
  7. ROSGS方法在重光照和渲染效率方面达到了最新性能水平。

Cool Papers

点此查看论文截图

SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion

Authors:Zhiwen Yang, Yuxin Peng

Camera-based 3D Semantic Scene Completion (SSC) is a critical task in autonomous driving systems, assessing voxel-level geometry and semantics for holistic scene perception. While existing voxel-based and plane-based SSC methods have achieved considerable progress, they struggle to capture physical regularities for realistic geometric details. On the other hand, neural reconstruction methods like NeRF and 3DGS demonstrate superior physical awareness, but suffer from high computational cost and slow convergence when handling large-scale, complex autonomous driving scenes, leading to inferior semantic accuracy. To address these issues, we propose the Semantic-PHysical Engaged REpresentation (SPHERE) for camera-based SSC, which integrates voxel and Gaussian representations for joint exploitation of semantic and physical information. First, the Semantic-guided Gaussian Initialization (SGI) module leverages dual-branch 3D scene representations to locate focal voxels as anchors to guide efficient Gaussian initialization. Then, the Physical-aware Harmonics Enhancement (PHE) module incorporates semantic spherical harmonics to model physical-aware contextual details and promote semantic-geometry consistency through focal distribution alignment, generating SSC results with realistic details. Extensive experiments and analyses on the popular SemanticKITTI and SSCBench-KITTI-360 benchmarks validate the effectiveness of SPHERE. The code is available at https://github.com/PKU-ICST-MIPL/SPHERE_ACMMM2025.

基于相机的三维语义场景补全(SSC)是自动驾驶系统中的一项关键任务,它评估体素级几何和语义信息以实现整体场景感知。虽然现有的基于体素和基于平面的SSC方法已经取得了很大的进展,但它们在捕捉物理规律以呈现逼真的几何细节方面遇到了困难。另一方面,像NeRF和3DGS这样的神经重建方法表现出卓越的物理感知能力,但在处理大规模、复杂的自动驾驶场景时,其计算成本高昂且收敛缓慢,导致语义准确性较低。为了解决这些问题,我们提出了用于基于相机的SSC的语义物理参与表示(SPHERE),它结合了体素和高斯表示,以联合利用语义和物理信息。首先,语义引导高斯初始化(SGI)模块利用双分支三维场景表示来确定关键体素作为锚点来引导高效的高斯初始化。然后,物理感知谐波增强(PHE)模块结合语义球面谐波来模拟物理感知的上下文细节,并通过焦点分布对齐来促进语义几何一致性,生成具有逼真细节的SSC结果。在流行的SemanticKITTI和SSCBench-KITTI-360基准测试上的大量实验和分析验证了SPHERE的有效性。代码可在https://github.com/PKU-ICST-MIPL/SPHERE_ACMMM2025上找到。

论文及项目相关链接

PDF 10 pages, 6 figures

Summary

本文提出一种用于相机基底的3D语义场景完成(SSC)的Semantic-PHysical Engaged REpresentation(SPHERE)方法。该方法结合体素和高斯表示,共同利用语义和物理信息。通过Semantic-guided Gaussian Initialization(SGI)模块定位关键体素作为锚点引导高效高斯初始化,并利用Physical-aware Harmonics Enhancement(PHE)模块结合语义球面谐波来建模具有物理意识的上下文细节,生成具有真实细节的SSC结果。在流行的SemanticKITTI和SSCBench-KITTI-360基准测试中验证了SPHERE的有效性。

Key Takeaways

  1. 相机基底的3D语义场景完成(SSC)是自主驾驶系统中的一项重要任务,涉及对整个场景进行像素级别的几何和语义分析。
  2. 现有方法如基于体素和基于平面的SSC方法在捕捉真实几何细节的物理规律方面存在困难。
  3. 神经重建方法如NeRF和3DGS具有出色的物理感知能力,但在处理大规模、复杂的自主驾驶场景时计算成本高昂、收敛缓慢,导致语义精度不高。
  4. 提出的SPHERE方法结合体素和高斯表示,旨在解决上述问题,同时利用语义和物理信息。
  5. SGI模块通过双分支3D场景表示定位关键体素作为锚点,引导高效高斯初始化。
  6. PHE模块结合语义球面谐波来建模物理感知的上下文细节,并通过焦点分布对齐促进语义-几何一致性,生成具有真实细节的SSC结果。

Cool Papers

点此查看论文截图

AD-GS: Alternating Densification for Sparse-Input 3D Gaussian Splatting

Authors:Gurutva Patle, Nilay Girgaonkar, Nagabhushan Somraj, Rajiv Soundararajan

3D Gaussian Splatting (3DGS) has shown impressive results in real-time novel view synthesis. However, it often struggles under sparse-view settings, producing undesirable artifacts such as floaters, inaccurate geometry, and overfitting due to limited observations. We find that a key contributing factor is uncontrolled densification, where adding Gaussian primitives rapidly without guidance can harm geometry and cause artifacts. We propose AD-GS, a novel alternating densification framework that interleaves high and low densification phases. During high densification, the model densifies aggressively, followed by photometric loss based training to capture fine-grained scene details. Low densification then primarily involves aggressive opacity pruning of Gaussians followed by regularizing their geometry through pseudo-view consistency and edge-aware depth smoothness. This alternating approach helps reduce overfitting by carefully controlling model capacity growth while progressively refining the scene representation. Extensive experiments on challenging datasets demonstrate that AD-GS significantly improves rendering quality and geometric consistency compared to existing methods.

3D高斯混合技术(3DGS)在实时新颖视角合成方面取得了令人印象深刻的结果。然而,在稀疏视角设置下,它经常面临挑战,产生诸如浮动、几何不准确和由于观察有限而造成的过度拟合等不想要的人工制品。我们发现,一个关键的贡献因素是未控制的稠密化,其中在没有指导的情况下快速添加高斯基本体可能会损害几何结构并产生人工制品。我们提出了AD-GS,这是一种新型交替稠密化框架,交替进行高稠密化和低稠密化阶段。在高稠密化期间,模型进行激烈稠密化,随后通过基于光度损失的训练来捕捉场景的细节。低稠密化主要涉及高斯体的激进透明度修剪,然后通过伪视图一致性和边缘感知深度平滑对其进行几何正则化。这种交替方法通过仔细控制模型容量增长,在逐步优化场景表示的同时,有助于减少过度拟合。在具有挑战性的数据集上的大量实验表明,与现有方法相比,AD-GS在渲染质量和几何一致性方面显著提高。

论文及项目相关链接

PDF SIGGRAPH Asia 2025

Summary

实时三维场景重建中,高斯平滑技术(3DGS)展现出优秀的性能,但在稀疏视图环境下会出现漂浮物、几何失真和过拟合等问题。为解决这些问题,我们提出了交替密度化框架AD-GS,通过交替进行高密度化和低密度化处理,结合光度损失训练捕捉精细场景细节和正则化几何信息的方式实现。此方式提高了场景表示质量并减少过拟合现象。

Key Takeaways

  • 3DGS在实时新视角合成中表现出优异结果。
  • 在稀疏视图环境下,现有方法可能产生浮体、几何失真和过拟合等不期望的伪影。
  • AD-GS是一种交替密度化框架,旨在解决上述问题。
  • 高密度化阶段主要通过积极添加高斯基元来捕获精细场景细节。
  • 低密度化阶段涉及修剪冗余基元和正则化几何信息。
  • 通过交替高密度化和低密度化处理,AD-GS能够控制模型容量增长并逐步提高场景表示质量。

Cool Papers

点此查看论文截图

T2Bs: Text-to-Character Blendshapes via Video Generation

Authors:Jiahao Luo, Chaoyang Wang, Michael Vasilkovsky, Vladislav Shakhrai, Di Liu, Peiye Zhuang, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee, James Davis, Jian Wang

We present T2Bs, a framework for generating high-quality, animatable character head morphable models from text by combining static text-to-3D generation with video diffusion. Text-to-3D models produce detailed static geometry but lack motion synthesis, while video diffusion models generate motion with temporal and multi-view geometric inconsistencies. T2Bs bridges this gap by leveraging deformable 3D Gaussian splatting to align static 3D assets with video outputs. By constraining motion with static geometry and employing a view-dependent deformation MLP, T2Bs (i) outperforms existing 4D generation methods in accuracy and expressiveness while reducing video artifacts and view inconsistencies, and (ii) reconstructs smooth, coherent, fully registered 3D geometries designed to scale for building morphable models with diverse, realistic facial motions. This enables synthesizing expressive, animatable character heads that surpass current 4D generation techniques.

我们提出了T2Bs框架,它通过结合静态文本到3D生成和视频扩散技术,从文本生成高质量的可动画角色头部可变形模型。文本到3D模型可以生成详细的静态几何结构,但缺乏运动合成,而视频扩散模型则会产生具有时间和多视角几何不一致的运动。T2Bs通过利用可变形的3D高斯贴片技术,将静态3D资产与视频输出对齐,从而弥补了这一差距。通过用静态几何结构约束运动,并采用视图相关变形MLP,T2Bs(i)在准确性和表现力方面优于现有的4D生成方法,同时减少了视频伪影和视角不一致性;(ii)重建了平滑、连贯、完全注册的3D几何结构,旨在构建具有多样化和现实面部运动的可变形模型。这能够合成表达力强、可动画的角色头部,超越了当前的4D生成技术。

论文及项目相关链接

PDF

Summary

本文介绍了T2Bs框架,它通过结合静态文本到三维生成技术与视频扩散技术,实现了从文本生成高质量、可动画的人物头部可变形模型。该框架弥补了文本到三维模型在动作合成上的不足,以及视频扩散模型在时间和多视角几何不一致的问题。T2Bs利用可变形三维高斯喷绘技术,将静态三维资产与视频输出对齐。通过约束动作与静态几何,并依赖视角变形MLP,T2Bs在准确性和表现力上超越了现有4D生成方法,同时减少了视频伪影和视角不一致问题,重建了平滑、连贯、全面注册的三维几何结构,为构建具有多样化和现实感面部动作的可变形模型提供了可扩展的解决方案。这实现了合成具有表现力、可动画的人物头部,超越了当前的4D生成技术。

Key Takeaways

  1. T2Bs框架结合了静态文本到三维生成与视频扩散技术。
  2. 文本到三维模型在动作合成上有不足,视频扩散模型存在时间和多视角几何不一致问题。
  3. T2Bs利用可变形三维高斯喷绘技术对齐静态三维资产与视频输出。
  4. 通过约束动作与静态几何,T2Bs提高了准确性和表现力。
  5. T2Bs减少了视频伪影和视角不一致问题。
  6. T2Bs重建了平滑、连贯、全面注册的三维几何结构。

Cool Papers

点此查看论文截图

Real-time Photorealistic Mapping for Situational Awareness in Robot Teleoperation

Authors:Ian Page, Pierre Susbielle, Olivier Aycard, Pierre-Brice Wieber

Achieving efficient remote teleoperation is particularly challenging in unknown environments, as the teleoperator must rapidly build an understanding of the site’s layout. Online 3D mapping is a proven strategy to tackle this challenge, as it enables the teleoperator to progressively explore the site from multiple perspectives. However, traditional online map-based teleoperation systems struggle to generate visually accurate 3D maps in real-time due to the high computational cost involved, leading to poor teleoperation performances. In this work, we propose a solution to improve teleoperation efficiency in unknown environments. Our approach proposes a novel, modular and efficient GPU-based integration between recent advancement in gaussian splatting SLAM and existing online map-based teleoperation systems. We compare the proposed solution against state-of-the-art teleoperation systems and validate its performances through real-world experiments using an aerial vehicle. The results show significant improvements in decision-making speed and more accurate interaction with the environment, leading to greater teleoperation efficiency. In doing so, our system enhances remote teleoperation by seamlessly integrating photorealistic mapping generation with real-time performances, enabling effective teleoperation in unfamiliar environments.

在实现未知环境的远程遥控操作时,达到高效率是一项特别具有挑战性的任务,因为遥控操作员必须迅速了解站点的布局。在线三维映射是应对这一挑战的一种经过验证的策略,因为它能够让操作员从多个角度逐步探索站点。然而,传统的基于在线地图的遥控系统由于涉及的计算成本较高,难以在实时生成视觉准确的三维地图,从而导致遥控操作性能不佳。在这项工作中,我们提出了一种提高未知环境中遥控操作效率的方法。我们的方法提出了一种新颖、模块化且高效的基于GPU的集成方案,该方案结合了高斯Splatting SLAM的最新进展和现有的基于在线地图的遥控系统。我们将所提解决方案与最先进的遥控操作系统进行了比较,并通过使用航空器的真实世界实验验证了其性能。结果表明,决策制定速度显著提高,与环境的交互更为准确,从而提高了遥控操作的效率。通过这种方式,我们的系统通过无缝集成逼真的映射生成与实时性能,有效提高了在陌生环境中的遥控操作效果。

论文及项目相关链接

PDF

Summary
在未知环境中实现高效的远程遥控操作具有挑战性,需迅速理解场地布局。在线3D地图是一种应对挑战的有效策略,它能使操作者从不同角度逐步探索场地。然而,传统的基于地图的远程遥控操作系统难以实时生成视觉准确的3D地图,导致操作性能不佳。本研究提出了一种解决方案,该方案将最新发展的高斯映射SLAM技术与现有在线地图遥控操作系统结合,形成高效模块化、基于GPU的集成系统。对比现有先进遥控操作系统并通过无人机进行真实实验验证,结果显示该方案提高了决策速度和与环境的交互准确性,从而提高了操作效率。此系统通过无缝集成真实地图生成与实时性能,增强了在不熟悉环境中的有效遥控操作。

Key Takeaways

  1. 在未知环境中实现高效远程遥控操作需要快速理解场地布局。
  2. 在线3D地图是应对这一挑战的有效策略,能助力操作者逐步探索场地。
  3. 传统基于地图的远程遥控操作系统难以实时生成视觉准确的3D地图。
  4. 本研究提出了一种结合高斯映射SLAM技术与现有在线地图遥控操作系统的解决方案。
  5. 该方案实现了模块化、基于GPU的高效集成系统。
  6. 对比实验显示,该方案提高了决策速度和与环境的交互准确性。

Cool Papers

点此查看论文截图

Occlusion-Aware Temporally Consistent Amodal Completion for 3D Human-Object Interaction Reconstruction

Authors:Hyungjun Doh, Dong In Lee, Seunggeun Chi, Pin-Hao Huang, Kwonjoon Lee, Sangpil Kim, Karthik Ramani

We introduce a novel framework for reconstructing dynamic human-object interactions from monocular video that overcomes challenges associated with occlusions and temporal inconsistencies. Traditional 3D reconstruction methods typically assume static objects or full visibility of dynamic subjects, leading to degraded performance when these assumptions are violated-particularly in scenarios where mutual occlusions occur. To address this, our framework leverages amodal completion to infer the complete structure of partially obscured regions. Unlike conventional approaches that operate on individual frames, our method integrates temporal context, enforcing coherence across video sequences to incrementally refine and stabilize reconstructions. This template-free strategy adapts to varying conditions without relying on predefined models, significantly enhancing the recovery of intricate details in dynamic scenes. We validate our approach using 3D Gaussian Splatting on challenging monocular videos, demonstrating superior precision in handling occlusions and maintaining temporal stability compared to existing techniques.

我们提出了一种新的从单目视频中重建动态人机交互的框架,该框架克服了与遮挡和时间不一致相关的挑战。传统的3D重建方法通常假设物体是静态的或被摄主体完全可见,当这些假设不成立时,特别是在发生相互遮挡的场景中,会导致性能下降。为了解决这一问题,我们的框架利用模态完成法来推断部分遮挡区域的完整结构。与在单个帧上运行的传统方法不同,我们的方法结合了时间上下文,强制视频序列之间的连贯性,以逐步改进和稳定重建。这种无模板的策略适应各种条件,不依赖预先定义的模型,显著提高了动态场景中细节的恢复。我们使用具有挑战性的单目视频对基于高斯的三维平铺验证了我们的方法,与现有技术相比,在处理遮挡和保持时间稳定性方面表现出更高的精度。

论文及项目相关链接

PDF ACM MM 2025

Summary

本文介绍了一种从单目视频中重建动态人机交互的新型框架,该框架克服了与遮挡和时序不一致相关的挑战。传统3D重建方法通常假设物体静态或动态主体完全可见,当这些假设不成立时,特别是在相互遮挡的场景中,性能会下降。为解决这一问题,我们的框架利用模态完成法推断部分遮挡区域的整体结构。与其他只在单个帧上操作的方法不同,我们的方法结合了时间上下文,强制视频序列之间的连贯性,以逐步精细和调整重建。这种无模板的策略适应各种条件,而不依赖于预定义模型,显著提高了动态场景中细节的恢复能力。

Key Takeaways

  1. 新型框架能从单目视频中重建动态人机交互。
  2. 框架克服了遮挡和时序不一致的挑战。
  3. 传统3D重建方法在假设不成立时性能下降。
  4. 利用模态完成法推断部分遮挡区域的整体结构。
  5. 与只在单个帧上操作的方法不同,该框架结合了时间上下文。
  6. 框架强制视频序列之间的连贯性,以逐步精细和调整重建。

Cool Papers

点此查看论文截图

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

Authors:Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai

We introduce AnySplat, a feed forward network for novel view synthesis from uncalibrated image collections. In contrast to traditional neural rendering pipelines that demand known camera poses and per scene optimization, or recent feed forward methods that buckle under the computational weight of dense views, our model predicts everything in one shot. A single forward pass yields a set of 3D Gaussian primitives encoding both scene geometry and appearance, and the corresponding camera intrinsics and extrinsics for each input image. This unified design scales effortlessly to casually captured, multi view datasets without any pose annotations. In extensive zero shot evaluations, AnySplat matches the quality of pose aware baselines in both sparse and dense view scenarios while surpassing existing pose free approaches. Moreover, it greatly reduce rendering latency compared to optimization based neural fields, bringing real time novel view synthesis within reach for unconstrained capture settings.Project page: https://city-super.github.io/anysplat/

我们介绍了AnySplat,这是一个从未校准的图像集合中合成新型视角的前馈网络。与传统的需要已知相机姿态和场景优化的神经渲染管道,或最近在密集视角的计算重量下而屈服的前馈方法相比,我们的模型可以在一次操作中预测所有内容。单次前向传递会产生一组编码场景几何和外观的3D高斯基本体,以及每个输入图像的相应相机内部和外部参数。这种统一的设计可以轻松扩展到随意捕获的多视角数据集,无需任何姿态注释。在广泛的零样本评估中,AnySplat在稀疏和密集视角场景中均能达到姿态感知基准的质量,同时超越了现有的无姿态方法。此外,与基于优化的神经场相比,它极大地减少了渲染延迟,使得在不受约束的捕获设置中实时合成新型视角成为可能。项目页面:https://city-super.github.io/anysplat/

论文及项目相关链接

PDF Project page: https://city-super.github.io/anysplat/

Summary

AnySplat是一种基于前馈网络的新型视图合成方法,适用于从未校准的图像集合中进行合成。相较于传统神经渲染管线需要已知相机姿态和场景优化,以及最新因密集视图计算重量过大而表现不佳的前馈方法,AnySplat模型可一次性预测所有内容。单次前馈传递就能产生一组编码场景几何形状和外观的3D高斯原始数据,以及对应输入图像的相机内部参数和外部参数。这种统一设计能够轻松扩展到随意拍摄的多视角数据集,无需任何姿态标注。在零视角评估中,AnySplat在稀疏和密集视图场景中达到了姿态感知基准测试的质量水平,同时超越了现有的无姿态方法。此外,相较于基于优化的神经网络场,它大大减少了渲染延迟,为无约束捕捉设置带来了实时的新型视图合成的可能性。

Key Takeaways

  1. AnySplat是一个基于前馈网络的新型视图合成方法。
  2. 它适用于从未校准的图像集合中进行合成。
  3. AnySplat模型可一次性预测场景几何、外观以及相机参数。
  4. 该模型能够轻松处理多视角数据集,无需任何姿态标注。
  5. AnySplat在质量上达到了姿态感知基准测试的水平。
  6. 与其他方法相比,AnySplat大大减少了渲染延迟。
  7. AnySplat为实时新型视图合成带来了可能性,特别是在无约束的捕捉设置下。

Cool Papers

点此查看论文截图

Tool-as-Interface: Learning Robot Policies from Observing Human Tool Use

Authors:Haonan Chen, Cheng Zhu, Shuijing Liu, Yunzhu Li, Katherine Driggs-Campbell

Tool use is essential for enabling robots to perform complex real-world tasks, but learning such skills requires extensive datasets. While teleoperation is widely used, it is slow, delay-sensitive, and poorly suited for dynamic tasks. In contrast, human videos provide a natural way for data collection without specialized hardware, though they pose challenges on robot learning due to viewpoint variations and embodiment gaps. To address these challenges, we propose a framework that transfers tool-use knowledge from humans to robots. To improve the policy’s robustness to viewpoint variations, we use two RGB cameras to reconstruct 3D scenes and apply Gaussian splatting for novel view synthesis. We reduce the embodiment gap using segmented observations and tool-centric, task-space actions to achieve embodiment-invariant visuomotor policy learning. We demonstrate our framework’s effectiveness across a diverse suite of tool-use tasks, where our learned policy shows strong generalization and robustness to human perturbations, camera motion, and robot base movement. Our method achieves a 71% improvement in task success over teleoperation-based diffusion policies and dramatically reduces data collection time by 77% and 41% compared to teleoperation and the state-of-the-art interface, respectively.

工具使用对于机器人执行复杂的现实世界任务至关重要,但学习此类技能需要大量的数据集。虽然遥操作被广泛使用,但它速度慢、对延迟敏感,且不适合动态任务。相比之下,人类视频为没有专用硬件的数据收集提供了一种自然的方式,但由于视角变化和实体差距,它们给机器人学习带来了挑战。为了解决这些挑战,我们提出了一个人类到机器人的工具使用知识转移框架。为了改善策略对视角变化的稳健性,我们使用两个RGB相机重建3D场景,并应用高斯喷绘进行新颖视角合成。我们使用分段观察和以工具为中心的任务空间动作来减少实体差距,以实现与实体无关的视触觉策略学习。我们在一系列多样化的工具使用任务中展示了我们的框架的有效性,其中我们的学习策略对人类扰动、相机运动和机器人基础运动表现出强大的泛化和稳健性。我们的方法在任务成功方面实现了与基于遥操作的扩散策略相比的77%改进,与遥操作和最新界面相比,分别将数据采集时间减少了77%和41%。

论文及项目相关链接

PDF Accepted to CoRL 2025. Project page: https://tool-as-interface.github.io. 17 pages, 14 figures

Summary

本文提出一种从人类向机器人转移工具使用知识的框架,解决机器人在复杂现实任务中工具使用学习的问题。该框架通过两个RGB相机重建三维场景、应用高斯喷射法来增强策略对视角变化的稳健性,并利用分段观察和任务空间动作减少实体化差距,实现身体视觉策略学习。此框架在多工具使用任务上展现出强泛化和稳健性。与基于遥操作的数据策略相比,任务成功率提高了71%,数据收集时间分别减少了77%和41%。

Key Takeaways

  1. 机器人执行复杂现实任务需要工具使用技能的学习,这需要大量的数据集。
  2. 遥操作是机器人学习的一种常见方法,但它存在速度慢、对延迟敏感以及不适合动态任务的问题。
  3. 人类视频为机器人学习提供了自然的数据收集方式,无需特殊硬件。
  4. 视角变化和实体化差距是机器人学习中的挑战。
  5. 提出的框架实现了从人类到机器人的工具使用知识转移。
  6. 通过两个RGB相机重建三维场景、应用高斯喷射法,增强了策略对视角变化的稳健性。

Cool Papers

点此查看论文截图

UnIRe: Unsupervised Instance Decomposition for Dynamic Urban Scene Reconstruction

Authors:Yunxuan Mao, Rong Xiong, Yue Wang, Yiyi Liao

Reconstructing and decomposing dynamic urban scenes is crucial for autonomous driving, urban planning, and scene editing. However, existing methods fail to perform instance-aware decomposition without manual annotations, which is crucial for instance-level scene editing.We propose UnIRe, a 3D Gaussian Splatting (3DGS) based approach that decomposes a scene into a static background and individual dynamic instances using only RGB images and LiDAR point clouds. At its core, we introduce 4D superpoints, a novel representation that clusters multi-frame LiDAR points in 4D space, enabling unsupervised instance separation based on spatiotemporal correlations. These 4D superpoints serve as the foundation for our decomposed 4D initialization, i.e., providing spatial and temporal initialization to train a dynamic 3DGS for arbitrary dynamic classes without requiring bounding boxes or object templates.Furthermore, we introduce a smoothness regularization strategy in both 2D and 3D space, further improving the temporal stability.Experiments on benchmark datasets show that our method outperforms existing methods in decomposed dynamic scene reconstruction while enabling accurate and flexible instance-level editing, making it a practical solution for real-world applications.

重建和分解动态城市场景对于自动驾驶、城市规划和场景编辑至关重要。然而,现有方法无法执行无需手动注释的实例感知分解,这对于实例级场景编辑至关重要。我们提出了UnIRe,这是一种基于3D高斯喷溅(3DGS)的方法,它仅使用RGB图像和激光雷达点云将场景分解为静态背景和单个动态实例。我们的核心思想是引入4D超点,这是一种新颖的表示方法,可以在4D空间中聚集多帧激光雷达点,基于时空相关性实现无监督实例分离。这些4D超点为我们分解的4D初始化提供了基础,即为空间和时间的初始化,以训练动态3DGS,而无需边界框或对象模板。此外,我们在2D和3D空间中引入了平滑正则化策略,进一步提高了时间稳定性。在基准数据集上的实验表明,我们的方法在分解动态场景重建方面优于现有方法,同时实现了精确灵活的实例级编辑,使其成为现实世界应用的实用解决方案。

论文及项目相关链接

PDF

Summary

本文介绍了基于三维高斯点云(3DGS)的UnIRe方法,用于重建和分解动态城市场景。该方法采用RGB图像和激光雷达点云数据,实现无需手动标注的实例感知分解。通过引入四维超点(4D superpoints)表示,将激光雷达点云在四维时空进行聚类,为动态实例分割提供时空基础。结合平滑正则化策略,在二维和三维空间中提高时间稳定性。实验表明,该方法在动态场景重建中表现优异,可实现精确灵活的实例级编辑,适用于实际应用。

Key Takeaways

  1. UnIRe方法利用三维高斯点云(3DGS)技术重建和分解动态城市场景。
  2. 通过结合RGB图像和激光雷达点云数据,实现实例感知分解,无需手动标注。
  3. 引入四维超点(4D superpoints)表示,实现基于时空关联的实例分割。
  4. 四维超点为基础进行分解四维初始化,为动态三维高斯点云提供时空初始化,无需边界框或对象模板。
  5. 结合二维和三维空间的平滑正则化策略,提高时间稳定性。
  6. 实验结果表明,UnIRe方法在动态场景重建中表现优异,实现了精确灵活的实例级编辑。

Cool Papers

点此查看论文截图

Motion Blender Gaussian Splatting for Dynamic Scene Reconstruction

Authors:Xinyu Zhang, Haonan Chang, Yuhan Liu, Abdeslam Boularias

Gaussian splatting has emerged as a powerful tool for high-fidelity reconstruction of dynamic scenes. However, existing methods primarily rely on implicit motion representations, such as encoding motions into neural networks or per-Gaussian parameters, which makes it difficult to further manipulate the reconstructed motions. This lack of explicit controllability limits existing methods to replaying recorded motions only, which hinders a wider application in robotics. To address this, we propose Motion Blender Gaussian Splatting (MBGS), a novel framework that uses motion graphs as an explicit and sparse motion representation. The motion of a graph’s links is propagated to individual Gaussians via dual quaternion skinning, with learnable weight painting functions that determine the influence of each link. The motion graphs and 3D Gaussians are jointly optimized from input videos via differentiable rendering. Experiments show that MBGS achieves state-of-the-art performance on the highly challenging iPhone dataset while being competitive on HyperNeRF. We demonstrate the application potential of our method in animating novel object poses, synthesizing real robot demonstrations, and predicting robot actions through visual planning. The source code, models, video demonstrations can be found at http://mlzxy.github.io/motion-blender-gs.

高斯混合法已经成为重建动态场景的高保真工具。然而,现有的方法主要依赖于隐式运动表示,如将运动编码到神经网络或每个高斯参数中,这使得进一步操纵重建运动变得困难。这种缺乏明确的可控性限制了现有方法只能回放记录的运动,阻碍了其在机器人技术中的更广泛应用。为解决这一问题,我们提出了运动混合高斯混合法(MBGS),这是一种使用运动图作为明确和稀疏运动表示的新型框架。图链接的运动通过双四元数蒙皮传播到各个高斯分布中,可学习的权重绘制函数决定了每个链接的影响。运动图和三维高斯分布通过可微分渲染从输入视频中进行联合优化。实验表明,MBGS在极具挑战性的iPhone数据集上达到了最先进的性能,同时在HyperNeRF上表现具有竞争力。我们展示了我们的方法在动画新物体姿态、合成真实机器人演示以及通过视觉规划预测机器人动作方面的应用潜力。源代码、模型和视频演示可在http://mlzxy.github.io/motion-blender-gs找到。

论文及项目相关链接

PDF CoRL 2025

Summary

高斯混合技术已成为重建动态场景的高保真工具。然而,现有方法主要依赖隐式运动表示,如将运动编码到神经网络或每个高斯参数中,这使得难以进一步操纵重建的运动。这种缺乏显式可控性的限制使得现有方法仅限于回放记录的运动,阻碍了其在机器人技术中的更广泛应用。为解决此问题,我们提出使用运动图作为显式且稀疏的运动表示的全新框架——Motion Blender Gaussian Splatting(MBGS)。图链接的运动通过双重四元数蒙皮传播到各个高斯分布,并通过可学习的权重绘制函数确定每个链接的影响。运动图和3D高斯分布通过可微分渲染从输入视频联合优化。实验表明,MBGS在极具挑战性的iPhone数据集上实现了最佳性能,同时在HyperNeRF上表现出竞争力。我们在动画新颖物体姿态、合成真实机器人演示以及通过视觉规划预测机器人动作方面的应用潜力进行了展示。有关源码、模型和演示视频可见网站链接[网站地址]。

Key Takeaways

  1. 高斯混合技术已成为重建动态场景的重要工具,但现有方法在运动控制方面存在局限性。
  2. 提出了一种新的方法MBGS,使用运动图作为显式且稀疏的运动表示。
  3. 通过双重四元数蒙皮将运动图的链接运动传播到高斯分布。
  4. MBGS通过可学习的权重绘制函数确定链接的影响。
  5. 运动图和3D高斯分布通过可微分渲染联合优化。
  6. MBGS在iPhone数据集上实现了最佳性能,同时在HyperNeRF上具有竞争力。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
NeRF NeRF
NeRF 方向最新论文已更新,请持续关注 Update in 2025-09-17 Sphere-GAN a GAN-based Approach for Saliency Estimation in 360° Videos
2025-09-17
下一篇 
元宇宙/虚拟人 元宇宙/虚拟人
元宇宙/虚拟人 方向最新论文已更新,请持续关注 Update in 2025-09-17 Avat3r Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars
  目录