嘘~ 正在从服务器偷取页面 . . .

3DGS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-16 更新

Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision

Authors:Yu Deng, Baozhu Zhao, Junyan Su, Xiaohan Zhang, Qi Liu

Three-dimensional reconstruction in scenes with extreme depth variations remains challenging due to inconsistent supervisory signals between near-field and far-field regions. Existing methods fail to simultaneously address inaccurate depth estimation in distant areas and structural degradation in close-range regions. This paper proposes a novel computational framework that integrates depth-of-field supervision and multi-view consistency supervision to advance 3D Gaussian Splatting. Our approach comprises two core components: (1) Depth-of-field Supervision employs a scale-recovered monocular depth estimator (e.g., Metric3D) to generate depth priors, leverages defocus convolution to synthesize physically accurate defocused images, and enforces geometric consistency through a novel depth-of-field loss, thereby enhancing depth fidelity in both far-field and near-field regions; (2) Multi-View Consistency Supervision employing LoFTR-based semi-dense feature matching to minimize cross-view geometric errors and enforce depth consistency via least squares optimization of reliable matched points. By unifying defocus physics with multi-view geometric constraints, our method achieves superior depth fidelity, demonstrating a 0.8 dB PSNR improvement over the state-of-the-art method on the Waymo Open Dataset. This framework bridges physical imaging principles and learning-based depth regularization, offering a scalable solution for complex depth stratification in urban environments.

在深度变化极端的场景中,三维重建仍然是一个挑战,因为近场和远场区域之间的监督信号不一致。现有方法无法同时解决远距离深度估计不准确和近距离区域结构退化的问题。本文提出了一种新的计算框架,将视场深度监督和多视角一致性监督相结合,以促进3D高斯拼贴技术。我们的方法包括两个核心组件:(1)视场深度监督采用尺度恢复的单目深度估计器(例如Metric3D)来生成深度先验,利用散焦卷积合成物理准确的散焦图像,并通过新型的视场深度损失来强制执行几何一致性,从而提高远场和近场区域的深度保真度;(2)多视角一致性监督采用基于LoFTR的半密集特征匹配来最小化跨视角的几何误差,并通过可靠的匹配点的最小二乘优化来强制执行深度一致性。通过将散焦物理与多视角几何约束相结合,我们的方法实现了卓越的深度保真度,在Waymo Open数据集上较现有技术提高了0.8 dB的PSNR。该框架结合了物理成像原理和基于学习的深度正则化,为城市环境中复杂的深度分层提供了可扩展的解决方案。

论文及项目相关链接

PDF

Summary

本文提出了一种结合景深监督和多视角一致性监督的新型计算框架,用于改进3D高斯拼贴技术。该框架包含两个核心组件:景深监督通过尺度恢复的单目深度估计器生成深度先验,利用散焦卷积合成物理准确的散焦图像,并通过新的景深损失增强远近场景的深度保真度;多视角一致性监督则采用基于LoFTR的半密集特征匹配,减少跨视角的几何误差,并通过可靠的匹配点进行最小二乘优化,以加强深度一致性。此方法融合了散焦物理和多视角几何约束,实现了更高的深度保真度。

Key Takeaways

  1. 该论文针对场景深度变化极大的情况提出了一个新型计算框架,解决了近场和远场区域之间监督信号不一致的问题。
  2. 框架包含景深监督和多视角一致性监督两个核心组件,旨在解决远距离区域的深度估计不准确和近距离区域的结构退化问题。
  3. 框架采用尺度恢复的单目深度估计器生成深度先验,并结合散焦卷积技术提高深度保真度。
  4. 通过景深损失,该框架能够增强在远近场景中的深度表现。
  5. 多视角一致性监督采用基于LoFTR的半密集特征匹配技术,减少了跨视角的几何误差,增强了深度一致性。
  6. 该方法结合了散焦物理和多视角几何约束,实现了更精确的深度估计。

Cool Papers

点此查看论文截图

Multivariate Gaussian Representation Learning for Medical Action Evaluation

Authors:Luming Yang, Haoxian Liu, Siqing Li, Alper Yilmaz

Fine-grained action evaluation in medical vision faces unique challenges due to the unavailability of comprehensive datasets, stringent precision requirements, and insufficient spatiotemporal dynamic modeling of very rapid actions. To support development and evaluation, we introduce CPREval-6k, a multi-view, multi-label medical action benchmark containing 6,372 expert-annotated videos with 22 clinical labels. Using this dataset, we present GaussMedAct, a multivariate Gaussian encoding framework, to advance medical motion analysis through adaptive spatiotemporal representation learning. Multivariate Gaussian Representation projects the joint motions to a temporally scaled multi-dimensional space, and decomposes actions into adaptive 3D Gaussians that serve as tokens. These tokens preserve motion semantics through anisotropic covariance modeling while maintaining robustness to spatiotemporal noise. Hybrid Spatial Encoding, employing a Cartesian and Vector dual-stream strategy, effectively utilizes skeletal information in the form of joint and bone features. The proposed method achieves 92.1% Top-1 accuracy with real-time inference on the benchmark, outperforming the ST-GCN baseline by +5.9% accuracy with only 10% FLOPs. Cross-dataset experiments confirm the superiority of our method in robustness.

医疗视觉中的精细动作评估面临着独特的挑战,这是由于缺乏综合数据集、严格的精度要求以及对非常快速动作的时空动态建模不足所导致的。为了支持和评估,我们引入了CPREval-6k,这是一个多视角、多标签的医疗动作基准测试,包含6372个专家标注的视频,带有22个临床标签。使用该数据集,我们提出了GaussMedAct,这是一个多元高斯编码框架,通过自适应时空表征学习,推动医疗运动分析的发展。多元高斯表示法将联合运动投射到时间尺度化的多维空间中,并将动作分解为自适应的3D高斯函数,作为令牌。这些令牌通过各向异性协方差建模保留运动语义,同时保持对时空噪声的鲁棒性。混合空间编码采用笛卡尔和矢量双流策略,有效利用关节和骨骼特征形式的骨骼信息。所提出的方法在基准测试上实现了实时推理的92.1% Top-1准确率,相较于ST-GCN基线方法,仅使用10%的FLOPs就提高了5.9%的准确率。跨数据集实验证实了我们方法在鲁棒性方面的优越性。

论文及项目相关链接

PDF Accepted to AAAI 2026

Summary
引入CPREval-6k医疗动作基准测试集,包含6372个专家标注的视频,用于医疗动作分析。提出GaussMedAct框架,利用多元高斯编码进行自适应时空表征学习,实现医疗动作分析性能提升。

Key Takeaways

  1. 引入CPREval-6k数据集,包含高质量医疗动作视频,用于动作评估研究。
  2. GaussMedAct框架被提出,采用多元高斯编码进行医疗动作分析。
  3. 多元高斯表示将联合运动投影到时间尺度多维空间,并通过自适应3D高斯分解动作。
  4. 高斯令牌能保留运动语义,通过各向异性协方差建模维持对时空噪声的稳健性。
  5. 混合空间编码策略有效运用骨架信息,采用笛卡尔和向量双流策略。
  6. 在基准测试集上实现92.1%的top-1准确率,实时推理,较ST-GCN基线有5.9%的准确率提升,且计算量仅增加10%。

Cool Papers

点此查看论文截图

TSPE-GS: Probabilistic Depth Extraction for Semi-Transparent Surface Reconstruction via 3D Gaussian Splatting

Authors:Zhiyuan Xu, Nan Min, Yuhang Guo, Tong Wei

3D Gaussian Splatting offers a strong speed-quality trade-off but struggles to reconstruct semi-transparent surfaces because most methods assume a single depth per pixel, which fails when multiple surfaces are visible. We propose TSPE-GS (Transparent Surface Probabilistic Extraction for Gaussian Splatting), which uniformly samples transmittance to model a pixel-wise multi-modal distribution of opacity and depth, replacing the prior single-peak assumption and resolving cross-surface depth ambiguity. By progressively fusing truncated signed distance functions, TSPE-GS reconstructs external and internal surfaces separately within a unified framework. The method generalizes to other Gaussian-based reconstruction pipelines without extra training overhead. Extensive experiments on public and self-collected semi-transparent and opaque datasets show TSPE-GS significantly improves semi-transparent geometry reconstruction while maintaining performance on opaque scenes.

3D高斯摊铺技术提供了强大的速度与质量之间的权衡,但在重建半透明表面方面遇到了困难,因为大多数方法假设每个像素只有一个深度,这在可见多个表面时会失效。我们提出了TSPE-GS(高斯摊铺的透明表面概率提取),它通过均匀采样透射率来建模像素级的透明度和多模态深度分布,取代了先前的单峰假设并解决跨表面深度歧义问题。通过渐进融合截断的有符号距离函数,TSPE-GS在统一框架内分别重建外部和内部表面。该方法可推广到其他基于高斯的重构流程,无需额外的训练开销。在公共和自我收集的透明和不透明数据集上的大量实验表明,TSPE-GS在改善半透明几何重构的同时,在不透明场景中的性能也得到了保持。

论文及项目相关链接

PDF AAAI26 Poster

Summary

3D高斯插值技术在速度与质量之间提供了良好的权衡,但在重建半透明表面时面临挑战。大多数方法假设每个像素只有一个深度,这在多个表面可见时会出现问题。为此,我们提出了TSPE-GS(高斯插值的透明表面概率提取),它通过均匀采样透射率来模拟像素级的多元分布的不透明度和深度,取代了先前的单峰假设,解决了跨表面深度模糊的问题。通过渐进融合截断的有符号距离函数,TSPE-GS在一个统一框架内分别重建外部和内部表面。该方法可推广到其他基于高斯的重构管道,无需额外的训练开销。在公共和自我收集的半透明和不透明数据集上的广泛实验表明,TSPE-GS在改善半透明几何重构的同时,还能保持在不透明场景中的性能。

Key Takeaways

  1. 3D高斯插值技术具有速度和质量的平衡,但在重建半透明表面时存在挑战。
  2. 大多数方法假设每个像素只有一个深度,这在处理多个可见表面时会导致问题。
  3. TSPE-GS通过模拟像素级的多元分布的不透明度和深度来解决这个问题。
  4. TSPE-GS采用均匀采样透射率的方法,取代了先前的单峰假设。
  5. 该方法能够渐进融合截断的有符号距离函数,以重建外部和内部表面。
  6. TSPE-GS方法具有良好的通用性,可应用于其他基于高斯的重构管道,无需额外的训练。

Cool Papers

点此查看论文截图

OUGS: Active View Selection via Object-aware Uncertainty Estimation in 3DGS

Authors:Haiyi Li, Qi Chen, Denis Kalkofen, Hsiang-Ting Chen

Recent advances in 3D Gaussian Splatting (3DGS) have achieved state-of-the-art results for novel view synthesis. However, efficiently capturing high-fidelity reconstructions of specific objects within complex scenes remains a significant challenge. A key limitation of existing active reconstruction methods is their reliance on scene-level uncertainty metrics, which are often biased by irrelevant background clutter and lead to inefficient view selection for object-centric tasks. We present OUGS, a novel framework that addresses this challenge with a more principled, physically-grounded uncertainty formulation for 3DGS. Our core innovation is to derive uncertainty directly from the explicit physical parameters of the 3D Gaussian primitives (e.g., position, scale, rotation). By propagating the covariance of these parameters through the rendering Jacobian, we establish a highly interpretable uncertainty model. This foundation allows us to then seamlessly integrate semantic segmentation masks to produce a targeted, object-aware uncertainty score that effectively disentangles the object from its environment. This allows for a more effective active view selection strategy that prioritizes views critical to improving object fidelity. Experimental evaluations on public datasets demonstrate that our approach significantly improves the efficiency of the 3DGS reconstruction process and achieves higher quality for targeted objects compared to existing state-of-the-art methods, while also serving as a robust uncertainty estimator for the global scene.

在三维高斯扩展(3DGS)方面的最新进展已经实现了用于新型视图合成的最先进的成果。然而,在复杂的场景中有效地捕获特定对象的高保真重建仍然是一个巨大的挑战。现有主动重建方法的关键局限性在于它们依赖于场景级别的不确定性度量,这些度量通常受到无关背景干扰的影响,导致对以对象为中心的任务进行低效的视图选择。我们提出了OUGS,这是一个新的框架,通过为3DGS提供更严谨、基于物理的不确定性公式来解决这一挑战。我们的核心创新是从三维高斯基元的显式物理参数(例如位置、尺度、旋转)直接推导出不确定性。通过将这些参数的协方差传播通过渲染雅可比矩阵,我们建立了一个高度可解释的不确定性模型。在此基础上,我们可以无缝集成语义分割掩膜,以产生有针对性的、对象感知的不确定性得分,有效地将对象与其环境分开。这允许更有效的主动视图选择策略,优先考虑对提高对象保真度至关重要的视图。在公共数据集上的实验评估表明,我们的方法显著提高了3DGS重建过程的效率,针对目标对象的质量与现有最先进的方法相比有所提高,同时还作为全局场景的稳健不确定性估计器。

论文及项目相关链接

PDF 11 pages (10 main + 1 appendix), 7 figures, 3 tables. Preprint, under review for Eurographics 2026

Summary

近期,3D高斯绘制技术(3DGS)的最新进展已经实现了在合成新视角时的卓越表现。然而,如何在复杂的场景中高效地重建特定对象仍是重要挑战。现有主动重建方法的一个关键局限性在于它们依赖于场景级别的不确定性度量,这通常受到无关背景干扰的影响,导致对于以对象为中心的任务的视角选择效率低下。本研究提出了一种新型框架OUGS,通过更系统的物理基础不确定性公式来解决这一问题。其核心创新之处在于直接从3D高斯基元的显式物理参数(如位置、尺度、旋转)推导不确定性,并通过渲染雅可比矩阵传播协方差,建立高度可解释的不确定性模型。结合语义分割掩膜,形成有针对性的对象感知不确定性得分,有效地将对象与其环境分离。这导致了一个更有效的主动视角选择策略,优先选择了能提高对象保真度的视角。在公开数据集上的实验评估表明,该方法显著提高了3DGS重建过程的效率,针对目标对象的质量高于现有最先进的方法,同时作为全局场景的鲁棒不确定性估计器。

Key Takeaways

  1. 近期3DGS技术虽然取得卓越成果,但捕捉复杂场景中特定对象的高保真重建仍是挑战。
  2. 现有主动重建方法依赖于场景级别的不确定性度量,易受背景干扰影响。
  3. OUGS框架通过物理基础的不确定性公式解决此挑战。
  4. OUGS直接从3D高斯基元的物理参数推导不确定性,建立高度可解释的不确定性模型。
  5. 结合语义分割掩膜形成对象感知不确定性得分,有效分离对象与环境。
  6. OUGS导致更有效的主动视角选择策略,优先提高对象保真度的视角。

Cool Papers

点此查看论文截图

SkelSplat: Robust Multi-view 3D Human Pose Estimation with Differentiable Gaussian Rendering

Authors:Laura Bragagnolo, Leonardo Barcellona, Stefano Ghidoni

Accurate 3D human pose estimation is fundamental for applications such as augmented reality and human-robot interaction. State-of-the-art multi-view methods learn to fuse predictions across views by training on large annotated datasets, leading to poor generalization when the test scenario differs. To overcome these limitations, we propose SkelSplat, a novel framework for multi-view 3D human pose estimation based on differentiable Gaussian rendering. Human pose is modeled as a skeleton of 3D Gaussians, one per joint, optimized via differentiable rendering to enable seamless fusion of arbitrary camera views without 3D ground-truth supervision. Since Gaussian Splatting was originally designed for dense scene reconstruction, we propose a novel one-hot encoding scheme that enables independent optimization of human joints. SkelSplat outperforms approaches that do not rely on 3D ground truth in Human3.6M and CMU, while reducing the cross-dataset error up to 47.8% compared to learning-based methods. Experiments on Human3.6M-Occ and Occlusion-Person demonstrate robustness to occlusions, without scenario-specific fine-tuning. Our project page is available here: https://skelsplat.github.io.

精确的3D人体姿态估计是增强现实和人机交互等应用的基础。目前最先的多视角方法通过学习在大规模标注数据集上进行跨视角预测融合,但当测试场景不同时,其泛化能力较差。为了克服这些局限性,我们提出了SkelSplat,这是一个基于可微分高斯渲染的多视角3D人体姿态估计的新框架。人体姿态被建模为3D高斯分布骨架,每个关节一个,通过可微分渲染进行优化,以实现任意相机视角无缝融合,无需3D真实值监督。由于高斯拼贴最初是为密集场景重建而设计的,我们提出了一种新型的一热编码方案,能够实现人类关节的独立优化。SkelSplat在Human3.6M和CMU数据集上的表现优于不依赖3D真实值的方法,与基于学习的方法相比,跨数据集误差降低了高达47.8%。在Human3.6M-Occ和Occlusion-Person上的实验表明,它对遮挡具有鲁棒性,无需针对特定场景进行微调。我们的项目页面可在此找到:https://skelsplat.github.io

论文及项目相关链接

PDF WACV 2026

Summary

基于多视角的3D人体姿态估计是增强现实和人机交互等领域的重要应用。现有方法在大规模标注数据集上进行训练,导致测试场景差异时泛化性能不佳。本文提出SkelSplat框架,利用可微高斯渲染技术,将人体姿态建模为一系列针对每个关节的3D高斯分布。通过可微渲染实现不同相机视角无缝融合,无需3D真实标签监督。本文设计了一种新型one-hot编码方案,实现人体关节的独立优化。SkelSplat在不依赖3D真实标签的情况下在Human3.6M和CMU数据集上表现优异,相较于学习方法减少了跨数据集误差达47.8%。在Human3.6M-Occ和Occlusion-Person上的实验证明了其对遮挡的鲁棒性,无需针对场景进行微调。

Key Takeaways

  1. SkelSplat是一个基于多视角的3D人体姿态估计框架,利用可微高斯渲染技术。
  2. 它将人体姿态建模为针对每个关节的3D高斯分布,实现无缝融合不同相机视角。
  3. SkelSplat无需3D真实标签监督,具有更好的泛化性能。
  4. 新型one-hot编码方案实现人体关节的独立优化。
  5. SkelSplat在多个数据集上表现优异,尤其是跨数据集误差减少达47.8%。
  6. SkelSplat对遮挡情况具有鲁棒性,无需针对场景进行微调。

Cool Papers

点此查看论文截图

Perceptual Quality Assessment of 3D Gaussian Splatting: A Subjective Dataset and Prediction Metric

Authors:Zhaolin Wan, Yining Diao, Jingqi Xu, Hao Wang, Zhiyang Li, Xiaopeng Fan, Wangmeng Zuo, Debin Zhao

With the rapid advancement of 3D visualization, 3D Gaussian Splatting (3DGS) has emerged as a leading technique for real-time, high-fidelity rendering. While prior research has emphasized algorithmic performance and visual fidelity, the perceptual quality of 3DGS-rendered content, especially under varying reconstruction conditions, remains largely underexplored. In practice, factors such as viewpoint sparsity, limited training iterations, point downsampling, noise, and color distortions can significantly degrade visual quality, yet their perceptual impact has not been systematically studied. To bridge this gap, we present 3DGS-QA, the first subjective quality assessment dataset for 3DGS. It comprises 225 degraded reconstructions across 15 object types, enabling a controlled investigation of common distortion factors. Based on this dataset, we introduce a no-reference quality prediction model that directly operates on native 3D Gaussian primitives, without requiring rendered images or ground-truth references. Our model extracts spatial and photometric cues from the Gaussian representation to estimate perceived quality in a structure-aware manner. We further benchmark existing quality assessment methods, spanning both traditional and learning-based approaches. Experimental results show that our method consistently achieves superior performance, highlighting its robustness and effectiveness for 3DGS content evaluation. The dataset and code are made publicly available at https://github.com/diaoyn/3DGSQA to facilitate future research in 3DGS quality assessment.

随着3D可视化技术的快速发展,3D高斯融合技术(3DGS)已成为实时高保真渲染的主流技术。虽然之前的研究已经强调了算法性能和视觉保真度,但特别是在不同重建条件下,对于3DGS渲染内容的感知质量仍然存在大量的探索空间。在实际应用中,视点稀疏性、训练迭代次数有限、点下采样、噪声和颜色失真等因素都可能严重影响视觉质量,然而这些因素对感知的影响尚未进行系统性的研究。为了弥补这一空白,我们推出了首个针对3DGS的主观质量评估数据集——3DGS-QA。该数据集包含跨越了十五种对象类型的共225个退化重建样本,可以进行常见失真因素的受控研究。基于该数据集,我们推出了一种无需参考的质量预测模型,该模型可以直接对本地化的原生三维高斯基本体进行操作,无需渲染图像或真实参考图像。我们的模型从高斯表示中提取空间和光度线索,以结构感知的方式来估计感知质量。此外,我们还对现有的质量评估方法进行了基准测试,包括传统方法和基于学习的方法。实验结果表明,我们的方法始终表现出卓越的性能,证明了其在评估三维高斯融合内容方面的稳健性和有效性。为了方便未来对三维高斯融合质量评估的研究,我们的数据集和代码已公开发布在 https://github.com/diaoyn/3DGSQA 上。

论文及项目相关链接

PDF

摘要

随着3D可视化技术的快速发展,3D高斯拼贴(3DGS)已成为实时高保真渲染的一种领先技术。尽管先前的研究已经强调了算法性能和视觉保真度的重要性,但3DGS渲染内容在感知质量方面,特别是在不同重建条件下的感知质量,仍然研究不足。实践中,视点稀疏、训练迭代次数有限、点降采样、噪声和颜色失真等因素可能会显著降低视觉质量,然而它们的感知影响尚未进行系统研究。为了弥补这一差距,我们提出了3DGS-QA,这是第一个针对3DGS的主观质量评估数据集。它包含了15种对象类型的225个退化重建,能够控制常见的失真因素进行研究。基于此数据集,我们引入了一种无参考质量预测模型,该模型可直接在本地3D高斯原始数据上运行,无需渲染图像或真实参考。我们的模型从高斯表示中提取空间和光度线索,以结构感知的方式估计感知质量。我们还对现有的质量评估方法进行了基准测试,包括传统和基于学习的方法。实验结果表明,我们的方法始终实现卓越性能,突显其在评估3DGS内容方面的稳健性和有效性。数据集和代码已公开发布在https://github.com/diaoyn/3DGSQA,以便未来进行3DGS质量评估的研究。

关键要点

  1. 3DGS已成为实时高保真渲染的领先技术,但在感知质量方面仍存在研究空白。
  2. 实践中存在的多种因素(如视点稀疏、训练迭代次数有限等)可能导致视觉质量下降。
  3. 我们引入了首个针对3DGS的主观质量评估数据集——3DGS-QA。
  4. 基于数据集提出了无参考质量预测模型,该模型能在高斯原始数据上直接运行并估计感知质量。
  5. 与现有质量评估方法相比,我们的方法表现出卓越性能。

Cool Papers

点此查看论文截图

Is It Truly Necessary to Process and Fit Minutes-Long Reference Videos for Personalized Talking Face Generation?

Authors:Rui-Qing Sun, Ang Li, Zhijing Wu, Tian Lan, Qianyu Lu, Xingshan Yao, Chen Xu, Xian-Ling Mao

Talking Face Generation (TFG) aims to produce realistic and dynamic talking portraits, with broad applications in fields such as digital education, film and television production, e-commerce live streaming, and other related areas. Currently, TFG methods based on Neural Radiated Field (NeRF) or 3D Gaussian sputtering (3DGS) are received widespread attention. They learn and store personalized features from reference videos of each target individual to generate realistic speaking videos. To ensure models can capture sufficient 3D information and successfully learns the lip-audio mapping, previous studies usually require meticulous processing and fitting several minutes of reference video, which always takes hours. The computational burden of processing and fitting long reference videos severely limits the practical application value of these methods.However, is it really necessary to fit such minutes of reference video? Our exploratory case studies show that using some informative reference video segments of just a few seconds can achieve performance comparable to or even better than the full reference video. This indicates that video informative quality is much more important than its length. Inspired by this observation, we propose the ISExplore (short for Informative Segment Explore), a simple-yet-effective segment selection strategy that automatically identifies the informative 5-second reference video segment based on three key data quality dimensions: audio feature diversity, lip movement amplitude, and number of camera views. Extensive experiments demonstrate that our approach increases data processing and training speed by more than 5x for NeRF and 3DGS methods, while maintaining high-fidelity output. Project resources are available at xx.

说话人脸生成(TFG)旨在生成真实且动态的说话肖像,广泛应用于数字教育、影视制作、电商直播等领域。目前,基于神经辐射场(NeRF)或三维高斯溅射(3DGS)的TFG方法受到广泛关注。它们从每个目标个体的参考视频中学习和存储个性化特征,以生成真实的说话视频。为了确保模型能够捕获足够的3D信息并成功学习唇音映射,之前的研究通常需要精细处理并拟合数分钟的参考视频,这通常需要数小时的时间。处理并拟合长参考视频的计算负担严重限制了这些方法在实际应用中的价值。然而,拟合如此长时间的参考视频真的有必要吗?我们的探索性案例研究表明,使用仅几秒钟的参考视频片段就可以实现与完整参考视频相当甚至更好的性能。这表明视频的信息质量远比其长度重要。受这一观察的启发,我们提出了ISExplore(即信息片段探索),这是一种简单有效的片段选择策略,可自动确定基于三个关键数据质量维度的信息丰富的5秒参考视频片段:音频特征多样性、嘴唇运动幅度和摄像机视角数量。大量实验表明,我们的方法将NeRF和3DGS方法的数据处理和训练速度提高了5倍以上,同时保持高保真输出。项目资源可在xx找到。

论文及项目相关链接

PDF

Summary

该文本介绍了说话人脸生成技术(TFG),旨在生成真实动态的肖像视频,广泛应用于数字教育、影视制作、电商直播等领域。当前基于神经辐射场(NeRF)或3D高斯溅射(3DGS)的TFG方法受到关注。这些方法通过学习和存储来自目标个体参考视频的个人特征来生成逼真的说话视频。为确保模型捕捉足够的3D信息和成功学习唇音映射,先前研究通常需要精细处理和拟合数分钟的参考视频,耗时较长。然而,通过探索性案例研究,作者发现使用几秒的参考视频片段即可实现与全视频相当甚至更好的性能,表明视频的信息质量比长度更重要。基于此观察,作者提出了ISExplore(短视频段信息探索)策略,该策略可根据音频特征多样性、唇部动作幅度和摄像头视角等三个关键数据质量维度自动识别出最具代表性的5秒参考视频片段。实验表明,该方法可提高NeRF和3DGS方法的数据处理速度和训练速度超过5倍,同时保持高保真输出。

Key Takeaways

  1. 说话人脸生成技术(TFG)可生成真实动态的肖像视频,广泛应用于多个领域。
  2. 当前TFG方法主要基于NeRF或3DGS技术,通过学习和存储个人特征从参考视频中生成说话视频。
  3. 先前的研究通常需要处理和拟合数分钟的参考视频以确保模型捕捉足够的3D信息和唇音映射,这增加了计算负担并限制了实际应用价值。
  4. 探索性案例研究表明,使用几秒的参考视频片段即可实现良好的性能,这表明视频的信息质量比长度更重要。
  5. 提出了ISExplore策略,该策略可自动识别最具代表性的5秒参考视频片段,基于音频特征多样性、唇部动作幅度和摄像头视角三个关键数据质量维度。
  6. ISExplore策略可提高NeRF和3DGS方法的数据处理速度和训练速度。

Cool Papers

点此查看论文截图

UltraGS: Gaussian Splatting for Ultrasound Novel View Synthesis

Authors:Yuezhe Yang, Wenjie Cai, Dexin Yang, Yufang Dong, Xingbo Dong, Zhe Jin

Ultrasound imaging is a cornerstone of non-invasive clinical diagnostics, yet its limited field of view complicates novel view synthesis. We propose \textbf{UltraGS}, a Gaussian Splatting framework optimized for ultrasound imaging. First, we introduce a depth-aware Gaussian splatting strategy, where each Gaussian is assigned a learnable field of view, enabling accurate depth prediction and precise structural representation. Second, we design SH-DARS, a lightweight rendering function combining low-order spherical harmonics with ultrasound-specific wave physics, including depth attenuation, reflection, and scattering, to model tissue intensity accurately. Third, we contribute the Clinical Ultrasound Examination Dataset, a benchmark capturing diverse anatomical scans under real-world clinical protocols. Extensive experiments on three datasets demonstrate UltraGS’s superiority, achieving state-of-the-art results in PSNR (up to 29.55), SSIM (up to 0.89), and MSE (as low as 0.002) while enabling real-time synthesis at 64.69 fps. The code and dataset are open-sourced at: https://github.com/Bean-Young/UltraGS.

超声成像作为非侵入性临床诊断的基石,但其有限的视野给新型视图合成带来了困难。我们提出了针对超声成像优化的高斯Splatting框架——UltraGS。首先,我们引入了一种深度感知的高斯Splatting策略,其中每个高斯被分配一个可学习的视野,从而实现准确的深度预测和精确的结构表示。其次,我们设计了SH-DARS,这是一个轻量级的渲染功能,结合了低阶球谐函数和超声特定的波物理,包括深度衰减、反射和散射,以准确模拟组织强度。第三,我们贡献了临床超声检查数据集,这是一个基准测试集,捕获了真实世界临床协议下的多种解剖扫描。在三个数据集上的广泛实验证明了UltraGS的优越性,在PSNR(高达29.55)、SSIM(高达0.89)和MSE(低至0.002)方面达到最新水平的结果,同时以每秒64.69帧的速度实现实时合成。代码和数据集已在https://github.com/Bean-Young/UltraGS开源。

论文及项目相关链接

PDF Under Review

Summary
超声波成像在临床诊断中扮演着重要角色,但其有限的视野给新型视图合成带来挑战。本研究提出一种针对超声波成像的Gaussian Splatting框架——UltraGS。它采用深度感知的高斯喷绘策略,并结合低阶球谐函数与超声波特定波动物理的轻量化渲染功能SH-DARS,实现精准结构表征与强度建模。此外,该研究还公开了符合真实临床协议的多解剖部位扫描数据集,并验证了UltraGS在PSNR、SSIM和MSE指标上的优越性,同时实现实时合成。

Key Takeaways

  • UltraGS是一个针对超声波成像的Gaussian Splatting框架。
  • 引入深度感知的高斯喷绘策略,使每个高斯具有可学习的视野,提高深度预测和结构化表征的准确性。
  • 设计了结合低阶球谐函数与超声波特定波动物理的轻量化渲染功能SH-DARS,以准确模拟组织强度。
  • 公开了临床超声波检查数据集,包含多种解剖部位扫描,符合真实临床协议。
  • 在三个数据集上的实验验证了UltraGS的优越性,在PSNR、SSIM和MSE指标上达到最新水平。
  • UltraGS能够实现实时合成,达到64.69帧每秒。

Cool Papers

点此查看论文截图

DIMO: Diverse 3D Motion Generation for Arbitrary Objects

Authors:Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis

We present DIMO, a generative approach capable of generating diverse 3D motions for arbitrary objects from a single image. The core idea of our work is to leverage the rich priors in well-trained video models to extract the common motion patterns and then embed them into a shared low-dimensional latent space. Specifically, we first generate multiple videos of the same object with diverse motions. We then embed each motion into a latent vector and train a shared motion decoder to learn the distribution of motions represented by a structured and compact motion representation, i.e., neural key point trajectories. The canonical 3D Gaussians are then driven by these key points and fused to model the geometry and appearance. During inference time with learned latent space, we can instantly sample diverse 3D motions in a single-forward pass and support several interesting applications including 3D motion interpolation and language-guided motion generation. Our project page is available at https://linzhanm.github.io/dimo.

我们提出了DIMO,这是一种能够从单张图像生成任意对象的多种3D动作的方法。我们工作的核心思想是利用训练良好的视频模型中的丰富先验信息来提取常见的运动模式,然后将它们嵌入一个共享的低维潜在空间。具体来说,我们首先生成同一对象的多个具有不同动作的视频。然后,我们将每个动作嵌入到一个潜在向量中,并训练一个共享的运动解码器来学习由结构化且紧凑的运动表示所表示的运动分布,即神经关键点轨迹。规范的三维高斯随后被这些关键点驱动并融合以模拟几何和外观。在具有学习到的潜在空间的推理时间中,我们可以立即在一次前向传递中采样多种多样的三维动作,并支持包括三维运动插值和语言引导的运动生成等几个有趣的应用。我们的项目页面位于https://linzhanm.github.io/dimo。

论文及项目相关链接

PDF Published in ICCV 2025, project page https://linzhanm.github.io/dimo

Summary

DIMO方法可以从单幅图像为任意对象生成多样的3D动作。它借助训练良好的视频模型的丰富先验知识,提取常见的运动模式,然后嵌入一个共享的低维潜在空间。通过生成同一对象的多个动作视频,嵌入每个动作到潜在向量,训练共享运动解码器学习由结构化且紧凑的运动表示(即神经关键点轨迹)表示的运动分布。在推断阶段,利用学习到的潜在空间,可以立即在单次前向传递中采样多样的3D动作,并支持包括3D运动插值和语言引导的运动生成等有趣的应用。

Key Takeaways

  1. DIMO是一种能够从单幅图像生成任意对象的多样3D运动的生成性方法。
  2. 该方法利用预训练视频模型的丰富先验知识来提取和嵌入运动模式。
  3. 通过生成同一对象的多个动作视频,训练共享运动解码器来学习运动分布。
  4. 使用神经关键点轨迹作为结构化且紧凑的运动表示。
  5. 几何和外观模型由规范化的3D高斯和关键点驱动。
  6. 在推断阶段,能够立即采样多样的3D动作并支持多种应用。

Cool Papers

点此查看论文截图

YoNoSplat: You Only Need One Model for Feedforward 3D Gaussian Splatting

Authors:Botao Ye, Boqi Chen, Haofei Xu, Daniel Barath, Marc Pollefeys

Fast and flexible 3D scene reconstruction from unstructured image collections remains a significant challenge. We present YoNoSplat, a feedforward model that reconstructs high-quality 3D Gaussian Splatting representations from an arbitrary number of images. Our model is highly versatile, operating effectively with both posed and unposed, calibrated and uncalibrated inputs. YoNoSplat predicts local Gaussians and camera poses for each view, which are aggregated into a global representation using either predicted or provided poses. To overcome the inherent difficulty of jointly learning 3D Gaussians and camera parameters, we introduce a novel mixing training strategy. This approach mitigates the entanglement between the two tasks by initially using ground-truth poses to aggregate local Gaussians and gradually transitioning to a mix of predicted and ground-truth poses, which prevents both training instability and exposure bias. We further resolve the scale ambiguity problem by a novel pairwise camera-distance normalization scheme and by embedding camera intrinsics into the network. Moreover, YoNoSplat also predicts intrinsic parameters, making it feasible for uncalibrated inputs. YoNoSplat demonstrates exceptional efficiency, reconstructing a scene from 100 views (at 280x518 resolution) in just 2.69 seconds on an NVIDIA GH200 GPU. It achieves state-of-the-art performance on standard benchmarks in both pose-free and pose-dependent settings. Our project page is at https://botaoye.github.io/yonosplat/.

从非结构化的图像集合中进行快速、灵活的3D场景重建仍然是一个巨大的挑战。我们提出了YoNoSplat,这是一种前馈模型,可以从任意数量的图像重建高质量的3D高斯喷射表示。我们的模型非常通用,可以有效地处理有姿态和无姿态、校准和未校准的输入。YoNoSplat预测每个视图的局部高斯和相机姿态,这些局部高斯和相机姿态将使用预测或提供的姿态聚集到全局表示中。为了克服联合学习3D高斯和相机参数的固有困难,我们引入了一种新的混合训练策略。这种方法通过最初使用地面真实姿态来聚集局部高斯,并逐渐过渡到混合预测和地面真实姿态,从而减轻了这两个任务之间的纠缠,这既防止了训练不稳定也避免了曝光偏差。我们通过一种新颖的成对相机距离归一化方案和网络嵌入相机内参,进一步解决了尺度模糊问题。此外,YoNoSplat还可以预测内参,使得它适用于未校准的输入。YoNoSplat展现出卓越的效率,在NVIDIA GH200 GPU上,从100个视角(在280x518分辨率下)重建场景只需2.69秒。它在无姿态和依赖姿态的设置中均达到了标准基准测试的最佳性能。我们的项目页面是https://botaoye.github.io/yonosplat/。

论文及项目相关链接

PDF

摘要

本文从任意的图像集合中,快速灵活地重建出高质量的3D高斯描绘表达(Gaussian Splatting representations)。所提出的YoNoSplat模型既可用于有定位信息也可用于无定位信息的输入,展示出了其高度的通用性。YoNoSplat预测每个视角的局部高斯和相机姿态,并使用预测或提供的姿态将局部高斯聚合成全局表达。为解决联合学习3D高斯和相机参数固有的困难,引入了一种新的混合训练策略。该策略通过先使用真实姿态来聚集局部高斯,然后逐渐过渡到混合使用预测和真实姿态,解决了训练不稳定和暴露偏差的问题。此外,YoNoSplat还通过一种新颖的成对相机距离归一化方案和网络嵌入相机内参,解决了尺度模糊问题。该模型对于无标定输入也具有可行性。在NVIDIA GH200 GPU上,YoNoSplat从100个视角(分辨率为280x518)重建场景仅需2.69秒,并在标准基准测试中达到了最先进的性能。

关键见解

  1. YoNoSplat是一个前馈模型,能够从任意的图像集合重建出高质量的3D高斯描绘表达。
  2. 该模型可在有定位信息或无定位信息的输入下操作,具有高度通用性。
  3. 引入了一种新的混合训练策略,解决了联合学习3D高斯和相机参数的困难。
  4. 通过新颖的成对相机距离归一化方案和网络嵌入相机内参,解决了尺度模糊问题。
  5. YoNoSplat能够预测内在参数,适用于无标定输入。
  6. 在NVIDIA GH200 GPU上,YoNoSplat实现了高效的场景重建,处理速度领先。
  7. 在标准基准测试中,YoNoSplat在无需定位信息或需定位信息的场景中均达到了最先进的性能。

Cool Papers

点此查看论文截图

4DSTR: Advancing Generative 4D Gaussians with Spatial-Temporal Rectification for High-Quality and Consistent 4D Generation

Authors:Mengmeng Liu, Jiuming Liu, Yunpeng Zhang, Jiangtao Li, Michael Ying Yang, Francesco Nex, Hao Cheng

Remarkable advances in recent 2D image and 3D shape generation have induced a significant focus on dynamic 4D content generation. However, previous 4D generation methods commonly struggle to maintain spatial-temporal consistency and adapt poorly to rapid temporal variations, due to the lack of effective spatial-temporal modeling. To address these problems, we propose a novel 4D generation network called 4DSTR, which modulates generative 4D Gaussian Splatting with spatial-temporal rectification. Specifically, temporal correlation across generated 4D sequences is designed to rectify deformable scales and rotations and guarantee temporal consistency. Furthermore, an adaptive spatial densification and pruning strategy is proposed to address significant temporal variations by dynamically adding or deleting Gaussian points with the awareness of their pre-frame movements. Extensive experiments demonstrate that our 4DSTR achieves state-of-the-art performance in video-to-4D generation, excelling in reconstruction quality, spatial-temporal consistency, and adaptation to rapid temporal movements.

近期在2D图像和3D形状生成方面取得的显著进展引发了人们对动态4D内容生成的高度关注。然而,由于缺乏有效的时空建模,以往的4D生成方法在维持时空一致性和适应快速时间变化方面常常遇到困难。为了解决这些问题,我们提出了一种新型的4D生成网络,称为4DSTR,它通过时空矫正调控生成式4D高斯涂斑。具体来说,设计的生成4D序列的时空相关性用于矫正可变形尺度和旋转,并保证时间一致性。此外,还提出了一种自适应的空间稠化和修剪策略,通过动态添加或删除高斯点并意识到它们的前帧运动来解决显著的时间变化问题。大量实验表明,我们的4DSTR在视频到4D的生成中达到了最先进的性能,在重建质量、时空一致性和适应快速运动方面表现出色。

论文及项目相关链接

PDF Accepted by AAAI 2026.The first two authors contributed equally

Summary

本文关注动态4D内容生成领域,针对现有方法在保持时空一致性和适应快速时间变化方面的挑战,提出了一种新型的4D生成网络,名为4DSTR。该网络结合了时空修正技术来调整生成序列的空间几何和姿态差异,以及采用自适应的空间点密化和简化策略来处理显著的时序变化。实验结果证明了其在视频到4D生成的优秀性能,尤其在重建质量、时空一致性和适应快速变化方面表现突出。

Key Takeaways

  • 强调动态4D内容生成的显著进展和挑战。
  • 提出新型4D生成网络模型名为4DSTR,针对时空一致性难题进行了设计。
  • 采用时空修正技术来保持变形尺度与旋转的连续一致性。
  • 自适应的空间点密化和简化策略可以应对显著的时序变化。
  • 实验结果展示了该模型在视频到4D生成任务的出色性能。

Cool Papers

点此查看论文截图

Physics-Informed Deformable Gaussian Splatting: Towards Unified Constitutive Laws for Time-Evolving Material Field

Authors:Haoqin Hong, Ding Fan, Fubin Dou, Zhi-Li Zhou, Haoran Sun, Congcong Zhu, Jingrun Chen

Recently, 3D Gaussian Splatting (3DGS), an explicit scene representation technique, has shown significant promise for dynamic novel-view synthesis from monocular video input. However, purely data-driven 3DGS often struggles to capture the diverse physics-driven motion patterns in dynamic scenes. To fill this gap, we propose Physics-Informed Deformable Gaussian Splatting (PIDG), which treats each Gaussian particle as a Lagrangian material point with time-varying constitutive parameters and is supervised by 2D optical flow via motion projection. Specifically, we adopt static-dynamic decoupled 4D decomposed hash encoding to reconstruct geometry and motion efficiently. Subsequently, we impose the Cauchy momentum residual as a physics constraint, enabling independent prediction of each particle’s velocity and constitutive stress via a time-evolving material field. Finally, we further supervise data fitting by matching Lagrangian particle flow to camera-compensated optical flow, which accelerates convergence and improves generalization. Experiments on a custom physics-driven dataset as well as on standard synthetic and real-world datasets demonstrate significant gains in physical consistency and monocular dynamic reconstruction quality.

近期,三维高斯喷射(3DGS)作为一种显式场景表示技术,在从单目视频输入进行动态新视角合成方面展现出巨大潜力。然而,纯粹的数据驱动型3DGS在捕捉动态场景中的多样化物理驱动运动模式方面常常遇到困难。为了填补这一空白,我们提出了基于物理信息的可变形高斯喷射(PIDG),它将每个高斯粒子视为具有随时间变化的组成参数的拉格朗日物质点,并通过运动投影受到二维光流的监督。具体来说,我们采用静态-动态解耦的四维分解哈希编码来高效地重建几何和运动。之后,我们施加柯西动量残差作为物理约束,使得能够通过随时间演化的材料场独立预测每个粒子的速度和组成应力。最后,我们通过将拉格朗日粒子流与相机补偿的光流进行匹配来进一步监督数据拟合,这加速了收敛并提高了泛化能力。在定制的基于物理的数据集以及标准合成和真实世界数据集上的实验表明,在物理一致性和单目动态重建质量方面取得了显著的提升。

论文及项目相关链接

PDF Accepted by AAAI-26

Summary

基于单目视频输入的动态场景重建中,3D高斯贴图技术(3DGS)展现出巨大潜力。为解决单纯数据驱动方法难以捕捉动态场景中的复杂物理运动模式的问题,本文提出了基于物理信息的可变形高斯贴图技术(PIDG)。该技术将每个高斯粒子视为拉格朗日物质点,具有随时间变化的组成参数,并通过运动投影通过二维光流进行监控。通过采用静态动态解耦的4D分解哈希编码技术高效重建几何和运动结构,并引入柯西动量残差作为物理约束,使得能够独立预测每个粒子的速度和组成应力。最后通过拉格朗日粒子流与相机补偿光流的匹配加强数据拟合,加快收敛并提高泛化能力。在定制的基于物理的数据库以及标准合成和真实世界数据集上的实验表明,该方法在物理一致性和单目动态重建质量上取得了显著的提升。

Key Takeaways

  • 3DGS作为一种显式场景表示技术,在动态场景重建中展现出潜力。
  • PIDG技术解决了单纯数据驱动的3DGS难以捕捉复杂物理运动模式的问题。
  • PIDG将每个高斯粒子视为拉格朗日物质点,并引入物理信息进行监督学习。
  • 采用静态动态解耦的4D分解哈希编码技术高效重建几何和运动结构。
  • 引入柯西动量残差作为物理约束,独立预测粒子的速度和组成应力。
  • 通过拉格朗日粒子流与相机补偿光流的匹配加强数据拟合,提高模型性能。

Cool Papers

点此查看论文截图

Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions

Authors:Kaifeng Zhang, Shuo Sha, Hanxiao Jiang, Matthew Loper, Hyunjong Song, Guangyan Cai, Zhuo Xu, Xiaochen Hu, Changxi Zheng, Yunzhu Li

Robotic manipulation policies are advancing rapidly, but their direct evaluation in the real world remains costly, time-consuming, and difficult to reproduce, particularly for tasks involving deformable objects. Simulation provides a scalable and systematic alternative, yet existing simulators often fail to capture the coupled visual and physical complexity of soft-body interactions. We present a real-to-sim policy evaluation framework that constructs soft-body digital twins from real-world videos and renders robots, objects, and environments with photorealistic fidelity using 3D Gaussian Splatting. We validate our approach on representative deformable manipulation tasks, including plush toy packing, rope routing, and T-block pushing, demonstrating that simulated rollouts correlate strongly with real-world execution performance and reveal key behavioral patterns of learned policies. Our results suggest that combining physics-informed reconstruction with high-quality rendering enables reproducible, scalable, and accurate evaluation of robotic manipulation policies. Website: https://real2sim-eval.github.io/

机器人操作策略正在迅速发展,但在现实世界中进行直接评估的成本仍然很高,耗时长,且难以重现,特别是对于涉及可变形物体的任务。仿真提供了一种可扩展和系统的替代方案,但现有仿真器通常无法捕捉软体交互的耦合视觉和物理复杂性。我们提出了一种从现实到仿真的策略评估框架,该框架通过现实世界的视频构建软体数字双胞胎,并使用三维高斯溅射技术以逼真的保真度渲染机器人、物体和环境。我们在典型的可变形操作任务上验证了我们的方法,包括毛绒玩具包装、绳索路由和T块推动,证明模拟结果与真实世界执行性能高度相关,并揭示了学习策略的关键行为模式。我们的结果表明,结合物理信息重建和高品质渲染,可以实现机器人操作策略的可重复、可扩展和准确评估。网站地址为:https://real2sim-eval.github.io/。

论文及项目相关链接

PDF The first two authors contributed equally. Website: https://real2sim-eval.github.io/

Summary

现实世界中机器人操作策略的直接评估成本高昂、耗时长且难以复现,特别是对于涉及可变形物体的任务。仿真提供了一种可扩展且系统的替代方案,但现有仿真器通常无法捕捉软体交互的复杂视觉和物理特性。我们提出一种从现实到仿真的策略评估框架,通过现实视频构建软体数字孪生,并使用3D高斯Splatting以逼真度渲染机器人、物体和环境。我们在代表性的可变形操作任务上验证了我们的方法,包括填充毛绒玩具、路线规划和推动T形块,证明仿真模拟与真实世界执行性能高度相关,并揭示了学习策略的关键行为模式。

Key Takeaways

  1. 现实世界中机器人操作策略的直接评估存在挑战,包括成本高昂、耗时长和难以复现的问题。
  2. 仿真为机器人操作策略评估提供了可扩展且系统的替代方案。
  3. 现有仿真器在捕捉软体交互的复杂视觉和物理特性方面存在不足。
  4. 提出一种从现实到仿真的策略评估框架,通过现实视频构建软体数字孪生。
  5. 使用3D高斯Splatting技术以逼真度渲染机器人、物体和环境。
  6. 在多个代表性可变形操作任务上验证了方法的有效性。
  7. 仿真模拟与真实世界执行性能高度相关,可揭示学习策略的关键行为模式。

Cool Papers

点此查看论文截图

GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering

Authors:Alexander Valverde, Brian Xu, Yuyin Zhou, Meng Xu, Hongyun Wang

Scene reconstruction has emerged as a central challenge in computer vision, with approaches such as Neural Radiance Fields (NeRF) and Gaussian Splatting achieving remarkable progress. While Gaussian Splatting demonstrates strong performance on large-scale datasets, it often struggles to capture fine details or maintain realism in regions with sparse coverage, largely due to the inherent limitations of sparse 3D training data. In this work, we propose GauSSmart, a hybrid method that effectively bridges 2D foundational models and 3D Gaussian Splatting reconstruction. Our approach integrates established 2D computer vision techniques, including convex filtering and semantic feature supervision from foundational models such as DINO, to enhance Gaussian-based scene reconstruction. By leveraging 2D segmentation priors and high-dimensional feature embeddings, our method guides the densification and refinement of Gaussian splats, improving coverage in underrepresented areas and preserving intricate structural details. We validate our approach across three datasets, where GauSSmart consistently outperforms existing Gaussian Splatting in the majority of evaluated scenes. Our results demonstrate the significant potential of hybrid 2D-3D approaches, highlighting how the thoughtful combination of 2D foundational models with 3D reconstruction pipelines can overcome the limitations inherent in either approach alone.

场景重建已成为计算机视觉的核心挑战,神经辐射场(NeRF)和高斯喷溅等方法取得了显著进展。虽然高斯喷溅在大规模数据集上表现出强大的性能,但在稀疏覆盖的区域捕捉细节或保持真实性方面往往遇到困难,这很大程度上是由于稀疏3D训练数据的固有局限性。在这项工作中,我们提出了GauSSmart,这是一种有效融合2D基础模型和3D高斯喷溅重建的混合方法。我们的方法集成了成熟的2D计算机视觉技术,包括凸过滤器和来自DINO等基础模型的语义特征监督,以增强基于高斯的场景重建。通过利用2D分割先验和高维特征嵌入,我们的方法指导高斯喷溅的加密和细化,改进了欠代表区域的覆盖,并保留了复杂结构细节。我们在三个数据集上验证了我们的方法,GauSSmart在大多数评估场景中始终优于现有高斯喷溅。我们的结果展示了混合2D-3D方法的巨大潜力,突出了如何将2D基础模型与3D重建管道相结合,以克服单一方法的固有局限性。

论文及项目相关链接

PDF

Summary

这篇论文提出了一个新的场景重建方法,名为GauSSmart,该方法结合了二维基础模型和三维高斯溅射重建技术。通过引入二维计算机视觉技术和高维特征嵌入,该方法改善了高斯溅射场景重建的精细度和逼真度,特别是在稀疏数据区域。经过三个数据集的验证,GauSSmart在多数场景中表现优于传统的高斯溅射方法。

Key Takeaways

  1. 场景重建是计算机视觉领域的一个核心挑战,已有方法如NeRF和Gaussian Splatting取得了显著进展。
  2. Gaussian Splatting在大规模数据集上表现良好,但在捕获细节和保持稀疏区域的现实感方面存在困难。
  3. GauSSmart是一个新的混合方法,结合了二维基础模型和三维Gaussian Splatting重建。
  4. GauSSmart利用二维分割先验和高维特征嵌入,指导高斯溅射的密集化和精细化。
  5. 该方法改善了稀疏区域的覆盖并保留了精细的结构细节。
  6. 在三个数据集的验证中,GauSSmart在多数场景中表现优于传统的高斯溅射方法。

Cool Papers

点此查看论文截图

UniGS: Unified Geometry-Aware Gaussian Splatting for Multimodal Rendering

Authors:Yusen Xie, Zhenmin Huang, Jianhao Jiao, Dimitrios Kanoulas, Jun Ma

In this paper, we propose UniGS, a unified map representation and differentiable framework for high-fidelity multimodal 3D reconstruction based on 3D Gaussian Splatting. Our framework integrates a CUDA-accelerated rasterization pipeline capable of rendering photo-realistic RGB images, geometrically accurate depth maps, consistent surface normals, and semantic logits simultaneously. We redesign the rasterization to render depth via differentiable ray-ellipsoid intersection rather than using Gaussian centers, enabling effective optimization of rotation and scale attribute through analytic depth gradients. Furthermore, we derive the analytic gradient formulation for surface normal rendering, ensuring geometric consistency among reconstructed 3D scenes. To improve computational and storage efficiency, we introduce a learnable attribute that enables differentiable pruning of Gaussians with minimal contribution during training. Quantitative and qualitative experiments demonstrate state-of-the-art reconstruction accuracy across all modalities, validating the efficacy of our geometry-aware paradigm. Source code and multimodal viewer will be available on GitHub.

本文提出了UniGS,一种基于3D高斯Splatting的高保真度多模态3D重建的统一地图表示和可区分框架。我们的框架集成了一个CUDA加速的渲染管线,能够同时呈现逼真的RGB图像、几何准确的深度图、一致的面朝方向和语义日志。我们重新设计了渲染,通过可区分的射线与椭球交点来呈现深度,而不是使用高斯中心,通过解析深度梯度有效地优化旋转和缩放属性。此外,我们推导了表面法线渲染的解析梯度公式,确保重建的3D场景之间的几何一致性。为了提高计算和存储效率,我们引入了一个可学习的属性,能够在训练期间通过可区分的修剪对贡献最小的高斯进行最小化处理。定量和定性实验表明,在所有模态的重建精度方面,我们的几何感知范式都达到了最新水平。源代码和多模态查看器将在GitHub上提供。

论文及项目相关链接

PDF

Summary
本文提出了UniGS框架,这是一个基于3D高斯拼贴的高保真度多模态3D重建的统一地图表示和可分化框架。它集成了CUDA加速的光栅化管道,能够同时呈现逼真的RGB图像、几何准确的深度图、一致的面朝方向和语义对数。通过可微分的射线与椭球交点进行深度渲染,实现了旋转和规模属性的有效优化。同时,我们为表面正常渲染推导了分析梯度公式,确保了重建的3D场景之间的几何一致性。为了提高计算和存储效率,我们引入了一种可学习的属性,可在训练过程中可分化地删除贡献最小的Gaussians。实验证明,该几何感知模式在多模态重建方面具有最先进的准确性。

Key Takeaways

  1. UniGS框架集成了CUDA加速的光栅化管道,实现了多种视觉属性的同步呈现,包括RGB图像、深度图、面朝方向和语义对数。
  2. 采用了基于可微分射线与椭球交点的深度渲染方法,优化了旋转和规模属性。
  3. 推导了表面正常渲染的分析梯度公式,确保了重建的3D场景之间的几何一致性。
  4. 引入了可学习的属性,用于在训练过程中分化地删除贡献小的Gaussians,提高了计算和存储效率。
  5. 实验证明,该框架在多模态重建方面达到了最先进的准确性。
  6. UniGS框架提供了源码和多模态查看器,便于公众访问和学习。
  7. 该框架有助于推动高保真度3D重建技术的发展,在图形渲染、虚拟现实、增强现实等领域具有广泛的应用前景。

Cool Papers

点此查看论文截图

SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion

Authors:Zhiwen Yang, Yuxin Peng

Camera-based 3D Semantic Scene Completion (SSC) is a critical task in autonomous driving systems, assessing voxel-level geometry and semantics for holistic scene perception. While existing voxel-based and plane-based SSC methods have achieved considerable progress, they struggle to capture physical regularities for realistic geometric details. On the other hand, neural reconstruction methods like NeRF and 3DGS demonstrate superior physical awareness, but suffer from high computational cost and slow convergence when handling large-scale, complex autonomous driving scenes, leading to inferior semantic accuracy. To address these issues, we propose the Semantic-PHysical Engaged REpresentation (SPHERE) for camera-based SSC, which integrates voxel and Gaussian representations for joint exploitation of semantic and physical information. First, the Semantic-guided Gaussian Initialization (SGI) module leverages dual-branch 3D scene representations to locate focal voxels as anchors to guide efficient Gaussian initialization. Then, the Physical-aware Harmonics Enhancement (PHE) module incorporates semantic spherical harmonics to model physical-aware contextual details and promote semantic-geometry consistency through focal distribution alignment, generating SSC results with realistic details. Extensive experiments and analyses on the popular SemanticKITTI and SSCBench-KITTI-360 benchmarks validate the effectiveness of SPHERE. The code is available at https://github.com/PKU-ICST-MIPL/SPHERE_ACMMM2025.

基于摄像头的三维语义场景补全(SSC)是自动驾驶系统中的一项关键任务,它评估体素级的几何和语义信息以实现全景场景感知。尽管现有的基于体素和基于平面的SSC方法已经取得了很大的进展,但它们在捕捉物理规律以呈现逼真的几何细节方面仍有困难。另一方面,像NeRF和3DGS这样的神经重建方法表现出卓越的物理感知能力,但在处理大规模、复杂的自动驾驶场景时,计算成本高昂且收敛缓慢,导致语义精度较低。为了解决这些问题,我们提出了用于基于摄像头的SSC的语义物理参与表示(SPHERE),它结合了体素和高斯表示,以联合利用语义和物理信息。首先,语义引导的高斯初始化(SGI)模块利用双分支三维场景表示来确定关键体素作为锚点来引导高效的高斯初始化。然后,物理感知的谐波增强(PHE)模块结合了语义球面谐波来模拟物理感知的上下文细节,并通过焦点分布对齐促进语义几何一致性,生成具有逼真细节的SSC结果。在流行的SemanticKITTI和SSCBench-KITTI-360基准测试上的大量实验和分析验证了SPHERE的有效性。代码可在https://github.com/PKU-ICST-MIPL/SPHERE_ACMMM2025找到。

论文及项目相关链接

PDF 10 pages, 6 figures, accepted by ACM MM 2025

Summary

本文介绍了面向自主驾驶系统的基于摄像头的三维语义场景补全(SSC)任务。现有方法如基于体素和基于平面的方法虽有进展,但在捕捉物理规律和几何细节方面存在挑战。神经网络重建方法如NeRF和3DGS虽然对物理规律有较好感知,但在处理大规模复杂场景时计算成本高、收敛慢,导致语义精度不足。本文提出一种结合体素和高斯表示的语义物理融合表示(SPHERE)方法,通过语义引导的高斯初始化(SGI)模块与物理感知的谐波增强(PHE)模块,联合利用语义和物理信息,实现了更真实细节的SSC结果。在SemanticKITTI和SSCBench-KITTI-360基准测试集上的实验验证了SPHERE的有效性。

Key Takeaways

  1. 面向自主驾驶系统的摄像头三维语义场景补全(SSC)任务关键性在于对场景进行整体感知。
  2. 目前存在的体素和基于平面的方法虽然取得进展,但在捕捉物理规律和几何细节方面仍有不足。
  3. 神经网络重建方法如NeRF和3DGS在处理大规模复杂场景时面临计算成本高和收敛慢的问题。
  4. 本文提出的SPHERE方法结合了体素和高斯表示,通过SGI和PHE模块联合利用语义和物理信息。
  5. SPHERE方法在SemanticKITTI和SSCBench-KITTI-360基准测试集上取得了有效验证。
  6. 代码已公开在GitHub上。

Cool Papers

点此查看论文截图

X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

Authors:Yu Yang, Alan Liang, Jianbiao Mei, Yukai Ma, Yong Liu, Gim Hee Lee

Diffusion models are advancing autonomous driving by enabling realistic data synthesis, predictive end-to-end planning, and closed-loop simulation, with a primary focus on temporally consistent generation. However, large-scale 3D scene generation requiring spatial coherence remains underexplored. In this paper, we present X-Scene, a novel framework for large-scale driving scene generation that achieves geometric intricacy, appearance fidelity, and flexible controllability. Specifically, X-Scene supports multi-granular control, including low-level layout conditioning driven by user input or text for detailed scene composition, and high-level semantic guidance informed by user intent and LLM-enriched prompts for efficient customization. To enhance geometric and visual fidelity, we introduce a unified pipeline that sequentially generates 3D semantic occupancy and corresponding multi-view images and videos, ensuring alignment and temporal consistency across modalities. We further extend local regions into large-scale scenes via consistency-aware outpainting, which extrapolates occupancy and images from previously generated areas to maintain spatial and visual coherence. The resulting scenes are lifted into high-quality 3DGS representations, supporting diverse applications such as simulation and scene exploration. Extensive experiments demonstrate that X-Scene substantially advances controllability and fidelity in large-scale scene generation, empowering data generation and simulation for autonomous driving.

扩散模型通过实现真实数据合成、端到端预测规划以及闭环模拟,推动了自动驾驶的发展,其主要聚焦于时间一致的生成。然而,需要大量空间连贯性的大规模3D场景生成仍然未被充分探索。在本文中,我们介绍了X-Scene,这是一个用于大规模驾驶场景生成的新型框架,实现了几何精细度、外观保真度和灵活可控性。具体来说,X-Scene支持多粒度控制,包括由用户输入或文本驱动的低级布局条件,用于详细的场景构图,以及由用户意图和丰富的LLM提示引导的高级语义指导,以实现高效的定制。为了提高几何和视觉保真度,我们引入了一个统一流程,该流程按顺序生成3D语义占用和相应的多视图图像和视频,确保跨模式的对齐和时间一致性。我们进一步通过一致性感知的外推绘画将局部区域扩展到大规模场景,从已生成的区域外推占用和图像,以维持空间和视觉连贯性。生成的场景提升为高质量的3DGS表示,支持多种应用,如模拟和场景探索。大量实验表明,X-Scene在大型场景生成的控制性和保真度方面取得了重大进展,为自动驾驶的数据生成和模拟提供了动力。

论文及项目相关链接

PDF Accepted by NeurIPS 2025, Project page at https://x-scene.github.io/

Summary

本文介绍了X-Scene框架,该框架用于大规模驾驶场景生成,实现了几何精细度、外观保真度和灵活可控性。它支持多粒度控制,包括低级别布局条件和高级别语义指导。通过统一管道生成3D语义占用和对应的多视角图像和视频,确保跨模态的时空一致性。通过一致性感知的外推技术,将局部区域扩展到大规模场景,维持空间和视觉连贯性。最终场景转化为高质量的三维几何表面场景(3DGS),支持仿真和场景探索等多种应用。

Key Takeaways

  1. X-Scene框架用于大规模驾驶场景生成,实现了几何精细度、外观保真度和灵活可控性。
  2. 支持多粒度控制,包括低级别布局条件和高级别语义指导,可通过用户输入或文本进行详细的场景构图。
  3. 通过统一管道生成3D语义占用和对应的多视角图像和视频,确保不同模态之间的对齐和时空一致性。
  4. 采用一致性感知的外推技术,将局部区域扩展到大规模场景,保持空间和视觉连贯性。
  5. 最终场景转化为高质量的三维几何表面场景(3DGS),支持仿真、场景探索等多种应用。
  6. X-Scene显著提高了大规模场景生成的可控性和保真度。

Cool Papers

点此查看论文截图

ELECTRA: A Cartesian Network for 3D Charge Density Prediction with Floating Orbitals

Authors:Jonas Elsborg, Luca Thiede, Alán Aspuru-Guzik, Tejs Vegge, Arghya Bhowmik

We present the Electronic Tensor Reconstruction Algorithm (ELECTRA) - an equivariant model for predicting electronic charge densities using floating orbitals. Floating orbitals are a long-standing concept in the quantum chemistry community that promises more compact and accurate representations by placing orbitals freely in space, as opposed to centering all orbitals at the position of atoms. Finding the ideal placement of these orbitals requires extensive domain knowledge, though, which thus far has prevented widespread adoption. We solve this in a data-driven manner by training a Cartesian tensor network to predict the orbital positions along with orbital coefficients. This is made possible through a symmetry-breaking mechanism that is used to learn position displacements with lower symmetry than the input molecule while preserving the rotation equivariance of the charge density itself. Inspired by recent successes of Gaussian Splatting in representing densities in space, we are using Gaussian orbitals and predicting their weights and covariance matrices. Our method achieves a state-of-the-art balance between computational efficiency and predictive accuracy on established benchmarks. Furthermore, ELECTRA is able to lower the compute time required to arrive at converged DFT solutions - initializing calculations using our predicted densities yields an average 50.72 % reduction in self-consistent field (SCF) iterations on unseen molecules.

我们提出了电子张量重建算法(ELECTRA)——一种使用浮动轨道预测电子电荷密度的等价模型。浮动轨道是量子化学界长期存在的一个概念,它通过让轨道在空间中自由放置,而不是将所有轨道定位在原子位置,从而提供更紧凑和准确的表示。然而,找到这些轨道的理想位置需要大量的专业知识,这迄今为止阻碍了其广泛采用。我们通过训练笛卡尔张量网络来预测轨道位置和轨道系数,以数据驱动的方式解决了这个问题。这是通过一种对称破坏机制实现的,该机制用于学习具有比输入分子更低对称性的位置位移,同时保持电荷密度本身的旋转等价性。受高斯摊铺在空间密度表示方面近期成功的启发,我们使用高斯轨道并预测其权重和协方差矩阵。我们的方法在现有的基准测试上实现了计算效率和预测精度之间的最新平衡。此外,ELECTRA能够降低达到收敛的DFT解决方案所需的计算时间——使用我们预测的密度初始化计算,在未见过的分子上平均减少了自洽场(SCF)迭代的50.72%。

论文及项目相关链接

PDF 10 pages, 4 figures, 5 tables

Summary

本文介绍了Electronic Tensor Reconstruction Algorithm(ELECTRA)模型,该模型使用浮动轨道预测电子电荷密度。浮动轨道是量子化学领域长期存在的概念,通过自由放置轨道于空间中,提供更为紧凑和准确的表示。ELECTRA通过数据驱动方式解决理想轨道位置的问题,训练笛卡尔张量网络预测轨道位置和轨道系数。此模型通过对称破坏机制实现位置预测,同时保持电荷密度的旋转等价性。使用高斯splat方法表示空间密度,使用高斯轨道并预测其权重和协方差矩阵。ELECTRA在计算效率和预测准确性方面达到最佳平衡,并且能降低DFT解决方案的计算时间,使用其预测的密度初始化计算,在未见过的分子上平均减少50.72%的自洽场迭代时间。

Key Takeaways

  1. ELECTRA模型利用浮动轨道预测电子电荷密度,提供更为准确和紧凑的表示。
  2. 通过数据驱动方式找到理想轨道位置。
  3. 使用笛卡尔张量网络进行预测,包括轨道位置和轨道系数。
  4. 采用对称破坏机制以学习位置位移,同时保持电荷密度的旋转等价性。
  5. 结合高斯splat方法表示密度,使用高斯轨道并预测其权重和协方差矩阵。
  6. ELECTRA在计算效率和预测准确性方面表现卓越。

Cool Papers

点此查看论文截图

Feature-EndoGaussian: Feature Distilled Gaussian Splatting in Surgical Deformable Scene Reconstruction

Authors:Kai Li, Junhao Wang, William Han, Ding Zhao

Minimally invasive surgery (MIS) requires high-fidelity, real-time visual feedback of dynamic and low-texture surgical scenes. To address these requirements, we introduce FeatureEndo-4DGS (FE-4DGS), the first real time pipeline leveraging feature-distilled 4D Gaussian Splatting for simultaneous reconstruction and semantic segmentation of deformable surgical environments. Unlike prior feature-distilled methods restricted to static scenes, and existing 4D approaches that lack semantic integration, FE-4DGS seamlessly leverages pre-trained 2D semantic embeddings to produce a unified 4D representation-where semantics also deform with tissue motion. This unified approach enables the generation of real-time RGB and semantic outputs through a single, parallelized rasterization process. Despite the additional complexity from feature distillation, FE-4DGS sustains real-time rendering (61 FPS) with a compact footprint, achieves state-of-the-art rendering fidelity on EndoNeRF (39.1 PSNR) and SCARED (27.3 PSNR), and delivers competitive EndoVis18 segmentation, matching or exceeding strong 2D baselines for binary segmentation tasks (0.93 DSC) and remaining competitive for multi-label segmentation (0.77 DSC).

微创手术(MIS)需要动态且低纹理手术场景的高保真实时视觉反馈。为解决这一需求,我们推出了FeatureEndo-4DGS(FE-4DGS),这是首个实时管道,利用特征蒸馏的4D高斯喷涂技术,对可变形手术环境进行同步重建和语义分割。不同于以往仅限于静态场景的特征蒸馏方法,以及缺乏语义整合的现有4D方法,FE-4DGS无缝利用预训练的2D语义嵌入,生成一个统一的4D表示,其中语义也随组织运动而变形。这一统一的方法通过单一的并行栅格化过程,能够生成实时的RGB和语义输出。尽管特征蒸馏增加了复杂性,但FE-4DGS仍能保持实时渲染(61 FPS),在EndoNeRF(39.1 PSNR)和SCARED(27.3 PSNR)上达到最先进的渲染保真度,并且在EndoVis18分割方面表现出竞争力,对于二元分割任务(0.93 DSC)匹配或超过强大的2D基准线,并在多标签分割方面保持竞争力(0.77 DSC)。

论文及项目相关链接

PDF 17 pages, 5 figures; Accepted to ML4H 2025

Summary

新一代特征蒸馏4D高斯扩展技术,实现实时重建与动态手术环境语义分割。利用预训练2D语义嵌入生成统一4D表示,支持实时渲染与高质量渲染效果。

Key Takeaways

  • 特征蒸馏技术应用于手术场景,实现高保真实时反馈。
  • FeatureEndo-4DGS系统利用特征蒸馏的4D高斯扩展技术,满足微创手术对动态、低纹理场景的视觉反馈需求。
  • 系统利用预训练的2D语义嵌入,生成统一的4D表示,实现语义信息的实时变形与场景重建。
  • 该系统采用并行栅格化技术,生成实时RGB和语义输出。
  • 特征蒸馏技术虽增加复杂性,但FeatureEndo-4DGS系统仍维持实时渲染速度(每秒渲染帧数达61帧)。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
NeRF NeRF
NeRF 方向最新论文已更新,请持续关注 Update in 2025-11-16 Mip-NeWRF Enhanced Wireless Radiance Field with Hybrid Encoding for Channel Prediction
2025-11-16
下一篇 
元宇宙/虚拟人 元宇宙/虚拟人
元宇宙/虚拟人 方向最新论文已更新,请持续关注 Update in 2025-11-16 Dynamic Avatar-Scene Rendering from Human-centric Context
  目录