⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-24 更新
From Restoration to Reconstruction: Rethinking 3D Gaussian Splatting for Underwater Scenes
Authors:Guoxi Huang, Haoran Wang, Zipeng Qi, Wenjun Lu, David Bull, Nantheera Anantrasirichai
Underwater image degradation poses significant challenges for 3D reconstruction, where simplified physical models often fail in complex scenes. We propose \textbf{R-Splatting}, a unified framework that bridges underwater image restoration (UIR) with 3D Gaussian Splatting (3DGS) to improve both rendering quality and geometric fidelity. Our method integrates multiple enhanced views produced by diverse UIR models into a single reconstruction pipeline. During inference, a lightweight illumination generator samples latent codes to support diverse yet coherent renderings, while a contrastive loss ensures disentangled and stable illumination representations. Furthermore, we propose \textit{Uncertainty-Aware Opacity Optimization (UAOO)}, which models opacity as a stochastic function to regularize training. This suppresses abrupt gradient responses triggered by illumination variation and mitigates overfitting to noisy or view-specific artifacts. Experiments on Seathru-NeRF and our new BlueCoral3D dataset demonstrate that R-Splatting outperforms strong baselines in both rendering quality and geometric accuracy.
水下图像退化给3D重建带来了重大挑战,复杂的场景中简单的物理模型往往无法胜任。我们提出了R-Splatting框架,它将水下图像恢复(UIR)与3D高斯拼贴(3DGS)相结合,以提高渲染质量和几何保真度。我们的方法将多种由不同UIR模型生成的增强视图集成到单个重建流程中。在推理过程中,轻量级照明生成器对潜在代码进行采样,以支持多样且连贯的渲染,而对比损失则确保去耦和稳定的照明表示。此外,我们提出了不确定性感知不透明度优化(UAOO),它将不透明度建模为随机函数以规范训练。这抑制了由照明变化触发的突然梯度响应,并减轻了对噪声或特定视图伪影的过拟合。在Seathru-NeRF和我们新的BlueCoral3D数据集上的实验表明,R-Splatting在渲染质量和几何准确性方面均优于强大的基线。
论文及项目相关链接
Summary
本文提出了一种名为R-Splatting的统一框架,它将水下图像恢复(UIR)与三维高斯拼贴(3DGS)相结合,旨在解决水下图像退化对三维重建带来的挑战。通过整合多种由不同UIR模型生成的水下图像增强视图,提高渲染质量和几何保真度。同时,采用轻量级照明生成器支持多样且连贯的渲染,并通过对比损失确保照明表示的去纠缠和稳定性。此外,还提出了不确定性感知不透明度优化(UAOO),将不透明度建模为随机函数以进行训练正则化,抑制由照明变化触发的突然梯度响应,并减轻对噪声或特定视图伪影的过拟合。在Seathru-NeRF和新的BlueCoral3D数据集上的实验表明,R-Splatting在渲染质量和几何精度方面优于强大的基线方法。
Key Takeaways
- 提出R-Splatting框架,整合水下图像恢复(UIR)与三维高斯拼贴(3DGS),应对水下图像退化对三维重建的挑战。
- 通过多种UIR模型生成增强视图,并整合到单一重建流程中,提升渲染质量与几何保真度。
- 采用轻量级照明生成器支持多样且连贯的渲染,对比损失确保照明表示的稳定性与去纠缠。
- 引入不确定性感知不透明度优化(UAOO),将不透明度建模为随机函数,进行训练正则化,抑制突然梯度响应,减轻对噪声或特定视图伪影的过拟合。
- R-Splatting框架在Seathru-NeRF和BlueCoral3D数据集上的实验表现优异,优于现有基线方法。
- R-Splatting能提高渲染质量和几何精度。
- 框架具有处理复杂场景下水下图像退化的能力。
点此查看论文截图





GAN-Based Multi-Microphone Spatial Target Speaker Extraction
Authors:Shrishti Saha Shetu, Emanuël A. P. Habets, Andreas Brendel
Spatial target speaker extraction isolates a desired speaker’s voice in multi-speaker environments using spatial information, such as the direction of arrival (DoA). Although recent deep neural network (DNN)-based discriminative methods have shown significant performance improvements, the potential of generative approaches, such as generative adversarial networks (GANs), remains largely unexplored for this problem. In this work, we demonstrate that a GAN can effectively leverage both noisy mixtures and spatial information to extract and generate the target speaker’s speech. By conditioning the GAN on intermediate features of a discriminative spatial filtering model in addition to DoA, we enable steerable target extraction with high spatial resolution of 5 degrees, outperforming state-of-the-art discriminative methods in perceptual quality-based objective metrics.
空间目标说话人提取技术利用空间信息,如到达方向(DoA),在多说话人环境中分离出目标说话人的声音。尽管基于深度神经网络(DNN)的判别方法最近取得了显著的性能改进,但生成方法(如生成对抗网络(GAN))的潜力在很大程度上仍未被探索用于解决这个问题。在这项工作中,我们证明了GAN可以有效地利用噪声混合和空间信息来提取和生成目标说话人的语音。除了DoA之外,通过对GAN进行条件化设置,使其依赖于判别性空间滤波模型的中间特征,我们实现了具有高达5度的高空间分辨率的可控目标提取,在基于感知质量的客观度量方面优于最先进的判别方法。
论文及项目相关链接
Summary
空间目标说话人提取利用空间信息,如到达方向(DoA),在多说话人环境中分离出目标说话人的声音。虽然基于深度神经网络(DNN)的判别方法已取得了显著的性能改进,但生成式方法,如生成对抗网络(GANs)在此问题上的潜力尚未得到充分探索。本研究展示了GAN如何利用嘈杂的混合和空度信息有效地提取并生成目标说话人的语音。通过在GAN上增加基于判别性空间滤波模型的中间特征以及DoA的条件,我们实现了具有高达5度的高空间分辨率的可控目标提取,在基于感知质量的客观度量上超越了最先进的判别方法。
Key Takeaways
- 空间目标说话人提取利用空间信息如到达方向(DoA)来分离多说话环境中的目标说话人的声音。
- 虽然判别方法已经取得了显著进展,但生成对抗网络(GANs)在此问题上的潜力尚未被充分探索。
- GAN可以有效地利用嘈杂的混合和空度信息来提取并生成目标说话人的语音。
- 通过在GAN上增加基于判别性空间滤波模型的中间特征的条件,提高了性能。
- 结合DoA信息,实现了具有高达5度的高空间分辨率的可控目标提取。
- 在基于感知质量的客观度量上,所提出的方法超越了现有的最先进的判别方法。
点此查看论文截图




DT-NeRF: A Diffusion and Transformer-Based Optimization Approach for Neural Radiance Fields in 3D Reconstruction
Authors:Bo Liu, Runlong Li, Li Zhou, Yan Zhou
This paper proposes a Diffusion Model-Optimized Neural Radiance Field (DT-NeRF) method, aimed at enhancing detail recovery and multi-view consistency in 3D scene reconstruction. By combining diffusion models with Transformers, DT-NeRF effectively restores details under sparse viewpoints and maintains high accuracy in complex geometric scenes. Experimental results demonstrate that DT-NeRF significantly outperforms traditional NeRF and other state-of-the-art methods on the Matterport3D and ShapeNet datasets, particularly in metrics such as PSNR, SSIM, Chamfer Distance, and Fidelity. Ablation experiments further confirm the critical role of the diffusion and Transformer modules in the model’s performance, with the removal of either module leading to a decline in performance. The design of DT-NeRF showcases the synergistic effect between modules, providing an efficient and accurate solution for 3D scene reconstruction. Future research may focus on further optimizing the model, exploring more advanced generative models and network architectures to enhance its performance in large-scale dynamic scenes.
本文提出了一种优化扩散模型的神经辐射场(DT-NeRF)方法,旨在提高三维场景重建中的细节恢复和多视图一致性。通过将扩散模型与Transformer相结合,DT-NeRF在稀疏视角下有效地恢复了细节,并在复杂几何场景中保持了高精度。实验结果表明,DT-NeRF在Matterport3D和ShapeNet数据集上显著优于传统NeRF和其他最新方法,特别是在PSNR、SSIM、Chamfer距离和保真度等指标上。消融实验进一步证实了扩散和Transformer模块对模型性能的关键作用,移除任何一个模块都会导致性能下降。DT-NeRF的设计展示了模块之间的协同作用,为三维场景重建提供了高效且准确的解决方案。未来的研究可能会集中在进一步优化模型,探索更先进的生成模型和网络架构,以提高其在大型动态场景中的性能。
论文及项目相关链接
PDF 15 pages
Summary
本文提出一种名为DT-NeRF的扩散模型优化神经辐射场方法,旨在提高三维场景重建中的细节恢复和多视角一致性。结合扩散模型和Transformer,DT-NeRF在稀疏视角下能有效恢复细节,并在复杂几何场景中保持高精度。实验结果在Matterport3D和ShapeNet数据集上表明,DT-NeRF较传统NeRF和其他先进方法有明显优势,特别是在PSNR、SSIM、Chamfer距离和保真度等指标上。
Key Takeaways
- DT-NeRF结合了扩散模型和Transformer,优化了神经辐射场方法。
- 该方法旨在提高三维场景重建中的细节恢复和多视角一致性。
- 实验结果显示DT-NeRF在多个数据集上较传统方法性能更优。
- DT-NeRF在稀疏视角下能有效恢复细节,并在复杂几何场景中保持高精度。
- 消融实验证实了扩散模型和Transformer模块的关键作用。
- DT-NeRF的设计展示了模块间的协同作用,为三维场景重建提供了高效准确的解决方案。
点此查看论文截图




HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis
Authors:Zipeng Wang, Dan Xu
Recently, 3D Gaussian Splatting (3DGS) has emerged as a powerful alternative to NeRF-based approaches, enabling real-time, high-quality novel view synthesis through explicit, optimizable 3D Gaussians. However, 3DGS suffers from significant memory overhead due to its reliance on per-Gaussian parameters to model view-dependent effects and anisotropic shapes. While recent works propose compressing 3DGS with neural fields, these methods struggle to capture high-frequency spatial variations in Gaussian properties, leading to degraded reconstruction of fine details. We present Hybrid Radiance Fields (HyRF), a novel scene representation that combines the strengths of explicit Gaussians and neural fields. HyRF decomposes the scene into (1) a compact set of explicit Gaussians storing only critical high-frequency parameters and (2) grid-based neural fields that predict remaining properties. To enhance representational capacity, we introduce a decoupled neural field architecture, separately modeling geometry (scale, opacity, rotation) and view-dependent color. Additionally, we propose a hybrid rendering scheme that composites Gaussian splatting with a neural field-predicted background, addressing limitations in distant scene representation. Experiments demonstrate that HyRF achieves state-of-the-art rendering quality while reducing model size by over 20 times compared to 3DGS and maintaining real-time performance. Our project page is available at https://wzpscott.github.io/hyrf/.
最近,3D高斯采样(3DGS)作为一种强大的NeRF替代方法出现,它通过明确的、可优化的3D高斯实现实时高质量的新视角合成。然而,由于3DGS依赖于高斯参数来模拟视角相关的效果和各向异性形状,它存在较大的内存开销。尽管最近的研究提出了用神经网络场来压缩3DGS,但这些方法在捕捉高斯属性的高频空间变化方面存在困难,导致精细细节的重建退化。我们提出了混合辐射场(HyRF),这是一种结合显式高斯和神经网络场优点的新型场景表示方法。HyRF将场景分解为(1)一组紧凑的显式高斯,只存储关键的高频参数;(2)基于网格的神经网络场,用于预测其余属性。为了提高表示能力,我们引入了一个解耦的神经网络场架构,分别建模几何(尺度、不透明度、旋转)和视角相关的颜色。此外,我们提出了一种混合渲染方案,将高斯采样与神经网络场预测的背景进行合成,解决了远距离场景表示的局限性。实验表明,HyRF达到了最先进的渲染质量,与3DGS相比,模型大小减少了20倍以上,同时保持了实时性能。我们的项目页面可在[https://wzpscott.github.io/hyrf/]上找到。
论文及项目相关链接
Summary
本文提出了Hybrid Radiance Fields(HyRF)这一新型场景表示方法,结合了显式高斯和神经网络的优势。HyRF将场景分解为两组元素:关键的显式高斯用于存储高频参数,以及基于网格的神经网络用于预测其余属性。同时引入了解耦神经网络架构和混合渲染方案,以提升模型表现力和渲染质量。实验证明,HyRF达到了最先进的渲染质量,同时实现了与3DGS相比超过20倍的模型大小缩减,并保持实时性能。
Key Takeaways
- 3D Gaussian Splatting(3DGS)虽然可以实现实时高质量的新型视图合成,但存在内存开销大的问题。
- Hybrid Radiance Fields(HyRF)结合了显式高斯和神经网络的优势,旨在解决3DGS的问题。
- HyRF将场景分解为关键的显式高斯和其他基于网格的神经网络预测属性。
- 解耦神经网络架构被引入以分别建模几何和视觉依赖颜色,增强了模型的代表性。
- 提出了一种混合渲染方案,通过结合高斯和神经网络预测的背景,解决了远距离场景表示的限制。
- 实验证明,HyRF在保持实时性能的同时,实现了高质量的渲染,并显著减小了模型大小。
点此查看论文截图




PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control
Authors:Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng
Audio-driven talking head generation is crucial for applications in virtual reality, digital avatars, and film production. While NeRF-based methods enable high-fidelity reconstruction, they suffer from low rendering efficiency and suboptimal audio-visual synchronization. This work presents PGSTalker, a real-time audio-driven talking head synthesis framework based on 3D Gaussian Splatting (3DGS). To improve rendering performance, we propose a pixel-aware density control strategy that adaptively allocates point density, enhancing detail in dynamic facial regions while reducing redundancy elsewhere. Additionally, we introduce a lightweight Multimodal Gated Fusion Module to effectively fuse audio and spatial features, thereby improving the accuracy of Gaussian deformation prediction. Extensive experiments on public datasets demonstrate that PGSTalker outperforms existing NeRF- and 3DGS-based approaches in rendering quality, lip-sync precision, and inference speed. Our method exhibits strong generalization capabilities and practical potential for real-world deployment.
音频驱动的说话人头部生成对于虚拟现实、数字化身和电影制作等应用至关重要。尽管基于NeRF的方法能够实现高保真重建,但它们存在渲染效率低下和视听同步不佳的问题。本研究提出了基于3D高斯拼贴(3DGS)的实时音频驱动说话人头部合成框架PGSTalker。为了提高渲染性能,我们提出了一种像素感知密度控制策略,该策略能够自适应地分配点密度,从而在动态面部区域增强细节,同时减少其他区域的冗余。此外,我们还引入了一个轻量级的多模式门控融合模块,以有效地融合音频和空间特征,从而提高高斯变形预测的准确性。在公开数据集上的大量实验表明,PGSTalker在渲染质量、唇同步精度和推理速度方面优于现有的基于NeRF和3DGS的方法。我们的方法表现出强大的泛化能力和实际部署的潜力。
论文及项目相关链接
PDF Main paper (15 pages). Accepted for publication by ICONIP( International Conference on Neural Information Processing) 2025
Summary
PGSTalker是一个基于实时音频驱动的说话人头部合成框架,采用三维高斯喷绘技术(3DGS)。为提高渲染性能,提出像素感知密度控制策略,自适应分配点密度,同时引入轻量级多模态门融合模块,有效融合音频和空间特征,提高高斯变形预测的准确性。在公共数据集上的实验表明,PGSTalker在渲染质量、唇同步精度和推理速度方面优于现有的NeRF和3DGS方法,具有强大的泛化能力和实际应用潜力。
Key Takeaways
- PGSTalker是一个音频驱动的说话人头部生成框架,基于三维高斯喷绘技术(3DGS)。
- 框架中存在渲染性能问题,因此提出像素感知密度控制策略以提高性能。
- 引入轻量级多模态门融合模块来融合音频和空间特征,提高变形预测准确性。
- 在公共数据集上的实验显示PGSTalker在渲染质量、唇同步精度和推理速度方面的优越性。
- 该方法具有较强的泛化能力,可用于各种虚拟角色、电影制作等应用。
- 该技术具有实际应用潜力,可为虚拟现实、数字化身等领域带来革新。
点此查看论文截图


QWD-GAN: Quality-aware Wavelet-driven GAN for Unsupervised Medical Microscopy Images Denoising
Authors:Qijun Yang, Yating Huang, Lintao Xiang, Hujun Yin
Image denoising plays a critical role in biomedical and microscopy imaging, especially when acquiring wide-field fluorescence-stained images. This task faces challenges in multiple fronts, including limitations in image acquisition conditions, complex noise types, algorithm adaptability, and clinical application demands. Although many deep learning-based denoising techniques have demonstrated promising results, further improvements are needed in preserving image details, enhancing algorithmic efficiency, and increasing clinical interpretability. We propose an unsupervised image denoising method based on a Generative Adversarial Network (GAN) architecture. The approach introduces a multi-scale adaptive generator based on the Wavelet Transform and a dual-branch discriminator that integrates difference perception feature maps with original features. Experimental results on multiple biomedical microscopy image datasets show that the proposed model achieves state-of-the-art denoising performance, particularly excelling in the preservation of high-frequency information. Furthermore, the dual-branch discriminator is seamlessly compatible with various GAN frameworks. The proposed quality-aware, wavelet-driven GAN denoising model is termed as QWD-GAN.
图像去噪在生物医学和显微镜成像中扮演着至关重要的角色,尤其是在获取宽场荧光染色图像时。此任务面临着多方面的挑战,包括图像采集条件的限制、复杂的噪声类型、算法适应性和临床应用需求。尽管许多基于深度学习的去噪技术在细节保留、算法效率提升和临床可解释性方面表现出巨大潜力,但仍需进一步改进。我们提出了一种基于生成对抗网络(GAN)架构的无监督图像去噪方法。该方法引入了一种基于小波变换的多尺度自适应生成器,以及一个集成了差异感知特征映射和原始特征的双重分支鉴别器。在多个生物医学显微镜图像数据集上的实验结果表明,该模型取得了最先进的去噪性能,尤其在高频信息保护方面表现出色。此外,双重分支鉴别器能够无缝兼容各种GAN框架。所提出的具有质量感知和小波驱动的去噪GAN模型被称为QWD-GAN。
论文及项目相关链接
Summary
基于生成对抗网络(GAN)架构的QWD-GAN模型,提出一种无监督图像去噪方法。该方法引入基于小波变换的多尺度自适应生成器与结合差异感知特征图的双分支鉴别器。实验证明,该模型在生物医学显微镜图像数据集上去噪性能达到先进水平,特别擅长保留高频信息,且与各种GAN框架兼容。
Key Takeaways
- 去噪在生物医学和显微镜成像中至关重要,特别是在获取宽场荧光染色图像时。
- 图像去噪面临多重挑战,包括图像采集条件限制、复杂噪声类型、算法适应性和临床应用需求。
- 尽管深度学习去噪技术已展现潜力,但仍需改进以保留图像细节、提高算法效率和临床可解释性。
- 提出了一种基于生成对抗网络(GAN)架构的无监督图像去噪方法。
- 该方法引入多尺度自适应生成器与双分支鉴别器,结合差异感知特征图。
- 实验证明该模型在多个生物医学显微镜图像数据集上达到先进去噪性能,尤其擅长保留高频信息。
点此查看论文截图



MS-GS: Multi-Appearance Sparse-View 3D Gaussian Splatting in the Wild
Authors:Deming Li, Kaiwen Jiang, Yutao Tang, Ravi Ramamoorthi, Rama Chellappa, Cheng Peng
In-the-wild photo collections often contain limited volumes of imagery and exhibit multiple appearances, e.g., taken at different times of day or seasons, posing significant challenges to scene reconstruction and novel view synthesis. Although recent adaptations of Neural Radiance Field (NeRF) and 3D Gaussian Splatting (3DGS) have improved in these areas, they tend to oversmooth and are prone to overfitting. In this paper, we present MS-GS, a novel framework designed with Multi-appearance capabilities in Sparse-view scenarios using 3DGS. To address the lack of support due to sparse initializations, our approach is built on the geometric priors elicited from monocular depth estimations. The key lies in extracting and utilizing local semantic regions with a Structure-from-Motion (SfM) points anchored algorithm for reliable alignment and geometry cues. Then, to introduce multi-view constraints, we propose a series of geometry-guided supervision at virtual views in a fine-grained and coarse scheme to encourage 3D consistency and reduce overfitting. We also introduce a dataset and an in-the-wild experiment setting to set up more realistic benchmarks. We demonstrate that MS-GS achieves photorealistic renderings under various challenging sparse-view and multi-appearance conditions and outperforms existing approaches significantly across different datasets.
野外照片集通常包含有限的图像数量,并且呈现多种外观,例如不同的时间或季节拍摄的照片,给场景重建和新颖视图合成带来重大挑战。尽管最近的神经辐射场(NeRF)和三维高斯溅出(3DGS)的改进已经在这一领域有所提升,但它们往往过于平滑并且容易过度拟合。在本文中,我们提出了MS-GS,这是一个在稀疏视图场景中利用3DGS的多外观能力设计的新型框架。为了解决由于稀疏初始化而导致的支持不足的问题,我们的方法建立在从单目深度估计中引发的几何先验之上。关键在于提取和利用局部语义区域,采用结构从运动(SfM)点锚定算法实现可靠的对齐和几何线索。然后,为了引入多视图约束,我们提出了一种在精细粒度和粗略方案中在虚拟视图中进行几何指导的监督的一系列方法,以鼓励三维一致性并减少过度拟合。我们还引入了一个数据集和野外实验设置,以建立更现实的基准测试。我们证明,MS-GS在各种具有挑战性的稀疏视图和多外观条件下实现了逼真的渲染,并在不同数据集上显著优于现有方法。
论文及项目相关链接
Summary
本文主要探讨了在野外照片采集场景中的重建与合成问题,特别是在不同时间和季节下的多外观挑战。针对现有NeRF和3DGS方法存在的局限性和问题,提出一个结合多外观能力、应用于稀疏视角下的全新框架MS-GS。该框架利用单目深度估计的几何先验信息,通过结构从运动(SfM)点锚定算法提取并利用局部语义区域,实现可靠对齐和几何线索。此外,通过引入多视角约束和精细粒度的几何引导监督,减少了过度拟合,提高了3D一致性。实验证明,MS-GS在多种具有挑战性的稀疏视角和多外观条件下实现了逼真的渲染效果,并在不同数据集上显著优于现有方法。
Key Takeaways
- 在野外照片采集场景中存在多个外观挑战,需要解决场景重建和新型视角合成的问题。
- 现有NeRF和3DGS方法存在过度平滑和过度拟合的问题。
- 提出一种全新的框架MS-GS,该框架结合多外观能力并应用于稀疏视角场景中使用3DGS。
- MS-GS利用单目深度估计的几何先验信息,并通过结构从运动(SfM)点锚定算法实现可靠对齐和几何线索的提取和利用。
- 通过引入多视角约束和精细粒度的几何引导监督,提高3D一致性并减少过度拟合。
- MS-GS在多种挑战性的稀疏视角和多外观条件下实现了逼真的渲染效果。
点此查看论文截图




RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
Authors:Fang Li, Hao Zhang, Narendra Ahuja
Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video, dubbed ROS-Cam. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.
尽管COLMAP长期以来一直是静态场景摄像机参数优化的主要方法,但它受到运行时间长和依赖于真实运动遮罩应用于动态场景的制约。许多尝试通过引入更多先验知识进行监督来改善它,如真实焦距、运动遮罩、3D点云、相机姿态和度量深度,然而,这些通常在随意捕获的RGB视频中并不可用。在本文中,我们提出了一种新的方法,仅通过单个RGB视频进行监督,实现动态场景中更准确高效的摄像机参数优化,称为ROS-Cam。我们的方法由三个关键组件组成:(1)斑块追踪滤波器,用于在RGB视频上建立稳健且尽可能稀疏的铰接关系。(2)异常值感知联合优化,通过自适应降低移动异常值的权重,实现高效的摄像机参数优化,无需依赖运动先验。(3)两阶段优化策略,通过在损失中的Softplus限制和凸极小值之间进行权衡,以提高稳定性和优化速度。我们通过视觉和数值评估我们的摄像机估计。为了进一步提高准确性,我们将摄像机估计值输入到4D重建方法,并评估所得的3D场景、渲染的2D RGB和深度图。我们在4个真实世界数据集(NeRF-DS、DAVIS、iPhone和TUM-dynamics)和1个合成数据集(MPI-Sintel)上进行了实验,结果表明,我们的方法使用单个RGB视频作为唯一的监督,能更高效、更准确地估计摄像机参数。
论文及项目相关链接
PDF NeurIPS 2025 Spotlight
摘要
尽管COLMAP长期以来一直是静态场景摄像机参数优化的主要方法,但其受到运行时间长和对地面真实运动掩膜的依赖的制约,难以应用于动态场景。本文提出了一种仅通过单目RGB视频实现更准确高效的摄像机参数优化方法,称为ROS-Cam。该方法包括三个关键组件:基于块追踪滤波器建立稳健且尽可能稀疏的枢纽关系;采用异常值感知联合优化,自适应减轻运动异常值影响,无需依赖运动先验,实现摄像机参数高效优化;采用两阶段优化策略,通过损失函数的Softplus极限和凸极小值之间的权衡提高稳定性和优化速度。我们通过视觉和数值评估了摄像机参数估计的准确性。为进一步验证准确性,将估算的摄像机参数输入到四维重建方法中进行三维场景重建,并评估生成的二维RGB图和深度图。在4个真实数据集(NeRF-DS、DAVIS、iPhone和TUM-dynamics)和1个合成数据集(MPI-Sintel)上进行的实验表明,我们的方法使用单一RGB视频作为监督,能更精准高效地估算摄像机参数。
关键见解
- COLMAP虽然在静态场景摄像机参数优化中占主导地位,但在处理动态场景时存在运行时间长和依赖地面真实运动掩膜的制约。
- 提出的ROS-Cam方法通过结合三个关键组件:块追踪滤波器、异常值感知联合优化以及两阶段优化策略,实现了更准确且高效的摄像机参数优化。
- ROS-Cam方法在单一RGB视频的监督下工作,无需额外的先验信息,如地面真实焦距、运动掩膜、三维点云、摄像机姿态和深度度量等。
- 通过视觉和数值评估了摄像机参数估计的准确性,并通过四维重建方法验证了结果的准确性。
- 在多个真实和合成数据集上的实验表明,ROS-Cam方法比传统方法更精准高效。
- 块追踪滤波器有助于建立稳健且稀疏的枢纽关系,从而提高优化效率。
点此查看论文截图





Revisiting Speech-Lip Alignment: A Phoneme-Aware Speech Encoder for Robust Talking Head Synthesis
Authors:Yihuan Huang, Jiajun Liu, Yanzhen Ren, Wuyang Liu, Zongkun Sun
Speech-driven talking head synthesis tasks commonly use general acoustic features as guided speech features. However, we discovered that these features suffer from phoneme-viseme alignment ambiguity, which refers to the uncertainty and imprecision in matching phonemes with visemes. To overcome this limitation, we propose a phoneme-aware speech encoder (PASE) that explicitly enforces accurate phoneme-viseme correspondence. PASE first captures fine-grained speech and visual features, then introduces a prediction-reconstruction task to improve robustness under noise and modality absence. Furthermore, a phoneme-level alignment module guided by phoneme embeddings and contrastive learning ensures discriminative audio and visual alignment. Experimental results show that PASE achieves state-of-the-art performance in both NeRF and 3DGS rendering models. Its lip sync accuracy improves by 13.7% and 14.2% compared to the acoustic feature, producing results close to the ground truth videos.
语音驱动的人头合成任务通常使用一般声学特征作为引导语音特征。然而,我们发现这些特征存在音素-面部动作对齐模糊的问题,即音素与面部动作匹配的不确定性和不精确性。为了克服这一局限性,我们提出了一种音素感知语音编码器(PASE),它显式地强制准确的音素-面部动作对应关系。PASE首先捕捉精细的语音和视觉特征,然后引入预测重建任务,以提高噪声和模态缺失下的稳健性。此外,一个由音素嵌入和对比学习引导的音素级对齐模块确保了具有鉴别力的音频和视觉对齐。实验结果表明,PASE在NeRF和3DGS渲染模型中均达到了最先进的性能。与声学特征相比,其唇同步精度提高了13.7%和14.2%,产生的结果接近真实视频。
论文及项目相关链接
Summary
本文介绍了语音驱动的人头合成任务中普遍使用的一般声学特征作为引导语音特征,但存在音素-面部动态匹配模糊的问题。为解决此问题,提出了音素感知语音编码器(PASE),能明确实现音素与面部动态的准确对应。PASE首先捕捉精细的语音和视觉特征,然后通过预测-重建任务提高在噪声和模态缺失下的稳健性。此外,以音素嵌入和对比学习引导的音素级别对齐模块确保了音频和视觉的区分对齐。实验结果显示,PASE在NeRF和3DGS渲染模型中达到最佳性能,与声学特征相比,唇同步精度分别提高了13.7%和14.2%,结果接近真实视频。
Key Takeaways
- 语音驱动的人头合成任务普遍使用一般声学特征,但存在音素-面部动态匹配模糊的问题。
- 为解决音素-面部动态匹配模糊问题,提出了音素感知语音编码器(PASE)。
- PASE可以捕捉精细的语音和视觉特征。
- PASE通过预测-重建任务提高在噪声和模态缺失下的稳健性。
- PASE通过音素嵌入和对比学习实现音频和视觉的区分对齐。
- 实验结果显示PASE在NeRF和3DGS渲染模型中表现最佳。
点此查看论文截图




