⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-19 更新
EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation
Authors:Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng
This paper presents EGSTalker, a real-time audio-driven talking head generation framework based on 3D Gaussian Splatting (3DGS). Designed to enhance both speed and visual fidelity, EGSTalker requires only 3-5 minutes of training video to synthesize high-quality facial animations. The framework comprises two key stages: static Gaussian initialization and audio-driven deformation. In the first stage, a multi-resolution hash triplane and a Kolmogorov-Arnold Network (KAN) are used to extract spatial features and construct a compact 3D Gaussian representation. In the second stage, we propose an Efficient Spatial-Audio Attention (ESAA) module to fuse audio and spatial cues, while KAN predicts the corresponding Gaussian deformations. Extensive experiments demonstrate that EGSTalker achieves rendering quality and lip-sync accuracy comparable to state-of-the-art methods, while significantly outperforming them in inference speed. These results highlight EGSTalker’s potential for real-time multimedia applications.
本文介绍了基于三维高斯展开技术(3DGS)的实时音频驱动说话人头部生成框架EGSTalker。该设计旨在提高速度和视觉保真度,仅需要3-5分钟的训练视频即可合成高质量面部动画。该框架包括两个关键阶段:静态高斯初始化和音频驱动变形。在第一阶段,使用多分辨率哈希三角平面和Kolmogorov-Arnold网络(KAN)提取空间特征并建立紧凑的三维高斯表示。在第二阶段,我们提出了高效的时空音频注意力(ESAA)模块,以融合音频和空间线索,同时KAN预测相应的高斯变形。大量实验表明,EGSTalker的渲染质量和唇同步准确性可与最先进的方法相媲美,同时在推理速度上大大优于它们。这些结果凸显了EGSTalker在实时多媒体应用中的潜力。
论文及项目相关链接
PDF Main paper (6 pages). Accepted for publication by IEEE International Conference on Systems, Man, and Cybernetics 2025
Summary
本文介绍了基于3D高斯拼贴(3DGS)的实时音频驱动说话人头部生成框架EGSTalker。该框架旨在提高速度和视觉保真度,仅需要3-5分钟的训练视频即可合成高质量面部动画。它包含两个关键阶段:静态高斯初始化和音频驱动变形。第一阶段使用多分辨率哈希三重平面和Kolmogorov-Arnold网络(KAN)提取空间特征并建立紧凑的3D高斯表示。第二阶段提出了高效的时空音频注意力(ESAA)模块来融合音频和空间线索,同时KAN预测相应的高斯变形。实验表明,EGSTalker的渲染质量和唇同步精度与最先进的方法相当,但在推理速度上显著优于它们。这突显了EGSTalker在实时多媒体应用中的潜力。
Key Takeaways
- EGSTalker是一个基于3DGS的实时音频驱动说话人头部生成框架。
- 仅需3-5分钟的训练视频,即可合成高质量面部动画。
- 框架包含两个关键阶段:静态高斯初始化和音频驱动变形。
- 第一阶段使用多分辨率哈希三重平面和KAN建立3D高斯表示。
- 第二阶段通过ESAA模块融合音频与空间线索,并使用KAN预测面部变形。
- EGSTalker在渲染质量和唇同步精度方面与最先进的方法相当,但在推理速度上表现更优。
点此查看论文截图








CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
Authors:Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu
Generative models have been widely applied to world modeling for environment simulation and future state prediction. With advancements in autonomous driving, there is a growing demand not only for high-fidelity video generation under various controls, but also for producing diverse and meaningful information such as depth estimation. To address this, we propose CVD-STORM, a cross-view video diffusion model utilizing a spatial-temporal reconstruction Variational Autoencoder (VAE) that generates long-term, multi-view videos with 4D reconstruction capabilities under various control inputs. Our approach first fine-tunes the VAE with an auxiliary 4D reconstruction task, enhancing its ability to encode 3D structures and temporal dynamics. Subsequently, we integrate this VAE into the video diffusion process to significantly improve generation quality. Experimental results demonstrate that our model achieves substantial improvements in both FID and FVD metrics. Additionally, the jointly-trained Gaussian Splatting Decoder effectively reconstructs dynamic scenes, providing valuable geometric information for comprehensive scene understanding. Our project page is https://sensetime-fvg.github.io/CVD-STORM.
生成模型已被广泛应用于世界建模,以进行环境模拟和未来状态预测。随着自动驾驶技术的进步,不仅需要对各种控制下高保真视频生成的需求不断增长,而且还需要生成多样化和有意义的信息,如深度估计。为解决这一问题,我们提出了CVD-STORM,这是一种利用空间时间重建变分自编码器(VAE)的跨视图视频扩散模型。该模型能够在各种控制输入下生成具有长期、多视角的视频,并具有4D重建能力。我们的方法首先使用辅助的4D重建任务对VAE进行微调,提高其编码3D结构和时间动态的能力。随后,我们将该VAE集成到视频扩散过程中,以显著提高生成质量。实验结果表明,我们的模型在FID和FVD指标上都取得了实质性的改进。此外,联合训练的高斯平铺解码器可以有效地重建动态场景,为全面的场景理解提供有价值的几何信息。我们的项目页面是https://sensetime-fvg.github.io/CVD-STORM。
论文及项目相关链接
Summary
新一代生成模型应用于世界建模,通过空间时间重建变分自编码器(VAE)生成长期多视角视频,具有四维重建能力,可满足各种控制输入需求。该研究提高了生成视频的质量和多样性,增强了模型对三维结构和时间动态编码的能力。项目页面为:[链接地址]。
Key Takeaways
- 生成模型被广泛应用于世界建模,用于环境模拟和未来状态预测。
- 随着自动驾驶技术的发展,对高质量、多样化视频生成的需求不断增长。
- CVD-STORM是一个跨视角视频扩散模型,利用空间时间重建变分自编码器(VAE)生成长期多视角视频。
- CVD-STORM通过辅助四维重建任务微调VAE,增强其编码三维结构和时间动态的能力。
- CVD-STORM将VAE集成到视频扩散过程中,显著提高生成视频的质量。
- 实验结果表明,该模型在FID和FVD指标上实现了显著改进。
点此查看论文截图



CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization
Authors:Jan Ackermann, Jonas Kulhanek, Shengqu Cai, Haofei Xu, Marc Pollefeys, Gordon Wetzstein, Leonidas Guibas, Songyou Peng
In dynamic 3D environments, accurately updating scene representations over time is crucial for applications in robotics, mixed reality, and embodied AI. As scenes evolve, efficient methods to incorporate changes are needed to maintain up-to-date, high-quality reconstructions without the computational overhead of re-optimizing the entire scene. This paper introduces CL-Splats, which incrementally updates Gaussian splatting-based 3D representations from sparse scene captures. CL-Splats integrates a robust change-detection module that segments updated and static components within the scene, enabling focused, local optimization that avoids unnecessary re-computation. Moreover, CL-Splats supports storing and recovering previous scene states, facilitating temporal segmentation and new scene-analysis applications. Our extensive experiments demonstrate that CL-Splats achieves efficient updates with improved reconstruction quality over the state-of-the-art. This establishes a robust foundation for future real-time adaptation in 3D scene reconstruction tasks.
在动态3D环境中,随着时间的推移准确更新场景表示为机器人技术、混合现实和实体人工智能应用至关重要。随着场景的发展,需要有效的方法来融入变化,以维持最新、高质量的重构,而无需对整个场景进行重新优化的计算开销。本文介绍了CL-Splats,它基于高斯涂抹技术增量更新稀疏场景捕获的3D表示。CL-Splats集成了一个稳健的变化检测模块,该模块可以分割场景中的更新和静态组件,实现有针对性的局部优化,避免不必要的重新计算。此外,CL-Splats支持存储和恢复之前的场景状态,便于进行时间分割和新的场景分析应用。我们的广泛实验表明,CL-Splats实现了高效的更新,重建质量优于当前最佳水平。这为未来实时适应三维重建任务奠定了坚实的基础。
论文及项目相关链接
PDF ICCV 2025, Project Page: https://cl-splats.github.io
Summary
本文介绍了CL-Splats技术,该技术能动态地基于高斯splat方法更新三维场景表示。该技术通过引入变化检测模块,能够区分场景中的更新和静态部分,实现局部优化,避免不必要的重新计算。此外,CL-Splats还支持存储和恢复之前的场景状态,便于进行时间分割和新的场景分析应用。实验证明,CL-Splats在更新效率和重建质量上均优于现有技术,为未来的实时三维场景重建任务奠定了坚实的基础。
Key Takeaways
- CL-Splats技术能够动态更新三维场景表示,适用于机器人、混合现实和实体人工智能等领域。
- 通过引入变化检测模块,CL-Splats能够区分场景中的更新部分和静态部分。
- CL-Splats支持局部优化,避免不必要的重新计算,提高计算效率。
- CL-Splats支持存储和恢复之前的场景状态,为时间分割和新的场景分析应用提供便利。
- CL-Splats技术相较于现有技术,在更新效率和重建质量上均有显著提升。
- CL-Splats为实时三维场景重建任务的未来发展奠定了坚实基础。
点此查看论文截图






PASE: Phoneme-Aware Speech Encoder to Improve Lip Sync Accuracy for Talking Head Synthesis
Authors:Yihuan Huang, Jiajun Liu, Yanzhen Ren, Jun Xue, Wuyang Liu, Zongkun Sun
Recent talking head synthesis works typically adopt speech features extracted from large-scale pre-trained acoustic models. However, the intrinsic many-to-many relationship between speech and lip motion causes phoneme-viseme alignment ambiguity, leading to inaccurate and unstable lips. To further improve lip sync accuracy, we propose PASE (Phoneme-Aware Speech Encoder), a novel speech representation model that bridges the gap between phonemes and visemes. PASE explicitly introduces phoneme embeddings as alignment anchors and employs a contrastive alignment module to enhance the discriminability between corresponding audio-visual pairs. In addition, a prediction and reconstruction task is designed to improve robustness under noise and partial modality absence. Experimental results show PASE significantly improves lip sync accuracy and achieves state-of-the-art performance across both NeRF- and 3DGS-based rendering frameworks, outperforming conventional methods based on acoustic features by 13.7 % and 14.2 %, respectively. Importantly, PASE can be seamlessly integrated into diverse talking head pipelines to improve the lip sync accuracy without architectural modifications.
最近的头部合成工作通常采用从大规模预训练声学模型中提取的语音特征。然而,语音和唇部运动之间固有的多对多关系导致了音素-可见语素对齐的模糊性,从而导致唇部不准确且不稳定。为了进一步提高唇部同步精度,我们提出了PASE(音素感知语音编码器),这是一种新型的语音表示模型,能够弥合音素和可见语素之间的鸿沟。PASE显式引入音素嵌入作为对齐锚点,并采用对比对齐模块来提高相应视听对之间的辨别力。此外,还设计了预测和重建任务,以提高噪声和部分模态缺失情况下的稳健性。实验结果表明,PASE能显著提高唇部同步精度,在基于NeRF和3DGS的渲染框架上均达到最新技术水平,分别优于基于声学特征的传统方法13.7%和14.2%。重要的是,PASE可以无缝集成到各种头部合成管道中,无需架构修改即可提高唇部同步精度。
论文及项目相关链接
Summary
本文提出一种名为PASE(音素感知语音编码器)的新型语音表示模型,旨在提高唇形同步的准确性。PASE利用音素嵌入作为对齐锚点,采用对比对齐模块增强对应音频视频对的辨识力,同时设计预测和重建任务提高在噪声和部分模态缺失下的稳健性。实验结果表明,PASE能显著提高唇形同步精度,在NeRF和3DGS渲染框架下均达到领先水平,相较于基于声学特征的传统方法分别提升了13.7%和14.2%。此外,PASE可无缝集成到各种说话人头管道中,无需架构修改即可提高唇形同步精度。
Key Takeaways
- PASE模型旨在解决语音和唇形运动之间的多对多关系引起的音素-唇形动作对齐模糊问题。
- PASE通过引入音素嵌入作为对齐锚点,并采用对比对齐模块来提高音频视频对的辨识力。
- 预测和重建任务的设计增强了模型在噪声和部分模态缺失环境下的稳健性。
- 实验结果表明,PASE显著提高了唇形同步精度,且在NeRF和3DGS渲染框架下均表现领先。
- 与基于声学特征的传统方法相比,PASE在唇形同步准确率上有所提升。
- PASE能够无缝集成到多种说话人头管道中,为提升唇形同步精度提供了新的可能性。
点此查看论文截图







LinPrim: Linear Primitives for Differentiable Volumetric Rendering
Authors:Nicolas von Lützow, Matthias Nießner
Volumetric rendering has become central to modern novel view synthesis methods, which use differentiable rendering to optimize 3D scene representations directly from observed views. While many recent works build on NeRF or 3D Gaussians, we explore an alternative volumetric scene representation. More specifically, we introduce two new scene representations based on linear primitives - octahedra and tetrahedra - both of which define homogeneous volumes bounded by triangular faces. To optimize these primitives, we present a differentiable rasterizer that runs efficiently on GPUs, allowing end-to-end gradient-based optimization while maintaining real-time rendering capabilities. Through experiments on real-world datasets, we demonstrate comparable performance to state-of-the-art volumetric methods while requiring fewer primitives to achieve similar reconstruction fidelity. Our findings deepen the understanding of 3D representations by providing insights into the fidelity and performance characteristics of transparent polyhedra and suggest that adopting novel primitives can expand the available design space.
体积渲染已成为现代新型视图合成方法的核心,这些方法使用可微渲染来直接优化从观察到的视角的3D场景表示。虽然许多近期的工作基于NeRF或3D高斯,但我们探索了一种替代的体积场景表示。更具体地说,我们引入了两种基于线性原始物体的新场景表示——八面体和四面体,它们均由三角形面定义均匀体积。为了优化这些原始物体,我们提出了一种可在GPU上高效运行的可微栅格化器,允许端到端的基于梯度的优化,同时保持实时渲染能力。通过在实际数据集上的实验,我们展示了与最新体积方法相当的性能,同时在使用较少原始物体的情况下实现了相似的重建保真度。我们的研究加深了对3D表示的理解,提供了关于透明多面体的保真度和性能特征的见解,并表明采用新型原始物体可以扩大可用的设计空间。
论文及项目相关链接
PDF Project page: https://nicolasvonluetzow.github.io/LinPrim - Project video: https://youtu.be/NRRlmFZj5KQ - Accepted at NeurIPS 2025
摘要
文中介绍了现代新型视图合成方法中的体积渲染技术,该方法使用可微渲染技术直接优化从观察到的视角出发的3D场景表示。虽然许多最新作品基于NeRF或三维高斯模型,但本文探索了基于线性原始体积的场景表示的新方法。具体介绍了两种基于三角面片定义均匀体积的新场景表示方式——八面体和四面体。为了优化这些原始物体,提出了一种可在GPU上高效运行的可微分光线追踪器,实现了端到端的基于梯度的优化,同时保持了实时渲染能力。在真实数据集上的实验表明,与最先进的体积方法相比,使用较少的原始物体即可实现相似的重建保真度。本研究加深了对三维表示的理解,为透明多面体的保真度和性能特征提供了见解,并表明采用新型原始物体可以扩大可用设计空间。
要点
- 体积渲染在现代新型视图合成方法中占据核心地位,采用可微分渲染技术直接优化3D场景表示。
- 引入两种基于线性原始物体的新型场景表示方法:八面体和四面体,以三角面片定义均匀体积。
- 提出一种在GPU上高效运行的可微分光线追踪器,用于优化原始物体,实现端到端的基于梯度的优化,并保持实时渲染能力。
- 在真实数据集上的实验表明,新方法在重建保真度方面与最先进的体积方法相当,且使用较少的原始物体。
- 研究加深了对三维表示的理解,扩展了对透明多面体的设计空间。
- 新的场景表示方法和优化技术可为后续研究提供新的思路和方向。
点此查看论文截图



HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion
Authors:Yingzhi Tang, Qijian Zhang, Junhui Hou
We present HuGDiffusion, a generalizable 3D Gaussian splatting (3DGS) learning pipeline to achieve novel view synthesis (NVS) of human characters from single-view input images. Existing approaches typically require monocular videos or calibrated multi-view images as inputs, whose applicability could be weakened in real-world scenarios with arbitrary and/or unknown camera poses. In this paper, we aim to generate the set of 3DGS attributes via a diffusion-based framework conditioned on human priors extracted from a single image. Specifically, we begin with carefully integrated human-centric feature extraction procedures to deduce informative conditioning signals. Based on our empirical observations that jointly learning the whole 3DGS attributes is challenging to optimize, we design a multi-stage generation strategy to obtain different types of 3DGS attributes. To facilitate the training process, we investigate constructing proxy ground-truth 3D Gaussian attributes as high-quality attribute-level supervision signals. Through extensive experiments, our HuGDiffusion shows significant performance improvements over the state-of-the-art methods. Our code will be made publicly available.
我们提出了HuGDiffusion,这是一个可通用的3D高斯描画(3DGS)学习管道,用于从单视图输入图像实现人物角色的新颖视图合成(NVS)。现有方法通常需要单目视频或校准的多视图图像作为输入,其在现实世界场景中,由于相机姿态的任意性和/或未知性,其适用性可能会减弱。本文的目标是,通过一个基于扩散的框架,借助从单幅图像中提取的人类先验知识,生成3DGS属性集。具体来说,我们从精心整合的人为中心的特征提取程序开始,以推断出信息丰富的条件信号。基于我们的经验观察,即联合学习整个3DGS属性在优化上很有挑战性,因此我们设计了一种多阶段生成策略,以获得不同类型得3DGS属性。为了促进训练过程,我们研究了构建代理真实得3D高斯属性作为高质量得属性层次监督信号。通过广泛的实验,我们的HuGDiffusion相较于最先进的方法表现出了显著的性能提升。我们的代码将公开可用。
论文及项目相关链接
Summary
基于单视角图像,提出了一种通用的三维高斯点扩散(3DGS)学习管道HuGDiffusion,用于实现人物角色的新颖视角合成(NVS)。现有方法通常需要单目视频或校准的多视角图像作为输入,其在现实世界中面对任意和/或未知相机姿态时的适用性可能会减弱。本研究旨在通过基于扩散的框架,利用从单幅图像中提取的人类先验来生成一组3DGS属性。具体来说,我们开始时谨慎地整合以人类为中心的特征提取程序来推断信息丰富的条件信号。由于我们的经验观察发现,联合学习整个3DGS属性具有优化挑战,因此我们设计了多阶段生成策略来获得不同类型 的3DGS属性。通过构建代理真实值的三维高斯属性作为高质量属性级监督信号,有助于训练过程。通过广泛的实验,我们的HuGDiffusion相较于最先进的方法表现出显著的性能提升。
Key Takeaways
- HuGDiffusion是一种基于单视角图像的3D Gaussian Splatting(3DGS)学习管道。
- 它旨在解决现有方法在真实场景中面对任意和未知相机姿态时的局限性。
- 通过扩散框架利用从单幅图像中提取的人类先验来生成3DGS属性。
- 整合了以人类为中心的特征提取程序来推断信息丰富的条件信号。
- 设计了多阶段生成策略来获得不同类型的3DGS属性,以应对优化挑战。
- 通过构建代理真实值的三维高斯属性,作为高质量属性级监督信号来促进训练过程。
点此查看论文截图




LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting
Authors:Qifeng Chen, Sheng Yang, Sicong Du, Tao Tang, Rengan Xie, Peng Chen, Yuchi Huo
We present LiDAR-GS, a Gaussian Splatting (GS) method for real-time, high-fidelity re-simulation of LiDAR scans in public urban road scenes. Recent GS methods proposed for cameras have achieved significant advancements in real-time rendering beyond Neural Radiance Fields (NeRF). However, applying GS representation to LiDAR, an active 3D sensor type, poses several challenges that must be addressed to preserve high accuracy and unique characteristics. Specifically, LiDAR-GS designs a differentiable laser beam splatting, using range-view representation for precise surface splatting by projecting lasers onto micro cross-sections, effectively eliminating artifacts associated with local affine approximations. Furthermore, LiDAR-GS leverages Neural Gaussian Representation, which further integrate view-dependent clues, to represent key LiDAR properties that are influenced by the incident direction and external factors. Combining these practices with some essential adaptations, e.g., dynamic instances decomposition, LiDAR-GS succeeds in simultaneously re-simulating depth, intensity, and ray-drop channels, achieving state-of-the-art results in both rendering frame rate and quality on publically available large scene datasets when compared with the methods using explicit mesh or implicit NeRF. Our source code is publicly available at https://www.github.com/cqf7419/LiDAR-GS.
我们提出了LiDAR-GS,这是一种用于公共城市道路场景中实时高保真模拟激光雷达扫描的高斯喷溅(GS)方法。最近为相机提出的GS方法在实时渲染神经辐射场(NeRF)方面取得了重大进展。然而,将GS表示法应用于激光雷达(一种主动三维传感器类型)时,面临一些挑战,必须解决这些挑战以保持高精度和独特特征。具体来说,LiDAR-GS设计了一种可区分的激光束喷溅技术,采用范围视图表示法,通过激光投影到微横截面进行精确表面喷溅,有效地消除了与局部仿射近似相关的伪影。此外,LiDAR-GS利用神经高斯表示法,进一步整合了视差相关线索,以表示受入射方向和外部因素影响的激光雷达的关键属性。结合这些实践与一些基本适应措施,例如动态实例分解,LiDAR-GS成功同时模拟深度、强度和射线通道,在公共可用的大型场景数据集上与使用显式网格或隐式NeRF的方法相比,实现了渲染帧率和质量的最新成果。我们的源代码可在https://www.github.com/cqf7419/LiDAR-GS上公开获取。
论文及项目相关链接
Summary
实时高保真模拟激光雷达扫描的LiDAR-GS方法,采用高斯贴图技术,解决了激光雷达在公共城市道路场景模拟中的挑战,实现了高精度和独特特性的保持。通过可微分的激光束贴图技术和范围视图表示,有效消除了局部仿射近似引起的伪影。同时利用神经高斯表示法,进一步结合了视角相关的线索,以代表激光雷达的关键属性。与显式网格或隐式NeRF方法相比,LiDAR-GS在公共大型场景数据集上实现了帧率和质量的最新结果。
Key Takeaways
- LiDAR-GS是一种用于实时高保真模拟激光雷达扫描的Gaussian Splatting(GS)方法。
- LiDAR-GS解决了将GS方法应用于激光雷达所面临的挑战,保持了高精度和独特特性。
- 通过可微分的激光束贴图技术,LiDAR-GS能精确表示激光束在微截面上的投影,消除了局部仿射近似引起的伪影。
- LiDAR-GS采用范围视图表示法,有效模拟激光雷达的扫描方式。
- 利用神经高斯表示法,LiDAR-GS能结合视角相关的线索,以更准确地表示激光雷达的关键属性。
- LiDAR-GS能同时模拟深度、强度和射线下降通道,实现了高质量的渲染。
点此查看论文截图






