⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-04 更新
StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions
Authors:Bo-Hsu Ke, You-Zhe Xie, Yu-Lun Liu, Wei-Chen Chiu
3D scene representation methods like Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) have significantly advanced novel view synthesis. As these methods become prevalent, addressing their vulnerabilities becomes critical. We analyze 3DGS robustness against image-level poisoning attacks and propose a novel density-guided poisoning method. Our method strategically injects Gaussian points into low-density regions identified via Kernel Density Estimation (KDE), embedding viewpoint-dependent illusory objects clearly visible from poisoned views while minimally affecting innocent views. Additionally, we introduce an adaptive noise strategy to disrupt multi-view consistency, further enhancing attack effectiveness. We propose a KDE-based evaluation protocol to assess attack difficulty systematically, enabling objective benchmarking for future research. Extensive experiments demonstrate our method’s superior performance compared to state-of-the-art techniques. Project page: https://hentci.github.io/stealthattack/
神经辐射场(NeRF)和三维高斯拼贴(3DGS)等三维场景表示方法在新型视图合成方面取得了重大进展。随着这些方法的普及,解决其脆弱性问题变得至关重要。我们分析了3DGS对图像级中毒攻击的鲁棒性,并提出了一种新型密度引导中毒方法。我们的方法策略性地将高斯点注入通过核密度估计(KDE)识别出的低密度区域,嵌入视点相关的幻觉对象,这些对象在受污染的视图中清晰可见,而对无辜视图的影响最小。此外,我们还引入了一种自适应噪声策略,以破坏多视图一致性,进一步提高攻击效果。我们提出了基于KDE的评估协议,以系统地评估攻击难度,为未来研究提供客观基准。大量实验证明,我们的方法比最先进技术具有更好的性能。项目页面:https://hentci.github.io/stealthattack/
论文及项目相关链接
PDF ICCV 2025. Project page: https://hentci.github.io/stealthattack/
Summary
基于神经辐射场(NeRF)和三维高斯描摹(3DGS)的3D场景表示方法在新型视图合成领域取得了显著进展。本文分析了3DGS对图像级中毒攻击的稳健性,并提出了一种新型的密度引导中毒方法。该方法通过核密度估计(KDE)识别低密度区域,并在此区域注入高斯点,嵌入视角相关的虚幻物体,仅对受影响的视图产生明显影响,而对其他视图影响最小。此外,本文还引入了一种自适应噪声策略,以破坏多视图一致性,进一步提高攻击效果。本文还提出了一种基于KDE的评估协议,以系统地评估攻击难度,为未来研究提供客观基准。实验表明,该方法相较于现有技术具有卓越性能。
Key Takeaways
- 分析了基于NeRF和3DGS的3D场景表示方法在面对图像级中毒攻击时的脆弱性。
- 提出了一种新的密度引导中毒方法,该方法专注于向低密度的区域注入虚构对象,不影响无关的视图。
- 利用核密度估计(KDE)识别合适的注入点并构造虚假的虚拟对象以增强攻击效果。
- 提出自适应噪声策略,通过破坏多视图一致性增加攻击效力。
- 提供了一个KDE-based的评估协议,使得可以系统地对攻击难度进行评估,有助于未来的研究发展。
- 实验证明该方法相较于现有技术具有更好的性能表现。
点此查看论文截图





Target Population Synthesis using CT-GAN
Authors:Tanay Rastogi, Daniel Jonsson
Agent-based models used in scenario planning for transportation and urban planning usually require detailed population information from the base as well as target scenarios. These populations are usually provided by synthesizing fake agents through deterministic population synthesis methods. However, these deterministic population synthesis methods face several challenges, such as handling high-dimensional data, scalability, and zero-cell issues, particularly when generating populations for target scenarios. This research looks into how a deep generative model called Conditional Tabular Generative Adversarial Network (CT-GAN) can be used to create target populations either directly from a collection of marginal constraints or through a hybrid method that combines CT-GAN with Fitness-based Synthesis Combinatorial Optimization (FBS-CO). The research evaluates the proposed population synthesis models against travel survey and zonal-level aggregated population data. Results indicate that the stand-alone CT-GAN model performs the best when compared with FBS-CO and the hybrid model. CT-GAN by itself can create realistic-looking groups that match single-variable distributions, but it struggles to maintain relationships between multiple variables. However, the hybrid model demonstrates improved performance compared to FBS-CO by leveraging CT-GAN ability to generate a descriptive base population, which is then refined using FBS-CO to align with target-year marginals. This study demonstrates that CT-GAN represents an effective methodology for target populations and highlights how deep generative models can be successfully integrated with conventional synthesis techniques to enhance their performance.
在交通和城市规划的情境规划中,基于代理的模型通常需要基础情境和目标情境中的详细人口信息。这些人口数据通常是通过确定性的人口合成方法合成虚拟代理来提供的。然而,这些确定性的人口合成方法面临诸多挑战,例如处理高维数据、可扩展性和零单元问题,特别是在为目标情境生成人口数据时。本研究探讨了如何使用名为条件表格生成对抗网络(CT-GAN)的深度生成模型来创建目标人口,这些人口可以直接从一系列边际约束集合中生成,或通过结合CT-GAN与基于适应度的合成组合优化(FBS-CO)的混合方法生成。该研究将所提出的人口合成模型与旅行调查数据和区域级汇总人口数据进行评估。结果表明,与FBS-CO相比,单独的CT-GAN模型表现最佳。CT-GAN本身可以创建看似真实的群体,匹配单变量分布,但在维持多个变量之间的关系方面存在困难。然而,混合模型通过利用CT-GAN生成描述性基础人群的能力,然后利用FBS-CO进行细化以符合目标年份的边际数据,从而表现出比FBS-CO更好的性能。这项研究表明,CT-GAN是目标人群的有效代表方法,并展示了如何将深度生成模型成功集成到传统合成技术中,以提高其性能。
论文及项目相关链接
PDF Submitted for journal and is under review
总结
本文研究了基于条件表格生成对抗网络(CT-GAN)的目标人口合成方法,可直接从一系列边际约束中创建目标人口,或通过结合CT-GAN与基于适应度的合成组合优化(FBS-CO)的混合方法创建。评估结果表明,与FBS-CO和混合模型相比,单独的CT-GAN模型表现最佳。CT-GAN能够创建符合单变量分布的现实主义群体,但在维持多变量关系方面存在挑战。混合模型通过利用CT-GAN生成描述性基础人口,然后利用FBS-CO进行精细化以符合目标年份的边际约束,表现出较好的性能改进。该研究展示了CT-GAN在目标人口合成中的有效方法,并强调了如何将深度生成模型成功集成到传统合成技术中以提高其性能。
关键见解
- 基于表格的生成对抗网络(CT-GAN)被引入以创建目标人口,解决了传统确定性人口合成方法面临的挑战。
- CT-GAN可直接从边际约束中创建目标人口或通过混合方法与FBS-CO结合使用。
- 单独的CT-GAN模型在匹配单变量分布方面表现出强大的能力,但在处理多变量关系时存在困难。
- 混合模型利用CT-GAN生成描述性基础人口,并通过FBS-CO进行微调以符合目标年份的边际约束,表现出更好的性能。
- 与FBS-CO相比,CT-GAN在目标人口合成中表现出更有效的方法。
- 此研究展示了如何将深度生成模型与传统合成技术结合以提高性能的实例。
点此查看论文截图

UCD: Unconditional Discriminator Promotes Nash Equilibrium in GANs
Authors:Mengfei Xia, Nan Xue, Jiapeng Zhu, Yujun Shen
Adversarial training turns out to be the key to one-step generation, especially for Generative Adversarial Network (GAN) and diffusion model distillation. Yet in practice, GAN training hardly converges properly and struggles in mode collapse. In this work, we quantitatively analyze the extent of Nash equilibrium in GAN training, and conclude that redundant shortcuts by inputting condition in $D$ disables meaningful knowledge extraction. We thereby propose to employ an unconditional discriminator (UCD), in which $D$ is enforced to extract more comprehensive and robust features with no condition injection. In this way, $D$ is able to leverage better knowledge to supervise $G$, which promotes Nash equilibrium in GAN literature. Theoretical guarantee on compatibility with vanilla GAN theory indicates that UCD can be implemented in a plug-in manner. Extensive experiments confirm the significant performance improvements with high efficiency. For instance, we achieved \textbf{1.47 FID} on the ImageNet-64 dataset, surpassing StyleGAN-XL and several state-of-the-art one-step diffusion models. The code will be made publicly available.
对抗训练被证明是一步生成的关键,特别是对于生成对抗网络(GAN)和扩散模型蒸馏。然而在实践中,GAN训练很难正确收敛,并且在模式崩溃中挣扎。在这项工作中,我们定量分析了GAN训练中的纳什均衡程度,并得出结论:通过在D中输入条件来获取冗余捷径会阻碍有意义的知识提取。因此,我们建议使用无条件判别器(UCD),其中D被强制提取更全面和稳健的特征,无需注入条件。通过这种方式,D能够利用更好的知识来监督G,这促进了GAN文献中的纳什均衡。与普通GAN理论兼容的理论保证表明UCD可以以插件方式实现。大量实验证实了其显著的性能改进和高效率。例如,我们在ImageNet-64数据集上实现了1.47 FID,超越了StyleGAN-XL和几种最先进的单步扩散模型。代码将公开发布。
论文及项目相关链接
Summary
本文探讨了生成对抗网络(GAN)和扩散模型蒸馏中的一步生成技术。研究发现,对抗性训练是关键,但GAN训练在实际中很难正确收敛,容易出现模式崩溃。为解决这个问题,作者定量分析GAN训练中的纳什均衡程度,提出采用无条件判别器(UCD),使D能够提取更全面、更稳健的特征,促进GAN文献中的纳什均衡。实验证明,UCD方法能显著提高性能,且在ImageNet-64数据集上取得了1.47 FID的优异表现。
Key Takeaways
- 对抗训练在一步生成中起到关键作用,特别是对于生成对抗网络(GAN)和扩散模型蒸馏。
- GAN训练在实践中很难正确收敛,并存在模式崩溃的问题。
- 通过定量分析发现,输入条件的冗余会阻碍GAN训练中的知识提取。
- 提出采用无条件判别器(UCD),以提取更全面和稳健的特征。
- UCD能够促进GAN中的纳什均衡。
- UCD方法与原始GAN理论兼容,可插件方式实现。
点此查看论文截图



Multi-level Dynamic Style Transfer for NeRFs
Authors:Zesheng Li, Shuaibo Li, Wei Ma, Jianwei Guo, Hongbin Zha
As the application of neural radiance fields (NeRFs) in various 3D vision tasks continues to expand, numerous NeRF-based style transfer techniques have been developed. However, existing methods typically integrate style statistics into the original NeRF pipeline, often leading to suboptimal results in both content preservation and artistic stylization. In this paper, we present multi-level dynamic style transfer for NeRFs (MDS-NeRF), a novel approach that reengineers the NeRF pipeline specifically for stylization and incorporates an innovative dynamic style injection module. Particularly, we propose a multi-level feature adaptor that helps generate a multi-level feature grid representation from the content radiance field, effectively capturing the multi-scale spatial structure of the scene. In addition, we present a dynamic style injection module that learns to extract relevant style features and adaptively integrates them into the content patterns. The stylized multi-level features are then transformed into the final stylized view through our proposed multi-level cascade decoder. Furthermore, we extend our 3D style transfer method to support omni-view style transfer using 3D style references. Extensive experiments demonstrate that MDS-NeRF achieves outstanding performance for 3D style transfer, preserving multi-scale spatial structures while effectively transferring stylistic characteristics.
随着神经辐射场(NeRF)在各种3D视觉任务中的应用不断扩大,已经开发了许多基于NeRF的风格转移技术。然而,现有方法通常将风格统计信息集成到原始NeRF管道中,这往往导致在内容保留和艺术风格化方面的结果都不尽如人意。在本文中,我们介绍了为NeRF设计的多层次动态风格转移(MDS-NeRF)这一新方法,它重新设计了专门用于风格化的NeRF管道,并加入了一个创新的动态风格注入模块。特别是,我们提出了一种多层次特征适配器,有助于从内容辐射场生成多层次特征网格表示,有效捕获场景的多尺度空间结构。此外,我们提出了一种动态风格注入模块,学习提取相关的风格特征并自适应地将其集成到内容模式中。然后,将风格化的多层次特征通过我们提出的多层次级联解码器转换为最终的风格化视图。此外,我们将我们的3D风格转移方法扩展到支持使用3D风格参考的全视角风格转移。大量实验表明,MDS-NeRF在3D风格转移方面取得了卓越的性能,能够保留多尺度空间结构,同时有效地转移风格特征。
论文及项目相关链接
PDF Accepted by Computational Visual Media Journal (CVMJ)
Summary
本文提出一种针对NeRF的多级动态风格转移方法(MDS-NeRF),它通过重新设计NeRF管道专门用于风格化,并引入一个创新的动态风格注入模块。该方法通过多级特征适配器生成多级特征网格表示,有效捕捉场景的多尺度空间结构,将相关风格特征自适应地集成到内容模式中。通过提出的多级级联解码器,将风格化的多级特征转换为最终的样式视图。此外,该方法支持使用三维风格参考进行全景风格转移。实验表明,MDS-NeRF在三维风格转移上表现优异,能够保留多尺度空间结构并有效转移风格特征。
Key Takeaways
- MDS-NeRF方法针对NeRF进行专门设计,用于实现风格化,并重新设计了NeRF管道。
- 引入动态风格注入模块,能够提取和集成相关风格特征。
- 通过多级特征适配器生成多级特征网格表示,有效捕捉场景的多尺度空间结构。
- 方法支持使用三维风格参考进行全景风格转移。
- MDS-NeRF在保留多尺度空间结构的同时,实现了有效的风格转移。
- 进行了广泛的实验验证,证明了MDS-NeRF在三维风格转移任务上的优异性能。
点此查看论文截图




GEM: 3D Gaussian Splatting for Efficient and Accurate Cryo-EM Reconstruction
Authors:Huaizhi Qu, Xiao Wang, Gengwei Zhang, Jie Peng, Tianlong Chen
Cryo-electron microscopy (cryo-EM) has become a central tool for high-resolution structural biology, yet the massive scale of datasets (often exceeding 100k particle images) renders 3D reconstruction both computationally expensive and memory intensive. Traditional Fourier-space methods are efficient but lose fidelity due to repeated transforms, while recent real-space approaches based on neural radiance fields (NeRFs) improve accuracy but incur cubic memory and computation overhead. Therefore, we introduce GEM, a novel cryo-EM reconstruction framework built on 3D Gaussian Splatting (3DGS) that operates directly in real-space while maintaining high efficiency. Instead of modeling the entire density volume, GEM represents proteins with compact 3D Gaussians, each parameterized by only 11 values. To further improve the training efficiency, we designed a novel gradient computation to 3D Gaussians that contribute to each voxel. This design substantially reduced both memory footprint and training cost. On standard cryo-EM benchmarks, GEM achieves up to 48% faster training and 12% lower memory usage compared to state-of-the-art methods, while improving local resolution by as much as 38.8%. These results establish GEM as a practical and scalable paradigm for cryo-EM reconstruction, unifying speed, efficiency, and high-resolution accuracy. Our code is available at https://github.com/UNITES-Lab/GEM.
冷冻电子显微镜(cryo-EM)已成为高分辨率结构生物学的重要工具,然而,大规模数据集(通常超过10万张粒子图像)使得三维重建在计算上既昂贵又内存密集。传统的傅里叶空间方法虽然效率高,但由于重复变换而失去保真度,而最近基于神经辐射场(NeRFs)的实空间方法提高了准确性,但产生了立方级的内存和计算开销。因此,我们引入了GEM,这是一种新型的冷冻电镜三维重建框架,它基于三维高斯喷涂技术(3DGS),直接在实空间操作,同时保持高效率。GEM不是对整个密度体积进行建模,而是用紧凑的三维高斯来表示蛋白质,每个高斯仅由11个值参数化。为了进一步提高训练效率,我们设计了一种新型的三维高斯梯度计算,每个体素都有贡献。这一设计大幅减少了内存占用和训练成本。在标准的冷冻电镜基准测试中,与最先进的方法相比,GEM实现了最快达48%的训练速度和最高达12%的内存使用率降低,同时局部分辨率提高了高达38.8%。这些结果证明了GEM作为冷冻电镜重建实用且可扩展的范式,统一了速度、效率和高分辨率的准确性。我们的代码可在https://github.com/UNITES-Lab/GEM上找到。
论文及项目相关链接
Summary
基于神经辐射场(NeRF)的实时空间方法提高了冷冻电镜重建的精确度,但由于巨大的内存和计算开销限制了其实际应用。为此,本研究提出了一个基于高斯函数的快速高效重建框架——GEM,采用紧凑的三维高斯表示蛋白质密度,创新性地设计了一种用于三维高斯分布的梯度计算方式。该设计不仅降低了内存占用和训练成本,而且提高了训练效率,并在标准冷冻电镜数据集上实现了更快的训练和更高的分辨率。
Key Takeaways
- 冷冻电镜重建中,面对大量数据集的高分辨率重建计算昂贵且内存密集。
- 传统傅里叶空间方法虽高效但失真较高,而基于神经辐射场(NeRF)的实时空间方法虽然提高准确性但计算成本较高。
- GEM框架引入紧凑的三维高斯表示蛋白质密度,仅通过11个参数进行建模。
- 创新设计的梯度计算方法提高了训练效率并降低了内存占用。
- 与现有方法相比,GEM在训练速度和内存使用方面表现出优势,同时提高了局部分辨率。
点此查看论文截图





NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields
Authors:Amandine Brunetto, Sascha Hornauer, Fabien Moutarde
Sound plays a major role in human perception. Along with vision, it provides essential information for understanding our surroundings. Despite advances in neural implicit representations, learning acoustics that align with visual scenes remains a challenge. We propose NeRAF, a method that jointly learns acoustic and radiance fields. NeRAF synthesizes both novel views and spatialized room impulse responses (RIR) at new positions by conditioning the acoustic field on 3D scene geometric and appearance priors from the radiance field. The generated RIR can be applied to auralize any audio signal. Each modality can be rendered independently and at spatially distinct positions, offering greater versatility. We demonstrate that NeRAF generates high-quality audio on SoundSpaces and RAF datasets, achieving significant performance improvements over prior methods while being more data-efficient. Additionally, NeRAF enhances novel view synthesis of complex scenes trained with sparse data through cross-modal learning. NeRAF is designed as a Nerfstudio module, providing convenient access to realistic audio-visual generation.
声音在人类感知中扮演着重要角色。与视觉相结合,它为理解我们的周围提供了必要的信息。尽管神经隐式表示有所进展,但与视觉场景匹配的声学学习仍是一项挑战。我们提出了NeRAF方法,该方法联合学习声学场和辐射场。NeRAF通过对辐射场的3D场景几何和外观先验条件化,合成新的视角和定位化的房间冲击响应(RIR)。生成的RIR可用于任何音频信号的听觉化。每种模态都可以独立呈现并在空间上不同位置呈现,提供更大的灵活性。我们在SoundSpaces和RAF数据集上展示了NeRAF生成的音频质量很高,与先前的方法相比实现了显著的性能提升,同时数据效率更高。此外,NeRAF通过跨模态学习增强了使用稀疏数据进行训练的复杂场景的新视角合成。NeRAF被设计为Nerfstudio模块,可轻松实现逼真的视听生成。
论文及项目相关链接
PDF ICLR 2025 (Poster). Camera ready version. Project Page: https://amandinebtto.github.io/NeRAF; 24 pages, 13 figures
Summary
本文探讨了声音在人类感知中的重要性,并指出尽管神经隐式表示有所进展,但将视觉场景与声学对齐的学习仍然是一个挑战。为此,本文提出了NeRAF方法,该方法联合学习声学场和辐射场,通过利用辐射场的3D场景几何和外观先验条件来合成新的视角和位置的空间化房间脉冲响应(RIR)。NeRAF生成的RIR可应用于任何音频信号的音效化。每个模态都可以独立呈现,并在空间不同位置呈现,提供了更大的灵活性。在SoundSpaces和RAF数据集上的实验表明,NeRAF生成的高质量音频在性能和数据处理效率方面都实现了显著的改进,并增强了使用稀疏数据的复杂场景的新视角合成能力。NeRAF作为Nerfstudio模块设计,便于访问真实的音频-视觉生成。
Key Takeaways
- 声音在人类感知中扮演重要角色,与视觉一起为理解周围世界提供必要信息。
- 尽管神经隐式表示有所进展,但将声学场与视觉场景对齐仍然是一个挑战。
- NeRAF方法联合学习声学场和辐射场,合成新的视角和位置的空间化房间脉冲响应(RIR)。
- NeRAF可独立呈现每种模态,并在空间不同位置呈现,提供更大的灵活性。
- 在SoundSpaces和RAF数据集上的实验表明,NeRAF生成的高质量音频在性能和数据处理效率方面实现了显著改进。
- NeRAF通过跨模态学习增强了使用稀疏数据的复杂场景新视角的合成能力。
点此查看论文截图




