嘘~ 正在从服务器偷取页面 . . .

NeRF


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-26 更新

TPG-INR: Target Prior-Guided Implicit 3D CT Reconstruction for Enhanced Sparse-view Imaging

Authors:Qinglei Cao, Ziyao Tang, Xiaoqin Tang

X-ray imaging, based on penetration, enables detailed visualization of internal structures. Building on this capability, existing implicit 3D reconstruction methods have adapted the NeRF model and its variants for internal CT reconstruction. However, these approaches often neglect the significance of objects’ anatomical priors for implicit learning, limiting both reconstruction precision and learning efficiency, particularly in ultra-sparse view scenarios. To address these challenges, we propose a novel 3D CT reconstruction framework that employs a ‘target prior’ derived from the object’s projection data to enhance implicit learning. Our approach integrates positional and structural encoding to facilitate voxel-wise implicit reconstruction, utilizing the target prior to guide voxel sampling and enrich structural encoding. This dual strategy significantly boosts both learning efficiency and reconstruction quality. Additionally, we introduce a CUDA-based algorithm for rapid estimation of high-quality 3D target priors from sparse-view projections. Experiments utilizing projection data from a complex abdominal dataset demonstrate that the proposed model substantially enhances learning efficiency, outperforming the current leading model, NAF, by a factor of ten. In terms of reconstruction quality, it also exceeds the most accurate model, NeRP, achieving PSNR improvements of 3.57 dB, 5.42 dB, and 5.70 dB with 10, 20, and 30 projections, respectively. The code is available at https://github.com/qlcao171/TPG-INR.

基于穿透能力的X射线成像能够实现内部结构的详细可视化。现有的隐式3D重建方法利用这一能力,将NeRF模型及其变体应用于内部CT重建。然而,这些方法往往忽视了物体解剖先验知识对隐式学习的重要性,这限制了重建的精度和学习效率,特别是在极稀疏视角的情况下。为了应对这些挑战,我们提出了一种新型的3D CT重建框架,它采用从物体投影数据中派生出的“目标先验”知识来增强隐式学习。我们的方法结合了位置编码和结构编码,以促进体素级的隐式重建,并利用目标先验来指导体素采样和丰富结构编码。这一双重策略显著提高了学习效率和重建质量。此外,我们还引入了一种基于CUDA的算法,用于快速估计从稀疏视角投影的高质量3D目标先验。使用复杂腹部数据的投影数据进行实验表明,所提模型大大提高了学习效率,比目前领先的NAF模型提高了十倍。在重建质量方面,它也超过了最准确的NeRP模型,在10、20和30个投影的情况下,PSNR分别提高了3.57 dB、5.42 dB和5.70 dB。相关代码可访问https://github.com/qlcao171/TPG-INR。

论文及项目相关链接

PDF Please consider this version as the latest camera-ready version

摘要
基于X射线成像技术的穿透能力,通过NeRF模型及其变体进行内部CT重建的隐式三维重建方法已经得到应用。然而,这些方法忽略了物体解剖先验对隐式学习的重要性,特别是在稀疏视角场景下,重建精度和学习效率受限。本研究提出了一种新型三维CT重建框架,利用物体投影数据推导出的“目标先验”增强隐式学习。结合位置和结构编码,进行体素级隐式重建,目标先验用于指导体素采样并丰富结构编码。该策略显著提高学习效率和重建质量。此外,本研究还引入了基于CUDA的算法,可快速估算稀疏视角投影的高质量三维目标先验。使用复杂腹部数据集的实验结果显示,本研究模型显著提高学习效率,较当前领先的NAF模型提升十倍效率。在重建质量方面,该研究模型也超越表现最佳的NeRP模型,在投影数量为10、20和30时分别提高了PSNR值3.57 dB、5.42 dB和5.7 dB。代码可在https://github.com/qlcao171/TPG-INR获取。

要点解析

  1. X射线成像技术基于穿透能力实现内部结构详细可视化。
  2. 当前隐式三维重建方法利用NeRF模型进行CT重建,但忽略了解剖先验重要性。
  3. 本研究提出了一种新型三维CT重建框架,采用目标先验增强隐式学习。
  4. 结合位置和结构编码进行体素级重建,目标先验用于指导体素采样和结构编码丰富化。
  5. 该策略提高了学习效率和重建质量。
  6. 研究引入基于CUDA的快速算法估计高质量三维目标先验。

Cool Papers

点此查看论文截图

ReCoGS: Real-time ReColoring for Gaussian Splatting scenes

Authors:Lorenzo Rutayisire, Nicola Capodieci, Fabio Pellacini

Gaussian Splatting has emerged as a leading method for novel view synthesis, offering superior training efficiency and real-time inference compared to NeRF approaches, while still delivering high-quality reconstructions. Beyond view synthesis, this 3D representation has also been explored for editing tasks. Many existing methods leverage 2D diffusion models to generate multi-view datasets for training, but they often suffer from limitations such as view inconsistencies, lack of fine-grained control, and high computational demand. In this work, we focus specifically on the editing task of recoloring. We introduce a user-friendly pipeline that enables precise selection and recoloring of regions within a pre-trained Gaussian Splatting scene. To demonstrate the real-time performance of our method, we also present an interactive tool that allows users to experiment with the pipeline in practice. Code is available at https://github.com/loryruta/recogs.

高斯混合法已成为一种主流的用于合成新视角的技术方法,相较于NeRF方法,它提供了更高的训练效率和实时推理能力,同时仍能保证高质量的重建效果。除了视角合成外,这种三维表示法还被用于编辑任务的研究。许多现有方法利用二维扩散模型生成用于训练的多视角数据集,但它们经常受到视角不一致、缺乏精细控制和计算需求高等问题的限制。在这项工作中,我们专注于色彩编辑任务。我们引入了一个用户友好的管道,能够精确选择并对预训练的高斯混合场景中的区域进行重新上色。为了展示我们方法的实时性能,我们还提供了一个交互工具,允许用户在实践中尝试使用管道。代码可在[https://github.com/loryruta/recogs找到。]

论文及项目相关链接

PDF Project page is available at https://github.com/loryruta/recogs

Summary

本文介绍了基于高斯绘制的编辑任务技术,尤其是重着色技术。该技术通过用户友好的管道实现精确选择和重着色预训练高斯绘制场景中的区域。此外,本文还展示了实时性能的工具,允许用户在实践中尝试管道操作。代码已发布在GitHub上。

Key Takeaways

  1. 高斯绘制已成为新型视图合成的主流方法,具有高效的训练速度和实时的推理速度,同时仍能提供高质量的重建。
  2. 除了视图合成外,这种三维表示还被用于编辑任务,如重着色。
  3. 当前方法利用二维扩散模型生成多视图数据集进行训练,但存在视图不一致、缺乏精细控制和计算需求高等局限性。
  4. 本文专注于重着色编辑任务,引入用户友好的管道实现精确选择和重着色预训练高斯绘制场景中的区域。
  5. 提供了一种交互式工具,展示该方法的实时性能,使用户可以在实践中尝试管道操作。
  6. 该技术可用于更广泛的编辑任务,为三维场景的修改提供了强大的工具。

Cool Papers

点此查看论文截图

GANGR: GAN-Assisted Scalable and Efficient Global Routing Parallelization

Authors:Hadi Khodaei Jooshin, Inna Partin-Vaisband

Global routing is a critical stage in electronic design automation (EDA) that enables early estimation and optimization of the routability of modern integrated circuits with respect to congestion, power dissipation, and design complexity. Batching is a primary concern in top-performing global routers, grouping nets into manageable sets to enable parallel processing and efficient resource usage. This process improves memory usage, scalable parallelization on modern hardware, and routing congestion by controlling net interactions within each batch. However, conventional batching methods typically depend on heuristics that are computationally expensive and can lead to suboptimal results (oversized batches with conflicting nets, excessive batch counts degrading parallelization, and longer batch generation times), ultimately limiting scalability and efficiency. To address these limitations, a novel batching algorithm enhanced with Wasserstein generative adversarial networks (WGANs) is introduced in this paper, enabling more effective parallelization by generating fewer higher-quality batches in less time. The proposed algorithm is tested on the latest ISPD’24 contest benchmarks, demonstrating up to 40% runtime reduction with only 0.002% degradation in routing quality as compared to state-of-the-art router.

全局路由是电子设计自动化(EDA)中的一个关键阶段。它能够对现代集成电路的路由能力进行早期评估和优化,考虑到拥堵、功耗和设计复杂性等因素。在高性能全局路由器中,批处理是一个主要关注点,通过将网络分组为可管理的集合,以实现并行处理和资源有效利用。这个过程通过控制每个批次内的网络交互来改善内存使用、现代硬件的可扩展并行化以及路由拥堵情况。然而,传统的批处理方法通常依赖于计算量大且可能导致次优结果的启发式方法(如批次过大且存在冲突的网络、过多的批次数量导致并行化降级以及更长的批次生成时间),最终限制了可扩展性和效率。针对这些局限性,本文引入了一种基于Wasserstein生成对抗网络(WGAN)增强的新型批处理算法,通过更少的时间和更高的质量生成批次,实现了更有效的并行化。该算法在最新的ISPD’24竞赛基准测试上进行了测试,与最先进的路由器相比,运行时减少了高达40%,而路由质量仅降低了0.002%。

论文及项目相关链接

PDF Accepted in DATE 2026

Summary
全球路由是电子设计自动化(EDA)中的关键阶段,涉及现代集成电路的拥堵、功耗和设计复杂度等方面的早期评估和优化。分组是高性能全局路由器中的主要关注点,将网络分组为可管理的集合以实现并行处理和有效的资源使用。本文引入了一种基于Wasserstein生成对抗网络(WGAN)的新型分组算法,该算法提高了效率并减少了运行时,能够在更短的时间内生成更高质量的批次,同时降低了批生成时间和计算复杂性。该算法在最新的ISPD’24竞赛基准测试上进行了测试,与最先进的路由器相比,实现了高达40%的运行时间减少和仅降低0.002%的路由质量。

Key Takeaways

  1. 全球路由在电子设计自动化中是关键阶段,涉及现代集成电路的早期评估和路由优化。
  2. 分组是高性能全局路由器的主要关注点,有助于并行处理和资源有效利用。
  3. 传统分组方法依赖计算昂贵的启发式方法,可能导致结果不佳。
  4. 新分组算法使用WGAN技术提高了效率和性能。
  5. 新算法在ISPD’24竞赛基准测试上进行了测试,表现出卓越的性能。
  6. 与现有技术相比,新算法实现了高达40%的运行时间减少和仅降低极小的路由质量。

Cool Papers

点此查看论文截图

PositionIC: Unified Position and Identity Consistency for Image Customization

Authors:Junjie Hu, Tianyang Han, Kai Ma, Jialin Gao, Song Yang, Xianhua He, Junfeng Luo, Xiaoming Wei, Wenqiang Zhang

Recent subject-driven image customization excels in fidelity, yet fine-grained instance-level spatial control remains an elusive challenge, hindering real-world applications. This limitation stems from two factors: a scarcity of scalable, position-annotated datasets, and the entanglement of identity and layout by global attention mechanisms. To this end, we introduce \modelname{}, a unified framework for high-fidelity, spatially controllable multi-subject customization. First, we present BMPDS, the first automatic data-synthesis pipeline for position-annotated multi-subject datasets, effectively providing crucial spatial supervision. Second, we design a lightweight, layout-aware diffusion framework that integrates a novel visibility-aware attention mechanism. This mechanism explicitly models spatial relationships via an NeRF-inspired volumetric weight regulation to effectively decouple instance-level spatial embeddings from semantic identity features, enabling precise, occlusion-aware placement of multiple subjects. Extensive experiments demonstrate \modelname{} achieves state-of-the-art performance on public benchmarks, setting new records for spatial precision and identity consistency. Our work represents a significant step towards truly controllable, high-fidelity image customization in multi-entity scenarios. Code and data will be publicly released.

近期的以主体驱动的图像定制在保真度方面表现出色,但在精细粒度的实例级空间控制上仍面临难以解决的挑战,这阻碍了其在现实世界的应用。这一限制源于两个因素:缺乏可扩展的、带有位置注释的数据集,以及全局注意力机制对身份和布局的纠缠。为此,我们引入了\modelname{},这是一个用于高保真、空间可控的多主体定制的统一框架。首先,我们提出了BMPDS,这是第一个用于位置注释多主体数据集的自动数据合成管道,有效地提供了关键的空间监督。其次,我们设计了一个轻量级的、对布局有感知的扩散框架,该框架集成了一种新型的可见性感知注意力机制。该机制通过NeRF启发式的体积权重调节显式地建模空间关系,有效地将实例级空间嵌入与语义身份特征相耦合,从而实现多个主体的精确、遮挡感知放置。大量实验表明,\modelname{}在公共基准测试上达到了最新技术水平,在空间和身份一致性方面创造了新的记录。我们的工作代表了向多实体场景中的真正可控、高保真图像定制迈出的重要一步。代码和数据将公开发布。

论文及项目相关链接

PDF

Summary

本文提出一种名为的统一框架,用于实现高保真、空间可控的多主体定制。该框架解决了现有技术中精细粒度的实例级空间控制难题,提高了图像定制的真实感应用潜力。首先,提出BMPDS数据合成管道,自动生成带有位置注释的多主体数据集,为空间控制提供关键监督信息。其次,设计了一种轻量级、感知布局的传播框架,并引入一种新型可见性感知注意机制。该机制通过NeRF启发的体积权重调节显式建模空间关系,使实例级空间嵌入与语义身份特征相分离,实现多主体的精确、遮挡感知放置。实验表明,该框架在公开基准测试中达到最新性能水平,在空间精度和身份一致性方面创下新纪录。

Key Takeaways

  1. 提出了一种新的统一框架用于高保真、空间可控的多主体图像定制。
  2. 解决了精细粒度的实例级空间控制难题。
  3. 提出BMPDS数据合成管道自动生成带有位置注释的多主体数据集。
  4. 设计了一种轻量级、感知布局的传播框架,引入可见性感知注意机制。
  5. 通过NeRF启发的体积权重调节显式建模空间关系。
  6. 实现实例级空间嵌入与语义身份特征的分离。

Cool Papers

点此查看论文截图

BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation

Authors:Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon

This paper presents a tutorial-style survey and implementation guide of BemaGANv2, an advanced GANbased vocoder designed for high-fidelity and long-term audio generation. Long-term audio generation is critical for applications in Text-to-Music (TTM) and Text-to-Audio (TTA) systems, where maintaining temporal coherence, prosodic consistency, and harmonic structure over extended durations remains a significant challenge. Built upon the original BemaGAN architecture, BemaGANv2 incorporates major architectural innovations by replacing traditional ResBlocks in the generator with the Anti-aliased Multi-Periodicity composition (AMP) module, which internally applies the Snake activation function to better model periodic structures. In the discriminator framework, we integrate the Multi-Envelope Discriminator (MED), a novel architecture we proposed, to extract rich temporal envelope features crucial for periodicity detection. Coupled with the Multi-Resolution Discriminator (MRD), this combination enables more accurate modeling of long-range dependencies in audio. We systematically evaluate various discriminator configurations, including Multi-Scale Discriminator (MSD) + MED, MSD + MRD, and Multi-Period Discriminator (MPD) + MED + MRD, using objective metrics (Fréchet Audio Distance (FAD), Structural Similarity Index (SSIM), Pearson Correlation Coefficient (PCC), Mel-Cepstral Distortion (MCD)) and subjective evaluations (MOS, SMOS). This paper also provides a comprehensive tutorial on the model architecture, training methodology, and implementation to promote reproducibility. The code and pre-trained models are available at: https://github.com/dinhoitt/BemaGANv2.

本文是一篇关于BemaGANv2的教程式综述和实施指南。BemaGANv2是一款基于高级GAN技术的编解码器,专为高保真和长期音频生成设计。长期音频生成在文本到音乐(TTM)和文本到音频(TTA)系统中至关重要,在这些系统中,维持长时间的时序一致性、韵律连贯性和和谐结构仍然是一个巨大的挑战。BemaGANv2建立在原始BemaGAN架构之上,通过替换生成器中的传统ResBlocks,引入了主要的架构创新,采用了抗混叠多周期组合(AMP)模块,该模块内部应用了Snake激活函数,以更好地对周期结构进行建模。在判别器框架中,我们集成了我们提出的新型多包络判别器(MED),以提取丰富的时序包络特征,这对于周期性检测至关重要。与多分辨率判别器(MRD)相结合,这种组合使音频中的长距离依赖关系建模更加准确。我们系统地评估了各种判别器配置,包括多尺度判别器(MSD)+ MED、MSD + MRD和多周期判别器(MPD)+ MED + MRD,采用客观指标(Fréchet音频距离(FAD)、结构相似性指数(SSIM)、皮尔逊相关系数(PCC)、梅尔倒谱失真(MCD))和主观评估(MOS、SMOS)。本文还提供了关于模型架构、训练方法和实施的全面教程,以促进可重复性。代码和预训练模型可在以下网址找到:https://github.com/dinhoitt/BemaGANv2。

论文及项目相关链接

PDF 11 pages, 7 figures. Survey and tutorial paper. Currently under review at ICT Express as an extended version of our ICAIIC 2025 paper

Summary

本文介绍了BemaGANv2的教程式综述与实施指南。BemaGANv2是一种基于GAN的高级vocoder,用于高保真和长期音频生成。它在文本转音乐(TTM)和文本转音频(TTA)系统中发挥着重要作用。相比原始BemaGAN架构,BemaGANv2进行了重大创新,采用抗混叠多周期组合(AMP)模块替换传统ResBlocks,并在判别器框架中集成了我们提出的多包络判别器(MED)。通过客观指标(如Fréchet音频距离、结构相似性指数、皮尔逊相关系数和梅尔倒谱失真)和主观评估,系统地评估了不同的判别器配置。本文还提供模型架构、训练方法和实施的全面教程,以促进可重复性。代码和预训练模型可在链接中找到。

Key Takeaways

  1. BemaGANv2是一个基于GAN的先进vocoder,用于高保真和长期音频生成。
  2. BemaGANv2在文本转音乐(TTM)和文本转音频(TTA)系统中表现关键,解决长期音频生成中的临时连贯性、语调一致性和和谐结构的问题。
  3. BemaGANv2通过引入Anti-aliased Multi-Periodicity composition(AMP)模块,改进了生成器中的传统ResBlocks。
  4. 判别器框架中集成了Multi-Envelope Discriminator(MED)和多分辨率判别器(MRD),提高了音频长期依赖关系的建模准确性。
  5. 论文对不同的判别器配置进行了系统评估,包括客观指标和主观评估。
  6. 论文提供了模型架构、训练方法和实施的全面教程,促进了研究的可重复性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Diffusion Models Diffusion Models
Diffusion Models 方向最新论文已更新,请持续关注 Update in 2025-11-26 Breaking the Likelihood-Quality Trade-off in Diffusion Models by Merging Pretrained Experts
下一篇 
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-11-26 DensifyBeforehand LiDAR-assisted Content-aware Densification for Efficient and Quality 3D Gaussian Splatting
2025-11-26
  目录