嘘~ 正在从服务器偷取页面 . . .

3DGS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-12 更新

Digital Twin Buildings: 3D Modeling, GIS Integration, and Visual Descriptions Using Gaussian Splatting, ChatGPT/Deepseek, and Google Maps Platforms

Authors:Kyle Gao, Dening Lu, Liangzhi Li, Nan Chen, Hongjie He, Linlin Xu, Jonathan Li

Urban digital twins are virtual replicas of cities that use multi-source data and data analytics to optimize urban planning, infrastructure management, and decision-making. Towards this, we propose a framework focused on the single-building scale. By connecting to cloud mapping platforms such as Google Map Platforms APIs, by leveraging state-of-the-art multi-agent Large Language Models data analysis using ChatGPT(4o) and Deepseek-V3/R1, and by using our Gaussian Splatting-based mesh extraction pipeline, our Digital Twin Buildings framework can retrieve a building’s 3D model, visual descriptions, and achieve cloud-based mapping integration with large language model-based data analytics using a building’s address, postal code, or geographic coordinates.

城市数字双胞胎是利用多源数据和数据分析优化城市规划、基础设施管理和决策制定的城市虚拟副本。为此,我们提出了以单体建筑规模为焦点的框架。通过连接到谷歌地图平台API等云地图平台,利用最新多智能体大型语言模型ChatGPT(第4版)和Deepseek-V3/R1进行数据分析,并使用我们的基于高斯拼接技术的网格提取管道,我们的数字双胞胎建筑框架可以检索建筑的3D模型、视觉描述,实现基于云的大型语言模型数据分析和建筑地址、邮政编码或地理坐标的地图集成。

论文及项目相关链接

PDF

Summary
城市数字双胞胎是利用多源数据和数据分析优化城市规划、基础设施管理和决策制定的虚拟城市模型。我们提出一个以单栋建筑为尺度的框架,通过连接谷歌地图平台API等云地图平台,利用最新的多智能体大型语言模型ChatGPT(版本4o)和Deepseek-V3/R1进行数据分析,并使用高斯拼接网格提取管道,数字双胞胎建筑框架可以检索建筑的3D模型、视觉描述,并实现基于大型语言模型的云地图集成分析。通过分析建筑的地址、邮政编码或地理坐标等信息,实现更高效的城市管理和决策制定。

Key Takeaways

  1. 城市数字双胞胎是城市的虚拟模型,用于优化城市规划、基础设施管理和决策制定。
  2. 提出了一种以单栋建筑为尺度的框架来进行城市数字双胞胎的构建。
  3. 通过连接云地图平台获取建筑的多源数据。
  4. 利用多智能体大型语言模型进行数据分析。
  5. 使用高斯拼接网格提取管道技术来提取建筑的3D模型。
  6. 通过分析建筑的地址、邮政编码或地理坐标等信息,实现云地图与大型语言模型的集成分析。

Cool Papers

点此查看论文截图

PINGS: Gaussian Splatting Meets Distance Fields within a Point-Based Implicit Neural Map

Authors:Yue Pan, Xingguang Zhong, Liren Jin, Louis Wiesmann, Marija Popović, Jens Behley, Cyrill Stachniss

Robots require high-fidelity reconstructions of their environment for effective operation. Such scene representations should be both, geometrically accurate and photorealistic to support downstream tasks. While this can be achieved by building distance fields from range sensors and radiance fields from cameras, the scalable incremental mapping of both fields consistently and at the same time with high quality remains challenging. In this paper, we propose a novel map representation that unifies a continuous signed distance field and a Gaussian splatting radiance field within an elastic and compact point-based implicit neural map. By enforcing geometric consistency between these fields, we achieve mutual improvements by exploiting both modalities. We devise a LiDAR-visual SLAM system called PINGS using the proposed map representation and evaluate it on several challenging large-scale datasets. Experimental results demonstrate that PINGS can incrementally build globally consistent distance and radiance fields encoded with a compact set of neural points. Compared to the state-of-the-art methods, PINGS achieves superior photometric and geometric rendering at novel views by leveraging the constraints from the distance field. Furthermore, by utilizing dense photometric cues and multi-view consistency from the radiance field, PINGS produces more accurate distance fields, leading to improved odometry estimation and mesh reconstruction.

机器人需要对其环境进行高保真重建,以进行有效操作。这样的场景表示应该既是几何上精确的也应该是逼真的,以支持下游任务。虽然可以通过从距离传感器构建距离场和从相机构建辐射场来实现这一点,但以高质量的方式同时实现这两个场的可扩展增量映射仍然是一个挑战。在本文中,我们提出了一种新的地图表示方法,它将连续的符号距离场和高斯贴图辐射场统一在弹性且紧凑的点基隐式神经地图中。通过在这两个字段之间强制执行几何一致性,我们利用这两种模式实现了相互改进。我们设计了一种使用所提议的地图表示的LiDAR-视觉SLAM系统,称为PINGS,并在几个具有挑战性的大规模数据集上对其进行了评估。实验结果表明,PINGS可以增量地构建全局一致的距离和辐射场,并使用一组紧凑的神经点进行编码。与最先进的方法相比,PINGS通过利用距离场的约束,在新的视角上实现了卓越的光度学和几何渲染。此外,通过利用密集的光度线索和辐射场的多视图一致性,PINGS产生了更精确的距离场,从而提高了姿态估计和网格重建。

论文及项目相关链接

PDF 14 pages, 8 figures

Summary

本文提出了一种新型的地图表示方法,它将连续符号距离场和高斯分裂辐射场统一在一个弹性紧凑的点基隐式神经地图中。通过在这两种场之间强制执行几何一致性,实现了利用两种模态的相互改进。文章使用所提出的地图表示设计了一个名为PINGS的激光雷达视觉SLAM系统,并在多个具有挑战的大型数据集上进行了评估。实验结果表明,PINGS能够增量构建全局一致的紧凑神经网络点集所编码的距离和辐射场。与现有方法相比,PINGS通过利用距离场的约束,在新视角上实现了卓越的光度学和几何渲染。此外,通过利用辐射场的密集光度线索和多视角一致性,PINGS产生更精确的距离场,从而提高了里程计估计和网格重建的准确度。

Key Takeaways

  1. 本文提出了一种新的地图表达方式,融合了连续符号距离场和高斯分裂辐射场在点基隐式神经地图中。
  2. 通过在距离场和辐射场之间保持几何一致性,实现了两者的相互提升。
  3. 引入了一种名为PINGS的LiDAR-视觉SLAM系统,采用提出的地图表达方式。
  4. PINGS能在多个大型数据集上实现全局一致的距离和辐射场的增量构建。
  5. PINGS在新型视角上实现了优异的光度学和几何渲染,优于现有方法。
  6. PINGS利用辐射场的密集光度线索和多视角一致性,产生更精确的距离场。

Cool Papers

点此查看论文截图

Vision-in-the-loop Simulation for Deep Monocular Pose Estimation of UAV in Ocean Environment

Authors:Maneesha Wickramasuriya, Beomyeol Yu, Taeyoung Lee, Murray Snyder

This paper proposes a vision-in-the-loop simulation environment for deep monocular pose estimation of a UAV operating in an ocean environment. Recently, a deep neural network with a transformer architecture has been successfully trained to estimate the pose of a UAV relative to the flight deck of a research vessel, overcoming several limitations of GPS-based approaches. However, validating the deep pose estimation scheme in an actual ocean environment poses significant challenges due to the limited availability of research vessels and the associated operational costs. To address these issues, we present a photo-realistic 3D virtual environment leveraging recent advancements in Gaussian splatting, a novel technique that represents 3D scenes by modeling image pixels as Gaussian distributions in 3D space, creating a lightweight and high-quality visual model from multiple viewpoints. This approach enables the creation of a virtual environment integrating multiple real-world images collected in situ. The resulting simulation enables the indoor testing of flight maneuvers while verifying all aspects of flight software, hardware, and the deep monocular pose estimation scheme. This approach provides a cost-effective solution for testing and validating the autonomous flight of shipboard UAVs, specifically focusing on vision-based control and estimation algorithms.

本文提出了一种用于深海环境中无人机单目姿态估计的视觉闭环仿真环境。近期,已成功训练了一种具有transformer架构的深度神经网络,用于估计无人机相对于研究船飞行甲板上的姿态,克服了基于GPS方法的诸多局限。然而,在实际海洋环境中验证深度姿态估计方案面临着重大挑战,原因在于研究船只可用性的限制及相关运营成本较高。为了解决这些问题,我们利用高斯投影技术的最新进展,构建了一个逼真的三维虚拟环境。这是一种新技术,它通过模拟图像像素作为三维空间中的高斯分布来表示三维场景,从而从多个视角创建出轻便且高质量的可视模型。这种方法能够创建一个虚拟环境,整合在实地收集的多个真实世界图像。由此产生的模拟装置能够进行室内飞行测试的测试操作,同时验证飞行软件的各个方面,包括硬件和深度单眼姿态估计方案。此方法提供了一个经济实惠的解决方案,用于测试和验证船上无人机的自主飞行功能,特别是基于视觉的控制和估算算法。

论文及项目相关链接

PDF 8 pages, 15 figures, conference

Summary
本文提出了一种用于深海环境中无人机单目姿态估计的视觉仿真环境。研究采用基于深度学习的转换器架构,成功训练出无人机相对于研究船只飞行甲板姿态的估计模型,克服了GPS方法的局限性。为验证深海环境下的姿态估计方案,利用高斯涂斑技术创建逼真的三维虚拟环境,该技术将图像像素建模为三维空间中的高斯分布,可创建高质量的视觉模型,实现多视角的视觉集成。此仿真环境允许在室内测试飞行动作,验证飞行软件、硬件及单目姿态估计方案的各方面性能。此方法为测试验证船舶无人机自主飞行提供了经济高效的解决方案,尤其专注于视觉控制和估算算法。

Key Takeaways

  1. 提出了一个视觉仿真环境,用于深海环境中无人机的单目姿态估计。
  2. 采用基于深度学习的转换器架构训练无人机姿态估计模型,突破GPS方法的局限。
  3. 利用高斯涂斑技术创建三维虚拟环境,实现逼真的视觉模拟。
  4. 该技术可将图像像素建模为三维空间中的高斯分布,创建高质量的视觉模型。
  5. 仿真环境支持多视角的视觉集成,允许在室内测试飞行动作。
  6. 该方法可验证飞行软件、硬件及姿态估计方案的性能。

Cool Papers

点此查看论文截图

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Authors:Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Yue Liao, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren

We introduce EnerVerse, a generative robotics foundation model that constructs and interprets embodied spaces. EnerVerse employs an autoregressive video diffusion framework to predict future embodied spaces from instructions, enhanced by a sparse context memory for long-term reasoning. To model the 3D robotics world, we propose Free Anchor Views (FAVs), a multi-view video representation offering flexible, task-adaptive perspectives to address challenges like motion ambiguity and environmental constraints. Additionally, we present EnerVerse-D, a data engine pipeline combining the generative model with 4D Gaussian Splatting, forming a self-reinforcing data loop to reduce the sim-to-real gap. Leveraging these innovations, EnerVerse translates 4D world representations into physical actions via a policy head (EnerVerse-A), enabling robots to execute task instructions. EnerVerse-A achieves state-of-the-art performance in both simulation and real-world settings.

我们介绍了EnerVerse,这是一个构建和解释实体空间的生成式机器人基础模型。EnerVerse采用自回归视频扩散框架,从指令预测未来的实体空间,并通过稀疏上下文记忆进行长期推理来增强预测。为了建立三维机器人世界模型,我们提出了Free Anchor Views(FAVs),这是一种多视角视频表示,提供灵活、任务适应的视角,以解决运动模糊和环境约束等挑战。此外,我们还推出了EnerVerse-D,这是一个数据引擎管道,将生成模型与4D高斯拼接技术相结合,形成一个自我加强的数据循环,以减少仿真到现实的差距。利用这些创新技术,EnerVerse通过策略头(EnerVerse-A)将4D世界表示转化为物理动作,使机器人能够执行任务指令。EnerVerse-A在模拟和真实世界环境中均达到了最先进的性能水平。

论文及项目相关链接

PDF Website: https://sites.google.com/view/enerverse

Summary

EnerVerse是一个生成式机器人基础模型,能构建并解读实体空间。它通过自回归视频扩散框架预测未来实体空间,借助稀疏上下文记忆进行长期推理。模型采用自由锚点视图(FAVs)的多视角视频表示,灵活适应任务视角,解决运动模糊和环境约束等挑战。此外,EnerVerse配合数据引擎管道EnerVerse-D和4D高斯涂斑技术,减少模拟到现实的差距。通过策略头EnerVerse-A将4D世界表示转化为物理动作,使机器人在模拟和实际环境中执行任务均达到先进性能水平。

Key Takeaways

  1. EnerVerse是一个生成式机器人基础模型,可构建并解读实体空间。
  2. 该模型使用自回归视频扩散框架进行预测,并结合稀疏上下文记忆进行长期推理。
  3. 自由锚点视图(FAVs)技术解决了运动模糊和环境约束等挑战。
  4. EnerVerse配合数据引擎管道EnerVerse-D减少模拟到现实的差距。
  5. 通过策略头EnerVerse-A将4D世界表示转化为物理动作。
  6. EnerVerse在模拟环境中表现出色。

Cool Papers

点此查看论文截图

Neural Surface Priors for Editable Gaussian Splatting

Authors:Jakub Szymkowiak, Weronika Jakubowska, Dawid Malarz, Weronika Smolak-Dyżewska, Maciej Zięba, Przemyslaw Musialski, Wojtek Pałubicki, Przemysław Spurek

In computer graphics and vision, recovering easily modifiable scene appearance from image data is crucial for applications such as content creation. We introduce a novel method that integrates 3D Gaussian Splatting with an implicit surface representation, enabling intuitive editing of recovered scenes through mesh manipulation. Starting with a set of input images and camera poses, our approach reconstructs the scene surface using a neural signed distance field. This neural surface acts as a geometric prior guiding the training of Gaussian Splatting components, ensuring their alignment with the scene geometry. To facilitate editing, we encode the visual and geometric information into a lightweight triangle soup proxy. Edits applied to the mesh extracted from the neural surface propagate seamlessly through this intermediate structure to update the recovered appearance. Unlike previous methods relying on the triangle soup proxy representation, our approach supports a wider range of modifications and fully leverages the mesh topology, enabling a more flexible and intuitive editing process. The complete source code for this project can be accessed at: https://github.com/WJakubowska/NeuralSurfacePriors.

在计算机图形学和计算机视觉领域,从图像数据中恢复易于修改的场景外观对于内容创建等应用至关重要。我们引入了一种将3D高斯拼贴技术与隐式表面表示相结合的新方法,通过网格操作实现对恢复场景的直观编辑。我们从一组输入图像和相机姿态开始,使用神经有向距离场重建场景表面。这种神经表面充当几何先验,引导高斯拼贴组件的训练,确保其与场景几何结构对齐。为了简化编辑操作,我们将视觉和几何信息编码为轻量级的三角网格代理。对从神经表面提取的网格进行的编辑可以通过此中间结构无缝传播,以更新恢复的外观。与之前依赖于三角网格代理表示的方法不同,我们的方法支持更广泛的修改,并充分利用了网格拓扑结构,从而实现了更灵活、更直观的编辑过程。该项目的完整源代码可在以下网址获取:https://github.com/WJakubowska/NeuralSurfacePriors

论文及项目相关链接

PDF 9 pages, 7 figures

Summary

本文介绍了一种将三维高斯泼溅技术与隐式表面表示相结合的新方法,用于从图像数据中恢复易于修改的场景外观。该方法通过神经网络距离场重建场景表面,并作为几何先验指导高斯泼溅组件的训练,确保其与场景几何的对齐。为提高编辑能力,本文将视觉和几何信息编码到轻量级三角网格代理中。对神经网络表面提取的网格进行的编辑操作可通过该中间结构无缝传播,以更新恢复的外观。该方法支持更广泛的修改,充分利用网格拓扑,实现更灵活、更直观的编辑过程。

Key Takeaways

  • 介绍了一种结合3D高斯泼溅与隐式表面表示的新方法,用于从图像数据中恢复场景外观。
  • 通过神经网络距离场重建场景表面,作为几何先验指导高斯泼溅组件的训练。
  • 将视觉和几何信息编码到三角网格代理中,以简化场景编辑过程。
  • 编辑操作通过中间结构无缝传播,更新恢复的场景外观。
  • 方法支持更广泛的修改,充分利用网格拓扑结构。
  • 提供更灵活、更直观的编辑体验。

Cool Papers

点此查看论文截图

Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting

Authors:Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu

While text-to-3D and image-to-3D generation tasks have received considerable attention, one important but under-explored field between them is controllable text-to-3D generation, which we mainly focus on in this work. To address this task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network architecture designed to enhance existing pre-trained multi-view diffusion models by integrating additional input conditions, such as edge, depth, normal, and scribble maps. Our innovation lies in the introduction of a conditioning module that controls the base diffusion model using both local and global embeddings, which are computed from the input condition images and camera poses. Once trained, MVControl is able to offer 3D diffusion guidance for optimization-based 3D generation. And, 2) we propose an efficient multi-stage 3D generation pipeline that leverages the benefits of recent large reconstruction models and score distillation algorithm. Building upon our MVControl architecture, we employ a unique hybrid diffusion guidance method to direct the optimization process. In pursuit of efficiency, we adopt 3D Gaussians as our representation instead of the commonly used implicit representations. We also pioneer the use of SuGaR, a hybrid representation that binds Gaussians to mesh triangle faces. This approach alleviates the issue of poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained geometry on the mesh. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content. Project page: https://lizhiqi49.github.io/MVControl/.

尽管文本到3D和图像到3D生成任务已经得到了相当多的关注,但它们之间一个重要但尚未充分探索的领域是可控文本到3D生成,这是我们在这项工作中的主要关注点。为了解决这一任务,1)我们引入了多视图ControlNet(MVControl),这是一种新型神经网络架构,通过集成边缘、深度、法线和草图等附加输入条件,增强现有的预训练多视图扩散模型。我们的创新之处在于引入了一个控制模块,该模块使用从输入条件图像和相机姿态计算出的局部和全局嵌入来控制基础扩散模型。一旦训练完成,MVControl能够为基于优化的3D生成提供3D扩散指导。2)我们提出了一种高效的多阶段3D生成管道,充分利用了最近的重建模型和分数蒸馏算法的优点。基于我们的MVControl架构,我们采用了一种独特的混合扩散引导方法来指导优化过程。为了提高效率,我们采用3D高斯作为我们的表示,而不是常用的隐式表示。我们还首创了SuGaR(一种将高斯与网格三角形面绑定的混合表示)。这种方法缓解了3D高斯中几何形状不良的问题,能够在网格上进行精细几何形状的直接雕刻。大量实验表明,我们的方法实现了稳健的泛化,并能生成高质量的可控3D内容。项目页面:https://lizhiqi49.github.io/MVControl/。

论文及项目相关链接

PDF 3DV-2025

Summary

本文关注可控文本到3D生成这一领域,介绍了一种新型神经网络架构Multi-view ControlNet(MVControl),旨在通过集成边缘、深度、法线和涂鸦图等附加输入条件,增强现有的预训练多视角扩散模型。提出一种高效的多阶段3D生成管道,利用最近的重建模型和分数蒸馏算法的优势。采用独特的混合扩散引导方法指导优化过程,并采用3D高斯作为表示形式,开创性地使用SuGaR混合表示,将高斯与网格三角面片绑定,解决3D高斯中的几何问题,实现网格上的精细几何雕刻。实验表明,该方法实现了稳健的通用性,能够生成高质量、可控的3D内容。

Key Takeaways

  1. 本文关注可控文本到3D生成这一未被充分探索的领域。
  2. 引入了一种新型神经网络架构Multi-view ControlNet(MVControl),增强预训练多视角扩散模型。
  3. 通过集成边缘、深度、法线和涂鸦图等附加输入条件,实现更灵活的3D生成。
  4. 提出一种高效的多阶段3D生成管道,结合最近的大型重建模型和分数蒸馏算法。
  5. 采用独特的混合扩散引导方法指导优化过程。
  6. 使用3D高斯作为表示形式,并开创性地使用SuGaR混合表示解决3D高斯中的几何问题。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
NeRF NeRF
NeRF 方向最新论文已更新,请持续关注 Update in 2025-02-12 GWRF A Generalizable Wireless Radiance Field for Wireless Signal Propagation Modeling
2025-02-12
下一篇 
GAN GAN
GAN 方向最新论文已更新,请持续关注 Update in 2025-02-12 ViSIR Vision Transformer Single Image Reconstruction Method for Earth System Models
2025-02-12
  目录