嘘~ 正在从服务器偷取页面 . . .

NeRF


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-20 更新

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

Authors:Fang Li, Hao Zhang, Narendra Ahuja

Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.

尽管COLMAP长期以来一直是静态场景摄像机参数优化的主要方法,但它受到运行时间较长以及对真实值(GT)运动遮罩的依赖的限制,无法应用于动态场景。许多尝试通过引入更多先验知识对其进行改进,例如真实焦距、运动遮罩、3D点云、相机姿态和度量深度等,然而,这些通常在随意捕获的RGB视频中并不可用。在本文中,我们提出了一种仅通过单个RGB视频进行更准确高效的动态场景摄像机参数优化的新方法。我们的方法由三个关键部分组成:(1)块跟踪滤波器,用于在RGB视频上建立稳健且尽可能稀疏的铰链状关系。(2)异常值感知联合优化,通过自适应降低移动异常值的权重,实现高效的摄像机参数优化,无需依赖运动先验。(3)一种两阶段优化策略,通过在损失中的Softplus限制和凸极小值之间进行权衡,以提高稳定性和优化速度。我们通过视觉和数值评估我们的摄像机估计结果。为了进一步提高准确性,我们将摄像机估计值输入到4D重建方法中,并评估生成的3D场景以及渲染的2D RGB和深度图。我们在4个真实数据集(NeRF-DS、DAVIS、iPhone和TUM-dynamics)和1个合成数据集(MPI-Sintel)上进行了实验,结果表明,我们的方法使用单个RGB视频作为唯一监督手段,能更高效、更准确地估计摄像机参数。

论文及项目相关链接

PDF NeurIPS 2025

摘要

本文提出一种新型方法,通过单一RGB视频实现动态场景下的相机参数优化。相较于传统方法如COLMAP,新方法更加准确高效,无需依赖地面真实值运动掩膜等先验信息。新方法包含三个关键部分:局部跟踪滤波器、异常值感知联合优化以及两阶段优化策略。通过视觉和数值评估相机参数估计的准确性,并通过将其输入到4D重建方法中进一步验证三维场景和渲染的二维RGB及深度图的准确性。在多个真实和合成数据集上的实验表明,新方法能够更加高效和准确地估计相机参数。

关键见解

  1. 提出一种新型相机参数优化方法,适用于动态场景,仅依赖单一RGB视频进行监督。
  2. 方法包含三个关键组件:局部跟踪滤波器、异常值感知联合优化以及两阶段优化策略。
  3. 通过视觉和数值评估相机参数估计的准确性。
  4. 将相机参数估计结果输入到4D重建方法中,验证了三维场景的准确性以及渲染的二维RGB和深度图的准确性。
  5. 在多个真实和合成数据集上的实验表明,新方法相比传统方法更加高效和准确。
  6. 方法无需依赖地面真实值运动掩膜等先验信息,具有广泛的应用前景。

Cool Papers

点此查看论文截图

Roll Your Eyes: Gaze Redirection via Explicit 3D Eyeball Rotation

Authors:YoungChan Choi, HengFei Wang, YiHua Cheng, Boeun Kim, Hyung Jin Chang, YoungGeun Choi, Sang-Il Choi

We propose a novel 3D gaze redirection framework that leverages an explicit 3D eyeball structure. Existing gaze redirection methods are typically based on neural radiance fields, which employ implicit neural representations via volume rendering. Unlike these NeRF-based approaches, where the rotation and translation of 3D representations are not explicitly modeled, we introduce a dedicated 3D eyeball structure to represent the eyeballs with 3D Gaussian Splatting (3DGS). Our method generates photorealistic images that faithfully reproduce the desired gaze direction by explicitly rotating and translating the 3D eyeball structure. In addition, we propose an adaptive deformation module that enables the replication of subtle muscle movements around the eyes. Through experiments conducted on the ETH-XGaze dataset, we demonstrate that our framework is capable of generating diverse novel gaze images, achieving superior image quality and gaze estimation accuracy compared to previous state-of-the-art methods.

我们提出了一种新的三维目光重定向框架,该框架利用明确的三维眼球结构。现有的目光重定向方法通常基于神经辐射场,通过体积渲染采用隐式神经表示。与这些基于NeRF的方法不同,后者没有明确地建模三维表示的旋转和平移,我们引入了一个专门的三维眼球结构,使用三维高斯拼贴(3DGS)来表示眼球。我们的方法生成了真实感很强的图像,通过明确地旋转和平移三维眼球结构,忠实地再现了期望的目光方向。此外,我们提出了一个自适应变形模块,能够实现眼睛周围微妙肌肉运动的复制。我们在ETH-XGaze数据集上进行的实验表明,我们的框架能够生成多种新型的目光图像,与现有最先进的方法相比,图像质量和目光估计准确性更高。

论文及项目相关链接

PDF 9 pages, 5 figures, ACM Multimeida 2025 accepted

Summary

本文提出了一种新型的3D目光重定向框架,该框架利用明确的3D眼球结构,通过3D高斯拼贴(3DGS)表示眼球,并引入自适应变形模块以模拟眼部周围的微妙肌肉运动。与传统的基于NeRF的目光重定向方法不同,该方法能够明确地模拟3D表示的旋转和翻译,从而在ETH-XGaze数据集上生成高质量的目光图像,提高了目光估计的准确性。

Key Takeaways

  1. 引入了一种新型的3D目光重定向框架。
  2. 利用明确的3D眼球结构,通过3D高斯拼贴(3DGS)表示眼球。
  3. 能够模拟眼球的旋转和翻译,生成逼真的目光图像。
  4. 提出了自适应变形模块,模拟眼部周围的微妙肌肉运动。
  5. 在ETH-XGaze数据集上进行了实验验证。
  6. 生成的目光图像具有高质量和准确的目光估计。

Cool Papers

点此查看论文截图

Robust Utility Optimization via a GAN Approach

Authors:Florian Krach, Josef Teichmann, Hanna Wutte

Robust utility optimization enables an investor to deal with market uncertainty in a structured way, with the goal of maximizing the worst-case outcome. In this work, we propose a generative adversarial network (GAN) approach to (approximately) solve robust utility optimization problems in general and realistic settings. In particular, we model both the investor and the market by neural networks (NN) and train them in a mini-max zero-sum game. This approach is applicable for any continuous utility function and in realistic market settings with trading costs, where only observable information of the market can be used. A large empirical study shows the versatile usability of our method. Whenever an optimal reference strategy is available, our method performs on par with it and in the (many) settings without known optimal strategy, our method outperforms all other reference strategies. Moreover, we can conclude from our study that the trained path-dependent strategies do not outperform Markovian ones. Lastly, we uncover that our generative approach for learning optimal, (non-) robust investments under trading costs generates universally applicable alternatives to well known asymptotic strategies of idealized settings.

稳健效用优化使投资者能够以一种结构化的方式应对市场不确定性,目标是最大化最坏情况的结果。在这项工作中,我们提出了一种生成对抗网络(GAN)的方法,以(近似)解决一般和现实中的稳健效用优化问题。特别是,我们通过神经网络(NN)对投资者和市场进行建模,并在最小最大零和游戏中进行训练。该方法适用于任何连续效用函数和具有交易成本的现实市场设置,其中只能使用可观察的市场信息。一项大型实证研究显示了我们的方法的通用可用性。当存在最优参考策略时,我们的方法与它表现相当,在(许多)没有已知最优策略的情况下,我们的方法优于其他所有参考策略。此外,从我们的研究中我们可以得出,经过训练的路径依赖策略并不优于马尔可夫策略。最后,我们发现我们的生成方法在交易成本下学习最优(非)稳健投资的方法为众所周知的理想化设置的渐近策略提供了普遍适用的替代方案。

论文及项目相关链接

PDF

摘要

本文提出了基于生成对抗网络(GAN)的稳健效用优化方法,以在一般和实际场景中解决稳健效用优化问题。该方法通过建立投资者和市场的神经网络模型,在最小最大零和游戏框架下进行训练。适用于任何连续效用函数和现实市场交易成本环境下的场景,只能利用可观测的市场信息。大型实证研究证明了该方法的通用可用性。在有最优参考策略存在的情况下,该方法的表现与之相当;在没有已知最优策略的场景下,该方法优于其他所有参考策略。此外,我们的研究结果表明,经过训练的路径依赖策略并不优于马尔可夫策略。最后,我们发现了通过生成方法学习在交易成本下的最优(非)稳健投资策略,可以为理想环境下的已知渐进策略提供通用替代方案。

要点解析

  1. 本文提出了基于生成对抗网络(GAN)解决稳健效用优化问题的方法,旨在最大化最坏情况下的结果以应对市场不确定性。
  2. 通过神经网络模型投资者和市场,在最小最大零和游戏框架下进行训练。
  3. 该方法适用于连续效用函数和现实市场交易成本环境下的场景,且仅利用可观测的市场信息。
  4. 实证分析表明,该方法表现优秀,尤其在没有已知最优策略的场景下表现突出。
  5. 研究发现,经过训练的路径依赖策略并不优于马尔可夫策略。
  6. 该方法能够为理想环境下的已知投资策略提供通用替代方案。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Diffusion Models Diffusion Models
Diffusion Models 方向最新论文已更新,请持续关注 Update in 2025-09-20 Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model
下一篇 
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-09-20 RealMirror A Comprehensive, Open-Source Vision-Language-Action Platform for Embodied AI
2025-09-20
  目录