⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-20 更新
RealMirror: A Comprehensive, Open-Source Vision-Language-Action Platform for Embodied AI
Authors:Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Haodong Xiang, Zhengbin Long, Jun Xiong, Rong Shi, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Jun Huang, Bin Chang, Shuai Feng, Tao Shen
The emerging field of Vision-Language-Action (VLA) for humanoid robots faces several fundamental challenges, including the high cost of data acquisition, the lack of a standardized benchmark, and the significant gap between simulation and the real world. To overcome these obstacles, we propose RealMirror, a comprehensive, open-source embodied AI VLA platform. RealMirror builds an efficient, low-cost data collection, model training, and inference system that enables end-to-end VLA research without requiring a real robot. To facilitate model evolution and fair comparison, we also introduce a dedicated VLA benchmark for humanoid robots, featuring multiple scenarios, extensive trajectories, and various VLA models. Furthermore, by integrating generative models and 3D Gaussian Splatting to reconstruct realistic environments and robot models, we successfully demonstrate zero-shot Sim2Real transfer, where models trained exclusively on simulation data can perform tasks on a real robot seamlessly, without any fine-tuning. In conclusion, with the unification of these critical components, RealMirror provides a robust framework that significantly accelerates the development of VLA models for humanoid robots. Project page: https://terminators2025.github.io/RealMirror.github.io
人机交互领域的视觉语言动作(VLA)新兴技术面临着多个基本挑战,包括数据采集成本高昂、缺乏标准化基准以及仿真与现实世界的巨大差距。为了克服这些障碍,我们提出了RealMirror,这是一个全面开源的实体人工智能VLA平台。RealMirror建立了一个高效低成本的数据收集、模型训练和推理系统,能在无需真实机器人的情况下实现端到端的VLA研究。为了促进模型发展和公平竞争,我们还为类人机器人推出了专门的VLA基准测试,包括多种场景、广泛的轨迹和各类VLA模型。此外,通过整合生成模型和三维高斯插值技术重建真实环境和机器人模型,我们成功实现了零次Sim2Real迁移。这意味着完全基于仿真数据训练的模型可以无缝在实际机器人上执行任务,无需进行任何微调。总之,通过这些关键组件的统一整合,RealMirror提供了一个稳健的框架,极大地加速了类人机器人的VLA模型开发。项目页面:https://terminators2025.github.io/RealMirror.github.io。
论文及项目相关链接
Summary
面向人形机器人的视觉语言动作联合研究领域面临数据获取成本高、缺乏标准化基准以及仿真与现实间差距显著等挑战。为此,我们推出综合开源的RealMirror平台,建立高效低成本的数据收集、模型训练和推理系统,支持端到端的视觉语言动作研究,无需真实机器人。为促进行模型发展和公平竞争,我们还推出了专用的人形机器人视觉语言动作基准测试,包含多种场景、轨迹和模型。结合生成模型和3D高斯映射技术成功实现零拍摄Sim2Real转换,即在仿真数据上训练的模型可直接在真实机器人上执行任务,无需微调。总之,RealMirror通过整合这些关键组件,为加速人形机器人视觉语言动作模型的开发提供了稳健框架。更多信息请访问项目网站。
Key Takeaways
- RealMirror是一个针对人形机器人的视觉语言动作(VLA)的综合开源平台。
- 平台解决了数据获取成本高、缺乏标准化基准和仿真与现实差距显著等挑战。
- RealMirror建立了高效低成本的数据收集、模型训练和推理系统,支持端到端的VLA研究。
- 引入专用的人形机器人VLA基准测试,包含多种场景和轨迹。
- 通过结合生成模型和3D技术,成功实现零拍摄Sim2Real转换。
- RealMirror加速了人形机器人视觉语言动作模型的开发。
点此查看论文截图







Perception-Integrated Safety Critical Control via Analytic Collision Cone Barrier Functions on 3D Gaussian Splatting
Authors:Dario Tscholl, Yashwanth Nakka, Brian Gunter
We present a perception-driven safety filter that converts each 3D Gaussian Splat (3DGS) into a closed-form forward collision cone, which in turn yields a first-order control barrier function (CBF) embedded within a quadratic program (QP). By exploiting the analytic geometry of splats, our formulation provides a continuous, closed-form representation of collision constraints that is both simple and computationally efficient. Unlike distance-based CBFs, which tend to activate reactively only when an obstacle is already close, our collision-cone CBF activates proactively, allowing the robot to adjust earlier and thereby produce smoother and safer avoidance maneuvers at lower computational cost. We validate the method on a large synthetic scene with approximately 170k splats, where our filter reduces planning time by a factor of 3 and significantly decreased trajectory jerk compared to a state-of-the-art 3DGS planner, while maintaining the same level of safety. The approach is entirely analytic, requires no high-order CBF extensions (HOCBFs), and generalizes naturally to robots with physical extent through a principled Minkowski-sum inflation of the splats. These properties make the method broadly applicable to real-time navigation in cluttered, perception-derived extreme environments, including space robotics and satellite systems.
我们提出了一种感知驱动的安全过滤器,它将每个三维高斯点集(3DGS)转换为闭合形式的正向碰撞锥,进而生成嵌入二次规划(QP)中的一阶控制屏障函数(CBF)。通过利用点集的解析几何,我们的公式提供了一种连续、闭合形式的碰撞约束表示,既简单又计算高效。与基于距离的CBF不同,后者往往只在障碍物已经很接近时才发生反应,我们的碰撞锥CBF能够提前激活,使机器人能够更早地进行调整,从而在较低的计算成本下产生更平滑、更安全的避障动作。我们在一个包含大约17万个点集的大型合成场景中对该方法进行了验证,我们的过滤器将规划时间减少了三倍,并且在轨迹冲击方面与最先进的3DGS规划器相比有了显著的降低,同时保持了相同的安全水平。该方法完全解析,不需要高阶CBF扩展(HOCBFs),并且可以通过点集的Minkowski和膨胀原理自然地扩展到具有物理尺寸的机器人。这些特性使该方法广泛应用于感知派生的杂乱极端环境中的实时导航,包括空间机器人和卫星系统。
论文及项目相关链接
PDF Preprint for IEEE L-CSS/ACC
Summary
本文提出了一种感知驱动的基于3D高斯点云的安全过滤方法,通过将每个三维高斯点云(3DGS)转化为封闭的碰撞锥形式,进而生成嵌入二次规划(QP)中的一阶控制屏障函数(CBF)。该方法利用点云的解析几何,提供了一种连续、封闭的碰撞约束表示形式,既简单又计算高效。相较于基于距离的反应式CBF,该方法的碰撞锥CBF具有前瞻性激活的特点,使机器人能够提前调整,从而在降低计算成本的同时实现更平滑、更安全的避障动作。在大型合成场景中进行验证,此方法将规划时间缩短了三倍,并显著降低了轨迹的加速度突变值,同时保持了相同的安全水平。该方法是全解析的,无需高阶CBF扩展,并可通过Minkowski和原理自然地推广到具有物理尺寸的机器人。这些特性使得该方法在感知驱动的复杂环境中广泛应用,如空间机器人和卫星系统等领域。
Key Takeaways
- 一种感知驱动的基于3D高斯点云的安全过滤方法被提出。
点此查看论文截图




A new dataset and comparison for multi-camera frame synthesis
Authors:Conall Daly, Anil Kokaram
Many methods exist for frame synthesis in image sequences but can be broadly categorised into frame interpolation and view synthesis techniques. Fundamentally, both frame interpolation and view synthesis tackle the same task, interpolating a frame given surrounding frames in time or space. However, most frame interpolation datasets focus on temporal aspects with single cameras moving through time and space, while view synthesis datasets are typically biased toward stereoscopic depth estimation use cases. This makes direct comparison between view synthesis and frame interpolation methods challenging. In this paper, we develop a novel multi-camera dataset using a custom-built dense linear camera array to enable fair comparison between these approaches. We evaluate classical and deep learning frame interpolators against a view synthesis method (3D Gaussian Splatting) for the task of view in-betweening. Our results reveal that deep learning methods do not significantly outperform classical methods on real image data, with 3D Gaussian Splatting actually underperforming frame interpolators by as much as 3.5 dB PSNR. However, in synthetic scenes, the situation reverses – 3D Gaussian Splatting outperforms frame interpolation algorithms by almost 5 dB PSNR at a 95% confidence level.
关于图像序列中的帧合成方法存在许多,但大致可归纳为帧插值和视图合成技术。从根本上讲,帧插值和视图合成解决的是同一任务,即在给定时间或空间周围的帧的情况下进行帧插值。然而,大多数帧插值数据集侧重于单相机在时间、空间中的运动方面的时序方面,而视图合成数据集通常偏向于立体深度估计的应用场景。这使得视图合成和帧插值方法之间的直接比较具有挑战性。在本文中,我们使用自定义构建的密集线性相机阵列开发了一个新型的多相机数据集,以实现这些方法之间的公平比较。我们评估了经典和深度学习的帧插值器与视图合成方法(高斯三维散斑)在中间视图任务上的表现。我们的结果表明,在真实图像数据上,深度学习方法并没有显著优于经典方法,高斯三维散斑实际上比帧插值器低达3.5分贝峰值信噪比(PSNR)。然而,在合成场景中情况恰恰相反——高斯三维散斑在95%的置信水平下,比帧插值算法高出近5分贝PSNR。
论文及项目相关链接
PDF SPIE 2025 - Applications of Digital Image Processing XLVIII accepted manuscript, 13 pages
摘要
本文介绍了一种使用自定义密集线性相机阵列创建的多相机数据集,用于公平比较视图合成和帧插值方法。文章对经典和深度学习帧插值方法以及视图合成方法(3D高斯展开技术)进行了比较评价。结果表明,在真实图像数据上,深度学习方法与经典方法的性能并无显著优势,而相对于帧插值技术,其性能更差了约高达3.5dB的PSNR。然而,在合成场景中,情况却截然不同,因为以近乎百分之九十五的置信水平,视图合成技术(特别是采用深度学习技术的视图合成方法)比帧插值算法高出近五dB的PSNR。该数据集为比较这两种技术提供了统一的平台。这为未来的研究和开发开辟了新的途径,旨在探索哪些方法更适用于不同场景和应用的需求。此工作无疑为该领域带来进一步的深度理解,促进了对技术优化和发展的研究步伐。该研究的未来影响将会广泛影响各种领域的深度学习和视频图像处理的应用和发展方向。更重要的是针对新出现的问题和不足为该领域的创新提供一个丰富的问题集以及崭新的思路和角度去思考未来的发展及潜在的改进点。然而本研究尚存在一些局限性和待解决的问题这也为后续的研究工作提供了新的研究点和研究方向针对当前数据集的技术不足和改进需求来进一步推动该领域的发展。同时该研究也强调了对于真实和合成场景的不同处理需求以及在不同场景下不同技术的适用性为后续研究提供了参考方向同时也建议广大科研人员在数据集的研发和创新中不断提升创新力度拓展研究方向以提升研究成果的质量和效益从而更好地满足广大应用场景的需求和提升实际应用中的效能和质量为相关研究提供了丰富的研究思路和方向。
关键见解
- 帧插值和视图合成技术均用于合成图像序列中的帧,但各有侧重和应用差异。
- 当前数据集大多侧重于时间方面的帧插值,而视图合成数据集则偏向于立体深度估计用例,导致二者之间的直接比较具有挑战性。
- 文中创建了一个新型多相机数据集,利用密集线性相机阵列,为公平比较这两种技术提供了平台。
- 对比评价表明,在真实图像数据上,深度学习方法与经典帧插值方法的性能差异并不显著。而相对于帧插值技术,视图合成技术性能较差。但在合成场景中,视图合成技术表现优越。这为不同场景下的技术应用提供了参考。
点此查看论文截图



Roll Your Eyes: Gaze Redirection via Explicit 3D Eyeball Rotation
Authors:YoungChan Choi, HengFei Wang, YiHua Cheng, Boeun Kim, Hyung Jin Chang, YoungGeun Choi, Sang-Il Choi
We propose a novel 3D gaze redirection framework that leverages an explicit 3D eyeball structure. Existing gaze redirection methods are typically based on neural radiance fields, which employ implicit neural representations via volume rendering. Unlike these NeRF-based approaches, where the rotation and translation of 3D representations are not explicitly modeled, we introduce a dedicated 3D eyeball structure to represent the eyeballs with 3D Gaussian Splatting (3DGS). Our method generates photorealistic images that faithfully reproduce the desired gaze direction by explicitly rotating and translating the 3D eyeball structure. In addition, we propose an adaptive deformation module that enables the replication of subtle muscle movements around the eyes. Through experiments conducted on the ETH-XGaze dataset, we demonstrate that our framework is capable of generating diverse novel gaze images, achieving superior image quality and gaze estimation accuracy compared to previous state-of-the-art methods.
我们提出了一种新型的3D目光重定向框架,该框架利用明确的3D眼球结构。现有的目光重定向方法通常基于神经辐射场,通过体积渲染采用隐式神经表示。与这些基于NeRF的方法不同,后者没有明确地建模3D表示的旋转和平移,我们引入了一个专门的3D眼球结构,使用3D高斯拼贴(3DGS)来表示眼球。我们的方法生成了逼真的图像,通过明确旋转和平移3D眼球结构,忠实再现所需的目光方向。此外,我们提出了一种自适应变形模块,能够实现眼睛周围微妙肌肉运动的复制。在ETH-XGaze数据集上进行的实验表明,我们的框架能够生成多种新颖的目光图像,与现有最先进的方法相比,图像质量和目光估计准确性均达到更高水平。
论文及项目相关链接
PDF 9 pages, 5 figures, ACM Multimeida 2025 accepted
摘要
本文提出了一种新型的3D视线重定向框架,该框架利用明确的3D眼球结构。现有视线重定向方法通常基于神经辐射场,通过体积渲染采用隐式神经表示。与这些基于NeRF的方法不同,我们的方法引入了专门的3D眼球结构来表示眼球,并采用3D高斯拼贴(3DGS)。该方法可生成逼真图像,通过明确旋转和翻译3D眼球结构来忠实再现所需的视线方向。此外,我们提出了一种自适应变形模块,能够复制眼睛周围微妙肌肉的运动。在ETH-XGaze数据集上进行的实验表明,我们的框架能够生成多种新颖的视线图像,与现有最先进的方法相比,图像质量和视线估计精度更高。
要点
- 提出了一种新型的基于明确3D眼球结构的视线重定向框架。
- 与基于NeRF的方法不同,该框架采用3D高斯拼贴(3DGS)表示眼球。
- 生成逼真图像,通过明确旋转和翻译3D眼球结构来再现视线方向。
- 引入自适应变形模块,复制眼睛周围微妙肌肉的运动。
- 在ETH-XGaze数据集上进行的实验证明了该框架生成图像的质量和估计视线的准确性。
- 该框架能够生成多种不同的视线图像。
点此查看论文截图



GAF: Gaussian Action Field as a Dynamic World Model for Robotic Manipulation
Authors:Ying Chai, Litao Deng, Ruizhi Shao, Jiajun Zhang, Liangjun Xing, Hongwen Zhang, Yebin Liu
Accurate scene perception is critical for vision-based robotic manipulation. Existing approaches typically follow either a Vision-to-Action (V-A) paradigm, predicting actions directly from visual inputs, or a Vision-to-3D-to-Action (V-3D-A) paradigm, leveraging intermediate 3D representations. However, these methods often struggle with action inaccuracies due to the complexity and dynamic nature of manipulation scenes. In this paper, we adopt a V-4D-A framework that enables direct action reasoning from motion-aware 4D representations via a Gaussian Action Field (GAF). GAF extends 3D Gaussian Splatting (3DGS) by incorporating learnable motion attributes, allowing 4D modeling of dynamic scenes and manipulation actions. To learn time-varying scene geometry and action-aware robot motion, GAF provides three interrelated outputs: reconstruction of the current scene, prediction of future frames, and estimation of init action via Gaussian motion. Furthermore, we employ an action-vision-aligned denoising framework, conditioned on a unified representation that combines the init action and the Gaussian perception, both generated by the GAF, to further obtain more precise actions. Extensive experiments demonstrate significant improvements, with GAF achieving +11.5385 dB PSNR, +0.3864 SSIM and -0.5574 LPIPS improvements in reconstruction quality, while boosting the average +7.3% success rate in robotic manipulation tasks over state-of-the-art methods.
精确的场景感知对于基于视觉的机器人操作至关重要。现有方法通常遵循视觉到动作(V-A)范式,直接从视觉输入预测动作,或者视觉到三维到动作(V-3D-A)范式,利用中间三维表示。然而,这些方法往往因操作场景的复杂性和动态性而导致动作不准确。在本文中,我们采用了V-4D-A框架,该框架能够通过高斯动作场(GAF)从感知运动的4D表示中进行直接动作推理。GAF通过融入可学习的运动属性,扩展了3D高斯拼贴(3DGS)技术,实现了动态场景和操作动作的4D建模。为了学习随时间变化的场景几何和感知动作的机器人运动,GAF提供了三个相互关联的输出:当前场景的重建、未来帧的预测以及通过高斯运动估计的初始动作。此外,我们采用了一种与行动视觉对齐的去噪框架,该框架以由GAF生成的初始动作和高斯感知的结合的统一表示为条件,进一步获得更精确的动作。大量实验表明,GAF在重建质量上实现了+11.5385分贝峰值信噪比(PSNR)、+0.3864结构相似性(SSIM)和-0.5574局部峰值信息距离(LPIPS)的改进,同时在机器人操作任务上,相比最先进的方法平均提高了+7.3%的成功率。
论文及项目相关链接
PDF http://chaiying1.github.io/GAF.github.io/project_page/
Summary
本文提出了一种基于V-4D-A框架的机器人操作技术,该技术通过高斯动作场(GAF)直接从运动感知的4D表示中进行动作推理。GAF扩展了3D高斯拼贴(3DGS),通过引入可学习的运动属性,实现对动态场景和操作动作的4D建模。此外,GAF还提供对当前场景的重建、未来帧的预测以及初始动作的估计等三个相关输出,并基于初始动作和由GAF生成的高斯感知条件构建了一个动作视觉对齐的去噪框架,从而更精确地获得动作。
Key Takeaways
- 该论文提出了一个新的V-4D-A框架,能够直接从运动感知的4D表示中进行动作推理。
- 引入了高斯动作场(GAF),扩展了3D高斯拼贴(3DGS),实现对动态场景和操作动作的4D建模。
- GAF提供了三个相关输出:当前场景的重建、未来帧的预测以及初始动作的估计。
- 采用动作视觉对齐的去噪框架,提高动作精度。
点此查看论文截图






