嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-27 更新

FSR-VLN: Fast and Slow Reasoning for Vision-Language Navigation with Hierarchical Multi-modal Scene Graph

Authors:Xiaolin Zhou, Tingyang Xiao, Liu Liu, Yucheng Wang, Maiyue Chen, Xinrui Meng, Xinjie Wang, Wei Feng, Wei Sui, Zhizhong Su

Visual-Language Navigation (VLN) is a fundamental challenge in robotic systems, with broad applications for the deployment of embodied agents in real-world environments. Despite recent advances, existing approaches are limited in long-range spatial reasoning, often exhibiting low success rates and high inference latency, particularly in long-range navigation tasks. To address these limitations, we propose FSR-VLN, a vision-language navigation system that combines a Hierarchical Multi-modal Scene Graph (HMSG) with Fast-to-Slow Navigation Reasoning (FSR). The HMSG provides a multi-modal map representation supporting progressive retrieval, from coarse room-level localization to fine-grained goal view and object identification. Building on HMSG, FSR first performs fast matching to efficiently select candidate rooms, views, and objects, then applies VLM-driven refinement for final goal selection. We evaluated FSR-VLN across four comprehensive indoor datasets collected by humanoid robots, utilizing 87 instructions that encompass a diverse range of object categories. FSR-VLN achieves state-of-the-art (SOTA) performance in all datasets, measured by the retrieval success rate (RSR), while reducing the response time by 82% compared to VLM-based methods on tour videos by activating slow reasoning only when fast intuition fails. Furthermore, we integrate FSR-VLN with speech interaction, planning, and control modules on a Unitree-G1 humanoid robot, enabling natural language interaction and real-time navigation.

视觉语言导航(VLN)是机器人系统中的一个基本挑战,对于在真实世界环境中部署实体代理具有广泛的应用。尽管最近有进展,但现有方法在远程空间推理方面仍有局限,尤其是在远程导航任务中,常常表现出成功率低和推理延迟高的问题。为了解决这些局限性,我们提出了FSR-VLN,这是一种结合分层多模态场景图(HMSG)和快慢导航推理(FSR)的视觉语言导航系统。HMSG提供了一种多模态地图表示,支持从粗略的房间级定位到精细的目标视图和对象识别的渐进检索。基于HMSG,FSR首先进行快速匹配,以有效地选择候选房间、视图和对象,然后应用VLM驱动的精化来进行最终目标选择。我们在由人形机器人收集的四个综合室内数据集上评估了FSR-VLN,这些指令涵盖了各种对象类别。FSR-VLN在所有数据集上的检索成功率(RSR)方面达到了最先进的性能,并且在激活仅在快速直觉失败时才进行缓慢推理的情况下,与基于VLM的方法相比,将响应时间减少了82%。此外,我们将FSR-VLN与人形机器人Unitree-G1上的语音交互、规划和控制模块集成,实现自然语言交互和实时导航。

论文及项目相关链接

PDF Demo video are available at https://horizonrobotics.github.io/robot_lab/fsr-vln/

Summary

VLN是机器人系统中的一个基本挑战,广泛应用于真实世界环境中的智能代理部署。为解决现有方法在空间推理上的局限性,特别是在长距离导航任务中的低成功率和高推理延迟问题,我们提出了FSR-VLN系统。该系统结合分层多模式场景图(HMSG)与快至慢导航推理(FSR)。HMSG提供了一个多模式地图表示,支持从粗略的房间级别定位到精细的目标视图和对象识别的渐进检索。在此基础上,FSR首先进行快速匹配以有效地选择候选房间、视图和对象,然后应用VLM驱动的精细化进行最终目标选择。在由人形机器人收集的四个综合室内数据集上评估FSR-VLN,使用87条指令涵盖各种对象类别。FSR-VLN在所有数据集上的检索成功率(RSR)达到最新水平,同时通过仅在快速直觉失败时激活慢速推理,将响应时间减少82%,与基于VLM的方法相比。此外,我们将FSR-VLN与人形机器人Unitree-G1的语音交互、规划和控制模块集成,实现自然语言交互和实时导航。

Key Takeaways

  1. VLN是机器人系统中的一个重要挑战,具有广泛的应用前景。
  2. 现有方法在长距离空间推理方面存在局限性,包括低成功率和高推理延迟问题。
  3. 提出了一种新的视觉语言导航系统FSR-VLN,结合分层多模式场景图(HMSG)和快至慢导航推理(FSR)。
  4. HMSG提供了多模式地图表示,支持从粗略到精细的渐进检索。
  5. FSR首先进行快速匹配选择候选目标,然后应用VLM驱动的精细化进行最终目标选择。
  6. 在四个室内数据集上的实验结果表明,FSR-VLN达到了最新的性能水平,提高了检索成功率,并显著减少了响应时间。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 本篇
Talking Head Generation Talking Head Generation
Talking Head Generation 方向最新论文已更新,请持续关注 Update in 2025-11-27 FSR-VLN Fast and Slow Reasoning for Vision-Language Navigation with Hierarchical Multi-modal Scene Graph
下一篇 
Text-to-Motion Text-to-Motion
Text-to-Motion 方向最新论文已更新,请持续关注 Update in 2025-11-27 Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
2025-11-27
  目录