嘘~ 正在从服务器偷取页面 . . .

Vision Transformer


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-21 更新

Exploring Conditions for Diffusion models in Robotic Control

Authors:Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim

While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model’s training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.

预训练视觉表征在模仿学习中取得了显著的进步,但由于它们在策略学习过程中保持冻结状态,通常是任务无关的。在这项工作中,我们探索利用预训练的文本到图像扩散模型,以获得用于机器人控制的任务自适应视觉表征,而无需微调模型本身。然而,我们发现,简单地应用文本条件——在其他视觉领域取得成功的策略——在控制任务中产生最小的收益甚至产生负面影响。我们将此归因于扩散模型的训练数据与机器人控制环境之间的领域差距,这促使我们提出考虑控制所需的具体、动态视觉信息的条件。为此,我们提出了ORCA,它引入了可学习的任务提示,这些提示能适应控制环境,以及能捕捉精细粒度、帧特定细节的视觉提示。通过用我们新设计的条件来促进任务自适应表征,我们的方法在各种机器人控制基准测试上达到了最先进的性能,显著超越了以前的方法。

论文及项目相关链接

PDF Project page: https://orca-rc.github.io/

Summary

本文探讨了利用预训练的文本到图像扩散模型为机器人控制获取任务适应性视觉表征的方法,而无需微调模型本身。然而,作者发现简单地应用文本条件并不能很好地改善控制任务的性能。针对这一问题,作者提出了ORCA方法,通过引入可学习的任务提示来适应控制环境,以及捕捉精细帧特定细节的视觉提示。通过促进任务适应性表征的形成,该方法在各种机器人控制基准测试中实现了卓越的性能,显著超越了先前的方法。

Key Takeaways

  1. 预训练的视觉表示在模仿学习中取得了显著进展,但它们通常是任务无关的,并且在政策学习过程中保持不变。
  2. 本文探索了利用预训练的文本到图像扩散模型获取任务适应性视觉表征的方法。
  3. 简单地应用文本条件在机器人控制任务中的效果有限甚至产生负面影响。
  4. 文本到图像扩散模型的训练数据与机器人控制环境之间存在领域差距。
  5. 为解决上述问题,提出了ORCA方法,通过引入可学习的任务提示和视觉提示来适应控制环境并捕捉精细的帧特定细节。
  6. ORCA方法实现了在各种机器人控制基准测试中的卓越性能,显著超越了先前的方法。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
检测/分割/跟踪 检测/分割/跟踪
检测/分割/跟踪 方向最新论文已更新,请持续关注 Update in 2025-10-21 ReCon Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-10-21 BiomedXPro Prompt Optimization for Explainable Diagnosis with Biomedical Vision Language Models
2025-10-21
  目录