嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-19 更新

Dual-Actor Fine-Tuning of VLA Models: A Talk-and-Tweak Human-in-the-Loop Approach

Authors:Piaopiao Jin, Qi Wang, Guokang Sun, Ziwen Cai, Pinjia He, Yangwei You

Vision-language-action (VLA) models demonstrate strong generalization in robotic manipulation but face challenges in complex, real-world tasks. While supervised fine-tuning with demonstrations is constrained by data quality, reinforcement learning (RL) offers a promising alternative. We propose a human-in-the-loop dual-actor fine-tuning framework grounded in RL. The framework integrates a primary actor for robust multi-task performance with a refinement actor for latent-space adaptation. Beyond standard physical interventions, we introduce a lightweight talk-and-tweak scheme that converts human corrections into semantically grounded language commands, thereby generating a new dataset for policy learning. In real-world multi-task experiments, our approach achieves 100% success across three tasks within 101 minutes of online fine-tuning. For long-horizon tasks, it sustains a 50% success rate over 12 consecutive operations. Furthermore, the framework scales effectively to multi-robot training, achieving up to a 2 times improvement in efficiency when using dual robots. The experiment videos are available at https://sites.google.com/view/hil-daft/.

视觉语言动作(VLA)模型在机器人操作任务中表现出强大的泛化能力,但在复杂的真实世界任务中面临挑战。使用演示进行监督微调受限于数据质量,而强化学习(RL)提供了一种有前景的替代方案。我们提出了一种基于强化学习的人机循环双演员微调框架。该框架结合了初级演员实现稳健的多任务性能与精炼演员实现潜在空间适应。除了标准的物理干预措施外,我们还引入了一种轻量级的谈话和调整方案,将人类修正转换为语义基础的语言命令,从而生成用于策略学习的新数据集。在真实世界的多任务实验中,我们的方法在在线微调101分钟内成功完成三项任务,成功率为100%。对于长期任务,它在连续操作12次后保持50%的成功率。此外,该框架可以有效地扩展到多机器人训练,在使用双机器人时效率提高高达两倍。实验视频可在https://sites.google.com/view/hil-daft/观看。

论文及项目相关链接

PDF

Summary
基于视觉语言动作(VLA)模型的机器人操控技术在复杂现实任务中面临挑战。本研究提出一种结合强化学习(RL)的人机交互双演员精细调整框架,包含主要演员实现稳健的多任务表现和精细演员进行潜在空间适应。此外,本研究引入了一种轻量级的“谈话微调”方案,将人类修正转化为语义丰富的语言命令,生成用于策略学习的新数据集。在真实世界的多任务实验中,该方法在101分钟在线精细调整后成功完成三项任务,并在长周期任务中维持了50%的成功率。此外,该框架在多机器人训练中可有效扩展,使用双机器人时效率提高两倍。

Key Takeaways

  1. VLA模型在复杂的现实任务中存在挑战,需要新的策略来提高其表现。
  2. 人机交互双演员精细调整框架结合了强化学习,旨在提高机器人处理多任务的能力。
  3. 引入了一种新的“谈话微调”方案,将人类反馈转化为语言命令,生成策略学习数据集。
  4. 在真实世界的实验中,该框架在在线精细调整后成功完成多项任务,证明了其有效性。
  5. 对于长周期任务,该框架能够维持较高的成功率。
  6. 该框架可扩展到多机器人训练,提高了训练效率。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-09-19 TGPO Tree-Guided Preference Optimization for Robust Web Agent Reinforcement Learning
2025-09-19
下一篇 
Interactive Interactive
Interactive 方向最新论文已更新,请持续关注 Update in 2025-09-18 Reaction rates with temperature-dependent cross sections A quantum dynamical microscopic model for the neutron capture reaction on the $^{188}$Os target
2025-09-18
  目录