仅需3条轨迹就能达96.8%成功率?中科院这一模型太牛了

百度快速收录-正常1-3天收录-最迟7天收录

最新消息指出,中国科学院自动化研究所推出的BridgeVLA模型在三维机器人操作学习领域引起了广泛关注。这一模型突破了传统技术限制,显著提高了操作学习的效率,并增强了其泛化能力。这一进展预示着通用机器人操作技术将迎来新的发展契机。

当前困境

近期,视觉-语言-动作(VLA)模型在机器人操作方面表现出了显著的成效。不过,目前大部分VLA模型仅采纳二维数据作为输入源三门峡农机农垦发展中心,并且对机器人数据进行了广泛的调整。再者,大多数三维VLA技术将动作结果构建成token序列,这种做法使得它们与观测输入的空间关系被切断,进而难以充分利用三维几何信息。预训练的VLM模型在输入方面采用二维图像,然而在微调阶段,其输入则转变为三维图像,这种输入方式的转变导致了两者在分布上存在显著的不同,因此,直接进行迁移学习的效果并不理想。

创新思路

基于上述情况,BridgeVLA研究团队提出了创新设想。他们计划将三维输入与动作输出,以及预训练阶段的输入和输出,全面转换为二维空间形式。此举旨在同时保持二维VLA的广泛适用性,并充分利用三维操作策略的高效特点。这一创新理念为解决VLA模型面临的问题提供了新的方向,同时也是构建高性能与高效三维VLA模型的关键性进展。

预训练阶段

在预训练阶段,BridgeVLA重点提升了模型的空间感知能力。与传统的多模态大模型预训练方法不同,后者一般通过预测token序列来执行特定任务,然而这种方法往往忽视了序列的空间结构。BridgeVLA别具一格地引入了热度图预训练技术,并利用RoboPoint中的目标检测数据集进行了训练。此方法使模型得以依据文本指示预测目标对象的概率分布热力图。此策略为VLM赋予了空间识别的能力,并使它能够依据语言描述,在图像中精确锁定目标区域的位置。

微调阶段

_低范式促进性能_提升性能力的书籍

在微调过程中,模型必须根据三维点云信息和语音指令来生成恰当的机器人动作。借助深度图像和相机参数的整合,通过三个热力图的逆向投影,能够精确计算出末端执行器的具体位置。BridgeVLA技术显现出其卓越的数据处理能力,仅需三条轨迹即可将基础任务的成功率提升至96.8%,这一成就几乎与使用十条轨迹进行训练的效果相当。

性能验证

实验数据揭示,BridgeVLA在模拟与实际应用场合均展现了卓越性能。该系统拥有卓越的泛化能力,对数据质量的要求极低。得益于其高效和高性能的特点,BridgeVLA在真实机器人系统中部署与扩展尤为适宜,同时显著增强了机器人的实际操作效能。

模式构建

BridgeVLA在二维图像空间中实现了输入输出的统一预训练,因此成功打造了一个既高效又具有卓越性能的3D VLA新型模型。该模型的问世,为3D机器人操作技能的学习提供了新的方法,并且有潜力引领该领域未来的发展趋势。

BridgeVLA模型在众多机器人操作的实际场景中能否快速推广?期待各位在评论区分享您的看法。此外,别忘了为本文点赞并予以转发!