谷歌机器人利用Gemini技术成功完成了令人瞩目的扣篮表演,这一壮举显著展现了其在场景适应性方面的卓越才能。这一成就已经引起了业界对于人工智能机器人未来发展趋势的广泛关注。
Gemini助力机器人扣篮
6月28日,谷歌在其最新播客中公布,装备了Gemini人工智能技术的机器人能够无需额外指令,自行完成扣篮动作。这一成就显著展现了机器人快速适应新环境的卓越能力。特别值得关注的是,在洛杉矶举行的RSS2025活动上,运行Gemini Robotics On-Device模型的机器人仅两天前便实现了全球范围内的首次互动式现场演示。
观察人士高度评价
硅谷AI领域的观察者Ted Xiao指出,这仅仅是对未来的一瞥。在用户与机器人的交流过程中,机器人能够给出适宜的回答,并尝试进行合理的操作。谷歌在X平台上宣告,这标志着其首次推出的“视觉-语言-动作”模型,该模型有助于机器人更快、更有效地适应新的任务和情境。
类似模型早有先例
今年二月底,Figure公司推出了名为Helix的模型,这是一套针对通用人形机器人控制而量身定制的“视觉-语言-动作”(VLA)系统。该系统具备无需依赖数据网络独立运行的能力,这一特性尤为显著,特别适用于对延迟敏感的应用场景。此外,即便在遭遇网络不稳定或完全无网络连接的环境下,该模型仍能保持其稳定的性能表现。
谷歌先前成果回顾
自三月起,谷歌发布了其首个VLA模型——Gemini Robotics。该模型在物理环境中融入了Gemini 2.0的多模态推理能力及对现实世界的认知。同时,Gemini Robotics On-Device开始受到关注,这一新势力显著降低了计算资源的需求。针对灵巧操作的需求、新任务的精确调整、适应环境的强大能力以及本地运行中低延迟的快速推理等核心问题,该方案提出了切实可行的解决措施。
模型实际表现情况
研究结果显示,尽管Gemini Robotics On-Device在性能方面略逊于其高端产品,但与以往最优秀的离线模型相比,其表现依然相当显著。为了在家庭环境中高效运行,机器人必须拥有根据实际需求生成新的智能行为的能力,特别是在面对未曾接触过的物体时。Figure的Helix模型通过学习一系列神经网络权重,成功掌握了行为规律。该模型设立了两个独立的系统:系统1和系统2。系统1主要负责进行思考活动,而系统2则负责执行任务。这种设计使得模型在执行特定任务时无需进行过多的细致调整。
微调优势凸显能力
Gemini Robotics的On-Device功能为开发者提供了丰富的调整选项,这一特点使得开发者能够通过50至100次演示,迅速掌握新任务的要点。在接收到不超过100个示例后,该系统便展现出其卓越的适应性。阿波罗人形机器人系统中的通用模型,能够精确执行自然语言指令,并且运用广泛适用的方法操控多种物体,即便这些物体是机器人之前未曾接触过的。
业界广泛关注谷歌最新推出的模型,此模型能否推动机器人技术步入新的发展轨迹尚存疑问。我们热切期盼各位在评论区发表您的见解,并诚挚邀请您点赞及转发本篇文章。