更多精彩 >

灵初智能发布端到端VLA模型PsiR0.5,仅需两小时数据实现物品、场景全面泛化

2025-03-03 16:16:46   来源:华夏晚报  作者: 

摘要:近日,Figure发布的端到端VLA具身大模型Helix,采用分层架构同时实现高频控制和高泛化能力,引起了业内广泛关注。

近日,Figure 发布的端到端 VLA 具身大模型  Helix,采用分层架构同时实现高频控制和高泛化能力,引起了业内广泛关注。几乎同期,中国具身智能团队灵初智能发布了基于强化学习的增强版分层架构端到端 VLA  模型 Psi R0.5,这距离灵初智能团队去年底发布的 Psi R0 仅 2 个月

  本次发布的新模型重大升级,对于复杂场景的泛化性灵巧性CoT长程任务能力上均有显著提升,同时完成泛化抓取训练所需的数据量仅需  Helix 数据量的 0.4%!在全球范围内实现了泛化灵巧操作与训练效率的双重领先。

  此外,灵初智能团队连发四篇高质量论文,将团队在高效实现泛化抓取堆叠场景的物品检索利用外部环境配合抓取VLA  安全对齐方面的最新成果悉数公开,展现了中国团队在具身智能领域的强悍战斗力。

1.png

Psi R0.5 路径演进图

DexGraspVLA仅需两小时灵巧手抓取数据

轻松实现物品、灯光、场景泛化并实现真正  CoT

  DexGraspVLA 是首个用于灵巧手通用抓取的  VLA(Vision-Language-Action)框架,通过少量的训练,即刻在多变环境下智能涌现灵巧操作能力,能够像人类一样快速、准确地拾取各种物品。

  DexGraspVLA 是一个融合视觉,语言和动作的层次化框架:

  · High-level  Planner:高层规划由预训练的大型视觉语言模型(VLM)实现,可理解多样化指令、自主决定抓取策略

  · Low-level  Controller:低层扩散策略通过实时视觉反馈闭环掌握目标物体智能涌现出灵巧操作能力

  整个框架的核心在于将多样化的图像输入数据通过现有的 Foundation Model 转换成 Domain-invariance  的表征,并端到端地训练下层控制模型。

2.png

DexGraspVLA 框架图

  从实验结果看,灵初智能仅使用了约 2 小时的灵巧手抓取数据(2094 条轨迹 × 3.5 秒 / 条 ÷ 60 秒  / 分钟 ÷ 60 分钟 / 小时 ≈ 2 小时),泛化到上千种不同物体,位置,堆叠,灯光,背景下成功抓取,而这个数据量仅仅是 Figure 的  0.4%数据利用效率提高 250 倍

  同时,DexGraspVLA 相比现有方案还具有几项优势:

  · 根据语言指令分辨出目标物体,处理堆叠场景下的目标物体的检索并抓取

  · 抓取速度快(所有视频无加速,同类工作中节拍较快),闭环姿态矫正与重抓取能力(ReGrasp)

  · 大脑具有 CoT 长程推理能力自主推理抓取顺序并将所有物体依次抓取

  DexGraspVLA  展现出对光照变化背景干扰和物体姿态的强大鲁棒性和泛化性,让机器人的灵巧抓取达到人类级别。

  基于预训练的大模型:使用自然语言与人类交互,具有高智能的长程推理能力,能够自主理解人类话语并推理任务。因此可以一次设定多个抓取目标,通过 CoT  实现复杂流程下的自动分拣或清理。

  DexGraspVLA  仍然会自动分析当前姿态偏差,通过细微调整腕关节和手部角度重新尝试抓取实现非常鲁棒且高效的抓取能力达到极强的泛化能力

3.png

Retrieval Dexterity

堆叠场景中的高效物体检索策略

  强化学习底层驱动,简单 reward 涌现复杂动作

  在大多数实际场景中,物品往往以无规则、堆叠的方式摆放。传统方法要求机器人逐件搬开遮挡物,不仅耗时,还对机器人自身抓取能力提出了很高的要求。

  为了解决这一难题,灵初智能开发了一套基于强化学习的物体检索策略 ——Retrieval  Dexterity,解决了堆叠场景中物体检索识别效率低的问题。

  Retrieval Dexterity  系统中未用真机数据,灵初团队没有采用真机数据进行训练而是直接在仿真环境中通过强化学习进行训练。通过在仿真环境中大规模生成复杂的堆叠场景,训练模型直至涌现出合适的检索操作,随后再将这些操作零样本迁移至现实机器人和复杂环境中。

4.png

Retrieval Dexterity 框架图

  从杂乱堆叠物体中快速取出目标物体

  在超过 10 种不同形状、大小的生活物品测试中,Retrieval Dexterity  展现出了优秀的性能,不仅能够高效完成训练过的物体的检索任务还能将检索能力泛化到未见过的新物体上

  效率对比传统方法提升明显

  与人为设定的动作相比,Retrieval Dexterity 在所有场景中平均减少了 38%  的操作步骤与模拟的 “将所有物体抓起来并放开” 相比,该方法更是平均减少了 90%  的步骤数量。这种效率提升主要得益于多指灵巧手能够直接与遮挡物进行交互,并随时移动它们,而不需要逐个移除。

5.png

ExDex:借力外部环境

抓取 “不可能” 物体

  外部灵巧性解决物品超过机器人末端执行器的最大开度问题

  当物体的底面尺寸超过机器人末端执行器的最大开度时,传统方法往往无法直接对物体进行抓取,这种情况在商场等商业场景尤为常见。为了解决这一难题,灵初智能推出了  ExDex—— 一种基于外部灵巧性(extrinsic dexterity)抓取的创新解决方案

  ExDex 能够利用环境特征进行非夹持式操作,凭借多指灵巧手的灵活性和操作能力,实现更丰富的环境交互。

  强化学习带来超越人类遥操作水平的灵巧操作

  通过强化学习,ExDex  涌现出自主制定策略的能力,借助周围环境抓取那些无法直接抓取的物体。例如,机器人可以将物体先推到桌面边缘或墙体边缘,再利用这些环境特征完成抓取任务。这种操作通过传统的遥操作方式几乎无法实现,充分体现了强化学习的强大优势。

  在对数十种不同家居物品的大量实验中,ExDex  验证了其优越的性能和对新物体的泛化能力并成功将仿真训练的策略无缝迁移到真实机器人中,实现了从仿真到现实的高效过渡。

SafeVLA:人机安全交互的 “守护神”

  当下,具身智能机器人频繁出圈,从春晚跳舞的 Unitree  人形机器人,到波兰街头遛机器狗的新奇场景,让人看到人机交互的无限可能,但安全问题也不容忽视。视觉 - 语言 -  行动模型(VLAs)在革新机器人技术时,也藏着安全隐患。

6.png

 左图呈现了传统 VLA 模型在抓取任务中的三种典型不安全行为:1)对无关物体的严重损坏,2)目标识别错误导致危险物体的误用,以及  3)执行指令时与危险物体发生交互。右图通过导航路径示例,进一步展示了传统 VLA 在导航过程中的三种不安全行为

  本周,北京大学 PAIR - Lab 团队携手灵初智能重磅推出了具身安全模型  SafeVLA,通过安全对齐,让机器人在复杂场景安全高效执行任务,在对抗干扰场景中鲁棒性极高

  SafeVLA 把 “以人为本” 刻进  DNA,不像传统机器人只盯着任务完成它把人类安全放在首位。技术上,引入约束马尔可夫决策过程(CMDP)范式,把现实安全约束融入仿真环境大规模采样。SafeVLA  在安全性和任务执行方面均取得突破性进展分别提升 83.58% 和  3.85%充分证明了其在平衡安全与效率方面的卓越能力

11.gif

传统 VLA 模型完成任务过程中的高危行为

  团队开发全新仿真环境 Safety -  CHORES集成安全约束功能支持用户自定义规则代码还完全开源直接给全球研究者和开发者送福利。而且,SafeVLA  在 12 个分布外(OOD)实验里,面对光照、材质变化和复杂环境扰动,始终稳定发挥,实力碾压其他模型。

22.gif

SafeVLA 在正常测试集和 OOD 测试集上的比较,其在 OOD 环境下依然保持良好安全性和表现


猜你喜欢

云知声签约南太平洋,为中国香港数字金融创新与国际合作提供AI技术支撑

智能+云知声

7月25日,瓦努阿图共和国副总理兼财政部长约翰尼・科纳坡率团访问中国香港特区政府,并在港举办瓦努阿图...

5天前

服务行业数智化,共创AI新时代,华为中国政企用户峰会2025成功举办

华为智能+

7月24日,以“倾听·践行 服务行业数智化 共创AI新时代”为主题的华为中国政企用户峰会2025在山...

2025-07-25

国际知名数据机构IDC:百度AI搜索是中国最好的通用AI搜索

智能+百度AI搜索

7月25日,全球知名专业咨询服务机构国际数据公司(IDC)发布《AI搜索产品评估,2025》。

2025-07-25

原创

全球首台第6代咖啡机器人COFE+ 受邀亮相2025世界人工智能大会

智能+2025世界人工智能大会

2025世界人工智能大会于7月26日至29日在上海盛大举行。

2025-07-25

百度法律智能体&北京知识产权保护协会「携手律师走进百度」活动顺利举行!

智能+百度法律智能体

2025年7月22日,一场汇聚科技与法律智慧的盛会在北京百度总部拉开帷幕。

2025-07-24

盲盒风潮:情绪消费新宠儿,全国现存潮玩相关企业超5.1万家

大消费天眼查

盲盒风潮:情绪消费新宠儿,全国现存潮玩相关企业超5.1万家

2025-06-11

早教市场:启蒙还是焦虑?全国现存早教相关企业超32.1万家

天眼查文化传媒

早教市场:启蒙还是焦虑?全国现存早教相关企业超32.1万家

2025-06-11

母婴营销新创新引领消费潮,全国现存母婴相关企业超1341.2万家

大消费天眼查

母婴营销新创新引领消费潮,全国现存母婴相关企业超1341.2万家

2025-06-11

整治老药保虚假宣传,我国现存保健品相关企业超878.1万家

大消费天眼查

整治老药保虚假宣传,我国现存保健品相关企业超878.1万家

2025-06-11

中药新药研发加速上市,全国现存中药相关企业超84.3万家

医疗健康天眼查

中药新药研发加速上市,全国现存中药相关企业超84.3万家

2025-06-11

官方将整治“零公里二手车”乱象,全国现存二手车相关企业超106.3万家

创新创业天眼查

官方将整治“零公里二手车”乱象,全国现存二手车相关企业超106.3万家

2025-06-11

2025年我国风电光伏再扩容,全国现存相关企业数量已超121万家

创新创业天眼查

2025年我国风电光伏再扩容,全国现存相关企业数量已超121万家

2025-06-11

端午假期全国口岸通关平稳有序,全国现存出境游相关企业超2.9万家

大消费天眼查

端午假期全国口岸通关平稳有序,全国现存出境游相关企业超2.9万家

2025-06-11

适老化产品增长显著,我国现存银发经济相关企业超36.7万家

大消费天眼查

适老化产品增长显著,我国现存银发经济相关企业超36.7万家

2025-06-11

闲置医疗设备风险担责,全国现存医疗废物处理相关企业超1万家

创新创业天眼查

闲置医疗设备风险担责,全国现存医疗废物处理相关企业超1万家

2025-06-11

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

苏州引航生物科技斩获超亿元 E 轮融资,加速全球布局

苏州引航生物科技斩获超亿元 E 轮融资,加速全球布局

橙帆医药完成超6000万美元Pre-A+轮融资

橙帆医药完成超6000万美元Pre-A+轮融资

引航生物完成超亿元新一轮融资

引航生物完成超亿元新一轮融资

堂上堂完成数百万元Pre-A轮融资

堂上堂完成数百万元Pre-A轮融资

合生生物完成数千万元Pre-A轮融资

合生生物完成数千万元Pre-A轮融资

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

在时代的浩渺长河中,“分化”宛如一条隐匿的脉络,贯穿于万物的生长、发展与变迁。从生命的进化到文明的演...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...