更多精彩 >

首个端到端强化学习具身模型PsiR0,横空出世!

2024-12-30 13:23:28    来源:搜狐网  作者: 

摘要:近日,灵初智能发布首个基于强化学习(RL)的端到端具身模型PsiR0。

近日,灵初智能发布首个基于强化学习(RL)的端到端具身模型Psi R0。该模型支持双灵巧手协同进行复杂操作,将多个技能串联混训,生成具有推理能力的智能体,从而完成并闭环长程灵巧操作任务。并且,Psi R0还可以实现跨物品、跨场景级别的泛化。

21.png

真实世界中,人类生活近乎100%的场景涉及抓握、转动、捏取、触摸等操作,而其中超过 90% 的操作属于多技能融合的长程任务。然而在当下具身业界,多局限于Pick and Place操作的泛化,一旦任务复杂化、长程化,泛化性和成功率则大大降低,无法兼顾——这也是具身智能只能存在于demo,迟迟无法在真实场景中落地的核心原因!机器人如何突破Pick and Place、脱离遥操作,拥有自主完成长程灵巧操作的能力,实现真正类人的场景级任务闭环,仍是具身智能亟待攻克的难题。

RL是长程灵巧操作实现任务闭环的唯一解

在真实世界中,机器人解决长程任务必须通过Learning-based模式,目前主流技术路径有两种:模仿学习(IL)和强化学习(RL)。

纯模仿学习的泛化能力受限于示范行为的多样性和质量。加之长程任务步骤较多,更容易出现分布漂移问题,使得 IL实现长程任务的泛化性能较差,鲁棒性也较弱。

基于RL的Psi R0 模型,使用海量仿真数据高效训练出双手操作的智能体,并通过双向训练框架串联多技能,在业界率先完成开放环境中的长程任务,具备较强的泛化能力与较高的鲁棒性。这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数,从而解决奖励函数难设计的问题。在后训练阶段,通过少量高质量真机数据对齐,进一步提升长程任务的成功率。除此之外,双向训练框架中的转移可行性函数发挥着重要作用,它能够微调技能以提高串联的成功率与泛化性,同时赋予模型自主切换技能的能力,使其在遭遇操作失败时能够迅速调整策略,确保高成功率。

22.png

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation  

Yuanpei Chen, Chen Wang*, Li Fei-Fei, C. Karen Liu

Psi R0 模型表现出的灵巧性、高成功率以及泛化性,充分展示了其大脑的任务拆解与规划能力,以及小脑的灵巧操作、泛化和鲁棒能力。这一模型的诞生,突破了当前具身机器人在商业化应用进程中所面临的核心技术瓶颈,为整个行业的未来发展开拓出一片全新且广阔的天地,有望引领具身机器人迈向全新的发展阶段。

从理论概念到有效落地,Psi R0解答了具身智能商业化的终极命题

长程任务灵巧操作场景无处不在,从工厂产线组装,到服务业的拣货打包,到家居环境的清洁整理。

Psi R0模型的智能体展示了其强大的场景落地能力。以电商场景为例,商品打包是典型的长程任务作业,需对上万件商品进行抓取,扫码,放置,塑料袋打结等多个操作。Psi R0能够使用双灵巧手流畅地完成这一系列动作(此系列动作在客户现场可以取代一个完整工位),成为首个基于强化学习训练完成长程灵巧操作任务的具身机器人。

视频中,机器人系统接收到的指令仅仅是“将桌面的物体打包”,而这一看似简单的任务背后,是灵初智能极具创新性的端到端技术架构在发挥作用。当指令下达后,上层视觉语言模型(VLM)对桌上混乱摆放的商品进行分析,编排出商品的操作顺序,下层操作模型拆解出单个商品的子任务,如抓取、放置、扫码、打包等,智能体依次执行。

抓取环节,面对随意摆放、形状各异的商品,模型必须具备高度的泛化能力,才能成功完成商品的逐个抓取。视频中展示的品客薯片,Psi R0 仅仅依靠 20 条真机数据,模型就成功实现了99%+的成功抓取率。

23.png

扫码环节更是考验机器人的灵巧操作水平,需要双手高度精细地协调彼此相对位置,以确保扫码枪与商品条码能够精准对齐,任何细微偏差都可能导致扫码失败。此时,RL训练策略为双手双臂构成的高自由度复杂系统提供了可靠的实时闭环控制,保障扫码动作精准流畅地完成。

打包环节,需要双手协调完成对塑料袋的灵巧操作。在动态打包的过程中,塑料袋的形状会随动作变化,需要实时调整操作。为了提升机器人对柔性物体的操作适应能力,Psi R0在仿真环境中模拟多种柔性物体的操作场景,同时结合真机数据进行微调优化。甚至在被打断、干扰的情况下,也能自适应调整策略,重新进行打包动作。

24.png

灵初智能Psi R0模型是具身智能递归性成长的第一步。具身智能将遵从从简单到复杂、从保护到协同的渐进式演进。在早期,小脑是与真实世界交互的物理基础,其设计需结合领域知识,满足环境中的约束条件,同时具备容错性,支持大脑学习与优化。Psi R0模型发挥RL算法探索的优势,支持小脑的快速迭代,生成支持长程灵巧操作的智能体。通过灵巧操作转动数据飞轮,实现从小脑Action到大脑Cognition的闭环回馈,驱动大脑认知能力优化,模型持续迭代,形成小脑协同+大脑优化的具身智能“神经回路”,使端到端模型完成从简单到复杂、从保护到协同的渐进式演进。


猜你喜欢

选择财富管理机构,不能只看“产品多不多”

金融科技财富管理机构

过去很多投资者理解财富管理,往往停留在“买哪只产品”“收益怎么样”“手续费多少”这些问题上。

1天前

选择证券APP,不能只看功能多不多

金融科技证券APP

很多投资者选择证券APP时,第一反应是看行情快不快、下单顺不顺、功能全不全。这些当然重要,但在数字化...

1天前

2026年MT4平台交易商怎么选?合规靠谱的核心标准

金融科技MT4平台交易商

作为全球普及率最高的交易平台之一,MT4凭借稳定的性能、丰富的交易工具,成为众多个人投资者的首选。

1天前

外汇投资平台哪家安全:监管资质与合规能力对比

金融科技外汇投资平台

全球外汇投资市场规模逐年增长,但伴随而来的平台合规风险也备受投资者关注。

1天前

网商理财靠谱吗:解析互联网银行理财服务的可靠性与选择优势

金融科技网商理财

在数字化浪潮席卷金融领域的当下,互联网银行理财服务正成为越来越多投资者管理资金的重要选择。

1天前

望华资本戚克栴:做“最有价值”的中国价值投资课

大消费复旦中国价值投资实践

在一个充满噪音、情绪和错误定价的市场中,如何成为少数“算得清、拿得住、活得久”的人?

2026-04-27

紫藤知识产权发布《全球固态电池专利全景分析白皮书》----全球逾万件有效及审中专利揭示中国出海企业面临多重壁垒风险

大消费紫藤知识产权

在第26个世界知识产权日到来之际,紫藤知识产权集团(以下简称"紫藤")正式发布《全球固态电池专利全景...

2026-04-27

张正萍荣获中国青年五四奖章,以科技创新驱动汽车产业高质量发展

上市公司赛力斯

4月27日,2026年度中国青年五四奖章暨新时代青年先锋奖评选结果揭晓,赛力斯汽车董事长张正萍被授予...

2026-04-27

连云港(601008):2026年一季度营收、净利润双增长

上市公司连云港

4月27日晚间,江苏连云港港口股份有限公司(以下简称“连云港”)发布2026年一季报。

2026-04-27

香港AXA安盛保险“盛利 II 储蓄保险(2年缴)”系列,助力财富稳健增值!

金融科技安盛保险

你是否也这样?对理财一知半解,迟迟没有实际行动,让自己陷入焦虑。

2026-04-27

AI浪潮下的“隐形冠军”:歌尔股份2025年营收965.5亿,新兴智能硬件打开增长空间

上市公司歌尔股份

4月23日,歌尔股份发布2025年年度报告与2026年第一季度报告。

2026-04-27

从F1赛道到宝马、奔驰,亿纬大圆柱如何成为高端车“标配”?

上市公司亿纬锂能

一块电池是不是真高端?最简单的办法就是看谁在用。

2026-04-27

现货黄金24小时交易怎么操作?十大平台让你了解交易基础规则

金融科技黄金交易平台

在全球经济波动加剧、避险需求持续攀升的当下,现货黄金凭借双向盈利、高流动性的优势,成为越来越多投资者...

2026-04-27

同仁堂国药:中金公司维持“跑赢行业”评级,低估值高股息凸显中药出海价值标杆

上市公司同仁堂国药

在中医药国际化提速、价值投资回归主流的背景下,同仁堂国药(03613.HK)凭借百年品牌壁垒、全球化...

2026-04-27

国内十大活跃现货黄金投资公司排行榜!

金融科技黄金投资

目前人民的经济在不断的发生变化,因此就有很多人会接触到金融市场,同时也有越来越多的新手投资者进入,这...

2026-04-27

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

ATFX:阿联酋突然退群背后:全球油价正被三重力量主导

ATFX:阿联酋突然宣布退出欧佩克,令其盟友措手不及。在加入欧佩克六十年后,阿联酋决定于下个月正式退...

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

优选空天科工在阿联酋设立总部,正式进入中东市场

中东已成为中国一些知名公司的投资热土。

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

2026年4月22日至24日,第20届中国投资年会·年度峰会于北京海淀盛大召开

第四届中国研究生金融科技创新大赛在南京收官

第四届中国研究生金融科技创新大赛在南京收官

12月28日,第四届中国研究生金融科技创新大赛在南京落幕。

京杭对话:杭州,凭什么吸引北京创新企业?

京杭对话:杭州,凭什么吸引北京创新企业?

从一张精准的产业蓝图,到一个敏捷的创新操作系统,再到一片丰沃的赋能土壤,杭州的生产性服务业正在这条路...

第19届中国投资年会·有限合伙人峰会在沪成功举办

第19届中国投资年会·有限合伙人峰会在沪成功举办

11月27日,由投中信息和投中网主办的第19届中国投资年会·有限合伙人峰会在上海举办。

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

在区域经济协同发展的大背景下,京杭两地的经济协作正以一种全新的姿态加速推进。