首个端到端强化学习具身模型PsiR0，横空出世！

2024-12-30 13:23:28 来源：搜狐网作者：　

摘要：近日，灵初智能发布首个基于强化学习（RL）的端到端具身模型PsiR0。

近日，灵初智能发布首个基于强化学习（RL）的端到端具身模型Psi R0。该模型支持双灵巧手协同进行复杂操作，将多个技能串联混训，生成具有推理能力的智能体，从而完成并闭环长程灵巧操作任务。并且，Psi R0还可以实现跨物品、跨场景级别的泛化。

真实世界中，人类生活近乎100%的场景涉及抓握、转动、捏取、触摸等操作，而其中超过 90% 的操作属于多技能融合的长程任务。然而在当下具身业界，多局限于Pick and Place操作的泛化，一旦任务复杂化、长程化，泛化性和成功率则大大降低，无法兼顾——这也是具身智能只能存在于demo，迟迟无法在真实场景中落地的核心原因！机器人如何突破Pick and Place、脱离遥操作，拥有自主完成长程灵巧操作的能力，实现真正类人的场景级任务闭环，仍是具身智能亟待攻克的难题。

RL是长程灵巧操作实现任务闭环的唯一解

在真实世界中，机器人解决长程任务必须通过Learning-based模式，目前主流技术路径有两种：模仿学习（IL）和强化学习（RL）。

纯模仿学习的泛化能力受限于示范行为的多样性和质量。加之长程任务步骤较多，更容易出现分布漂移问题，使得 IL实现长程任务的泛化性能较差，鲁棒性也较弱。

基于RL的Psi R0 模型，使用海量仿真数据高效训练出双手操作的智能体，并通过双向训练框架串联多技能，在业界率先完成开放环境中的长程任务，具备较强的泛化能力与较高的鲁棒性。这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数，从而解决奖励函数难设计的问题。在后训练阶段，通过少量高质量真机数据对齐，进一步提升长程任务的成功率。除此之外，双向训练框架中的转移可行性函数发挥着重要作用，它能够微调技能以提高串联的成功率与泛化性，同时赋予模型自主切换技能的能力，使其在遭遇操作失败时能够迅速调整策略，确保高成功率。

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

Yuanpei Chen, Chen Wang*, Li Fei-Fei, C. Karen Liu

Psi R0 模型表现出的灵巧性、高成功率以及泛化性，充分展示了其大脑的任务拆解与规划能力，以及小脑的灵巧操作、泛化和鲁棒能力。这一模型的诞生，突破了当前具身机器人在商业化应用进程中所面临的核心技术瓶颈，为整个行业的未来发展开拓出一片全新且广阔的天地，有望引领具身机器人迈向全新的发展阶段。

从理论概念到有效落地，Psi R0解答了具身智能商业化的终极命题

长程任务灵巧操作场景无处不在，从工厂产线组装，到服务业的拣货打包，到家居环境的清洁整理。

Psi R0模型的智能体展示了其强大的场景落地能力。以电商场景为例，商品打包是典型的长程任务作业，需对上万件商品进行抓取，扫码，放置，塑料袋打结等多个操作。Psi R0能够使用双灵巧手流畅地完成这一系列动作（此系列动作在客户现场可以取代一个完整工位），成为首个基于强化学习训练完成长程灵巧操作任务的具身机器人。

视频中，机器人系统接收到的指令仅仅是“将桌面的物体打包”，而这一看似简单的任务背后，是灵初智能极具创新性的端到端技术架构在发挥作用。当指令下达后，上层视觉语言模型（VLM）对桌上混乱摆放的商品进行分析，编排出商品的操作顺序，下层操作模型拆解出单个商品的子任务，如抓取、放置、扫码、打包等，智能体依次执行。

抓取环节，面对随意摆放、形状各异的商品，模型必须具备高度的泛化能力，才能成功完成商品的逐个抓取。视频中展示的品客薯片，Psi R0 仅仅依靠 20 条真机数据，模型就成功实现了99%+的成功抓取率。

扫码环节更是考验机器人的灵巧操作水平，需要双手高度精细地协调彼此相对位置，以确保扫码枪与商品条码能够精准对齐，任何细微偏差都可能导致扫码失败。此时，RL训练策略为双手双臂构成的高自由度复杂系统提供了可靠的实时闭环控制，保障扫码动作精准流畅地完成。

打包环节，需要双手协调完成对塑料袋的灵巧操作。在动态打包的过程中，塑料袋的形状会随动作变化，需要实时调整操作。为了提升机器人对柔性物体的操作适应能力，Psi R0在仿真环境中模拟多种柔性物体的操作场景，同时结合真机数据进行微调优化。甚至在被打断、干扰的情况下，也能自适应调整策略，重新进行打包动作。

灵初智能Psi R0模型是具身智能递归性成长的第一步。具身智能将遵从从简单到复杂、从保护到协同的渐进式演进。在早期，小脑是与真实世界交互的物理基础，其设计需结合领域知识，满足环境中的约束条件，同时具备容错性，支持大脑学习与优化。Psi R0模型发挥RL算法探索的优势，支持小脑的快速迭代，生成支持长程灵巧操作的智能体。通过灵巧操作转动数据飞轮，实现从小脑Action到大脑Cognition的闭环回馈，驱动大脑认知能力优化，模型持续迭代，形成小脑协同+大脑优化的具身智能“神经回路”，使端到端模型完成从简单到复杂、从保护到协同的渐进式演进。

上一篇： 助力解决国人睡眠问题，声阔&QQ音乐用科技打开新局面
下一篇： 电子烟有戒烟减害效果吗？10大权威研究为其正名

全市场宽基配置工具迎新品，中证A股ETF华夏（561733）正式发行

金融科技中证A股ETF华夏

全市场宽基配置工具迎新品，中证A股ETF华夏（561733）正式发行

1天前

2026年，香港最新的保险公司排名如何

金融科技香港保险公司

2026年，香港最新的保险公司排名如何

1天前

2026年学平险市场产品观察及综合选购指南

金融科技学平险

2026年学平险市场产品观察及综合选购指南

2天前

AdventureX 2026青年黑客松大赛启幕，招商银行赋能AI技术新生代

金融科技招商银行

AdventureX 2026青年黑客松大赛启幕招商银行赋能AI技术新生代

2天前

2026年国内旅游出行安全保险市场回暖对头部产品竞争力的影响分析报告

金融科技国内旅游出行安全保险

2026年国内旅游出行安全保险市场回暖对头部产品竞争力的影响分析报告

2天前

精彩阅读原创资讯投资人物专栏

解读工业富联财报：万亿市值中的稀缺高增样本

上市公司工业富联

在A股市场，能够站上万亿市值的公司并不多。

2026-07-09

ATFX：美联储会议纪要 | 需要实施一定程度的政策紧缩

金融科技 ATFX

关于美联储首次加息时间点的判断，一种依据是FedWatch，数据显示9月美联储加息的概率51.5%，...

2026-07-09

国内靠谱的专业融资顾问公司有哪些？4大头部机构实测盘点

金融科技专业融资顾问公司

很多创业者、中小微企业老板，都会陷入一个误区：融资只是单纯对接银行或投资机构。

2026-07-09

最推荐哪些现货黄金交易平台？TOP1金荣中国实测

金融科技现货黄金交易平台

进入2026年,国际金价的高位震荡成了各大财经媒体的常客。

2026-07-09

原创

武汉AI“五龙”，又有IPO了

鼎龙股份

武汉AI硬件“五龙”，再迎一个IPO。

2026-07-09

原创

暴跌96%、亏损超17亿！新茶饮第一股崩了？

消费

股价跌去96%！奈雪的茶要“凉”了？

2026-07-09

2026年7月GEO优化公司哪家值得选：市场格局、头部解析与选型指南

大消费 GEO优化公司

2026年，生成式引擎优化（GEO）已从一项前沿概念演变为企业数字化营销的核心基础设施。

2026-07-09

2026年7月GEO优化服务商推荐：五大专业品牌技术评测与选型指南

大消费 GEO优化服务商

2026年，生成式AI已全面渗透商业决策的核心环节。

2026-07-09

2026年7月GEO优化公司排行榜：五大品牌全景选购指南

大消费 GEO优化公司

当你的客户在DeepSeek里问“这个行业谁做得最好”，在豆包里搜“附近有什么靠谱的品牌”，在Kim...

2026-07-09

正规经纪商有哪些？外汇交易平台选择参考

金融科技外汇交易平台

很多人在选择外汇、黄金、指数或差价合约交易平台时，都会先搜索一个问题：正规经纪商有哪些？

2026-07-09

投资家网（www.investorscn.com）是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务，包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流，并可加入微信群参与官方活动，赶快行动吧。