更多精彩 >

自变量开源Wall-OSS-0.5,全球领先首次实现“预训练”比肩“后训练”

2026-05-29 14:24:37    来源:搜狐网  作者: 

摘要:自变量机器人今日正式开源具身基础模型Wall-OSS-0.5,在全球范围内首次实现了无需针对下游任务进行后训练,预训练后的模型直接部署到机器人上,即可完成搬运、分拣、整理绳索等多种操作任务,在部分任务上的零样本(Zero-shot)泛化表现接近常规微调后的水平。

自变量机器人今日正式开源具身基础模型 Wall-OSS-0.5,在全球范围内首次实现了无需针对下游任务进行后训练,预训练后的模型直接部署到机器人上,即可完成搬运、分拣、整理绳索等多种操作任务,在部分任务上的零样本(Zero-shot)泛化表现接近常规微调后的水平。

预训练模型到底能不能直接使用?

过去两年间,VLA(视觉-语言-动作模型)被视为具身基础模型的重要演进方向,然而在实际应用中,一个无法回避的现实是:几乎所有 VLA 都需要在针对特定任务完成后训练后,才能有理想的操作表现。

预训练本身到底有没有让机器人学会直接做事?此前这个问题并没有答案。

Wall-OSS-0.5 想要回答的就是这个问题:预训练完,不再做任务微调,直接部署到真实机器人上,能不能干活?

自变量团队在十余个真实机器人任务上做了零样本测试。结果显示,预训练后的模型在分拣、堆叠等结构化操作上达到了可用水平,甚至在从未见过的绳索整理等柔性操作任务上也表现稳定。

Wall-OSS-0.5 的关键改进

要让预训练模型产生零样本泛化能力,关键是主干网络本身得真正掌握动作能力,而不是把这件事甩给一个外挂的小模块。但要做到这一点,仅仅"把动作监督接进主干"是不够的,动作以什么形式进入、多路监督能否保持优化方向一致、训练在大规模下能否真的跑得动,每一步都需要专门的设计。下面几项改进,就是沿着这条链路给出的回答。

1. Gradient-bridge:把 scaling law 推进物理世界

当前主流 VLA 训练的范式,本质是一种"分层隔离":先用海量视觉-语言数据预训练 VLM 主干,再在其顶部挂一个动作专家单独训练。这种做法虽然安全,但代价是主干模型本身永远学不会"动作",它只是在为动作专家提供视觉语言特征,并不真正理解物理世界的可操作结构。模型规模再大、视觉语言知识再丰富,也很难翻译成更强的动作能力。

Wall-OSS-0.5 的解法是让动作的监督信号直接反传进主干模型。团队把动作离散化为 token,与文本 token 拼接进同一条自回归序列,用交叉熵损失训练。这一支路充当一座gradient-bridge,把"如何动"以与语言完全相同的形式注入主干,让主干在预训练阶段就把"看-说-动"统一在同一套表征里。同时保留 flow matching 损失用于生成连续动作,多模态交叉熵损失作为锚点防止视觉语言能力退化,三路监督共同训练、互不干扰。消融实验显示:去掉"gradient-bridge"这一支,真机任务成功率会出现两位数百分点的下降,且模型规模越大、退化越明显,这正反向证明了让动作监督进入主干、而非隔离在动作专家内部的重要性。

2. 视觉—动作统一表示:让动作 token 拥有语义

但gradient-bridge要真正生效,还有一个隐含前提:主干通过交叉熵学到的东西必须是"动作的含义",而不只是"动作的数值"。如果离散 token 只是对动作做机械的数值压缩,那"gradient-bridge"传过去的就是一串没有物理意义的编号,主干学到的也只是统计共现,与真正的可操作理解相去甚远。

业界广泛使用的 FAST 分词器是基于 DCT 的规则化方案——它能还原动作,但并不知道这个动作"对应画面里发生了什么"。Wall-OSS-0.5 训练了一个视觉对齐的残差向量量化分词器:在量化动作的同时,强制 token 表征与对应时刻的视觉特征对齐,并要求其能预测下一帧的视觉变化。这样,每一个动作 token 同时承载"动作的压缩"和"画面如何变化"两层信息——它和视觉、语言进入了同一个语义空间。主干在预测下一个动作 token 时,做的是和"预测下一个词"完全同构的事。仅替换分词器、其他条件不变的对照实验中,真机任务平均成功率大幅跃升,VQA 能力同步提升。

3. 动作空间监督:让优化聚焦于任务最易失败处

Gradient-bridge与视觉对齐分词器解决了主干"学到动作语义"的问题,但模型最终在机器人上执行的是 flow matching 分支输出的连续动作。如果这条分支的训练目标本身存在偏差,再好的语义表征也无法转化成可执行的轨迹。

Flow matching 的标准做法是预测"速度"(噪声到目标的瞬时方向)、损失也定义在速度上。问题在于:机器人轨迹的有效信息分布极不均匀——整体形状(低频结构)决定任务能否完成,高频细节几乎不影响成败。在速度空间训练,模型会把大量学习预算花在拟合无关的高频抖动上,与"梯度桥+视觉对齐"努力建立的语义结构形成内耗。团队把损失从预测速度改写为预测重建出来的动作,效果上等价于对噪声更大的去噪步骤自动加权,让模型把学习重心压回到最关键的轨迹塑形阶段。

4. DMuon:首个面向具身大规模预训练的分布式 Muon 优化器

前三项改进同时在主干上施加了多源监督,带来了一个工程层面的副作用:模型内部参数尺度与梯度强度都高度异构——VLM/video backbone 来自大规模预训练、action head 从头初始化,三路损失反传的梯度量级也系统性失配。这正是 Muon 优化器的用武之地:通过 Newton-Schulz 迭代对更新矩阵做正交化,能有效缓解这类异构带来的优化困难。但 vanilla Muon 单步开销可达 forward+backward 总和的两倍,足以抵消其收敛优势。

团队实现的 DMuon 有两点关键设计:基于 LPT 的 dedicated-ownership 调度(把 all-reduce 替换为 reduce/broadcast,并与下一次 forward 重叠)和利用正交矩阵对称性回收 NS 迭代冗余计算的 CuteDSL kernel,这样就将引入 Muon 的整体开销从 2x 降至 0.02x,缩减约 100 倍,以即插即用方式嵌入现有流水线。

与传统的开源VLA相比,真的有效果吗?

在十余个真实机器人任务上的公平对比中(相同数据、相同微调预算),Wall-OSS-0.5 在操作类任务和推理类任务上均领先 π0.5 等同类开源模型,其中操作类任务的领先幅度尤其明显。更值得一提的是,多模态理解能力没有在动作训练中崩坏——在"具身定位"这种与机器人执行强相关的能力上,模型相比基础 VLM 反而出现了显著提升,印证了协同训练方案的有效性。显示出领先的零样本泛化能力

Wall-OSS-0.5 全部开源

具身智能的突破,离不开广大开发者的共同探讨和交流。我们已将Wall-OSS-0.5 的模型权重、训练代码、训练配⽅、消融实验、乃⾄底层优化器完全开放,希望能为研究者和开发者们提供一个具备实际参考价值的全新起点。

GitHub: https://github.com/X-Square-Robot/wall-x

Huggingface: https://huggingface.co/x-square-robot/wall-oss-0.5

项目链接: https://x2robot.com/oss#resources

论文链接: https://x2robot.com/api/files/file/wall_oss_05.pdf


猜你喜欢

具身智能从实验室走进工厂:2026真正跑通数据×商业双闭环的企业有哪些

智能+具身智能赛道

具身智能赛道在2025-2026年经历了从"技术演示"到"商业验证"的关键跨越。

12小时前

家务机器人“小当家”正式亮相,丽阳神州引领具身智能新赛道

智能+丽阳神州

5月27日,丽阳神州在济南正式发布家务服务机器人“丽阳小当家”,并向投资机构、产业伙伴全面开放其位于...

13小时前

让计算不再等待数据,新华三发布AI原生存储新品X20000系列

智能+新华三集团

近日,紫光股份旗下新华三集团在NAVIGATE 2026领航者峰会上正式发布AI原生存储X20000...

1天前

宇树科技IPO6月1日上会:2025年扣非净利迅速增长,人形机器人出货量全球第一

智能+宇树科技

据上交所官网5月25日消息,上海证券交易所上市审核委员会定于2026年6月1日召开2026年第31次...

3天前

9998元现货发售:Gaia Hand 20以模块化20自由度定义具身智能新底座

大消费星际光年

做具身智能,苦“高自由度灵巧手”久矣?

2026-04-13

浙江携手京东启动“超级供应链伙伴计划”:2026年将服务超10000家专精特新企业

京东大消费

4月10日,浙江省经信厅与京东集团联合启动“超级供应链伙伴计划”,政企协同打造国内首个省级专精特新数...

2026-04-13

京东“潮品家”原创家具自营旗舰店4月17日晚8开业,期间可领大额满减券

京东大消费

4月10日,2026京东家具“绿翡翠”之夜高端沙龙在广西阳朔圆满举行。

2026-04-13

深耕口腔美学,启幕京城微笑新篇 ECOMIYA一口美牙(北京旗舰店)

大消费ECOMIYA一口美牙

2026年4月10日,国内口腔美学领域标杆品牌——ECOMIYA一口美牙北京旗舰店在首都北京盛大开业...

2026-04-13

2026年中国主流投资软件行业观察:五大APP功能横向对比与权威评测

金融科技投资软件

2026年,中国个人投资者数量已突破2.2亿。与此同时,A股上市公司超5400家,公募基金产品超1....

2026-04-13

2026年智能投资软件分析报告:聚焦AI驱动,重塑投研全链路价值

金融科技投资软件

2026年,中国智能投资软件行业正经历一场深刻的范式重构。以大模型为代表的人工智能技术,已从简单的“...

2026-04-13

明明白白选课程:从99到19800元,榜样教育课程价格全解析

大消费榜样教育

面对深圳市榜样教育科技有限公司从百元到万元不等的课程定价,不少家长心里会犯嘀咕:为什么差距这么大?是...

2026-04-12

以心医疗CMEF亮剑:无创肺水监测引领全球心血管管理新范式

创新创业以心医疗

2026年4月9—12日,第93届中国国际医疗器械博览会(CMEF)在上海盛大启幕。

2026-04-12

二级炒业绩,一级在“换季”:54家IPO因年报过期暂停

上市公司海光信息

4月7日晚间,A股2026年一季报披露大幕正式拉开,海光信息以6.87亿元的净利润和35.82%的增...

2026-04-12

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

ATFX:阿联酋突然退群背后:全球油价正被三重力量主导

ATFX:阿联酋突然宣布退出欧佩克,令其盟友措手不及。在加入欧佩克六十年后,阿联酋决定于下个月正式退...

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

优选空天科工在阿联酋设立总部,正式进入中东市场

中东已成为中国一些知名公司的投资热土。

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

2026年4月22日至24日,第20届中国投资年会·年度峰会于北京海淀盛大召开

第四届中国研究生金融科技创新大赛在南京收官

第四届中国研究生金融科技创新大赛在南京收官

12月28日,第四届中国研究生金融科技创新大赛在南京落幕。

京杭对话:杭州,凭什么吸引北京创新企业?

京杭对话:杭州,凭什么吸引北京创新企业?

从一张精准的产业蓝图,到一个敏捷的创新操作系统,再到一片丰沃的赋能土壤,杭州的生产性服务业正在这条路...

第19届中国投资年会·有限合伙人峰会在沪成功举办

第19届中国投资年会·有限合伙人峰会在沪成功举办

11月27日,由投中信息和投中网主办的第19届中国投资年会·有限合伙人峰会在上海举办。

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

在区域经济协同发展的大背景下,京杭两地的经济协作正以一种全新的姿态加速推进。