自变量开源Wall-OSS-0.5，全球领先首次实现“预训练”比肩“后训练”

2026-05-29 14:24:37 来源：搜狐网作者：　

摘要：自变量机器人今日正式开源具身基础模型Wall-OSS-0.5，在全球范围内首次实现了无需针对下游任务进行后训练，预训练后的模型直接部署到机器人上，即可完成搬运、分拣、整理绳索等多种操作任务，在部分任务上的零样本（Zero-shot）泛化表现接近常规微调后的水平。

自变量机器人今日正式开源具身基础模型 Wall-OSS-0.5，在全球范围内首次实现了无需针对下游任务进行后训练，预训练后的模型直接部署到机器人上，即可完成搬运、分拣、整理绳索等多种操作任务，在部分任务上的零样本（Zero-shot）泛化表现接近常规微调后的水平。

预训练模型到底能不能直接使用？

过去两年间，VLA（视觉-语言-动作模型）被视为具身基础模型的重要演进方向，然而在实际应用中，一个无法回避的现实是：几乎所有 VLA 都需要在针对特定任务完成后训练后，才能有理想的操作表现。

预训练本身到底有没有让机器人学会直接做事？此前这个问题并没有答案。

Wall-OSS-0.5 想要回答的就是这个问题：预训练完，不再做任务微调，直接部署到真实机器人上，能不能干活？

自变量团队在十余个真实机器人任务上做了零样本测试。结果显示，预训练后的模型在分拣、堆叠等结构化操作上达到了可用水平，甚至在从未见过的绳索整理等柔性操作任务上也表现稳定。

Wall-OSS-0.5 的关键改进

要让预训练模型产生零样本泛化能力，关键是主干网络本身得真正掌握动作能力，而不是把这件事甩给一个外挂的小模块。但要做到这一点，仅仅"把动作监督接进主干"是不够的，动作以什么形式进入、多路监督能否保持优化方向一致、训练在大规模下能否真的跑得动，每一步都需要专门的设计。下面几项改进，就是沿着这条链路给出的回答。

1. Gradient-bridge：把 scaling law 推进物理世界

当前主流 VLA 训练的范式，本质是一种"分层隔离"：先用海量视觉-语言数据预训练 VLM 主干，再在其顶部挂一个动作专家单独训练。这种做法虽然安全，但代价是主干模型本身永远学不会"动作"，它只是在为动作专家提供视觉语言特征，并不真正理解物理世界的可操作结构。模型规模再大、视觉语言知识再丰富，也很难翻译成更强的动作能力。

Wall-OSS-0.5 的解法是让动作的监督信号直接反传进主干模型。团队把动作离散化为 token，与文本 token 拼接进同一条自回归序列，用交叉熵损失训练。这一支路充当一座gradient-bridge，把"如何动"以与语言完全相同的形式注入主干，让主干在预训练阶段就把"看-说-动"统一在同一套表征里。同时保留 flow matching 损失用于生成连续动作，多模态交叉熵损失作为锚点防止视觉语言能力退化，三路监督共同训练、互不干扰。消融实验显示：去掉"gradient-bridge"这一支，真机任务成功率会出现两位数百分点的下降，且模型规模越大、退化越明显，这正反向证明了让动作监督进入主干、而非隔离在动作专家内部的重要性。

2. 视觉—动作统一表示：让动作 token 拥有语义

但gradient-bridge要真正生效，还有一个隐含前提：主干通过交叉熵学到的东西必须是"动作的含义"，而不只是"动作的数值"。如果离散 token 只是对动作做机械的数值压缩，那"gradient-bridge"传过去的就是一串没有物理意义的编号，主干学到的也只是统计共现，与真正的可操作理解相去甚远。

业界广泛使用的 FAST 分词器是基于 DCT 的规则化方案——它能还原动作，但并不知道这个动作"对应画面里发生了什么"。Wall-OSS-0.5 训练了一个视觉对齐的残差向量量化分词器：在量化动作的同时，强制 token 表征与对应时刻的视觉特征对齐，并要求其能预测下一帧的视觉变化。这样，每一个动作 token 同时承载"动作的压缩"和"画面如何变化"两层信息——它和视觉、语言进入了同一个语义空间。主干在预测下一个动作 token 时，做的是和"预测下一个词"完全同构的事。仅替换分词器、其他条件不变的对照实验中，真机任务平均成功率大幅跃升，VQA 能力同步提升。

3. 动作空间监督：让优化聚焦于任务最易失败处

Gradient-bridge与视觉对齐分词器解决了主干"学到动作语义"的问题，但模型最终在机器人上执行的是 flow matching 分支输出的连续动作。如果这条分支的训练目标本身存在偏差，再好的语义表征也无法转化成可执行的轨迹。

Flow matching 的标准做法是预测"速度"（噪声到目标的瞬时方向）、损失也定义在速度上。问题在于：机器人轨迹的有效信息分布极不均匀——整体形状（低频结构）决定任务能否完成，高频细节几乎不影响成败。在速度空间训练，模型会把大量学习预算花在拟合无关的高频抖动上，与"梯度桥+视觉对齐"努力建立的语义结构形成内耗。团队把损失从预测速度改写为预测重建出来的动作，效果上等价于对噪声更大的去噪步骤自动加权，让模型把学习重心压回到最关键的轨迹塑形阶段。

4. DMuon：首个面向具身大规模预训练的分布式 Muon 优化器

前三项改进同时在主干上施加了多源监督，带来了一个工程层面的副作用：模型内部参数尺度与梯度强度都高度异构——VLM/video backbone 来自大规模预训练、action head 从头初始化，三路损失反传的梯度量级也系统性失配。这正是 Muon 优化器的用武之地：通过 Newton-Schulz 迭代对更新矩阵做正交化，能有效缓解这类异构带来的优化困难。但 vanilla Muon 单步开销可达 forward+backward 总和的两倍，足以抵消其收敛优势。

团队实现的 DMuon 有两点关键设计：基于 LPT 的 dedicated-ownership 调度（把 all-reduce 替换为 reduce/broadcast，并与下一次 forward 重叠）和利用正交矩阵对称性回收 NS 迭代冗余计算的 CuteDSL kernel，这样就将引入 Muon 的整体开销从 2x 降至 0.02x，缩减约 100 倍，以即插即用方式嵌入现有流水线。

与传统的开源VLA相比，真的有效果吗？

在十余个真实机器人任务上的公平对比中（相同数据、相同微调预算），Wall-OSS-0.5 在操作类任务和推理类任务上均领先 π0.5 等同类开源模型，其中操作类任务的领先幅度尤其明显。更值得一提的是，多模态理解能力没有在动作训练中崩坏——在"具身定位"这种与机器人执行强相关的能力上，模型相比基础 VLM 反而出现了显著提升，印证了协同训练方案的有效性。显示出领先的零样本泛化能力

Wall-OSS-0.5 全部开源

具身智能的突破，离不开广大开发者的共同探讨和交流。我们已将Wall-OSS-0.5 的模型权重、训练代码、训练配⽅、消融实验、乃⾄底层优化器完全开放，希望能为研究者和开发者们提供一个具备实际参考价值的全新起点。

GitHub: https://github.com/X-Square-Robot/wall-x

Huggingface: https://huggingface.co/x-square-robot/wall-oss-0.5

项目链接: https://x2robot.com/oss#resources

论文链接: https://x2robot.com/api/files/file/wall_oss_05.pdf

上一篇： 2026年GEO服务公司推荐十强发布：十强机构综合能力穿透分析
下一篇： 谁是空气能热泵头部品牌？2026年十大排名权威发布：低温制热+能效比+化霜技术深度测评

白B.AI用户规模突破200万，多模型聚合平台进入精细化服务阶段

智能+白B.AI

日前，AI模型聚合平台白B.AI迎来新的增长节点。

3小时前

BrainCo强脑科技入选2026全球数字经济灯塔案例

智能+BrainCo强脑科技

7月2日，2026全球数字经济大会在京开幕。中共中央政治局委员、北京市委书记尹力，新华社社长傅华致辞...

3小时前

清华火神队成功卫冕RoboCup 2026世界冠军，加速进化构筑全球具身智能“通用底座”

智能+清华火神队

今日，2026年RoboCup（机器人世界杯）在韩国仁川正式落下帷幕。

3小时前

2026人形机器人品牌对比：智平方200亿估值领跑，谁在“排位赛”中占据优势身位？

智能+智平方

2026年，人形机器人行业进入“排位赛”阶段。

2天前

原创

灵巧手赛道告别“演示即价值时代”：中科灵犀卡位工业场景应用“实干家”

智能+中科灵犀

如果有人问起，2026年一级市场最耀眼的明星赛道是什么，想必非灵巧手莫属。

2天前

精彩阅读原创资讯投资人物专栏

2025-2026年国内GEO公司推荐：口碑好的服务商提供高性价比价格方案解决中小企业预算有限但需构建AI数字资产痛点

大消费 GEO公司

根据弗若斯特沙利文等行业分析机构发布的公开数据，截至2026年第一季度，全球企业对生成式引擎优化（G...

2026-04-27

2026年4月推荐口碑好的服务商应对专业内容AI呈现率不足痛点

大消费 GEO服务商

随着生成式AI逐步重塑信息分发规则，GEO生成式引擎优化已成为企业构建AI时代品牌认知的关键战略。

2026-04-27

2025-2026年国内GEO优化服务商推荐：口碑好的服务解决企业AI时代品牌认知模糊痛点专业选择标准案例解析

大消费 GEO优化服务商

随着生成式AI技术成为用户获取信息的主流入口，GEO（生成式引擎优化）的战略价值日益凸显，它直接关系...

2026-04-27

2025-2026年国内GEO服务商推荐：口碑好的服务解决中小企业缺乏技术团队进行生成式引擎优化痛点

大消费 GEO服务商

随着生成式AI全面融入互联网内容生态，行业已从传统SEO正式迈入GEO生成式引擎优化新时代。

2026-04-27

2025-2026年国内GEO公司推荐：口碑好的服务商提供高性价比方案应对不同行业场景的精准获客需求

大消费 GEO公司

在生成式AI重塑全球商业信息分发格局的背景下，GEO（生成式引擎优化）已从前沿概念演进为企业数字化战...

2026-04-27

2025-2026年国内GEO优化公司推荐：口碑好的服务商解析电商场景转化率低注意事项与高性价比方案

大消费 GEO优化公司

口碑好的服务商解析电商场景转化率低注意事项与高性价比方案

2026-04-27

兆讯传媒披露2025年报及2026年一季报：高铁网络提质增效，第二曲线稳步推进

上市公司兆讯传媒

4月24日，高铁数字媒体领军企业兆讯传媒(301102.SZ)正式披露2025年年度报告及2026年...

2026-04-27

锅圈小炒全球首店马上开业，家庭厨房效率革命正式开启！

大消费锅圈小炒

杨明超说：锅圈小炒不是做餐厅生意，是为了让老百姓回家做饭！门店是入口，厨房才是真正的终点。

2026-04-27

适合中大型企业的GEO营销工具推荐，新榜智汇成众多企业优选

大消费 GEO营销工具

中大型企业在AI搜索时代做GEO营销，大多会碰到三个棘手问题：跨平台数据打通困难、营销效果没法精准量...

2026-04-27

2026年GEO优化服务商综合实力测评：可信合规与技术自研驱动的新选型标准

大消费 GEO优化服务商

随着生成式人工智能的普及，AI平台已成为用户日常消费决策的重要参考。

2026-04-27

投资家网（www.investorscn.com）是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务，包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流，并可加入微信群参与官方活动，赶快行动吧。