更多精彩 >

自变量开源数据采集方案XRZero-G0,论文冲上技术社区趋势热榜,首次构建规模化具身数据采集方法论

2026-06-10 21:54:11    来源:搜狐网  作者: 

摘要:数据采集与治理已经成为制约具身智能产业发展的瓶颈。

数据采集与治理已经成为制约具身智能产业发展的瓶颈。相比大语言模型训练能使用万亿级别数据,具身智能所需的数据需要从真实物理环境采集,面临采集难、采集贵、数据可用性低和难以跨本体迁移等问题。建立高效可复用的数据采集机制、开放共建高质量的数据集,已经成为产业的当务之急。

近日,自变量机器人开源 XRZero-G0 ,论文发布当周即冲上alphaXiv趋势热榜前十,引发行业广泛关注。这是一套软硬一体的全身无本体数据采集与训练系统,它通过在硬件层添加头部视角,在软件层多视角交叉约束、添加限位和真机成功率检测,搭建起一套科学高效的数据采集和治理体系。

不仅如此,自变量还构建并开放了2000多小时、覆盖3000个任务的多模态全身无本体数据集 G0-Dataset ,并通过实验证实:以10:1比例混合无本体数据:真机数据,即可达到同等规模纯真机数据的效果。用这些数据训练的模型,摆脱了对固定本体姿态、特定本体型号的过拟合,具备出色的零样本迁移能力。

这也是国内首个大规模跑通“全身无本体采集→自动质检→混合训练→真机评测”全闭环的工作,搭建起一条规模化采集具身数据、形成迭代飞轮的可行之路。

文章配图-1

XRZero-G0 整合无本体数据采集、闭环质检和数据配比方案

软硬一体保证数据高可用,有效率提升至85%以上

XRZero-G0 首先在硬件上添加了头部摄像头,将数据与腕部的两个视角严格对齐。同样的采集数据量,训练模型时的效率更高、混合收益更稳定。在软件上,XRZero-G0则将对数据质量的管控,引入了数据采集阶段,建立起三层递进的自动质检和筛选机制,而非等到训练时再优化:

1、在观测层,利用多个视角、多个时间的数据反复交叉验证,防止视觉与运动的误差不断放大。

2、在动力学层,将外部动作数据翻译成目标机器人自己能做的动作,避免机器人做动作时碰撞自己、超出关节限位,或是超出电机力矩。让数据筛选从“定性”变成100%可验证的步骤。

3、在策略层,用真机开放回环执行任务的成功率,来作为数据是否可用的最终判别依据。

这套方法论将数据治理从“采集端的工艺优化”延伸到“训练端的分布对齐”,将入库数据的有效率提升到85%以上,使得无本体数据也能达到与真机数据相当的可信和可执行水平。未来,它将成为以全身无本体数据为基础的预训练新范式。

发明“真机:无本体”数据“黄金配比”,数据成本降低至1/20

在具身智能领域,普遍会将真机数据与无本体数据混合,喂给模型训练。这能同时解决“真机数据少、采集昂贵”和“无本体数据泛化性差”的问题。但两者该以什么比例混合,过去一直没有科学的定论。自变量通过在后训练阶段进行对照实验,得出了一个可复现的科学配比:

10份无本体数据 + 1份真机数据的效果 = 同等规模的纯真机数据

简单来说,无本体数据能让模型见多识广、学会常识和动作规划;真机数据则能帮模型“查漏补缺”电机延迟、本体差异、摩擦力这些物理信息。两者结合,能将获取训练所需数据的成本降低到原有的1/20。

文章配图-1

数据配比方案效果实测

不仅如此,自变量还将训练出的模型效果做了真机试验。自变量发现,相比于真机纯遥操数据,这种“混合配方”在两方面取得了更好的效果:首先是摆脱了对固定本体姿态的过拟合,能适应各种工作台角度、站位和视角,不依赖于特定采集环境。其次是具备了跨本体的零样本迁移能力,可以在完全没有参与采集的机器人本体上零样本部署,无需针对性微调。

这些真机实验证明:自变量构建的这一整套数据采集和治理方法,以及将真机和无本体数据混合用于训练的方式,能够支撑具身模型训练走向规模化,并非“权宜之计”,而是科学的系统化的路径。

开放首批无本体数据集,构建具身行业数据基础设施

真实物理环境的数据已经成为具身智能模型发展的“珍贵养料”。很多具身智能企业和三方公司也纷纷开始自建数据采集流程,摸索可行的路径。自变量作为在具身数据采集方面的先行者,决定打破数据孤岛、促进整个行业的数据基建:将 XRZero-G0 的核心成果全面开源。

目前,自变量采集构建的首批无本体数据集已经在 Huggingface 平台上线,方便全球开发者开箱即用。相关的技术报告也发布在 arXiv 等平台,涵盖硬件搭建、自动化质检流水线和混合数据配比后训练策略等方面,让具身智能产业能够复现使用。相关论文和数据集的发表,也在arXiv相关论坛alphaXiv和国内社区引发广泛的讨论和关注。

未来,自变量期待与全球科研力量并肩同行,彻底告别“盲采盲训”的摸索阶段,共同见证通用机器人融入物理世界的黎明到来。


猜你喜欢

硅谷解禁Claude Mythos:AI“攻防战略重器”公开化,国版Mythos 谋乐Elliot已构筑对等防线

智能+Elliot

2026年5月底,全球大模型与安全巨头Anthropic宣布了一项震动行业的决定:此前因展现出极高网...

22小时前

杭州启灵云机器人有限公司完成数千万元A轮融资 全栈自研破局康养AI理疗机器人行业痛点

智能+启灵云

近日,杭州启灵云机器人有限公司(以下简称启灵云)宣布完成数千万元A轮融资

23小时前

顶尖大模型厂商与核心产业资本集体押注:原力灵机完成超级合并

智能+原力灵机

6月5日,具身智能公司原力灵机宣布,近期正式通过股权并购方式完成与物流机器人公司Atomix的合并,...

2天前

持续深化ESG实践,稻草熊娱乐获评ESG上市公司典范奖及年度先锋人物奖

文化传媒稻草熊娱乐

1月23日,第十五届公益节暨2025ESG影响力年会在北京举办,作为中国公益与ESG领域的年度标杆盛...

2026-01-26

2026天猫超级新品盛典现场颁发年度商业人物奖,致敬行业领军者

天猫大消费

1月16日,NEWty2026天猫超级新品盛典在上海举办。

2026-01-26

康缘药业1类新药来袭,180亿市场风云再起

上市公司康缘药业

近日,CDE官网显示,康缘药业的中药1.1类新药运脾化痰通窍颗粒获得临床试验默示许可,拟用于小儿腺样...

2026-01-26

原创

铂爵旅拍及董事长等被执行4149万

天眼查铂爵旅拍

【#铂爵旅拍及董事长等被执行4149万#】

2026-01-26

原创

追觅科技15亿在厦门成立3家新合伙企业

天眼查追觅科技

【#追觅科技15亿在厦门成立3家新合伙企业#】

2026-01-26

原创

欣旺达成立能源服务公司

天眼查欣旺达

【#欣旺达成立能源服务公司# 注册资本5000万】

2026-01-26

深耕 “环保材料 + 能源服务”,安徽时代中能新材料科技有限公司获千万融资领跑细分赛道

创新创业时代中能

近日,专注于绿色节能领域的科技企业安徽时代中能新材料科技有限公司(以下简称 “时代中能”)宣布完成 ...

2026-01-26

权威研究:追踪1.8万心脏病烟民发现,改用电子烟有显著健康收益

大消费电子烟

使用传统卷烟会带来心血管粥样硬化、心脏病等不良影响,电子烟呢?

2026-01-26

2026十大专业智能伦敦金交易app最新榜单!

金融科技伦敦金交易平台

在贵金属投资市场持续升温的2026年,伦敦金(现货黄金)凭借其避险属性与流动性优势,成为全球投资者资...

2026-01-26

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

ATFX:阿联酋突然退群背后:全球油价正被三重力量主导

ATFX:阿联酋突然宣布退出欧佩克,令其盟友措手不及。在加入欧佩克六十年后,阿联酋决定于下个月正式退...

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

精微视达完成新一轮超亿元融资,国产高端内镜领跑精准诊疗全球前沿

优选空天科工在阿联酋设立总部,正式进入中东市场

中东已成为中国一些知名公司的投资热土。

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

第20届中国投资年会圆满闭幕!K型曲线下,寻找穿越分化的确定性

2026年4月22日至24日,第20届中国投资年会·年度峰会于北京海淀盛大召开

第四届中国研究生金融科技创新大赛在南京收官

第四届中国研究生金融科技创新大赛在南京收官

12月28日,第四届中国研究生金融科技创新大赛在南京落幕。

京杭对话:杭州,凭什么吸引北京创新企业?

京杭对话:杭州,凭什么吸引北京创新企业?

从一张精准的产业蓝图,到一个敏捷的创新操作系统,再到一片丰沃的赋能土壤,杭州的生产性服务业正在这条路...

第19届中国投资年会·有限合伙人峰会在沪成功举办

第19届中国投资年会·有限合伙人峰会在沪成功举办

11月27日,由投中信息和投中网主办的第19届中国投资年会·有限合伙人峰会在上海举办。

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

“京杭聚势,共启新篇”:招商新路径,奏响区域协同发展强音

在区域经济协同发展的大背景下,京杭两地的经济协作正以一种全新的姿态加速推进。