自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急

互联网
2026
06/15
13:27
分享
评论

近日,2026北京智源大会召开。世界模型作为具身智能模型的最新范式,论坛吸引了广泛关注。自变量机器人联合创始人兼CTO王昊,分享了“事件驱动的世界模型”的前沿成果。

王昊表示,所有的智能都是在特定尺度下涌现出来的。需要找到不同模态各自表示的尺度,加上规模化,最终才能通向多模态基础模型。

文章配图-1

过去在大语言模型上存在着“对齐税”,与之类似,目前训练世界模型的方式也需要付出“时间税”,这是以固定长度定义世界预测长度的弊端。

自变量近期发布的“事件级”世界模型WALL-WM,则使用以事件为边界拆分数据的方法,实现语言、视觉和动作的更好的对齐。自变量发现,事件是连接语言、视觉和动作的天然尺度:事件是基于语言表达,因此边界清晰;视觉也由事件分割,同一事件内的动作更容易预测。“以事件为尺度做变长分割,能够实现对三个模态的天然统一。”王昊表示。

文章配图-1

以事件为数据边界训练的世界模型WALL-WM,也在多个测试上都取得了出色效果:

具身视频生成方面,在运动质量、语义一致性和物理合理性上,都超过WAN 2.1 / WAN 2.2;在隐式3D感知和多视角一致性上,全面优于目前开源视觉模型

;在真机测试方面,在基础任务、推理任务、灵巧任务、泛化任务等四大类操作评测benchmark上,分数大幅超过π 0.5、DreamZero。

据公开信息,自变量机器人是国内最早采用完全端到端路径,实现通用具身智能大模型的公司之一。其近期开源的VLA模型Wall-OSS-0.5,实现了在自研本体上部分任务仅需预训练、无需后训练,就能接近过去后训练微调后的零样本泛化水平。开源的数采方案XRZero-G0 则构建起一套软硬一体的全身无本体数采与训练系统,能将数据采集成本降低到过去的1/20。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3