在2025年深圳国际人工智能展览会熙攘的展厅中,一台名为“小量”的机器人正从容地执行它的任务:机械臂精准抓取杯子,移至制冰口,接取晶莹的冰块,随后流畅地添加各色果味小料。两分钟内,一杯透亮的冰沙制作完成,引来围观人群的阵阵惊叹。然而,这场精巧展示背后的故事,远比冰沙本身更令人震撼。

自变量机器人(X Square Robot)刚成立于 2023年12月,却已完成8轮融资,累计金额超过20亿元人民币。阿里、美团等互联网巨头相继重注押码,使其瞬间成为国内具身智能赛道最炙手可热的明星。
01 信仰:从理论到实践的“关键变量”
王潜身上烙印着清华人的典型特质:理性、执着、目光长远。本硕毕业于清华大学,他是全球最早在神经网络中引入注意力机制的学者之一,其工作与Google在该领域的开创性论文同期发表。这些研究,后来成为Transformer架构的基石,奠定了当今大模型的技术根基。
远赴美国南加州大学攻读博士时,他选择了挚爱的机器人方向,在顶级实验室深耕机器人学习与人机交互。这段经历让他深刻认识到传统机器人技术的局限。博士毕业后,王潜曾在美国创办量化基金,然而,“晚上经常睡不着,想做机器人”的念头始终缠绕着他。2023年,随着大语言模型等领域迎来突破,他敏锐察觉机器人行业的新机,毅然解散基金,回国创业。
回国并非一时冲动。王潜看中的是中国无与伦比的硬件制造与供应链优势。“美国的硬件人才多被‘金手铐’锁在大公司,”他指出,“而中国的供应链优势可能领先美国一个数量级。”他特别提到,数据收集成本在中国大约仅为美国的十分之一。
2023年12月18日,王潜初次踏足深圳,自变量机器人就此诞生。深圳的产业生态让他惊叹:“当时我们实验室用的机器人硬件和零配件,很多都产自深圳。”“在这里,配齐所有零件有时只需半天或两天。”
02 坚守:“大小脑统一”的孤傲之路
自变量创立之初,就选择了一条与众不同的技术路线——“大小脑统一的端到端大模型”。这在当时显得颇为孤傲,甚至遭受质疑。数年前,当王潜阐述端到端思路时,一位知名机器人教授曾当面否定:“这很有趣,但可能永远只是个玩具,无法落地。”
何为端到端模型?与传统将任务分解为感知、规划、控制等多个独立模块的分层架构不同,端到端模型用一个统一架构处理从原始感知到运动输出的全流程。王潜解释:“分层模型每多一步拆解,就会引入额外误差和不可控噪声。端到端统一模型则保持‘感知-决策-执行’的连续性,从根本上追求可靠执行。”
公司的技术理念可概括为“纵向统一”与“横向统一”。纵向指从视频、传感器输入到机器人动作输出,均由同一模型处理;横向则指不同任务共享同一模型,训练与推理在同一架构下完成。这一路线的优势在其WALL-A模型上得以验证:仅凭二指夹爪,机器人便能完成拉拉链、叠衣服、浇花等复杂操作,数分钟级任务成功率超过95%。
03 进化:WALL-A模型释放泛化之力
自变量的产品演进清晰印证了其技术路线的生命力。成立仅两个月,公司便训练出第一版具身智能操作模型,实现了切菜、倒水等复杂任务。2024年底,他们发布了当时全球参数规模最大的具身智能通用操作大模型——Great Wall系列的WALL-A模型。
WALL-A展现了三大突破:
多模态信息融合:能整合各类感知数据、自然语言指令与运动控制信号,实现端到端映射。
零样本泛化能力:在部分从未见过的新场景中,无需重新训练即可适应,这是迈向通用机器人的关键标志。
处理复杂长程任务:如完成拉上拉链、扣好扣子、再将衣服挂起等一系列连贯操作。
光速光合合伙人朱嘉在一次突击测试中,从附近超市买来十几种形状各异的玻璃瓶、马克杯和烧水壶。结果显示:“有些形状它从未见过,抓取动作虽然踉跄,但最终都成功了。”
04 选择:真机数据,筑牢模型迭代的根基
在数据策略上,自变量坚持“高质量真机数据”,与依赖仿真或网络视频数据的同行形成鲜明对比。王潜明确表示:“所有涉及复杂物理交互(如丰富的手部操作)不应完全用仿真数据。我们探索了十几年,基本结论是:手部复杂操作无法通过仿真数据进化。”
数据主要来自三个渠道:集中式采集场地、分布式现实环境收集,以及机器人部署后的回流数据。王潜将泛化能力分为四个层次:基础条件(光照、位置变化)、跨环境、跨对象(处理未见过的同类物体)、跨任务(解决全新任务)。他透露,目前自变量的模型在前三个层次已展现出优秀的通用性与泛化能力。
05 野心:资本重注下的赛道卡位
自变量在资本市场的表现堪称耀眼。成立不到两年,完成8轮融资,累计金额超20亿元。2025年9月,公司完成近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉中国、渶策资本跟投,老股东美团、联想之星、君联资本持续加码。这是阿里云首次投资具身智能公司,也是美团第二次参投。
三大电商巨头的投资逻辑各异:
阿里:投资数量最多(已投10家),逻辑超越具体业务场景,更希望通过云计算与大模型拓展AI应用边界,构建技术生态。
美团:布局更早、更广,从物流、协作机器人到AI大模型与芯片,几乎覆盖机器人上下游。
京东:2025年才启动投资,但节奏快(4个月投6家),强调场景导向,聚焦零售、物流、家庭等垂直应用。
有投资人指出,国内人形机器人创业已形成鲜明梯队。宇树科技、智元机器人、银河通用组成第一梯队(融资均超15亿元)。自变量以超10亿元融资额,已跻身一线行列。
06 清晰的商业化路径
面对商业化这一行业核心质疑,王潜思路清晰。他认为:“家庭是机器人最大市场,预计3-4年会出现早期产品。”有经济学测算指出,未被计入GDP的家务劳动价值约占总量四分之一,这意味着家庭机器人市场潜力巨大,甚至可能超越工业及其他所有场景。
自变量的商业化将先从To B场景切入,逐步延伸至To C。王潜表示,公司今年将在多个功能场景推动落地,让机器人在开放、随机环境中自主完成复杂操作。对于当前部分企业将人形机器人送入工厂从事简单重复劳动,他直言“那更像是一种PR行为”。真正有价值的商业化,必须依赖具身智能模型泛化能力的提升。
价格方面,王潜预测,消费者可接受且产业链能支撑的价格区间可能在1-2万美元(约人民币10万元上下),但这仍需产业链进一步优化成本。他预计,类GPT-3水平的具身智能大模型可能在一年左右出现,而人形机器人的“ChatGPT时刻”则需要3-5年。
07 未来挑战与生态构建
尽管进展显著,王潜清醒认识到,通往通用机器人的道路仍布满挑战。他认为,当前限制产业化的主要是机器人的“大脑”,而非硬件。“展会上很多机器人运动能力不错,但提供的‘实用价值’有限,更多是‘形式价值’。”
为此,自变量正积极构建生态。2025年9月,公司在合肥发布《具身智能生态建设计划》,旨在通过自研基础模型,打造全球具身智能创新与产业枢纽。此前,公司开源了自研端到端具身智能基础模型WALL-OSS,这是目前唯一面向物理世界交互、具备真实落地能力的开源模型。
对于长远商业模式,王潜认为机器人将走向软硬一体。“机器人相对特殊,难以形成像Windows或Android那样的纯软件模式。它需要软硬件高度耦合,一体化的模式最为合理。”
2025年世界机器人大会上,搭载自变量WALL-A模型的“量子1号”机器人娴熟地制作香囊、整理客厅,引来无数驻足。那个让通用机器人步入千家万户的梦想,正以“深圳速度”,一步步照进现实。
