【获美团、字节、阿里、小米合投的自变量机器人发布全球首个世界统一模型,35天后机器人将走进家庭】
4 月 21 日,刚拿下小米投资的自变量机器人,宣布推出新一代自研具身智能基础模型WALL-B,这是全球首个基于世界统一模型架构(World Unified Model,WUM)的具身智能基础模型。一个月后,搭载WALL-B模型的新一代机器人将正式走进真实家庭。
当前,舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强,但这些动作本质是预设轨迹的“命令行机器人”,每一个动作都经过预先编程或遥控操作。在家庭中,一万个动作每个可能只做一次,每次的环境条件都不一样。
“当前机器人的核心瓶颈不在本体,而在智能......机器人进入家庭也被视为这个时代最难的技术问题之一”,自变量创始人兼CEO王潜称。
自变量机器人从成立之初便聚焦于为机器人构建“大脑”,即端到端的具身智能基础模型。2024年底,自变量发布基于 VLA(视觉-语言-动作)架构的第一代具身基础模型WALL-A。
联合创始人兼CTO王昊解释道,VLA 架构本质上是三个独立模块的拼接:视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹。但VLA模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律。WALL-B 正是对这一困局的回应。
WALL-B 真正区别于行业其他方案的核心,是其从VLA到 WUM 的架构革命。
在机器人领域,VLA架构让数据在模块搬运期间造成信息损耗。而WALL-B采用的WUM的核心理念,将视觉、语言、动作、物理预测等所有能力,放在同一个网络中从零开始联合训练,消除模块间的边界和数据搬运损耗。
基于这一架构,WALL-B 实现了三项区别于行业现有模型的核心技术特征:
第一,原生多模态。WALL-B 从训练第一天起,即对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练,实现“多模态进、多模态出”。这意味着模型不需要通过“传话”的方式在不同模块间转译信息——它看到杯子的同时就已经在准备伸手,感觉到重量的同时就已经在调整力度。
这种架构还首次赋予了模型一种被称为“原生本体感”的能力:WALL-B 无需持续观察自身全身或依赖大量外部传感器,即可内在地感知自身的空间尺寸,如高度、宽度、手臂伸展范围,并判断能否通过某个空间或触及某个物体。这是一种内生的空间感知能力,而非通过外部测量或建模获得。王昊指出,这一点甚至许多动物都不具备。
第二,物理世界的“世界观”。 WALL-B 能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中,例如一个盘子一半悬空在桌沿外——模型可以推断出盘子掉落摔碎,从而采取预防动作。
这种对物理规律的理解为零样本泛化提供了基础。日常生活中,物理规律在不同环境中均保持一致,WALL-B 在任何一个它从未去过的家庭中,都能利用对基本物理常识的理解来应对新场景,不需要针对每个家庭重新训练。
第三,与世界交互并自我进化。这是 WUM 架构区别于所有现有 VLA 模型的最根本特征。WALL-B 的行为模式是,它在失败后会调整策略再次尝试,如果成功,则将这次成功的经验直接更新到模型参数中。
这种机制使模型在真实环境中完成自我迭代,无需工程师重新训练、无需人工注入新数据、无需返回实验室。王昊将其类比为人类学习使用筷子的过程——筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能。
WALL-B 克服了Transformer 架构难以进行长期内化记忆的问题,所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。
机器人进入家庭的同时,隐私问题不容回避。王潜对此给出了自变量团队明确的解决方案:视觉脱敏、透明授权、用途限定。
在商业化落地方面,自变量的时间表也已经明确:35 天后,新一代搭载 WALL-B,并根据家居环境进行硬件升级的新一代机器人将入驻首批用户的家庭。





