
在前不久发布 Xiaomi-Robotics-0 具身模型后,今天小米又带来了新的能力演示,并正式发布了 Xiaomi-Robotics-0 真机后训练全流程。
在真机后训练中,小米团队仅利用了 20 小时的任务数据,就让模型掌握了「将耳机收纳进耳机盒」的精细任务。
作为具身模型走向实际部署的最后一关,真机后训练就是在预训练大模型的基础上,用少量真实机器人操作数据进行针对性微调,让模型走向具体场景应用。
不过,后训练并非只是「再喂一点真实数据」那么简单。它牵涉到训练策略、推理架构、动作连续性等问题,在整个训练过程中的地位非常重要。
值得一提的是,从今年从 2 月开始,小米就连续发布了一系列在机器人赛道上的新进展,先是精细抓取微调模型 TacRefineNet,VLA 模型 Xiaomi-Robotics-0,而后是 3 月公布了机器人进厂作业成果和灵巧手解决方案,再到本月的具身模型真机后训练开源。
从这些能够看出,小米正在尝试打造一条完整的机器人能力链条,而今天的真机后训练开源,正是链条中承上启下的一环。

数据之外,设计才是关键
在新的能力演示中,小米给出的是一个整理耳机的任务。面对桌面上三组不同的无线耳机,机器人需要根据颜色判断每个耳机属于哪个耳机盒,并将其放入耳机盒内。

在这个任务中,机器人平均每次完成收纳需要花费大约 40 秒的时间。
对人类来说这可能就是几秒钟的随手动作,但对于机器人来说,这项任务并不容易做好。
- 精度:耳机与槽位之间的公差极小,这意味着模型必须在亚毫米级别完成精准对位。
- 材料特性:耳机与盒体表面粗糙度最低至 Ra0.03 μm,极易在触碰过程发生位移,模型必须能快速修正动作偏差,避免装配失败。
两个问题叠加在一起,构成了对模型感知精度与动作鲁棒性的双重压力。

不过值得注意的是,小米在这个任务上用于后训练的数据量只有 20 小时,在这个数据规模下让模型掌握精细操作任务,预训练基座设计在这里则起到了关键作用。
预训练阶段使用了约 2 亿个机器人轨迹时间步、以及超过 8,000 万条通用视觉语言样本,覆盖开源数据集与内部遥操作数据,让模型在进入任务训练之前就积累了动作生成知识和泛化基础。
所以这 20 小时的任务数据并不是从 0 开始构建能力,不过即便是这样,在这个数据规模下去执行精细操作任务,部署阶段的设计也至关重要。

模型也会「偷懒」?
为了让机器人的动作足够连贯,小米在部署阶段采用了异步推理方案,让机器人在执行当前动作轨迹的同时,并行推理下一步动作,不再等当前动作执行完毕再开始计算。
但异步推理也带来了一个新的问题,在技术细节里,小米就提到了一个很有意思的现象,模型会「偷懒」。

乍一听像是开玩笑,不过这正是当下 VLA 模型的一个典型结构性问题,当你引入 Action Prefix(动作前缀) 来保证动作稳定连续时,模型容易:
- 过度依赖已有轨迹;
- 忽略新的视觉输入;
- 变成「惯性执行器」。
实际上,这就是一个经典的稳定性和反应性的冲突问题。
所以,这并非简单的「让模型更听话」的问题,重点是要重新分配一件事,在连续动作生成过程中,模型到底该更相信过去,还是现在?
面对这些情况,小米引入了一整套约束机制,去强行打破路径依赖,让模型重新对实时感知保持敏感。具体来看,可以拆成三个层面:
- 在训练目标上动手:通过自适应加权机制,模型不再对所有误差一视同仁,会根据预测轨迹与真实轨迹之间的偏差动态调整权重。换句话说,就是哪里错得多,就重点学哪里。迫使模型在关键节点上无法蒙混过关,必须真正从视觉信号中做出判断。

- 在注意力结构上做限制:通过引入 Λ 型注意力掩码,模型在参考前序动作的同时,被约束必须关注当前视觉输入。从结构上避免模型只沿着历史轨迹滑行,让「看见现在」变成一个无法绕开的过程。

- 主动制造不确定性:通过对动作前缀进行随机遮蔽,模型在训练时无法始终依赖完整的历史动作信息,只能被迫更多地依赖视觉和传感器信号来完成决策。

从这些做法中能看到,这实际上就是在剥夺模型「偷懒」的条件。同时也是在处理一个更底层的系统级矛盾,如何在保证动作连续性的同时,不牺牲对环境变化的响应能力。
这也是当前 VLA 模型在走向真实场景时,绕不开的一道坎。

写在最后
进入到 2026 年后,可以明显感觉到小米在机器人方向上的「动态」开始变多了。
从年初的 Xiaomi-Robotics-0 发布、精细抓取微调模型、工厂作业成果、灵巧手方案的公开,再到今天的真机后训练开源,几乎每隔几周就有新的进展对外释放,并且开始尝试推动一整套可复用的方法论落地。
更大的背景是,这种变化并不是个例。过去一年,机器人行业的参与者结构正在发生明显迁移,尤其是以车企为代表的厂商,不管是特斯拉、理想还是小米,都在加速布局这条赛道。
身为汽车厂商,他们本身就具备研发机器人所需要的:
- 成熟的复杂系统集成能力;
- 大规模硬件制造与成本控制经验;
- 对自动化执行的长期工程积累。
这些造车和智驾的经验,也在某种程度上成为了研发机器人的跳板。而在这个过程中,机器人行业所面临的情况,也越来越开始演变成了一个复杂的系统工程问题。
