小米开源具身模型真机后训练，想让机器人不再「偷懒」？

在前不久发布 Xiaomi-Robotics-0 具身模型后，今天小米又带来了新的能力演示，并正式发布了 Xiaomi-Robotics-0 真机后训练全流程。

在真机后训练中，小米团队仅利用了 20 小时的任务数据，就让模型掌握了「将耳机收纳进耳机盒」的精细任务。

作为具身模型走向实际部署的最后一关，真机后训练就是在预训练大模型的基础上，用少量真实机器人操作数据进行针对性微调，让模型走向具体场景应用。

不过，后训练并非只是「再喂一点真实数据」那么简单。它牵涉到训练策略、推理架构、动作连续性等问题，在整个训练过程中的地位非常重要。

值得一提的是，从今年从 2 月开始，小米就连续发布了一系列在机器人赛道上的新进展，先是精细抓取微调模型 TacRefineNet，VLA 模型 Xiaomi-Robotics-0，而后是 3 月公布了机器人进厂作业成果和灵巧手解决方案，再到本月的具身模型真机后训练开源。

从这些能够看出，小米正在尝试打造一条完整的机器人能力链条，而今天的真机后训练开源，正是链条中承上启下的一环。

数据之外，设计才是关键

在新的能力演示中，小米给出的是一个整理耳机的任务。面对桌面上三组不同的无线耳机，机器人需要根据颜色判断每个耳机属于哪个耳机盒，并将其放入耳机盒内。

在这个任务中，机器人平均每次完成收纳需要花费大约 40 秒的时间。

对人类来说这可能就是几秒钟的随手动作，但对于机器人来说，这项任务并不容易做好。

精度：耳机与槽位之间的公差极小，这意味着模型必须在亚毫米级别完成精准对位。
材料特性：耳机与盒体表面粗糙度最低至 Ra0.03 μm，极易在触碰过程发生位移，模型必须能快速修正动作偏差，避免装配失败。

两个问题叠加在一起，构成了对模型感知精度与动作鲁棒性的双重压力。

不过值得注意的是，小米在这个任务上用于后训练的数据量只有 20 小时，在这个数据规模下让模型掌握精细操作任务，预训练基座设计在这里则起到了关键作用。

预训练阶段使用了约 2 亿个机器人轨迹时间步、以及超过 8,000 万条通用视觉语言样本，覆盖开源数据集与内部遥操作数据，让模型在进入任务训练之前就积累了动作生成知识和泛化基础。

所以这 20 小时的任务数据并不是从 0 开始构建能力，不过即便是这样，在这个数据规模下去执行精细操作任务，部署阶段的设计也至关重要。

模型也会「偷懒」？

为了让机器人的动作足够连贯，小米在部署阶段采用了异步推理方案，让机器人在执行当前动作轨迹的同时，并行推理下一步动作，不再等当前动作执行完毕再开始计算。

但异步推理也带来了一个新的问题，在技术细节里，小米就提到了一个很有意思的现象，模型会「偷懒」。

乍一听像是开玩笑，不过这正是当下 VLA 模型的一个典型结构性问题，当你引入 Action Prefix（动作前缀）来保证动作稳定连续时，模型容易：

过度依赖已有轨迹；
忽略新的视觉输入；
变成「惯性执行器」。

实际上，这就是一个经典的稳定性和反应性的冲突问题。

所以，这并非简单的「让模型更听话」的问题，重点是要重新分配一件事，在连续动作生成过程中，模型到底该更相信过去，还是现在？

面对这些情况，小米引入了一整套约束机制，去强行打破路径依赖，让模型重新对实时感知保持敏感。具体来看，可以拆成三个层面：

在训练目标上动手：通过自适应加权机制，模型不再对所有误差一视同仁，会根据预测轨迹与真实轨迹之间的偏差动态调整权重。换句话说，就是哪里错得多，就重点学哪里。迫使模型在关键节点上无法蒙混过关，必须真正从视觉信号中做出判断。

在注意力结构上做限制：通过引入 Λ 型注意力掩码，模型在参考前序动作的同时，被约束必须关注当前视觉输入。从结构上避免模型只沿着历史轨迹滑行，让「看见现在」变成一个无法绕开的过程。

主动制造不确定性：通过对动作前缀进行随机遮蔽，模型在训练时无法始终依赖完整的历史动作信息，只能被迫更多地依赖视觉和传感器信号来完成决策。

从这些做法中能看到，这实际上就是在剥夺模型「偷懒」的条件。同时也是在处理一个更底层的系统级矛盾，如何在保证动作连续性的同时，不牺牲对环境变化的响应能力。

这也是当前 VLA 模型在走向真实场景时，绕不开的一道坎。

写在最后

进入到 2026 年后，可以明显感觉到小米在机器人方向上的「动态」开始变多了。

从年初的 Xiaomi-Robotics-0 发布、精细抓取微调模型、工厂作业成果、灵巧手方案的公开，再到今天的真机后训练开源，几乎每隔几周就有新的进展对外释放，并且开始尝试推动一整套可复用的方法论落地。

更大的背景是，这种变化并不是个例。过去一年，机器人行业的参与者结构正在发生明显迁移，尤其是以车企为代表的厂商，不管是特斯拉、理想还是小米，都在加速布局这条赛道。

身为汽车厂商，他们本身就具备研发机器人所需要的：

成熟的复杂系统集成能力；
大规模硬件制造与成本控制经验；
对自动化执行的长期工程积累。

这些造车和智驾的经验，也在某种程度上成为了研发机器人的跳板。而在这个过程中，机器人行业所面临的情况，也越来越开始演变成了一个复杂的系统工程问题。

小米开源具身模型真机后训练，想让机器人不再「偷懒」？

数据之外，设计才是关键

模型也会「偷懒」？

写在最后

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？

小米开源具身模型真机后训练，想让机器人不再「偷懒」？

数据之外，设计才是关键

模型也会「偷懒」？

写在最后

相关文章

从底层本能出发，橡木果机器人发布「本能驱动」技术路线

VLA 终于摆脱后训练了？自变量开源 WALL-OSS-0.5，预训练完直接上真机

第一批消费级四足机器人进家门，这些用户都在想什么？

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？