它石智航联合六大机构发布 OmniVTA 视触觉世界模型

近期,它石智航联合新加坡国立大学、复旦大学、中科院自动化所、清华大学、中关村学院以及北京航空航天大学六大机构,推出 OmniVTA 视触觉操作框架和 OmniViTac 大规模视触觉数据集并发表相关论文,让机器人实现从被动感知,到对触觉进行主动预测和闭环精准控制,迈出灵巧操作的关键一步。

最近一两年中,触觉对于机器人应用落地的帮助越来越大,但不少传统模式却陷入了一个困境中:即便触觉传感器在机器人领域已经广泛应用,「感知更多、做得更差」的困境还是很难脱离。机器人明明「摸得到」,却依然「不会用」。为什么给机器人提供额外的触觉感知,反而可能让它表现更差?

因为机器人操作领域长期缺乏对接触动态的建模和对触觉信息的有效利用。当前一些方案仅将视觉与触觉特征简单拼接后输入策略网络。这种方式看似合理,实际上却忽视了触觉的核心特征。相较于具备全局语义与连续观测能力的视觉,触觉信号高度局部且由接触事件驱动,无法提供全局感知,难以支撑长时序规划。

更关键的是,接触本质上是一个随时间演化的动态过程。擦拭、削皮、插接、拧紧等操作,都是「接触状态随时间不断变化」的过程。

然而,现有的一些方法通常仅利用当前或历史几帧触觉观测,缺乏对「接触如何随时间演化」的显式建模。结果是触觉往往只被用于简单的接触检测或视觉遮挡补偿,而无法真正参与对接触过程的预测与决策。同时高频触觉数据缺失也让模型难以学习真实接触规律,操作稳定性与泛化性严重不足。

人类真实行为启发:「预测+反馈」协同机制

神经科学研究表明,人类在进行接触操作时,依赖的是一套「预测+反馈」的协同机制:大脑一方面通过前向模型提前预测动作将带来的感觉变化,另一方面通过实时感觉反馈进行快速修正,抵消误差和扰动。正是这种「先预测再修正」的机制,让人类能够在不确定的环境中,依然完成稳定而灵巧的接触操作。

在人类自身的神经机制的启发下,它石智航联合六大机构,从数据底座与技术框架双向发力。在数据层面上,团队发布了 OmniViTac 大规模视触觉数据集。目前已收录 2 万余条操作轨迹,覆盖近百类任务和百余种物体,并将接触模式系统性分为擦拭、削皮、切割、抓取、装配以及手内调整六类,在数据采集过程中严格保证视觉、触觉与动作的高精度同步,并保留了原始传感器频率。

OmniVitac 数据集

依托 OmniViTac 的多模态数据支持,它石提出了 OmniVTA——一种以世界模型为核心的视触觉操作框架。该方法的核心思路在于从「被动感知触觉」转向「主动预测触觉」:机器人不仅能够感知当前触觉信号,还实现了建模并预测未来触觉的演化过程,并以此指导动作规划与闭环调整。

在系统设计上,OmniVTA 采用慢–快分层控制结构:慢系统基于视觉–触觉世界模型预测未来触觉表征并生成动作序列,快系统则利用预测触觉与实时触觉反馈进行反射式高频控制,从而实现稳定、鲁棒且精细的接触操作。

OmniVTA 系统图

在此基础上, OmniVTA 通过四个关键模块协同构建统一的闭环控制体系,使机器人具备「预测触觉—理解接触—修正动作」的能力,从而重塑其在复杂接触场景中的操作表现:


TactileVAE:通过时空联合编码与隐式函数解码,将高频、稠密的触觉 3D 形变压缩为低维连续潜变量表示,该模块不仅在空间上保留细粒度接触结构(如剪切、法向形变等),还在时间上建模触觉动态变化,从而有效刻画接触过程的演化轨迹。在显著降低数据维度与计算开销的同时,为后续预测与控制提供可泛化的触觉表征,使机器人能够高效理解当前接触状态并快速响应环境变化。

TactileVAE 网络结构图

视触觉世界模型(预测模块):基于双流扩散生成架构,在共享条件约束下联合建模视觉与触觉的时序演化关系。视觉分支提供全局语义与几何先验,触觉分支聚焦局部接触动态,两者在潜空间中协同对齐,从而实现对未来触觉信号的高质量预测。通过显式建模「接触发生前—接触发生中—接触演化后」的动态过程,该模块使机器人能够提前预判接触趋势(如即将发生的接触、接触强度变化或滑动风险),为动作规划提供前瞻性信息支撑。


自适应融合策略(决策模块):引入 Latent Tactile Differential(LTD)编码器,对当前触觉与预测触觉之间的差异进行显式建模,从而提取接触动态变化的关键信号。在此基础上,结合门控(gating)机制对视觉与触觉模态进行动态加权,使策略能够根据接触阶段自适应调整感知依赖:在无接触或远接触阶段侧重视觉全局信息,在接触发生及演化阶段增强触觉主导作用。该模块有效避免了简单特征拼接带来的信息冲突问题,使动作决策更加精确且具备情境适应性。

OmniVTA慢策略:视触觉世界模型 + 自适应融合策略


反射式触觉控制器(执行模块):基于预测触觉与实时触觉反馈,在 60 Hz 高频下输出单步修正动作,对慢系统生成的动作序列进行连续闭环补偿。该控制器通过建模触觉误差(预测–观测差异)实现快速响应,可在接触扰动、物体偏移或摩擦变化等情况下即时修正执行轨迹,从而显著提升操作稳定性与精度。其引入使系统具备类似人类「触觉反射」的能力,能够有效弥补低频规划带来的滞后性。

基于触觉特征的反射式控制器


实验数据表明,OmniVTA 视触觉操作框架在不同物体、不同接触模式下均取得了最优性能。在位置变化、工具变化和外界扰动等情境中,展现出了超传统方法的鲁棒性和泛化能力。

操作过程中实时扰动-恢复接触


关键的是,模型学习到了可迁移的接触动态规律。模型能根据预测的接触状态自适应调整视觉与触觉的权重,并在不同物体和工具下保持稳定表现。这表明机器人正在从「执行动作」走向「理解物理接触」,逐步具备类似人类的预测与反馈协同能力。

门控机制效果:触觉和视觉权重随操作过程的变化


可以看到,OmniVTA 以「世界模型」为核心,以预测为先导、反馈为保障,最终使机器人能够胜任精密装配、家居清洁与食材备制等工业生产与日常生活中不可或缺的接触密集型(contact-rich)任务。