UnifoLM-VLA-0 – 宇树开源的通用机器人操作大模型

业界 来源:AI工具集 2026-02-03 11:04:17

UnifoLM-VLA-0是什么

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感知、轨迹预测等多维监督信号,实现从”视觉语言理解”到”具身智能体”的进化。模型采用单一策略即可完成整理桌面、叠毛巾、分拣水果等12类复杂人形机器人操作任务,在 LIBERO 仿真基准测试中平均准确率达 98.7%,展现出强大的空间推理能力和跨任务泛化性能。

UnifoLM-VLA-0的主要功能

  • 通用机器人操作:作为端到端的视觉-语言-动作模型,UnifoLM-VLA-0 能通过自然语言指令控制人形机器人完成复杂操作任务,包括整理物品、叠毛巾、分拣水果、工具归位、擦拭桌面等12类多步骤长程任务。

  • 空间感知与推理:模型具备强大的2D/3D空间理解能力,包括物体检测与分割、3D边界框预测、空间关系推理(如”左边的铅笔”)、 affordance 推理(可抓取位置判断)以及轨迹规划。

  • 单策略多任务:仅需单一模型权重即可泛化到不同场景和任务,无需针对每个任务单独训练,展现出优异的跨任务迁移能力。

UnifoLM-VLA-0的技术原理

  • 模型架构:基于开源 Qwen2.5-VL-7B 视觉语言大模型,新增 Action Head 动作预测头,构建端到端的视觉-语言-动作架构,实现从视觉感知和自然语言理解直接输出机器人控制动作。

  • 持续预训练:模型在覆盖机器人与通用场景的多任务数据集上进行持续预训练,整合 2D 检测分割、层次化任务分解、3D 物体检测、空间推理、轨迹预测等多样化监督信号,强化模型的多模态感知与物理理解能力。

  • 动作建模:模型引入动作块预测机制,同时施加前向与逆向动力学约束,对动作序列进行统一建模,使模型深入理解机器人与物体间的物理交互动态,支持长程动作规划与决策。

  • 空间增强:通过深度融合文本指令与 2D/3D 空间细节,建立语义逻辑与几何空间的精准对齐,显著提升空间感知与几何理解能力,满足操作任务对指令理解和空间推理的要求。

UnifoLM-VLA-0的项目地址

  • 项目官网:https://unigen-x.github.io/unifolm-vla.github.io/

  • GitHub仓库:https://github.com/unitreerobotics/unifolm-vla

UnifoLM-VLA-0的应用场景

  • 家庭服务:模型可执行整理桌面、折叠毛巾、擦拭污渍等日常家务操作任务。

  • 办公辅助:模型能完成收拾文具、整理书包、工具归位等办公环境维护工作。

  • 医疗健康:支持开启药瓶、分装药品等需要精细操作的医疗辅助场景。

  • 教育培训:可用于按颜色分类物品、堆叠积木等结构化认知教学演示。

  • 工业分拣:模型支持实现按规则将水果、零件等物品分类放置到指定区域的自动化分拣。

延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接