2025 年 6 月 25 日,谷歌 DeepMind 正式发布其首个可在机器人本地运行的视觉 – 语言 – 动作(VLA)模型 ——
Gemini Robotics On-Device。这一突破性成果标志着具身智能技术从云端走向边缘设备的重要跨越,赋予机器人在无网络环境下执行精细任务的能力,同时通过自然语言交互与快速任务适配,为
工业制造、
家庭服务等场景带来革新可能。

谷歌 DeepMind 推出首个本地具身智能模型 Gemini Robotics On-Device,重塑机器人离线操作能力
不同于传统依赖云端算力的机器人模型,Gemini Robotics On-Device 可在机器人本地硬件直接部署,彻底解决网络延迟与连接不稳定问题。即使在弱网或无网环境(如地下仓库、偏远工地),机器人仍能稳定执行指令,实时响应操作需求。
模型具备先进的语言理解能力,可处理多步骤
自然语言指令。例如,用户说 “打开袋子,取出午餐盒并拉上拉链”,机器人能拆解任务逻辑,按顺序完成一系列精细操作,实现真正的人机自然交互。
支持从人形机器人到工业双臂机器人的多本体部署,可完成各类高精度任务:
- 生活场景:叠衣服、拉开零食袋、给午餐盒拉拉链;
- 工业场景:皮带装配、电子元件精准安装;
- 复杂操作:倒沙拉酱(控制流速)、抽卡片(避免撕裂)等。
谷歌首次开放 VLA 模型
微调功能,开发者仅需 50-100 个演示样本,即可让模型适应全新任务。即使是工业级复杂装配任务,通过少量样本训练后成功率可达行业领先水平,大幅降低机器人训练成本与时间。
模型具备强大的泛化能力,可在不同机器人平台间无缝迁移。例如,在双臂 Franka FR3 机器人上训练的抓取策略,可直接应用于 Apptronik Apollo 人形机器人,无需重新开发底层算法。

Gemini Robotics On-Device 将 AI 引入本地机器人设备
模型继承 Gemini 2.0 的
多模态推理核心,通过视觉传感器感知环境,结合语言指令解析任务目标,最终生成精准动作序列。例如,在叠衣服时,模型同步处理视觉图像(识别衣物形状)、语言指令(“将 T 恤对折”)和机械臂动作规划,实现连贯操作。
为适配机器人本地有限的计算资源,模型经过特殊优化:
- 减少冗余计算节点,推理延迟降至毫秒级;
- 采用动态量化技术,模型体积压缩同时保持高精度。
- 语义安全:通过 Live API 实时监测指令合法性,阻止危险操作(如 “撞击易碎品”);
- 物理安全:与机器人底层控制器深度集成,确保动作轨迹符合机械安全规范,避免碰撞风险。
- 预集成常见机器人驱动接口,开发者无需从零搭建环境;
- 提供可视化调试工具,实时监控模型推理过程;
- 内置任务模板库,支持快速调用基础功能(如抓取、移动)。
在汽车零部件装配线中,机器人可基于本地模型实时处理装配指令,精准完成螺丝拧紧、电路焊接等精细操作,相比传统编程机器人效率提升 30%。
无网环境下的仓库中,机器人可自主识别货物标签,按指令分类堆叠,同时通过本地推理规避障碍物,减少人工干预成本。
为老年人设计的陪伴机器人可执行 “取药、递水、整理书桌” 等多步骤任务,无需依赖云端,保障隐私的同时提升响应速度。
手术室中,机器人可通过本地模型快速理解医生指令,传递特定手术器械,或辅助康复训练,实现精准动作引导。
Gemini Robotics On-Device 的发布,打破了机器人对云端算力的长期依赖,推动具身智能从实验室走向实际应用。随着边缘计算技术的成熟,未来各类服务机器人、工业自动化设备有望实现 “即插即用” 的智能升级,为 AI 与实体经济的深度融合开辟新路径。