人形机器人为何仍困于细微之处

John Pavlus 2026-03-13

人形机器人为何仍困于细微之处

摘要

过去十年人形机器人取得巨大进步,但楼梯和门把手等日常任务仍是难题。本文采访多位顶尖机器人学家,揭示深度学习、强化学习与多模态AI虽让机器人运动更流畅,却未能解决力控这一核心物理问题。专家指出,当前AI抽象化了力控制,导致机器人缺乏人类般的触觉反馈与精细操作能力,真正的通用机器人需要重新回归物理学基础。

内容框架与概述

文章开篇以作者2015年报道机器人领域的经历切入,对比当年波士顿动力四足机器人Spot的风靡与人形机器人频繁摔倒的窘境,引出今日特斯拉Optimus等产品的宣传热潮。然而作者通过直接询问Agility Robotics的Jonathan Hurst和波士顿动力的Scott Kuindersma发现,即便是Atlas和Digit这样的顶尖人形机器人,仍无法可靠地应对任意楼梯或门。这一现实与公众认知形成鲜明反差,促使作者深入探究技术进步的边界。

随后文章梳理了三大范式转变:深度学习与GPU加速的强化学习、MIT Sangbae Kim开创的本体感受电动执行器、以及Google DeepMind的视-语言-动作模型。这些突破让Atlas从蹒跚学步变为能跳霹雳舞,但作者揭示了一个关键盲区——力控制被硬件吸收和AI间接实现,却未成为显式学习对象。MIT的Pulkit Agrawal指出,机器人要如人类般工作必须掌握力与惯性的基础物理,而当前VLA模型本质上只是在姿态间移动,缺乏对接触力的精细感知。

最后文章呈现学界的分歧与共识。Russ Tedrake主张大规模数据与预训练模型,Frank Park则认为VLA架构从根本上错误。作者引用Hurst转述的警示:我们可能用强化学习和AI让机器人行走奔跑,却从未真正理解其原理。Tedrake以电磁学发展史类比,认为机器人学尚处于伏打电池的早期阶段。文章结语强调:机器人仍然笨拙,但基础已具,前路仍艰。

核心概念及解读

  • 力控制(Force Control):机器人通过调节施加的力而非仅控制位置来完成任务的技术,如白板书写时保持适当压力。经典方法依赖弹簧-阻尼模型,但难以泛化;现代AI多将其间接化,导致精细操作受限。

  • 本体感受执行器(Proprioceptive Actuator):MIT Kim团队开发的准直驱电机,具有可控柔性与高透明度,能将电流精确转换为力,使电机本身成为力传感器,大幅降低硬件成本与复杂度,成为强化学习落地的关键使能器。

  • 视-语言-动作模型(VLA, Vision-Language-Action Model):Google DeepMind 2023年推出的多模态架构,将视觉输入与自然语言指令直接映射为机器人动作指令,整合了以往分离的感知、规划与控制流程,但本质上仍是基于姿态的序列生成。

  • 强化学习策略(RL Policy):通过数百万次仿真训练获得的神经网络控制器,将环境反馈转化为全身协调动作,替代了传统的手动算法设计,但仿真中的力调节多为隐式学习,缺乏显式物理建模。

  • 多用途移动操作(Multipurpose Mobile Manipulation):人形机器人的核心设计目标,即几乎任意环境中移动并处理多样物体,要求同时具备位置精度与力控柔度,当前技术在这两者的结合上尚未突破。

文章基本信息

字段内容
原标题Why Do Humanoid Robots Still Struggle With the Small Stuff?
作者John Pavlus
发布日期2026年3月13日