人形机器人为何仍困于细微之处

John Pavlus 2026-03-13

人形机器人为何仍困于细微之处

摘要

过去十年人形机器人取得巨大进步，但楼梯和门把手等日常任务仍是难题。本文采访多位顶尖机器人学家，揭示深度学习、强化学习与多模态AI虽让机器人运动更流畅，却未能解决力控这一核心物理问题。专家指出，当前AI抽象化了力控制，导致机器人缺乏人类般的触觉反馈与精细操作能力，真正的通用机器人需要重新回归物理学基础。

内容框架与概述

文章开篇以作者2015年报道机器人领域的经历切入，对比当年波士顿动力四足机器人Spot的风靡与人形机器人频繁摔倒的窘境，引出今日特斯拉Optimus等产品的宣传热潮。然而作者通过直接询问Agility Robotics的Jonathan Hurst和波士顿动力的Scott Kuindersma发现，即便是Atlas和Digit这样的顶尖人形机器人，仍无法可靠地应对任意楼梯或门。这一现实与公众认知形成鲜明反差，促使作者深入探究技术进步的边界。

随后文章梳理了三大范式转变：深度学习与GPU加速的强化学习、MIT Sangbae Kim开创的本体感受电动执行器、以及Google DeepMind的视-语言-动作模型。这些突破让Atlas从蹒跚学步变为能跳霹雳舞，但作者揭示了一个关键盲区——力控制被硬件吸收和AI间接实现，却未成为显式学习对象。MIT的Pulkit Agrawal指出，机器人要如人类般工作必须掌握力与惯性的基础物理，而当前VLA模型本质上只是在姿态间移动，缺乏对接触力的精细感知。

最后文章呈现学界的分歧与共识。Russ Tedrake主张大规模数据与预训练模型，Frank Park则认为VLA架构从根本上错误。作者引用Hurst转述的警示：我们可能用强化学习和AI让机器人行走奔跑，却从未真正理解其原理。Tedrake以电磁学发展史类比，认为机器人学尚处于伏打电池的早期阶段。文章结语强调：机器人仍然笨拙，但基础已具，前路仍艰。

核心概念及解读

力控制（Force Control）：机器人通过调节施加的力而非仅控制位置来完成任务的技术，如白板书写时保持适当压力。经典方法依赖弹簧-阻尼模型，但难以泛化；现代AI多将其间接化，导致精细操作受限。
本体感受执行器（Proprioceptive Actuator）：MIT Kim团队开发的准直驱电机，具有可控柔性与高透明度，能将电流精确转换为力，使电机本身成为力传感器，大幅降低硬件成本与复杂度，成为强化学习落地的关键使能器。
视-语言-动作模型（VLA, Vision-Language-Action Model）：Google DeepMind 2023年推出的多模态架构，将视觉输入与自然语言指令直接映射为机器人动作指令，整合了以往分离的感知、规划与控制流程，但本质上仍是基于姿态的序列生成。
强化学习策略（RL Policy）：通过数百万次仿真训练获得的神经网络控制器，将环境反馈转化为全身协调动作，替代了传统的手动算法设计，但仿真中的力调节多为隐式学习，缺乏显式物理建模。
多用途移动操作（Multipurpose Mobile Manipulation）：人形机器人的核心设计目标，即几乎任意环境中移动并处理多样物体，要求同时具备位置精度与力控柔度，当前技术在这两者的结合上尚未突破。

文章基本信息

字段	内容
原标题	Why Do Humanoid Robots Still Struggle With the Small Stuff?
作者	John Pavlus
发布日期	2026年3月13日

具身智能的困境：为什么人形机器人仍然如此“笨拙”？

插图展示了各种人形机器人，包括 Atlas、Digit、科幻电影中的机器人和玩具，以及漂浮的阶梯。 各大公司正在开发并推广一个充满人形机器人的未来。

上一次我报道人形机器人科学时，该领域的最尖端水平看起来简直充满了“奥威尔式”的色彩——我的意思是，“四条腿好，两条腿坏”。那是 2015 年。波士顿动力公司（Boston Dynamics）的第一款“Spot”四足机器人[风靡 YouTube](，它能自信地走上台阶，并在遭受猛烈踢击后迅速恢复平衡。当时同样流行的视频还有：[人形机器人摔倒。]( 且频率极高。比起 Spot，我当时更同情那些摇摇欲坠的金属“龙虾”。双足行走确实非常困难。

画面切到当下。人形机器人显然已经变得如此先进，以至于特斯拉正搁置部分电动车车型，为 Optimus 人形机器人让路；初创公司也正一本正经地预售机器人管家。抛开炒作不谈，我真的很想知道：在我没注意的时候，这个领域是否发生了范式转移？当然，“AI”爆发了（指的是 ChatGPT 之后的浪潮）。我肯定没漏掉这一点。但我完全不知道这和“机器人不再摔个狗吃屎”之间有什么必然联系。

为了核实情况，我致电了在波士顿动力工作多年、最近刚刚离职的斯科特·昆德斯马（Scott Kuindersma），以及 Agility Robotics 公司的乔纳森·赫斯特（Jonathan Hurst）。这两位科学家都曾亲历过那个机器人动辄“脸着地”的时代。如今的仿生双足奇迹肯定能轻而易举地爬上几级台阶并打开房门，而不会像十年前那样狼狈不堪。我向这两位研究者提出了同样的问题：你们的旗舰机器人——波士顿动力的 Atlas 或 Agility 的 Digit，这两款地球上最可信、最具传承的人形机器人——现在能处理任何阶梯或房门吗？

“还做不到万无一失，”赫斯特说。

“我不认为这已经完全解决了，”昆德斯马说。

别误会：我不相信那些蒙着布脸的机器人僵尸很快就能接管我的家务。但阶梯和门？现在已经是 2026 年了。为什么人形机器人仍然……这么难？

快速、廉价且基本可控

公平地说，范式转移确实发生了。准确地说，发生了三次。

首先是深度学习——运行在高速 GPU 芯片上的神经网络——极大地增强了计算机视觉和强化学习，从而从根本上提升了机器人感知环境和与之交互的速度与复杂性。接着在 2016 年，一场关于驱动机制（actuation，机器人术语，意为“让部件动起来”）的革命开始了：沉重的液压机构被更小、具有“本体感受”的电机所取代，这赋予了足式机器人类似动物的灵活性。最近的一次则是大语言模型。事实证明，将聊天机器人技术应用于机器人，可以让它们自主规划并执行多步任务，例如给苹果去核或清理洗碗机（至少在演示中是这样）。

这些进步创造了“天差地别”的跨越：一边是“[Running Man](”——那个在 2015 年 DARPA 机器人挑战赛中获得亚军、笨重且步履蹒跚的 Atlas 版本；另一边则是最近展示的[大跳霹雳舞](、以及[能自主将不规则物品从一个框移到另一个框](（即便期间有人挥舞曲棍球棍干扰）的纤细顺滑的 Atlas。

例如，那种流畅的步态就源于深度强化学习。过去，机器人专家需要利用各种人工编写的算法，通过方程对机器人的（简化版）物理特性建模来协调每个动作。现在，他们通过运行无数次人形机器人的数字模拟，训练神经网络充当“全身控制器（whole-body controllers）”。这一过程教会了网络一种“策略（policy）”，即如何将来自环境的反馈转化为动作。

“我们利用强化学习构建了一套处理身体协调、避障、平衡等所有事务的策略，”昆德斯马说。再也不需要将机器人的腿建模为线性倒立摆（linear inverted pendulum）之类的东西了。“那种方法已经被淘汰了，”他说。

波士顿动力的 Atlas 机器人在 2025 年初的视频中展示其性能。Boston Dynamics/Anadolu Agency via Getty Images

这种策略得益于麻省理工学院（MIT）的金相培（Sangbae Kim）在他开发的 [Cheetah 系列机器人]( 中率先使用的本体感受驱动器。“你知道，强化学习已经存在很长时间了。人们以前也尝试过，”金说，“但如果你使用传统的电机，每当机器人在现实世界中未能完美执行策略，或遇到障碍和干扰时，它就会直接损毁。”

金相培的驱动器通过可控的“柔顺性（compliance）”或柔性回弹绕过了这个问题。在过去的十年里，这种驱动器变得更便宜，普及程度也更高。金说：“强化学习解决了大部分双足运动问题，但硬件才是实现这一目标的基石。”

如果说强化学习和柔顺驱动器是送给人形机器人的礼物，那么“多模态 AI”就是给礼物系上的丝带。2023 年，Google DeepMind 推出了“视觉-语言-动作（VLA）”模型，它可以接收视频和自然语言输入，并输出动作指令。

“如果你说‘我渴了’，它知道你可能想喝水，并能生成机器人需要采取的步骤：去找个东西，然后以这种方式拿起它，”Google DeepMind 机器人主管卡罗琳娜·帕拉达（Carolina Parada）说，“这种能力在三年前还需要大量的人工硬编码。”VLA 模型一举将此前分散的机器人感知、规划和控制方法整合进了一条通用的流水线中。

强大的身体，有了。可泛化的智能，有了（至少开了个头）。那么，为什么这些要素加在一起，仍然无法让从科学层面上“解决”人形机器人问题变得轻而易举呢？

愿“力”与你同在

上个月，我在麻省理工学院名副其实的“小概率 AI 实验室（Improbable AI Lab）”找到了普尔基特·阿格拉瓦尔（Pulkit Agrawal），他给出了答案。“要让机器人像人类一样工作，”他说，“我认为我们必须掌握物理学。”

他指的不是广义相对论或量子引力等宏大的宇宙命题，也不是目前令杨立昆（Yann LeCun）等顶尖 AI 研究者兴奋的虚拟“世界模型”。相反，阿格拉瓦尔谈论的是高中理科生都应熟悉的领域：力和惯性。

1X 公司的 Neo（左）和特斯拉的 Optimus（右）的宣传图构想了一个由人形助手服务的未来。

毕竟，人形机器人这一形态的核心意义，就是为了实现金相培所说的“多用途移动操作（multipurpose mobile manipulation）”——即几乎能移动到任何地方（包括爬楼梯和穿门过户），并处理几乎任何事情（从卸载托盘到拧灯泡），且在此过程中不会伤到任何人。简而言之，就是做我们每天都在做的事。“如果你想达到人类的操作速度，这些事情就涉及对‘力’的控制，”阿格拉瓦尔说，“力控（Force control）在经典机器人学中一直存在。但在现代机器学习领域，它还没有那么普及。”

力控的原理很简单。想象一个机器手臂在白板上画画——既要写出字，又不能压断马克笔的笔尖。机器人专家在 40 多年前就知道如何实现这一点：他们通过程序让机械臂表现得好像装有一个虚拟的弹簧和减震器。“我们可以让弹簧在指向白板的方向上非常柔软，而在白板表面方向上则更硬一些，”昆德斯马说，“这样机器人就能保持马克笔的压力适中，同时精准地画出字母的线条和曲线。”昆德斯马进一步解释说，这种反馈可以由内置在机器人关节中的力传感器驱动，但问题在于，经典方法需要掌握大量关于机器人、环境和任务的先验知识才能奏效。

这种控制力的方法对执行特定任务的工业机器人效果很好，甚至在人形机器人的行走平衡上起到了作用。但它无法泛化。金相培的本体感受电子驱动器（也称为准直驱驱动器）简化了这一切。它们不仅被设计为能无损吸收意外冲击，而且非常“透明（transparent）”，这意味着电机能以极小的误差将电流转换为比例力（反之亦然）。昆德斯马说，本质上，电机本身就变成了一个力传感器，这意味着“你可以通过取消专用的力传感器来降低机器人的成本和复杂度”。

随着强化学习取代手动编程成为控制人形机器人运动的主流，经典“力控”并未被遗忘。它只是被抽象化并委派给了硬件和 AI。

“从 AI 的角度来看，你不需要时刻想着力控，”赫斯特说，“更像是你大概知道需要一个准直驱电机来接近理想的力调节，然后在模拟器中运行并迭代一百万次——之后你把它装在机器人上，就能得到很酷的行为。”

那些神经网络正在学习通用的策略来控制机器人各部位的位置。在模拟训练中，力调节通常只是间接发生，或者有时是作为从视频或人类演示中学习时的副作用而存在。

但这些方法并未显式地教授力的物理学——至少现在还没有。“许多进行智能力控所需的信号，在视频和人类演示数据中并不存在，”昆德斯马说。DeepMind 的帕拉达承认，VLA 模型基本上只是学习在特定定义的姿态之间移动——这种方法已经能走很远了。“在没有任何其他传感器感知的情况下，这种方法能达到如此高的水平，我们自己也很惊讶，”她说。

2015 年，世界上最先进的人形机器人在 DARPA 机器人挑战赛决赛中展开角逐。自那以后，技术已大幅进步。DARPA

但这种进步是有极限的。阿格拉瓦尔说，只要机器人身体与我们相比仍然相对僵硬和沉重，“它们就具有高惯性，且柔顺性不足”，这意味着如果没有力控，它们在复杂环境中处理精密任务时会感到吃力。“如果你要接触易碎物品且存在微小误差，坏事就会发生。”想象一个普通的鸡蛋和另一个实心钢蛋：前者需要更加小心地拿起。

许多令人惊叹的系统在保证位置精度的同时，绕过这个问题的一个方法就是：慢一点。阿格拉瓦尔打了个比方：想象你要用汽车去移动一把椅子，“如果我开得很慢，我可以精确地移动位置，从而控制椅子移动到哪里，力的问题就消失了。”这就是为什么 Atlas 在抓取汽车零件时动作慢得像蜗牛，但在除了地板不接触任何东西的情况下却能像体操运动员一样轻盈地滑行。

“说力控在每一项有用的操作任务中都是绝对必要的，那是夸大其词——事实并非如此，”昆德斯马说。但他、赫斯特和帕拉达都欣然承认，巧妙的“绕道而行”无法赋予机器人管家所需的全方位灵活性。帕拉达说，即使今天的 VLA 大脑机器人经过强化学习精炼，并拥有“互联网级规模”的位置数据进行训练，“很可能你还是需要做一些额外的工作。当人类试图打开瓶子时，能感觉到正在对抗你的力。”而人形机器人大部分时间仍然感觉不到，这意味着它们尚未掌握物理学——至少不像我们这样，通过进化赋予的极其复杂的肌肉骨骼和神经系统与环境进行了一辈子的交互。

这也是为什么即使是门和阶梯，对现在的人形机器人来说也并非被完全“解决”。这几级台阶，那扇门？可能没问题。但所有的阶梯和门，以及除此之外的一切？“人形机器人不可能只靠位置控制就能变得真正有用且自主，”昆德斯马说，“‘力’作为第一等公民是绝对必要的。”

变得更聪明，还是推倒重来？

那么，从科学角度来看，我们如何翻越这堵墙？我采访的大多数专家推测，这将需要硬件和软件进步的新融合。能更好收集数据的触觉传感器，以及兼具大功率、柔顺性、透明度和低惯性的机器人手将大有可为。没有人认为必须在材料上取得真正突破（比如用人工肌肉取代电机）。

“硬件已经非常出色了，如果你归咎于硬件，那你就是在找借口，”另一位我采访过的 MIT 资深机器人专家罗斯·特德雷克（Russ Tedrake）说，“如果你让一个人类的大脑去控制我们今天的硬件——比如通过远程操作——它的表现会令人难以置信。寻找更智能的控制方法才是关键。”

Agility Robotics 的 Digit 机器人在非结构化环境中展示了精细的动作控制。Agility Robotics

当被问及如何实现这一目标时，每个人的答案各不相同。阿格拉瓦尔正在研究如何将力控与强化学习结合，让机器人在模拟中学习柔顺行为，而不是在僵硬定义的各个位置之间移动。特德雷克关于“大行为模型（large behavior models）”（VLA 的近亲）的研究产生了一台去核苹果机器人，他最近在《科学·机器人学》（Science Robotics）上发文主张建立一种类似 ChatGPT 的“大规模数据采集和预训练大模型”体系。朴钟来（Frank Park）写过关于现代机器人学的权威著作——字面意思上的教科书《现代机器人学》——他认为应该推倒目前的 AI 方法，代之以能从基础层面学习物理基本原理（如力和加速度）的方法。他告诉我：“VLA 架构完全错了，我相信那种方法注定失败。”

在所有这些交谈中，最令我印象深刻的不是关于哪种传感器、数据或 AI 架构能“解决”人形机器人问题的争论，而是一种感觉：这个领域的科学特质（ethos）已经改变了。赫斯特在我们第一次交谈时刚刚将 Agility Robotics 从俄勒冈州立大学的实验室中剥离出来，他的观点入木三分。

“我记得曾担任 MIT 足部实验室主任、后来担任 DARPA 机器人挑战赛项目经理的吉尔·普拉特（Gill Pratt）说过，他最大的担忧是：在还没真正理解其中的原理之前，我们就已经利用强化学习和 AI 让机器人跑起来、走起来了，”他说，“在很多方面，我们现在确实正在这么做。”（编者注：吉尔·普拉特对这段谈话的回忆有所不同。他承认机器学习可以实现超出我们形式化理解的性能，但并未表示这是一种担忧。）

特德雷克表示赞同，但他补充说，这远非人类第一次在没摸透基本原理的情况下就取得科学和工程上的跨越。“看看电磁学的发展，曾经历过伏特阶段，那时你只是把电极插进青蛙身体里，”他说，“然后我们有了法拉第，他做了完全正确的实验，最后我们有了麦克斯韦告诉我们统治一切的方程。我认为我们现在正处于伏特阶段。”

那么，人形机器人问题何时才能被解决？

“机器人现在还是很糟，这需要时间。但骨架是好的。这两点都是事实，”特德雷克说，“而且，这依然很难。”

重要术语翻译对照表

英文术语	中文翻译	备注
Humanoid Robot	人形机器人 / 仿人机器人
Bipedal Locomotion	双足运动 / 双足行走
范式转移	Paradigm Shift
Actuation / Actuator	驱动机制 / 驱动器	使机器人关节产生运动的装置
Proprioceptive	本体感受的	机器人感知自身肢体位置和受力的能力
Compliance / Compliant	柔顺性 / 柔顺的	机器人肢体在受力时产生弹性形变的特性
Whole-body Controllers	全身控制器	统一协调机器人全身所有关节的算法
Reinforcement Learning (RL)	强化学习	机器人通过反复试验获得奖励来学习的方法
VLA (Vision-Language-Action)	视觉-语言-动作模型	将感知、思考和执行集于一身的 AI 模型
Force Control	力控 / 力的控制	与位置控制相对，强调对接触力的精确控制
Quasi-direct Drive	准直驱	一种电机驱动技术，具有高透明度和回弹特性
Linear Inverted Pendulum	线性倒立摆	过去用于简化足式机器人平衡的经典物理模型
World Models	世界模型	AI 对物理世界运行规律的内部模拟
Mobile Manipulation	移动操作	机器人一边移动一边处理物体的复合能力
Transparency	透明度	在电机领域指电流与输出扭矩/反向受力的线性关系