塑造人机协作的未来：Oussama Khatib

导读

本文为斯坦福大学机器人学实验室主任、机器人领域泰斗级人物 Oussama Khatib 教授于 2026 年 3 月 13 日在 MIT（麻省理工学院）发表的精彩演讲实录。在这场讲座中，Khatib 教授全面展示了机器人技术在深海考古、远程医疗和底层硬件设计等领域的最新突破，并深刻探讨了“人类与机器人协作（Human-Robot Collaboration）”的未来形态。

演讲的亮点之一是斯坦福研发的深海人形机器人 Ocean One K。该机器人突破了传统水下设备的局限，将人类的视觉与精细的触觉（Haptic feedback）延伸至深达近千米的深海，成功从 1664 年沉没的法国皇家战舰上完好无损地打捞出珍贵文物，甚至还在迪拜的深水池中展示了在水下下国际象棋的精巧操作。此外，Khatib 教授还展示了跨越洲际的远程超声波操作，证明了通过解耦控制回路，触觉反馈完全可以克服网络延迟，在相隔万里的不同大洲间实现安全的“远程把脉”。

在底层技术层面，Khatib 教授深入讲解了如何通过控制扭矩和操作空间（Operational Space）来赋予机器人强大的接触与顺应能力，摒弃了传统的关节轨迹规划。他还展示了极致追求物理安全的 Maestro 机器人，通过在硬件级动态改变关节极限，实现了无需依赖软件的绝对安全边界。对于所有对前沿机器人应用、控制理论、以及机器人如何扩展人类感官与能力边界感兴趣的读者而言，这篇实录将提供极其宝贵的洞见。

第一章：斯坦福机器人中心（SRC）与机器人学的多学科本质

Oussama Khatib： 谢谢。非常感谢。在讲座结束时会有一个关于《机器人学手册》（Springer Handbook of Robotics）的测验，所以大家做好准备吧。（笑）

在讲座正式开始前，刚才大家都提到了机器人中心。我很高兴 Harry 也在场，我们刚才还在聊这个。我想先和大家分享几张关于新建成的斯坦福机器人中心（Stanford Robotics Center, SRC）的幻灯片。大家都知道机器人学是一门多学科（multi-disciplinary）交叉的科学，每个人都在试图解决该领域某个特定方面的问题。然而，我们常常发现，很难找到一个能让人们真正协同工作的环境。因此，“机器人学多学科交叉研究”这一理念，正是我们在斯坦福机器人中心所做一切的指导方针。我们的初衷是创造一个让人们能够并肩作战的环境。它不仅仅是把一堆实验室聚集在同一个屋檐下，而是真正围绕“项目（project）”展开的——这里的物理空间不属于任何人，只属于那些在单一实验室里无法完成的极具挑战性的项目。

所以我们聚集了一支出色的研究团队，并且这是在大学的整体层面上开展的。我们有不同的学院参与进来，包括医学院、可持续发展学院等，而且大家熟悉的从事机器人研发并做出过贡献的多数专家都在这里。刚才 Harry 提到了 Steve Cousins。Steve 是一位执行主管，与我共同领导这项宏大的工程。那么，机器人学究竟是什么？

这就是我们今天面临的问题。有时我们认为机器人学只是其中的一个视角——比如去运行一些算法来找出人类是如何运动的，然后把那套东西直接搬到机器人上运行。实际上，机器人学背后需要极其深厚的知识底蕴。

我们用机器人所做的一切都涉及机械机构（mechanisms），这些机构需要被设计出来，并且必须为了最终目标和实际影响而进行专门的设计。但在设计机器人的各种具体形态时，我们真的需要具备相关的知识，我们需要了解它将涉及何种交互（interaction）以及何种具体应用。这正是我们今天面临的困境：在某种程度上，我们缺失了大量基础知识，直接越级跳到了应用层面，而没有真正打下进行机器人研究必不可少的基础。因此，这正是我们试图在中心里整合起来的东西。正如我所说，各个实验室都在为核心机器人学做出巨大贡献。如果我们正在构建的能力具有足够的通用性，那么这些能力就可以直接应用在不同的领域——在医疗机器人、野外机器人以及所有这些领域。我们并不是在为特定领域进行死板的工程定制，而是采用几乎相同的框架体系。

我的意思是，机器人学本质上关乎感知（perception）、行动（action）以及对所有这些进行思考和推理。算法可以应用于不同领域，只需根据各自的环境、任务以及所涉及的安全要求进行不同的实例化即可。这就是我们在 SRC 正在做的事情。该中心于 2024 年 11 月 1 日正式启用，它吸引人的核心理念真的就是：我们如何为协作提供一个环境。我刚才提过这点，它的理念确实是促进协作，但你具体要怎么做呢？你需要一个环境，需要共享的机器人项目。而这正是我们在中心里成功做到的。我们有许多专门用于不同事物的空间，甚至包括艺术。事实上，就在我昨天离开之前，我们刚刚举办了一场艺术与机器人的表演。我们有野外机器人，有医疗机器人应用的各个方面，有“人机交互（human-robot interaction）”，还有如此多不同的领域，所有这些都在这里得到研究和探索。

这里展示了不同的接口，我们还与许多国际实验室开展了合作。比如与卡尔斯鲁厄理工学院（KIT）的合作，还有与意大利理工学院（IIT）的合作。在材料科学以及触觉传感（tactile sensing）设计以制造电子皮肤方面，也有很多投入。在微创手术（minimally invasive surgeries）领域也涌现出了很多美妙的想法。

现在，我一直以来的梦想就是重现人工势场（artificial potential fields），而现在我们真的可以通过磁场来实现了。我们现在可以通过磁场来控制机器人移动，这种机器人不仅可以用来输送药物，还可以进行手术。这里展示了一个脑部手术的例子，机器人正在引导磁场来将这个微型旋转器移动到指定位置。这是一个非常非常激动人心的项目。稍后我还会讲到另一个关于超声波的项目。我们在如何进行微创手术方面也在不断提出新的思路。

我刚才提到了艺术，这不仅关乎表演，更关乎理解人类的运动。将其与机器人的运动连接起来，观察能量以及各种不同的特征。人类消耗的能量与机器人相比为什么如此之少？以及我们如何在社交语境中使用机器人进行辅助，去和有问题的孩子们互动，去在厨房里帮忙等等。这是一个惊人的环境，它在工业界的支持下，在研究与现实世界之间架起了一座桥梁。现在我们有很多访客，这反而成了个“问题”：它快要变成旧金山探索博物馆（Exploratorium）的机器人版了。（笑）说真的，我们在斯坦福接待的访客太多了，以至于我们不得不雇佣机器人来带大家参观，这倒挺好的，但我们现在需要投入大量的后勤支持仅仅是为了应付这些参观导览。

这就是关于机器人中心的一点介绍，我希望你们未来访问斯坦福时有机会去那里看看。好了，现在回到讲座的主题。我将带大家回顾一下我们最近一直在研究的很多课题，同时也会从历史的视角来看看这些事情，以及它们在当今机器人学的大背景下是如何运作的。其实深海探索所面临的挑战，与医疗保健或工作场所中的挑战非常相似。在人机交互、人机协作，以及如何提供合适的接口让人与机器协同工作方面，它们都有着共通之处。这里有一段简短的视频。

第二章：Ocean One K：深海考古与触觉反馈的完美结合

纪录片旁白： Ocean One K，一种独特的水下机器人，能够在中海面下数百米深处执行考古挖掘任务。自 2015 年以来，一支美国团队一直在开发这款革命性的人形机器人。

其目标是让它能够以与人类考古学家同样的精度来探索沉船、处理文物、评估并研究宝藏。今天的机器人通常是被设计用来“看（see）”的，但我们需要的是被设计用来“做（do）”的机器人。这将使考古学家能够发掘无数不同时代的军舰、商船、飞机和潜艇残骸，而这些地方在此之前是完全无法进入的。

但是，我们如何确信 Ocean One 能够承受极端的深海压力，或者它的仿生手（bionic hands）能够从深渊中完好无损地回收沉没的物品呢？

Oussama Khatib： 这是关于我们在 2021 年至 2022 年间在地中海进行探险的一部纪录片的介绍。大家如果还记得的话，那时正处于新冠疫情（COVID）最严重的时期。当时要获得所有认证、制造设备、去实验室工作并进行深海探险，面临着极其巨大的挑战。但我们设法做到了，穿越了令人惊叹的深海空间，从水下 40 米一直潜到了将近 1000 米深的地方。

这艘是一艘沉没了近 2000 年的罗马古船。这艘是二战时期的沉船，周围有着令人难以置信的海洋生物和珊瑚。对我们来说，真正的考验是：我们能否带着机器人去到极深的海域进行作业？

我们受限于推进器（thrusters）的规格，它们标定的最大下潜深度是 850 米。所以我们潜到了 852 米。（笑）我们没有弄坏任何东西。但建造一台能够做到这一点的机器，是一项惊人的挑战。这其中的关键，当然就是控制室。你需要有触觉反馈设备（haptic devices），通过这些设备，你的双手与机器人的双手相连，你的眼睛与机器人的眼睛相连。所以你的眼睛就在水下，你的双手也在水下，你就像身临其境一样，只不过你身上并没有弄湿。

现在，如果我们想象一个像这样的任务：你要放置这个标记器来对沉船进行扫描，你必须把挂钩挂在栏杆上。你需要获得对力量的感知，而那个接触感会被完全反馈到这里。你看，这是栏杆，你们可能看得不是很清楚，因为这是立体视觉（stereo），一旦你戴上 3D 眼镜你就能看到立体效果了。然后你就能看到它、感觉到它，当你触摸时，反馈是电子信号的。

在带着机器人进行深海潜水的一年后，我们去了迪拜世界上最深的游泳池。机器人的内部是一眼能看透的结构，所以它真的非常非常神奇。那个 Deep Dive 潜水池为我们提供了一个既能工作又能娱乐的环境，而“玩耍”对机器人来说也是非常重要的。所以机器人在那儿玩耍。机器人在下棋，并且赢了。这是一段关于那次短暂考察的短视频。

（播放视频音乐）

Oussama Khatib： 将军（Checkmate）。你们见过机器人在水下下国际象棋吗？

机器人还具备“阅读”的能力，你可以通过机器人注视棋盘的眼睛清楚地看到这一点。这台机器人与众不同之处在于——当然，我们有许多其他的水下航行器可以潜得深得多，它们也能去探索并带回许多令人惊叹的图像。但这些航行器中绝大多数只有微弱的精细操作能力，因为它们的机械爪受到很大限制，必须移动整个机器人的机身才能执行操作。所以如果你有像这样需要触摸、感觉并真正以灵巧性（dexterity）进行交互的任务，那你就需要拥有这些能力的机器人。你需要手。你需要带着手臂的身体，你还需要能看到你手的眼睛。因此你需要具备深度感知能力的视觉。

所以你需要立体视觉（stereo）。这就是最初的概念。那么你是如何建造这个机器人的呢？嗯，你需要思考机器人的设计。一开始我们把手臂设计在顶部。为了推进研发，你需要有逼真的物理仿真（realistic simulation）。但逼真的仿真同样需要你对交互和与环境的物理接触进行设计与思考。这意味着你正在构建一个系统，在这里你能摸到机器人正在摸的东西。你推一下，你就能感觉到阻力。这需要建立触觉连接（haptic connection）。

之所以需要这种设计，是因为你知道，考古学家不希望在没有触摸、感觉并确认物体是否可以安全移动之前就去乱动任何东西。人类需要做出大量认知层面的决定，同时你也需要在机器人端建立尽可能多的自主性（autonomy）。

你们没有看到的是这个。你们没有看到的是机器人靠近目标时所涉及的动力学（dynamics）。当你们看着这台机器人时，你们看到了这些我们称之为“惯性椭球（inertia ellipsoid）”的东西。这个椭圆体代表了反射到末端执行器（end effector）的实际有效质量和惯性。当你把手臂和躯干组合在一起时，动力学特性又变了。这才是由于所有惯性力的总和而产生的那个增强对象（augmented object）。但重要的是要意识到，如果你的手臂伸得很长，当发生接触时，你感觉到的其实是机器人整个身体的质量。所以你最好知道你要保持什么样的姿态，你该如何接近目标物体，以及你如何确保不会对你正在操作的文物产生巨大的冲击力。

在 2016 年，我们准备好了第一版机器人。哦，这个是我们在仿真里的训练环境，它就像飞行模拟器一样，只不过是专门针对水下机器人的。我们在斯坦福的游泳池里测试了机器人，然后把它带到了地中海，并将其部署在 1664 年沉没的法国国王路易十四的旗舰“月亮号（La Lune）”上，这太不可思议了。我们打捞起了一个加泰罗尼亚花瓶（Catalan vase），一个考古学家们根本无法触及的精美花瓶。令人惊叹的是，它出水时完好无损。我们没有划伤它，没有损坏它。在考古学界，这是一个爆炸性的新闻，它为这项技术带来了巨大的关注。这项技术被誉为自雅克·库斯托（Jacques Cousteau）为水下探索带来技术革命以来，最棒的技术突破。

考古当然不是你能做的唯一一件事。你还可以协助科学家。我们曾与科学家一起前往圣托里尼岛的科伦坡火山（Kolumbo volcano）执行任务。此外，还可以进行各种维护操作。人类在水下建造了那么多不便于维护的结构，结果导致了许多事故。试想一下，人类建造的这些结构甚至位于 3000 米深的海底。人类潜水能潜多深？在座有潜水员吗？大概多深？60 米，40、50 米。

是的。但是海洋的平均深度是 3500 米。我们能做什么呢？（叹气）像这样的水下工业结构在 3000 米的深处。所以，当那里真的出了问题时，他们必须把整个结构吊上来，停止生产，然后再把所有东西重新弄一遍。

那珊瑚呢？想想海洋中所有的生命，我们对火星的了解可能比对我们自己的海洋还要多。所以我们每次出海执行任务时，都会带着海洋生物学家和考古学家。能和他们在一起工作、发现新事物并四处移动，那种感觉真是太棒了。你拥有了在深海深处进行作业的能力，几乎就像你亲自在那里一样，因为你把人类的眼睛和感官延伸到了那个环境。

第三章：医疗机器人：跨越洲际的远程超声波操作

Oussama Khatib： 当然，这并不局限于水下机器人。我们正在将同样的技术应用于医疗机器人。

超声波成像（Ultrasound imaging）可以从这种人机界面中获益良多，因为现在超声波医生（sonographer）非常稀缺。而且这种工作对放射科医生的手腕伤害极大。长年累月的工作会损伤手腕，所以如果能有一种更舒适的工作方式，那绝对是件大好事。

现在你有图像，你有病人。这是一个我们用来测试的非常昂贵的仿体（phantom），里面包含各种疾病特征以及所有的人体器官。现在的重点是，放射科医生不一定需要在这个房间里。

他们可以在不同的大楼里，不同的国家，甚至是不同的洲。事实上，这也是我们能用机器人以及远端医生输入来做的事情的延伸。我们知道我们可以通过视觉和声音进行连接，但我们能连接物理的“接触（contact）”信息吗？嗯，如果我们这么做，我们就是在进行远程操作（tele-operation）。我们都知道，在远程操作中，网络延迟（delay）会导致系统不稳定的问题。你获取力反馈然后再将其传回，这种时间延迟会导致不稳定。

我们能做什么呢？我们真的需要把它放在一个单一的反馈控制回路（feedback loop）中吗？我们为什么不构建两个自主系统（two autonomous systems），仅仅让它们相互传达设定点（set point）的输入信息呢？这就完全改变了问题的性质。我们在应对延迟上，轻松地从受限于 150 毫秒放宽到了 1 秒钟，且不会有任何困难。

想象一下这能为那些没有医院渠道的偏远村庄带来什么：我们可以让一位在数千英里外的医生，通过在村庄里由一名技术人员协助的机器人来执行这项操作。这几乎像是一个梦想，因为我们谈论的是超越仅仅传递视觉画面，而是真正实现了触觉上的物理接触。事实上，如果我们做到这一点，我们就可以在全球范围内建立一个网络，将这些移动诊所与简单的机器人连接起来。负责开车的技术人员只需要涂上凝胶、安置好病人即可。而你现在连接到的是一家能够执行整个医学诊断任务的中心医院。

我们在阿布扎比进行了这个测试。不仅是进行超声波成像，更是在全球各地连接并感受真实的物理接触。从左到右你可以看到斯坦福、韩国，另一边是新加坡和德国。

我们在超声波成像方面进行了测试。我临时当了一回“放射科医生”，和大家在这里看到的泰国公主一起，她当时正在尝试那套触觉设备，我们正在从曼谷进行现场直播，一路连接回斯坦福。这就是在斯坦福看到的图像，基本上是曼谷连接到斯坦福。在斯坦福那边，我的学生们凌晨三点还在等着会议开始。这边的医生正在操纵传感器去寻找那些高密度物质的病灶，我完全知道它们在肝脏的什么位置，我就只是在远端进行移动、触摸、感受并执行这整个诊断任务。

各种技术的融合使得这一切变得真正可能：机器人技术的融合，接口与通信技术的融合，以及算法的融合，所有这些使得我们能够做到以前根本无法做到的事情。这就像是从探索海洋、进入火场、矿井，再延伸到所有的医疗应用——我们把人类拉开了距离，或者说我们在利用距离为我们服务，但同时我们又在重新将人类的核心技能连接回去，这是极其关键的。

你希望机器人的那一端尽可能具有自主性，但机器人也是你在远端的传感器。你需要把这种感官信息传回给人类，以便人类做出下一个决策。以前，互联网一直为我们提供看和听的途径。现在我们可以触摸和感觉了。你可以想象围绕这种能力，可以为许多应用构建起由机器和机器人组成的各种网络。

第四章：迈向绝对安全：Maestro机器人的创新设计

Oussama Khatib： 在医疗应用中，安全性（safety）始终是一个永恒的焦点。在机器人领域，我们处理安全问题已经有很多年了。特别是在世纪之交，当我们开始越来越多地构建医疗应用机器人时，业界举办了大量的研讨会并投入精力来应对我们必须真正解决的安全问题。

安全可以通过软件、通过控制层面的安全机制等许多方面来实现，但是如果没有真正在硬件层面上采取措施，谁能保证软件安全或控制算法会 100% 可靠呢？因此，我们需要做的第一件事，就是真正解决机器人的顺应性（compliance）问题，让它尽可能地轻量化。多年来，我们制造了各种不同的机器。最终，我一直在研发一种能够让我们越来越接近绝对安全的全新设计。

这款机器人名叫 Maestro。Maestro 的诞生源于一段可以追溯到 90 年代中期的漫长研发历史。我们当时使用的一款名为 Artisan 的机器人。Artisan 是 DLR（德国宇航中心）LWR 机器人的前身。当我们开始研发 Artisan 时，我们与 DLR 的 Gerd Hirzinger 进行了合作，后来我们看到这款机器人演变成了 KUKA 的机器人（LWR 技术后来转移到了 KUKA）。这项技术在 Franka 身上得到了延续，最近非夕（Flexiv）也推出了类似的技术。

这里的核心在于“扭矩控制（Torque control）”。扭矩控制消除了齿轮传动系统带来的各种复杂感知干扰，为你提供了一个纯粹的扭矩源，现在你就可以实现良好的交互操作，并拥有非常、非常好的安全性了。

但这时的安全性还不能说是 100%，因为你仍然依赖于控制系统和软件能够正常工作。而且这些机构中还存在各种问题，比如它们通常没有相交的轴，如果我们研究线性运动和角运动的问题，我们会发现，仅仅为了旋转一个物体，我们有时却需要机器人本体进行大幅度的移动。

所以，Maestro 以惊人的紧凑性解决了所有这些问题。我也不知道我们是怎么做到把它设计得如此紧凑的（笑）。相比具有三个相交轴的 KUKA 设计，我们的腕部没有任何奇异点（singularity），这一点非常非常重要，同时它还具备完全的安全性。

让我们看这个例子。我们这里有一位病人和一台机器人。我们将告诉机器人：“你面前有一道屏障，不要越界，否则你可能会弄伤我们的病人。”你看着这个工作空间（workspace），你会发现工作空间和人体发生了相交。但你会说：“我有软件和传感器可以防止机器人越界。”嗯，我对此并不满意。

我想让这种安全变成物理层面上的被动安全（passive）。我需要一个工作空间在物理上与人类完全分离、且绝不会与人类相交的机器人。那我们是不是该去买台新的机器人，或者彻底改变设计方式呢？当我们在设计机器人时，我们当然也在设计它的工作空间。我们是如何设计工作空间的？通过关节极限（joint limits），对吧？

那么，让我们在手术开始前，主动地改变关节极限吧。我们将添加一个物理模块，这个模块将重新配置关节的机械极限。这样一来，你原本像这样的工作空间，物理上就变成了这样。

所以现在，这台机器人就像是针对每一项特定任务和每一位特定病人量身定制的另一台机器人，它为你提供了 100% 的安全保证。因为你除非把这台机器人的机械结构直接掰断，否则你绝对无法伸展到那个配置边界之外。

现在所有的这些应用都能从中获益。我们在不同领域有很多相关的工作和应用。你可以看到你如何保护敏感的环境区域，以及你如何通过这种交互创建我所谓的“微创采矿（minimally invasive mining）”。这是一个类似蛇形的机器人，它进入内部，仅仅提取需要的矿物，而不是把整座山头都挖开。它还能在非常恶劣的环境中使用，避免因提取矿物而最终产生有毒化学物质的问题。在太空探索中，我们也已经配置了触觉设备，并在地面上直接控制机器人。在将人类与机器连接方面，我们取得了很大的进展。

第五章：基于技能的控制与多点碰撞模拟

Oussama Khatib： 在所有这些发展的历史中，让我给你们非常简短地回顾一下我们在斯坦福所做过的事情。你们有多少人还记得 Romeo 和 Juliet？我敢肯定没几个人还记得这两台叫 Romeo 和 Juliet 的机器人。让我放给你们看看。Romeo 和 Juliet 是 90 年代中期在斯坦福盖茨楼（Gates building）落成时负责剪彩的。我之所以展示这个，是因为这些机器人传达了一个重要信息。吸尘、熨衣服，以及两个移动机器人之间的相互协作。即使在今天，让两台移动机器人像这样协作也是非常困难的。我们当初是怎么做到的？

秘诀是什么？这就是后来如何在人体骨骼肌肉模型、在斯坦福待了 12 年并演变成柔顺控制（compliant）的 Asimo 项目、以及水下人形机器人项目上得以实施的根本原理。所有这些其实都超越了我们对于“我们该如何通过规划关节运动轨迹和进行交互来控制机器人”的传统想象。

这是斯坦福第一代 Ocean One（注：演讲者口误说成了Asimo，随后更正），大约 10 年前，在潜入地中海之前。

实际上今天是星期几来着？

观众： 13号。

Oussama Khatib： 哦对，13号。所以，下周我们就将庆祝它的 10 周年纪念日了。

这是回收花瓶的画面。哦，是 4 月 15 日。那太好了。（笑）这就是那个著名的加泰罗尼亚花瓶。

现在回到这个问题：我们是如何控制机器人的？

为了完成追踪一个红色小球的任务，我们需要去计算出所有的关节运动角度吗？

我的意思是，这正是大多数人正在做的。你试图找到一些轨迹，然后你控制你的关节去执行那个动作。

然而，对于这台机器人来说，根本没有任何“轨迹（trajectory）”可言，除了机器人的手在试图通过某种“力（force）”去接触目标。为了简化理解，你就想象有一种势能（potential energy）在把你拉向目标；而机器人的身体（body）则受限于另一个准则，即另一种势能，它告诉身体去最大化手臂的运动范围，或者使其尽可能远离关节极限，或者尽可能靠近关节居中的位置。这完全就是一个势能的梯度（gradient）。两个势能梯度在起作用。这里不需要轨迹，不需要逆运动学（inverse kinematics），什么都不需要。因为我们有这样一个关系：$\tau = J^T F$（扭矩等于雅可比矩阵的转置乘以力）。你可以利用 $J^T$ 的零空间（null space），现在通过这两个要素，你既可以在任务空间（task space）控制任务，又可以在零空间中控制机器人的姿态。

这就为我们进一步控制接触（contact）奠定了基础。我们是如何控制接触的？环境在移动。存在一个柔顺坐标系（compliant frame），这个柔顺坐标系采用了一种我们甚至意识不到的人类策略：选择物体中心下方一点的一个柔顺控制点。这个质心将产生关于两个轴的零力矩和一条力矢量。这样我们就根本不用在乎物体的具体位置在哪里了。这就是你如何通过简单的策略执行复杂任务的方法。人类的技能是惊人的。我们能够提取出人类的技能，而不是人类运动所表现出的表面轨迹吗？

我们想要理解隐藏在运动背后的本质。将其应用于机械手抓取与操控（manipulation）是非常棒的，因为这正是机器人学目前遇到真正麻烦的地方。我们在为机器人编程以实现复杂技能方面面临着巨大挑战，我们真的需要理解这些技能，并在上面投入更多精力。因此，我们将使用学习（learning），但不是去记录轨迹，因为记录轨迹在面对刚性接触（rigid contact）和具有任何刚性水平的物体时绝对行不通。你想要做的是找到这个“柔顺坐标系（compliant frame）”，而柔顺坐标系就在那里。什么是柔顺坐标系？它意味着在某些方向上，我有空间可以移动；但在其他方向上，我不能移动，但我可以施加力量。确定这一点将使我们能够重现人类在执行该任务时的策略。

所以在时间片段分割（segmentation）之后，我们不只是把视觉图像直接跟动作连起来。我们需要理解刚才到底发生了什么。当我们记录数据时，我们记录的是力、运动、速度等数据。当你在某个方向上的速度为零，但你看到力在增加时，你就知道发生什么事了。这适用于线性和角速度运动。现在你得到了你的策略。你可以把原来收集的数据全扔掉了，因为现在的策略甚至与使用的是哪种机器人无关了。这只与任务本身相关。如果你想理解用于控制姿态的行为，你可以有不同的数据，你也可以通过基于能量的自运动（self-motion）准则来捕获它，然后你就可以执行它了。

这里有一些我们学习策略的例子。这是 787 客机机翼的一部分，你需要执行一项任务。如果你干扰了正在作业的机器人，机器人仍能利用这些柔顺运动执行那个序列。再次干扰它，机器人仍然会执行并完成任务。在这个场景里，视觉无法帮助你抓取。所以你需要触摸、感觉并找到抓取的法线，然后你才能够执行动作。这是其他的例子。实际上你在这教机器人放置茶杯的策略。当然，我们如何在不同的几何形状、环境和材料属性之间交叉应用这些策略，仍有很多复杂的地方。但我们还需要用于软件测试的仿真平台。在仿真中什么是困难的？

现在的一切都令人惊叹。我的意思是，今天我们有许多仿真系统。但有一个叫做 SAI (Simulation and Active Interfaces) 的系统比较特别，那就是它能处理发生在所有这些多个连杆之间多点多重碰撞（multi-point multi-collision）的问题。如果你真的想与仿真环境进行实时交互，你如何在实时计算中解决这个问题？

从 90 年代中期开始，我们开发了一种算法并不断改进它。大家可以看到，所有这些物体和人形机器人在多个点同时发生碰撞，而这一切都是实时计算出来的。那么秘诀是什么？

秘诀是什么？我刚才提到了在操作空间（operational space）控制末端执行器。

我们是怎么做的？我们将动力学特性投射到碰撞发生的一个参考系上。如果你在这里发生碰撞，你可以把这部分的动力学投射到发生碰撞的地方。（笑）如果你不相信我，随便找人问问去。

基本上，它思考的不是我在这里怎么移动，而是这些环节的组合在这个碰撞点将产生多大的有效质量（effective mass）。你把这个动力学投射到这里，把那个动力学投射到那里。现在你就有两个碰撞中的质量点了。这就是创造能够高效解决多连杆系统多点碰撞算法的关键。这集成在了我们的 SAI 系统中。最近（大家可以去查看 OpenSAI）开放了这个框架的访问权限。

它具备在操作空间中的控制功能，包含了你工作所需的各个方面，并实现了整个架构。机器人学不仅仅是有一个单一控制回路把“我看到的”和“我要做的”连接起来。它是一个多回路系统（multi-loop system），它带我们进入频域（frequency domain）的视角。频域在机械层面控制机器人时是至关重要的。你需要达到千赫兹（kHz）级别的控制频率，但该层次的输入是慢得多的，那个输入是一种需要提取特征的技能指令。所以它自然会在一个慢得多的层级上工作，把那些技能参数发送给控制器。当我们继续在层级上往上走时，这些闭环的速度会越来越慢。所以这是一个多层的回路系统，使得我们能够为系统创造所谓的自主性。

但这仅仅是功能层面的自主性（抓取、操控等）。那么认知层面的自主性在哪里呢？这是个好问题。这就隐藏在背后。我们谈论自主性，说“我的机器人是自主的”。我们也有了自动驾驶汽车，但真正具有挑战性的是“理解其他司机的意图”。在外科手术或复杂操作中，我们需要做出决策，而这些决策需要经验、专业知识、直觉等等。这就是为什么我们需要人机交互接口，有了它我们才能真正做成实事。

实际上，我们的学生正在一门我们教授的名叫《实验机器人学》的课程中使用这套系统。给定框架、环境和机器人，学生们在三周内就能完成这些项目。看看这个。

没有摄像头。完全只依赖力传感器。而这些只是刚上完这门课的学生，他们拿到软件后，就创造出了这样的项目。

这个非常滑。（展示视频中的操作）

在新冠疫情期间，我们没法去实验室，但我们为他们提供了这个用于仿真和控制的环境。大家注意，这些都是基于真实的物理引擎控制的。说真的，它们受到相同架构的控制，在物理上是完全正确的。唯一例外的是，如果仿真里的机器人“生气”了，那结果就不可预料了。（笑，指仿真出现bug时）

第六章：深海实战挑战与Ocean One的未来

Oussama Khatib： 好了，让我们回到 Ocean One 的话题。Ocean One K 是在疫情期间建造的，我们在游泳池里测试机器人，执行各种任务，准备要用的相机等。然后我们把机器人运到了拉西奥塔（La Ciotat，法国南部），机器人准备在那里下潜。这是配套设备，因为机器人不会单独下潜。你需要安装摄像头，需要安装灯光。

这是控制室。我刚才解释过你是如何与机器人连接的。你看到的只有这个狭窄视角的图像，你看不到更多。所以我们有从另外的 ROV（遥控潜水器）拍摄这台机器人的其他显示画面。这样你就能看清整体环境了。

我们下潜去探访了潜艇残骸、以及二战沉船，看看我们带回了什么。这些都是在 350 米深处沉睡了 2000 年的物品，有带有各种装饰的油灯，还有令人惊叹的、原本绝对无法触及的海洋生物样本。最终，机器人继续下潜到 500 米深处，用自带的相机在沉船内部进行拍摄，最后下潜一直深入到海底，带回了这一关键的信息。这是我刚才提到的短视频。是的。

纪录片旁白： 在地中海进行的五次下潜中，Ocean One K 将被推至其极限，尝试达到 850 米的深度。

当太阳在巴斯蒂亚（Bastia）港口升起时，Ocean One 准备在考古学家熟知的一个地点——一艘被称为“阿莱里亚一号（Aleria 1）”的沉船处，迎接它的下一个挑战。

Oussama Khatib： 这一段出自一部长篇纪录片，目前还没有公开发行。这也是为什么我们不得不把刚才某些录像停掉。但那绝对是一次不可思议的探险。在我们的实验室里，我们设计了一切，我们掌控自如。但当你到了野外，你会面临如此多的挑战。电影不会告诉你、我也不会一一告诉你们所有的失败和最终促使我们取得成就的那些挫折。

这是我们的团队。这真是一个令人难以置信的团队，每一天都充满了激动的心情。这次远征横跨了 2021 年的几周和 2022 年的几周，所有这些工作人员、我的学生以及合作者们都参与其中。这是一次伟大的探险，现在学生们正迫不及待地等着下一次出海呢。

非常感谢大家的聆听。

(掌声)

第七章：问答环节

主持人： 现在还有时间提一两个简短的问题。

Oussama Khatib： 好的，后排那位。

提问者： 通常我们在水下使用的航行器都不是被设计成人形的，对吧？那么为什么您决定让它看起来像个人形呢？

Oussama Khatib： 感谢您的提问。在任何非结构化的环境中，你都需要两只手。在水下你没有制造业中常用的固定夹具（fixtures）。所以你需要一只手来帮你扶住物体，这是对的吧？你需要两条手臂来操作这两只手。而且你需要能看到你的手。你需要两只眼睛，你需要感知深度，你需要立体视觉。并且你需要一个机械躯干来承载这一切。

话虽如此，你确实没有必要非得把头部设计得像人类的头。你想把它设计成什么形状都行。

但是，请记住，这同时也是由人在远端引导的。所有与这些环境互动过的考古学家都觉得这非常自然。这就好像你亲自在潜水，你正处于那种姿势下执行任务。所以当你尝试操作它时，它是如此直观，如此容易上手。但我并不反对把它设计得不一样，或者用更抽象的形状，只不过我们同时也利用了头部结构——我们在里面填满了浮力材料，这样我们就可以利用后面的小型电机来移动头部。

另一个挑战是，我们同时也在与其他潜水员互动。因为这是在协助科学家和其他在水下工作的人。他们总是觉得“他（机器人）在跟着我，他在执行操作”，他们谈论起这个机器人就像在谈论另一个人类同事一样。不过，你可以考虑其他的外形概念，但你依然需要实现所有这些功能特性。

提问者： 所以 850 米已经非常壮观了。但您的下一次任务是什么？

Oussama Khatib： 感谢您的提问。你知道，我们永远不会停下脚步，我们会继续前进的。对吧。好消息是，我们用作浮力材料的空心微球（hollow microsphere）泡沫，最大可以承受 5000 米的深度。这是提供浮力的东西。我刚才提到这个了吗？因为没时间细说，但从本质上讲，这是一个具有浮力的漂浮机器人。它在水中“飞行”，而且它的推进器和所有部件都非常轻。如果你非得让机器人搬运重物，那它的体积将会非常巨大、非常重，比如如果你使用金属外壳的全刚性机械臂，那就是完全不同的另一回事了。所以我们使用的是非常“温柔”的手臂，里面充满油，油的压力通过补偿器与你所在深度的外部水压保持一致。

所以，这里应用了许多不同的技术，而所有这些技术在 5000 米深处都是有效的。所以接下来我们可能去挑战 4000 米。因为 4000 米以后，海水密度的变化会带来不同的问题。那是另一个复杂的问题。由于泰坦尼克号（Titanic）只在 3800 米深处，所以我们也不必非得追求更深。但刚才讲过的 Maestro 的设计将会被用在那款新型机器人中。因此未来的机器人将更小、更轻、更紧凑。希望能有机会与 MIT 以及相关中心合作。我们现在正在研发这款新机器人，同时也在规划所有其他的探险任务。

提问者： 可是泰坦尼克号已经是旧闻了。那大家都去过了。那去中途岛（Midway）怎么样？

Oussama Khatib： 是啊。不过这台机器人，实际上我们这台机器人的日程已经被订满了。所以在几周后（大概三周内），我们将把机器人送往新加坡，在圣淘沙（Sentosa）的海洋馆进行潜水表演，那一定会非常有趣。

我喜欢在你能看见它的情况下操作它。最酷的事情是，我们在游泳池里在一米半的深度下开发所有的控制系统并完成了所有测试，而它在 1000 米深处依然能同样完美地运作。水深对控制本身并不重要。我们唯一需要做的就是为海水重新校准浮力。海水的浮力更大，也会带来一些不同的特性。新机器人还会增加一些针对浮心（center of buoyancy）变化的补偿机制。你总是希望浮心与质心（center of mass）重合，但这往往不能永远保持完美，特别是当你移动手臂时。所以我们必须将这两者结合起来解决，这也是我们正在添加一些新功能的原因，但最核心的技术都已经准备就绪了。

现在它主要是一个系统集成的问题了。

主持人： 考虑到时间关系，我知道大家还有更多问题，但我们之后还有社交活动。为了不耽误大家的时间，让我们再次感谢演讲者。感谢 Oussama 带来的精彩讲座。非常感谢。

术语表

原文	中文/译法说明
autonomy	自主性
center of buoyancy	浮心
center of mass	质心
compliance / compliant	顺应性 / 柔顺控制
compliant frame	柔顺坐标系
end effector	末端执行器
frequency domain	频域
haptic feedback / devices	触觉反馈 / 触觉设备
inertia ellipsoid	惯性椭球
inverse kinematics	逆运动学
joint limits	关节极限 / 机械限位
La Lune	月亮号（1664年沉没的法国皇家战舰）
manipulation	（机械手的）抓取与操控
multi-point multi-collision	多点多重碰撞
null space	零空间
operational space	操作空间（指机器人末端执行器的任务空间）
ROV (Remotely Operated Vehicle)	遥控潜水器
SAI (Simulation and Active Interfaces)	仿真与主动接口（Khatib团队开发的机器人控制与仿真框架）
segmentation	时间片段分割（用于分析动作轨迹特征）
self-motion	自运动（指机器人在零空间中不改变末端位姿的关节运动）
singularity	奇异点 / 奇点
stereo	立体视觉
tactile sensing	触觉传感
tele-operation	远程操作
thrusters	（水下机器人的）推进器

导读