来自 Uber、Airbnb、Bumble 等平台的平台市场(Marketplace)经验 | Ramesh Johari(斯坦福大学教授)

Ramesh Johari 2023-11-09

来自 Uber、Airbnb、Bumble 等平台的平台市场(Marketplace)经验 | Ramesh Johari(斯坦福大学教授)


来自 Uber、Airbnb、Bumble 等平台的平台市场(Marketplace)经验 | Ramesh Johari(斯坦福大学教授)


访谈实录

Ramesh Johari: 平台市场有点像打地鼠(whac-a-mole)游戏。我遇到过一个非常喜欢的例子,是我合作过的一家公司,他们的新供给端体验非常糟糕。于是我们决定开发一些定制功能,把这些新用户引导到市场另一端更有经验的人那里去。效果不错,果然,相关指标很快就好转了。但随后我们再看数据,发现”等等,现在另一端的老用户体验变差了”。于是你就像被甩来甩去一样——“哦等等,我们得解决这个问题”。我们就把他们和更有经验的人做匹配,结果一个月后你又发现”等一下”,指标就是这样不停地来回波动。这是因为这场打地鼠游戏的本质在于——平台市场的管理很大程度上就是在调配注意力和库存。许多影响深远的变动都会制造出赢家和输家。而应对这些变动的关键在于判断:你创造出的赢家对业务的重要性,是否超过了在此过程中产生的输家。

Lenny: 今天的嘉宾是 Ramesh Johari。Ramesh 是斯坦福大学教授,研究和教授数据科学方法与实践,专注于在线平台市场的设计与运营。他曾为全球最大的平台市场提供咨询与合作,包括 Airbnb、Uber、Stripe、Bumble、Stitch Fix、Upwork 等。在我们的对话中,我们非常硬核地深入探讨了如何打造一个蓬勃发展的平台市场,包括应该把资源聚焦在何处来推动平台市场的飞轮增长,为什么数据和数据科学对构建成功的平台市场如此核心,如何设计更好的评价系统,为什么作为创始人你不应该把自己定位为”平台市场创始人”,而仅仅是一个”创始人”,以及 AI 将如何影响数据科学、平台市场和实验,还有更多内容。如果你正在构建平台市场业务,或者正在考虑构建平台市场,或者只是好奇,这期节目就是为你准备的。

(广告部分已跳过)

初次结识

Lenny: Ramesh,非常感谢你来参加节目,欢迎来到播客。

Ramesh Johari: 非常感谢邀请我,Lenny。很高兴来到这里。

Lenny: 很高兴你能来。非常感谢 Riley Newman 帮我们牵线。Riley 是 Airbnb 的第一位数据科学家,也是 Airbnb 的数据科学负责人。这个角色实际上很好地缩影了我们今天对话要聚焦的主题。我们要深入探讨平台市场、实验和数据。我知道这是你的专长。准备好深入了吗?

Ramesh Johari: 确实准备好了。其实我也想感谢 Riley。我最开始在 oDesk 担任研究科学家,后来负责他们的数据科学团队,那时认识了 Riley。那是 2012 年的事了,当时我在四处寻找对数据和市场平台有深入理解的人,Riley Newman 进入了我的视野,于是我邀请他来 oDesk 给我们做分享,此后我们一直保持联系。那时还是这个行业的早期阶段,而我在思考这类问题上已经度过了相当长的职业生涯。所以我很期待和你聊聊这些话题。

什么是平台市场业务

Lenny: 让我们从宏观开始,先打一些基础。你对”平台市场业务到底是什么”有一种很有趣的描述方式。那么 Ramesh,什么是平台市场业务?还有,为什么数据如此重要,是构建成功的平台市场业务不可或缺的一部分?

Ramesh Johari: 很有意思,当人们坐下来想一想,比如 Airbnb,Airbnb 卖的是什么?普通人会说:“这不是很明显吗?Airbnb 卖的是房间。我去上面是为了预订一个我想住的房间。“还有人会说:“Uber 卖的是什么?Uber 卖的是乘车服务。我需要从一个地方到另一个地方时就用 Uber。“在某种意义上,你说的没错。你去那个平台确实是为了获得这些东西。但这并不是平台在卖的东西——这是一个非常重要的区分。平台上有人在向你出售这些东西:Airbnb 上的房东在向你出售房源,Uber 上的司机在向你提供乘车服务。但 Uber 和 Airbnb 向你出售的是”消除”某种东西,这听起来有点奇怪。它们消除的是寻找住处的摩擦,它们消除的是寻找司机的摩擦。

摩擦与交易成本

Ramesh Johari: 在经济学中,我们把这些东西叫做交易成本。当你上经济学入门课时,你学到的是市场以及供给如何满足需求,从而产生价格。但直到你上中级经济学课才会学到,市场并不总是有效的。市场不总是有效的原因之一,就是这些摩擦的存在导致了所谓的市场失灵。什么是市场失灵?就是 Lenny 想从 Palo Alto 到 Burlingame,但他做不到。为什么做不到?他找不到人开车送他。那他为什么不直接叫个人来送?他该叫谁?那些人是谁?他们存在吗?他们愿意现在、就在周五上午十点送他吗?他们愿意把他送到目的地吗?

当我在旅行时想找个地方住,一个摩擦就是——谁愿意把房间给我住?原则上确实有人愿意让我住他们的客厅,但我不知道他们是谁。

所以这些就是摩擦,而平台市场向你出售的就是消除这些摩擦。你为这个付费。这是一个重要的观察,因为这意味着平台市场的客户不仅仅是那些购买乘车服务的人,他们也在购买房源信息。实际上,房东也是 Airbnb 的客户,司机也是 Uber 的客户。所以平台市场的双方都是平台的客户。双方都依赖平台来帮助消除这些摩擦。因为就像你需要住处或者需要乘车一样,司机在 Uber 上是因为他想通过载人赚钱。房东在 Airbnb 上是因为他们想通过出售房源赚钱。

我认为”通过消除交易成本来赚钱”这个概念是平台市场领域一个如此基础的理念,却常常被误解。当你作为一个创业者创办平台市场、或者思考你的商业模式时,我觉得如果你忘了这才是你根本的价值主张,你可能会偏离得很远。

数据科学在平台市场中的角色

然后你问到数据、更广义地说数据科学在平台市场中的作用。这是一个很有意思的话题。我最喜欢举的例子是古希腊的集市广场或者罗马的图拉真市场。当你看这些地方的图片时,最引人注目的是石头。这些东西是石头造的。你不可能不搬动大量石头就把一个摊位从一个地方移到另一个地方。

快进到 2023 年,技术已经支撑着几乎所有形式的商业活动。这意味着我们可以即时地架构和重新架构平台市场,而我们确实一直在这样做。

那些被消除的摩擦,正是因为数据和数据科学才得以消除。所以我想向大家强调其中的三个环节,希望大家把它们想象成一个循环。不过先让我们逐个展开。

第一个是找到可匹配的人。这就是”我想找个地方住,谁愿意在特定时间段让我住他们那里?“这个问题。然后如果我是房东,我有房源,谁愿意在我有空的时候住我的房子?这就是寻找匹配。

然后是促成匹配。回到我在 oDesk 工作的经历,当时我们处理的一个大问题是,如果我的职位有多个申请者,我该雇佣谁?我该面试谁?这是我们在现实世界中经常面对的问题,但现在一切都是远程的。我不会跟这些人见面,我有的只是他们提交的申请。我需要帮助来筛选。这就是在可能的匹配对象中帮助促成匹配。

最后,我们促成了匹配。那么,匹配告诉我们什么呢?如果你在 Airbnb 上住了某个地方,你会了解房东的一些情况,了解房源的一些情况。房东也会了解你。这些信息都应该被平台市场反馈回去。这就是我们说的评分系统和反馈系统,甚至包括被动数据采集——你是否在预定期结束前就离开了预订?这可能意味着某些事情没有按你期望的方式进行。这就是被动数据采集。你留了五星好评?那是主动数据采集。

把这些信息都收集回来,然后呢?这让我们在未来能更好地寻找潜在匹配、促成潜在匹配。我刚才说的每一件事——寻找潜在匹配、促成匹配、然后从这些匹配中学习、再循环回去——这就是平台市场中的数据科学。

我觉得你能想到的任何垂直领域的平台市场,都需要处理这三个问题,并依赖算法和数据科学来帮助解决它们。而反过来,我认为这真正是消除那些摩擦的根基。

平台市场最常见的失败模式

Lenny: 很多创始人试图创办平台市场业务,在想还没有平台市场的领域寻找平台市场机会。而某些类型的平台市场在某些领域就是做不起来,存在一些反复出现的失败模式。你刚才聊的时候我就顺手记了几个想法——比如清洁服务,以平台市场的模式做清洁服务似乎从来没成功过。洗车,也是一个经典的失败案例。按需帮你完成各种任务的平台市场模式,看起来也常常做不起来。

所以这可能是一个太大的问题,但我很好奇你是否有任何想法——当有人想创办平台市场、或者在考虑创办平台市场业务时,你觉得最常见的、让人判断”这个平台市场可能做不起来”的缺陷是什么?

Ramesh Johari: 这是一个非常棒的问题,我想先说几点作为铺垫。第一,我与很多不同的平台市场公司合作过,但任何涉及更敏感内容的话题,我在播客中可能不会点出具体公司名称。

但另一点更重要的是,我是斯坦福的教授,我没有成为一个成功地将平台市场规模化创业的企业家,这是有原因的——因为我可能还没有解锁你问的这个问题背后的关键答案。不过,我还是有一些想法。

最重要的一点是:在与那些想创办自己认为是平台市场的人交流时,我发现他们在还不是一个平台市场之前,就想得太多了。在我看来,这是最大的失败模式。

你提到了具体的例子,清洁服务。我也在想这个问题,对吧?是不是清洁行业本身有什么特殊之处?有可能。我不敢自称是清洁行业微观经济学的专家。但通常原因不在于此,而在于我从一开始就认为自己是在做一个平台市场,但现实世界不是这样运作的。我给你们讲一个我很喜欢的小故事,就是 UrbanSitter。

UrbanSitter 的启示

首先是,UrbanSitter 是一个保姆服务平台市场。我们可以聊它的整个发展历程,但我认为最有趣的是它的早期阶段。在早期,我觉得很有意思的一点是,我是怎么知道这个平台的——当时我们自己也在到处找人帮忙。然后我发现了这个新平台,它最巧妙的地方在于:以前请保姆的时候,那是 Venmo 还没出现的年代,你必须手头有现金。因为保姆活干完了,通常就是些高中生之类的,他们想当场拿到钱。他们不会接受你的欠条,说什么第二天寄张支票过去。

而问题是,你经常手头没有现金。他们又不刷信用卡——他们是高中生嘛。这就形成了一个巨大的摩擦。而 UrbanSitter 做的事情就是:我们接受信用卡支付保姆费用。就这么简单,对吧?

从那以后,他们利用家长和保姆之间的 Facebook 社交网络来建立可信的引荐关系。比如我的保姆没空,我就能认识那个保姆的 Facebook 网络里的其他保姆。一旦他们解决了第一个问题,让平台上有了一定的流动性,他们就可以着手去解决我前面提到的那些摩擦了——如何帮人们找到潜在的匹配对象?如何让人们达成这些匹配?但在你的平台还没有流动性的时候,你是做不到这些的。你对别人说”嘿,我真的能帮你找到所有的司机”,结果你平台上只有三个司机——这不是你在解决的摩擦。

从支付摩擦到匹配价值

在他们的例子中,随着业务的发展,他们实际上调整了变现模式——不再专门针对”允许你用信用卡付款”这个摩擦来收费,而是转而针对你如何面试和联系保姆来收费。他们为此设计了两档方案:一个是按次付费的菜单式选项,另一个是更偏订阅制的选项。但关键在于,无论哪种方式,你现在付费买到的是找到潜在保姆的能力,而不是用信用卡付款。那已经不是核心价值了。

那么这里的道理是什么?道理是:平台市场业务从来不是从平台市场业务开始的。因为我们所说的”平台市场业务”,是在规模化之后消除双方找到彼此的摩擦。但当你起步的时候,你没有那个规模。

所以当你起步的时候,你最好想清楚一个问题:“在一个双方都没有规模化流动性的世界里,我的价值主张是什么?“这个问题是量身定制的,对不同的情况意味着不同的事情。以我创办的 oDesk 为例,最初的核心是:远程工作是一件很奇怪的事,因为你得想办法确认那个不在你身边的人确实在按照你的要求做事。所以 oDesk 最初的价值主张是为工作者提供工具,验证他们确实在工作所声称的那些时长,确实在做所声称的那些工作——比如屏幕截图和各种追踪手段。

然后以此为基础,为双方提供保障。工作者可以说:“嘿,我确实做了我说的工作量,所以我应该拿到报酬。“雇主可以说:“我看到你确实做了你说的工作量,所以我放心我付的钱是值得的。“这就是最初的价值主张——解决远程场景下的信任问题。

到了那个阶段,流动性不是核心问题。核心问题是:在这个领域里的人面临的什么问题,是我在还不是规模化平台市场的时候就能解决的?所以回到清洁行业,我可以说说我个人的经验,但除此之外,我认为这就是我的思路。当你建设平台市场的时候,几乎从来不是在建设平台市场。

Lenny: 这跟我总是给平台市场创始人提的建议非常相似——你 90% 的问题都不是平台市场特有的问题。它们跟任何创业公司面临的问题一样:怎么增长?你需要做的事情是一样的。

Ramesh Johari: 你刚才说的是”这是你告诉平台市场创始人的话”。我自己在思考这个问题时,实际上一直在强调的一点是:也许我们根本不应该谈论”平台市场创始人”这个概念。存在的只是创始人。我认为每一位创业者……换一种方式想,几乎没有任何人类商业活动是没有被在线交易所颠覆的潜力的。

如果事实如此,那就意味着字面上任何创始人都是平台市场创始人。是否要搭建平台,是他们成长起来之后才会做的选择。举个很火的近期例子,任何头脑清醒的人最初都不会把 OpenAI 看作一个平台市场,但 OpenAI 现在就是一个平台市场。他们可能不想这么称呼自己,但他们有了插件。插件正在涌入那个平台。用户在试玩各种插件,要找到你需要的插件并不是一件容易的事。这现在真的是一个双边的生态了——有插件创建者,有用户。他们信也好不信也好,他们就是一个平台市场。

每个创始人都是平台市场创始人

所以我认为换一种思路是:每个创始人都是平台市场创始人。是否要成为那个平台,是他们自己的选择。这是第一点。第二点,正因为如此,我发现创始人面临的另一个挑战是:你不想过早地锁定自己的未来。我的意思是,你在早期建立信任,建立自己是什么类型生意的认知。如果你相信未来会走向平台,走向平台市场,那么你在早期做出的一些选择可能会在后来束缚你的手脚。

一个很好的例子是 oDesk 起步时,因为他们提供的工具是用于持续监控工作的,所以很自然地就会说:“我们从平台上流过的每一笔钱中抽一个固定比例。“这在初期一切运转良好,但当你成熟之后,问题就来了。工作者和雇主之间的一些关系持续很长时间,而此时大部分价值已经不再来自于他们能互相追踪——因为信任已经建立了——而是来自于他们找到了彼此,因为他们通过 oDesk 建立了那段关系。

这意味着时间越久,平台在这段关系中增加的价值就越少,但你仍在抽取所有流水的 10%。这会导致什么?大多数平台市场 CEO 都很熟悉的一个词:去中介化(disintermediation)。也就是说,你原本在两方之间充当中介,而去中介化的意思基本上就是他们说:“嘿,我们不再需要你了。”

我最喜欢的一个例子是:有一次我们请了一个 Thumbtack 上的工人来送 IKEA 的家具,我太太说:“太感谢了,你真靠谱。“他说:“嘿,太好了。这是我的名片。以后还需要我,直接打背面的电话就行。“就这样。Thumbtack 获得了一次线索生成,然后我们就不需要这个平台了。


oDesk 的定价困境

Ramesh Johari: 我认为 oDesk 面临的这个困境意味着,在与 Elance 合并成为 Upwork 之后,他们不得不重新思考:“好,我们想用什么变现策略?怎么应对长期关系可能导致去中介化这个问题?这是否意味着我们需要一个能将此因素考虑在内的定价方案?“所以在早期对某种定价方案、某种变现模式做出承诺,可能会在你后来意识到自己其实是一个平台时,严重束缚你的手脚。

Lenny: 我非常喜欢这个观点。这让我想到了 Substack,它最初只是一个面向 Newsletter 作者的平台。后来他们思考:“怎么让这个平台更有价值?“因为他们从每位作者的收入中抽取分成。于是他们大力投入,帮助为作者导流——比如对我来说就是这样。到目前为止,我超过 80% 的订阅者来自 Substack 的网络。所以他们恰好按照你描述的方式构建了平台市场的元素——他们发现了一个痛点:作者需要更多订阅者,怎么帮助他们获取订阅者?于是他们想出了各种创造需求的方法。

扩大边界还是打破契约

Ramesh Johari: 这是一个非常正面的案例,他们通过赋能网络真正拓展了业务的边界。但每出现这样一个正面案例,不幸的是都会伴随许多反面案例。我觉得一个非常痛切的例子是 eBay,随着平台引入越来越多细粒度的费用来源,它与卖家社区之间产生了大量矛盾。

关于 eBay,目前已经有非常多的论述,讨论它的历史、如何走到今天这一步。但我希望大家思考一件很简单的事:eBay 上那些伴随平台成长、一路发展起来的卖家,对自己在平台上的生活状态已经形成了特定的预期。这完全可以理解,因为很多卖家把生计建立在这个平台上,那就是他们的全部事业。

所以当你突然介入并说”我要彻底改变你的商业模式赖以运行的游戏规则”时,从这些卖家的角度来看,这就是对长期形成的隐性契约的撕毁。所以我很喜欢 Substack 的例子,因为那就像是”嘿,让我们强化彼此之间的契约”。但我认为,每有一个这样的正面案例,就会有一个像 eBay 这样的警醒——你可能会把自己困住。

给平台市场创始人的建议

Lenny: 让我来给这个我认为非常重要的观点做个收束。很多听众可能正在想:“我是一个平台市场的创始人,我正在搭建一个平台市场。“听完这些之后可能会想:“糟了,也许我需要重新思考自己在做什么。“对这样的人,你的建议是什么?是聚焦于摩擦点,然后平台市场可能是解决方案,托管型平台市场也可能是解决方案,又或者由你控制供给端?这就是你的建议吗,还是你会给一个说”我正在搭建平台市场”的人什么样的建议?他们应该如何重新审视自己的思路?

Ramesh Johari: 让我们回到平台市场降低摩擦这个概念。我给那些声称自己在做平台市场业务、或自称平台市场创始人的试金石是:你的平台双方是否都实现了我所说的”规模化流动性”(scaled liquidity)?什么是规模化流动性?

用通俗的话说——顺便说一句,我是数据科学家,我很喜欢用定量方式思考这些问题。但从根本上讲,如果连直觉检验都通不过,那你就没必要继续做数据科学了。直觉检验是这样的:规模化流动性问的是,“我的平台上有大量买家和大量卖家吗?还是说我只有其中一方?又或者两方都没有?“如果你两方都没有,你想怎么称呼自己都可以,但此时此刻,你不是平台市场。如果你有一方,恭喜你,你在市场的一侧赢了。这时你面临一个选择。你可以顺势在你做得好的那一侧继续增长。你获得了大量用户、大量买家?很好,顺势而为,获取更多买家。这是一个选项。不是平台市场并不丢人。把业务做大就是做大,如果这条路行得通,就这么做。

用一方带动另一方

如果你决定要成为平台市场,那么当你拥有大量买家但卖家不多,或大量卖家但买家不多时,你面临的选择就是:如何利用已经规模化的一方来吸引另一方?我们可以更深入地讨论这一点,但有很多方法可以实现这种撬动。以 Uber 为例,他们进入一个新城市时,在 Uber Black 还是唯一服务的年代,他们常见的做法是在活动、派对等场合发放免费乘车券,送人回家。这就相当于在说:“我们在补贴这座城市的司机——这是我们已经规模化的一侧。现在我们要利用这个被补贴的司机群体来吸引乘客。”

这就是如何让飞轮转起来的方式。同样,很多人写过如何利用一侧的规模化流动性来吸引另一侧。

如果双方都还没有,不要焦虑。先别操心做平台市场的事。先专注于把一方做大。在那个阶段,你的视野会完全打开——大量创业顾问的建议都适用于此。他们的建议不是关于如何做一个平台市场,而是关于如何做一个创业公司。

我想说的是,这时候你得放下自我。向他人阐述你未来想成为平台或平台市场的愿景,这完全没问题。正如我所说,在现代技术驱动的经济中,几乎每家企业在某个阶段都会有这个选项,所以当你告诉顾问或投资者这一点时,你说的并不是什么别人不知道的事情。但我确实认为,在起步阶段你需要足够谦逊,认识到如果双方都还没有规模化,谈论平台市场毫无意义。

Lenny: 那这就变成了一个商业模式和单位经济的问题——我能做一个 DoorDash,但不以平台市场的形式吗?我可以直接雇佣一批配送人员?走另一条路是否可行?

市场与企业

Ramesh Johari: 对,这是一个很好的观点。你提到的这个问题,在某种程度上其实牵涉到市场一侧应该用员工还是合同工、自由职业者的问题。

这实际上是经济学中一个相当古老的问题。我们通常的讨论方式是区分”市场”和”企业”。经济学中有一个很有趣的谜题——Ronald Coase 是一位思考过这个问题的著名经济学家——“如果市场这么高效,为什么我们需要企业?如果市场能高效地将劳动力与需要完成的工作进行匹配,为什么还需要企业?“这正是最早认识到交易成本是真实存在的观点之一。而企业解决的正是这个问题。


平台市场的劳动力管理:从员工到合同工

Ramesh Johari: 我很赞同你说的,因为它认识到一点:“对于你所面临的那些摩擦,最好的解决方案未必是搭建一个平台市场,可能反而是采用严格控制劳动力模式。“一个很好的例子是 Stitch Fix,我认为 Stitch Fix 早期让人感到惊艳的一点,就是用户与造型师之间的体验。

Lenny: 顺便说一句,我是他们很满意的客户。我觉得……

Ramesh Johari: 对,我觉得那体验之所以出色,是因为你感觉有一个人真的在了解你,而且这是一种关系,不像每次回去都像重新接洽一个自由职业者那样。

另一个我想举的例子是几乎所有医疗健康类平台。比如物理治疗,如果你每次登录一个物理治疗平台,都被随机匹配到当时恰好有空的治疗师,那就很奇怪了。所以我认为这种关系需要一定的筛选与维护。这是否意味着必须采用正式员工?也许不一定。但这确实意味着你必须认真思考——正如你刚才提到的——你的劳动力池的筛选机制本质上是什么样的。

数据在平台市场中的力量

Lenny: 太好了。好,让我们回到你一开始提到的观点——数据的重要性以及数据在提升平台市场效率和效果方面的巨大威力。假设你有一位数据科学家、数据分析师,或者某个人在帮你优化你的平台市场,你通常会发现数据人员能帮你在哪些方面找到最大的杠杆和机会?

Ramesh Johari: 这个问题非常好,对吧?因为我觉得可以从很多不同角度来回答。一个比较基础的问题是:这个人到底应该做什么?我打算稍微回避一下这个问题,我会举一些他们可以做什么的例子,但我觉得具体做什么在很大程度上取决于场景。

比如,在网约车或生鲜配送平台市场中,定价意味着你实际要为那趟车付多少钱,或者为那次配送付多少钱。这就是你下单那一刻实际设定的价格。顺便澄清一下,如果你在 DoorDash 上下单,我不是说餐厅菜品的价格,而是你付给 DoorDash 的那笔费用——有没有附加费,是否因为高峰时段加价之类的,对吧?

但在平台本身不设定价格的平台市场中,这就不是一个问题了。比如在 Airbnb,其实是房东在为自己房源定价。

回答你的问题,一种角度是:如果我处在 Uber、Lyft、DoorDash 这样的公司,我希望有优秀的数据科学家来研究定价问题,因为这看起来应该高度依赖于我平台市场里供给和需求的实时状态。这是一种类型的回答——我是否需要数据科学家来做定价?我是否需要数据科学家来做搜索?为什么是搜索?因为也许在我的平台市场中,大海捞针才是最大的、摩擦最高的问题,所以我可能需要更多数据科学家来研究搜索。

这就是我要回避的部分。我想更专注于一个完全不同的角度,一个关于数据科学家到底在做什么的更偏向哲学层面的观点。

机器学习模型:预测与决策

在如今很多公司中,尤其是大型公司,你让数据科学家做的主要事情之一就是构建所谓的机器学习模型(machine learning model)。而机器学习模型本身对不同人就已经意味着很多不同的东西了。我想聚焦在一个非常具体的点上:你让他们预测某个东西。

我加入 oDesk 时是 2012 年。关于我有一个有趣的事情——我加入 oDesk 之前有大约十年的学术生涯,做的就是建立各种事物的数学模型。在那之前我并不算一个真正的数据科学家。我原本以为到了工业界会有人告诉我:“看看数据有多重要。“而我的眼界确实被打开了。

我最初被要求思考的问题之一是:好,有人来到 oDesk,发布了一个工作,工人申请这个工作——预测哪些工人最有可能被录用。就是这样一个很窄的问题。为什么这是一个好问题?因为我们现在有一整套强大的工具可以精确地解决这类问题。怎么做?取大量历史数据——过去的工作、过去的申请人、过去的录用决定——然后把这些丢给那些庞大的黑箱算法:“来吧,用这些申请人,尽你所能预测谁会被这份工作录用。“然后我们用数据来测试这些算法表现如何。这基本上就是 30 秒讲完的机器学习。所以我们在这个问题上工作,很好。

然后我稍微抬头想了一下:“我们为什么要做这个?这东西要用来做什么?“结果发现这类东西之所以重要,是因为它们被用来做决策。那你会做什么样的决策?一种做法是说:“如果我能预测谁最可能被录用,那我就根据这个来排序,这就成了一个很好的匹配算法——一个在雇主筛选、决定面试谁、录用谁时对申请人进行排序和筛选的好方法。“听起来很自然。

然后你再仔细想想,对我来说,这真的是一个让我非常想让大家理解的事情——这就是为什么在商业中那些帮助我们理解和运用数据的人类环节如此关键。

如果你仔细想想,你会意识到那个算法真正在做的事情,其实就是在历史数据中捕捉模式。所以,是的,这个人很可能被录用。但我们真正想要的其实是别的东西——我们试图通过排名来创造价值。

再举一个类似的例子。当你是一位营销经理,你有一个很厉害的数据科学团队为你构建了一个长期价值、即终身价值(lifetime value, LTV)模型,你把最高价值的促销发给 LTV 最高的客户,没有人会为此找你麻烦,对吧?谁会怪你呢?因为你说:“这个人很有价值,我给他发了这个促销。“在你的月度报告里这么写,没人会为难你。

但这种思维方式的问题在于:预测他们的终身价值其实并不是真正的问题。真正的问题是:因为我发了这个促销,他们会在我的平台上多花多少钱?

这是完全不同的事情。它是一个差值,而不是一个绝对值。我关心的不是他们的绝对 LTV,我真正关心的是因为我发了这个促销而带来的 LTV 的差值。

当你从这个角度来看,你就会意识到可能发生的情况:基于良好的预测来捕捉模式——即通过预测找到那些高 LTV 的人——与做出好的决策是完全不同的。好的决策是说我发送促销后带来的 LTV 差值会更高。


预测与决策的区别

Ramesh Johari: 我非常喜欢这个例子,因为我曾在斯坦福教过一门课,类似高管培训课程。教室里坐满了来自同一家公司的高管,其中一位是首席营销官(CMO)。我就问了这样一个问题:“好吧,假设你有一个很好的 LTV 模型,你会把促销发给谁?“大家一致回答:“当然是 LTV 最高的人。“而 CMO 就坐在那里,所以情况有点微妙,不太好当面反驳。

我想先说明一点,出于品牌声誉的考虑,你可能确实会这么做。我不是要否定这一点。但仅就这个狭义的观点而言——预测是捕捉模式,而决策是要思考这些差值。

那么,为什么这很重要?因为我们在高中就学过:相关不等于因果。这句话人人都听过。它跟这件事有什么关系呢?当我们教人构建机器学习模型时,我们是在要求他们做预测,找相关性。预测本质上就是关于相关性的。但当我们要求人们做决策时,我们是在要求他们思考因果。“如果我做出这个决策,我是否真的能增加企业的净价值?我发送促销后,是否提高了这个人在我平台上消费更多的可能性?”

因此,对于数据科学家应该做什么,我有一个非常强烈的看法,那就是——无论他们是谁,哪怕是那个正在埋头构建招聘预测模型的人——都要让他们在脑海中始终牢记,自己的最终目标是帮助企业做决策。因果关系和相关关系之间的区别至关重要。我们可以进一步讨论这在日常工作中如何体现,但至少作为一个起点,你必须首先认识到:预测和决策不是一回事。

Lenny: 所以这里的启示是,作为数据团队和数据科学家,你的职责是帮助企业做预测——不对,是帮助企业做决策。你能否再举几个例子,说明数据团队经常应该做出、并利用数据来辅助的决策是什么样的?

因果推断与平台市场数据科学飞轮

Ramesh Johari: 也许更好的思考框架是——用学术界的术语来说——因果推断(causal inference)。也就是说,我们要从机器学习转向因果推断。让我们结合之前谈到的平台市场数据科学飞轮——寻找匹配、促成匹配、评估匹配——来分别看几个应用场景。

先说寻找匹配。正如你所说,核心环节是搜索和推荐,而这两者都依赖排序。我需要对搜索结果进行排序。假设我在 Airbnb 上做一次搜索,把不同的房源按顺序排列出来。在某种程度上,我确实是在试图预测——用户最喜欢什么。

但我觉得这里有一个重要的区别需要考虑:当我们要比较两种不同的排序算法时,这才是真正在做的决策。

在比较两种排序算法时,我不希望仅仅看它们多好地复现了人们过去的选择。我真正要评估的是:在我的市场中,哪一种能带来更好或更多的匹配?

以 Airbnb 为例,最核心的业务指标是什么?预订量和收入。所以你要问一个非常基本的问题:如果我用 Lenny 昨晚开发的排序算法,对比 Ramesh 上周开发的排序算法,Lenny 的算法是否能带来更多预订?

用这样直白的方式表述非常重要,因为这个问题和另一个问题截然不同——后者是:Lenny 的排序算法是否比 Ramesh 的算法更好地预测了过去两年人们的预订行为?这两件事完全不在一个层面上。

评估匹配质量

然后我们谈到在促成匹配环节的排序问题,我想招聘的例子就是在那里出现的。因为归根结底,虽然我们可以用预测算法来对候选人进行排序,但这并不是最重要的。

有趣的是,真正重要的问题实际上是评估所促成匹配的质量。而我们可以通过飞轮的下一步来做到这一点——我们会问:客户给那个自由职业者的评分如何?他们是否再次雇佣了那个自由职业者?所以,你比较两种算法的标准,不是它们复现过去的能力,而是它们在未来促成匹配的能力——而这种匹配可以客观地评估:“我提升了业务价值,我确实通过这种方式做出了更好的匹配。“至于评分系统,类似的现象也值得深入讨论。

[广告部分已跳过]

实验的局限与局部最优

Lenny: 我确实很想聊聊评分系统,但你刚才说的一切都隐含了一个含义——即做实验与仅仅观察过去世界中发生的事情是不同的。你做了一个改变,运行实验,看它是否真的对预订量和收入产生了影响。这引出了我想问的一个问题:关于实验,一直存在一个经典的挑战,也是一个绕不过去的问题——如果你只是一味地做实验,你很容易陷入微优化,陷入局部最优,可能会因此错过大的机会和突破。

你花了很多时间思考实验这件事。你有什么心得或建议?对于人们担心过度优化而错失大机会的焦虑,或者如何在运行实验与探索重大新机会之间找到平衡,你有什么想法?


实验的局限与激励陷阱

Ramesh Johari: 首先,我非常高兴你提到了”实验”这个词。我之前一直在绕着它转,很高兴我们终于谈到了实验。因为我们最近这场对话的一个重要启示就是——如果不做实验之类的事情,你怎么可能知道那个差别呢?

所以我是一个实验的坚定信徒。我先把牌亮在桌上:我喜欢和那些认为实验对做出好决策很重要的公司合作。

话虽如此,我对你提出的这个问题也深有感触。那就是,你不可能靠实验解决所有问题。

我喜欢给人们的一个框架是:虽然你可以说自己是一家实验驱动的公司,有些公司甚至会宣称”我们 literally 什么都测”,但这里被忽略的一点是,“什么都测”这个说法本身就有很大的自由度。

因为归根结底,被构建和测试的东西,是通过组织结构做出的选择——数据科学家、产品经理、工程师,所有人都在参与。在运行实验之前,我们其实已经在思考:什么值得做实验?我们要提出什么设计方案?这是第一点。

第二点是,这些实验跑多久?这也是一个重大选择。我总体上认为——有一篇论文我们可以稍后链接到,我也会向你的读者推荐,不是我的论文,是微软一些人写的——我总体上认为,人们在这两个维度上都过于保守:在一个把”什么都测”奉为圭臬的世界里,人们选择测试的东西,往往在设计上就是偏渐进的。我们稍后再回过头来解释为什么。这是第一点。第二,人们倾向于把实验跑很长时间,而且可能跑得比应有的更久。

那么我这两点到底是什么意思呢?让我觉得有意思的是,实验不是存在于真空中的。公司有激励机制。在那些全面拥抱实验的公司里,激励机制往往也和实验绑定在一起。因为如果你全面拥抱实验,一个常见的现象是:数据科学家会根据他们那个季度有多少次”胜利”来被评估。那怎么获得更多胜利呢?

很简单,做渐进式改动更容易获得胜利。而且因为”有胜利”很重要,你必须把实验跑足够长的时间来证明它们确实是胜利。你就不太愿意中途砍掉一个实验,去换一个风险更大的尝试。

所以这篇微软论文的核心教训是——论文题目叫《肥尾下的 A/B 测试》(A/B Testing with Fat Tails),通俗地说就是:你运营的生意中,如果去看实验效果的话,外面可能存在很大的机会。这篇论文给出了几个启示:一是尝试更多不那么保守的东西,二是不一定所有实验都要跑那么久。核心就是提高速度。

“胜利”与”学习”的文化

Ramesh Johari: 所以你可以看到这里面有一个很大的激励问题。因为一种能接受大失败的文化,实际上需要重新定义什么叫”胜利”。这是我在 A/B 测试中最讨厌的事情之一,我得说。我理解它从何而来。但在历史上,科学中的实验从来不是关于赢者和输者的。如果 Ronald Fisher——实验设计之父——在做农业实验的时候谈论”赢家”,那会很奇怪。我认为他不是这样谈论事情的。实验一直是围绕假设驱动的。它的核心是:你学到了什么?

这个区分非常重要。因为它意味着,如果我尝试了一个大的、有风险的东西,它”失败”了——也就是没有赢——但只要我对它所检验的关于我业务的假设保持严谨的态度,我可能学到了很多东西。

举一个很好的例子。平台市场有一个重要功能是”徽章”(badging)。有时候,在搜索结果中给那些评分最高的个人资料加上徽章是非常重要的。

不展开太多细节,关于徽章的一个常见发现是:你以为会很棒的徽章,实际上效果很糟糕。原因之一是,徽章把太多注意力集中在了获得徽章的人身上,从没有徽章的人身上抽走了太多注意力。

如果我们仅仅用赢和输来评判,就会把孩子和洗澡水一起倒掉——你会说:“那个徽章的想法太差了。扔掉,不要徽章。”

但它传达给你的信息不是这样的。它教会你的是库存如何被重新分配、注意力如何通过徽章被重新引导。你真正应该思考的不是赢和输,而是学习。

所以学习本身就是一种胜利。我觉得这从根本上说是一个文化问题。你很难在顶层用金钱来衡量一个数据科学家做的实验”失败了但学到了东西”。归根结底,我认为进入那样一种状态——实验做得更多,意味着你不把每个实验都跑那么久,并愿意尝试那些可能失败得更惨的尾部实验——是一种文化选择。它的意思是:“我们允许这成为我们和数据科学家之间的社会契约的一部分”——甚至可以说是雇佣契约的一部分——而不是一切都只看你发了多少次、赢了多少次。

你当然可以说”我就想这样使用实验”,但如果你要这样做,那就不要做一家”我们什么都测”的公司。因为那样的话,你需要其他方式来处理那些能让整个公司学到很多东西、但可能无法纳入你为数据科学家设立的激励体系的大变革。

Superhost 徽章的故事

Lenny: 这个徽章的例子——我不知道你是不是在说 Airbnb 的案例——但我实际上在 Airbnb 主导了 Superhost 的上线,那就是 Airbnb 上终极的徽章。当时数据团队非常担心它会毁掉整个平台市场,因为他们已经构建了——正如你所描述的——一个非常精巧的排序算法,能够精确预测某位客人最可能预订哪些房源并获得成功。然后我们要在搜索结果中给一些房源扔上一个徽章。我们团队里的一位数据科学家说:“不行,我们不能这么做。这太疯狂了,会把一切都毁掉的。”

我们还是做了。我们跑了一个实验,给一部分人展示徽章,另一部分人不展示。结果——完全没有影响。Superhost 本身对业务没有任何可观测的影响,至少最初是这样的。这感觉也挺五味杂陈的,因为你会想”我们做这个到底是为什么?“不过确实有一个小小的好处——房东感觉更好了,他们对作为房东的满意度提高了。但我确实完整经历了你所描述的那种情况,所以觉得挺有意思的。


Ramesh Johari: 不必深入探讨 Superhost 的数据科学细节,我觉得你刚才说的其实包含了很多层意思。我想补充的另一点是,我非常坚信,在处理实验结果时,你不应该把你对业务的理解抛到脑后。部分原因,我想我的意思是,数据科学本质上是一个证据累积的过程,绝不是孤立地看待某一个发现。所以另一个我认为常见的陷阱是,有时候人们会说:“好,我的 A/B 测试达到统计显著性了,绿灯放行,全面推广。”

我记得你请过 Ronny Kohavi 上过你的节目,他也提出了类似的观点——证据是有不同层级的。仅仅有一个与你对业务的所有认知相悖的异常 A/B 测试结果,并不意味着你就以某种方式推翻了你的全部知识积累。这是问题的一个方面。

另一方面是,你并不总是能测量所有重要的东西,而这些东西对于形成完整的判断又是必需的。以 Superhost 为例,很难测量的是 Superhost 的长期影响。因为在短期内,Superhost 会造成库存的重新分配——必然会有赢家和输家。Superhost 的部分价值实际上在于,获得徽章的房东能在更长时间内被留存下来。认识到这个假设,实际上就暗示了实验可能需要运行多长时间,或者需要做哪些类型的数据分析。

而最终,如果你做不到这一点——你没法把实验跑足够长的时间,或者因为数据稀疏或缺乏数据而无法进行相应的数据分析——那么你自己带入的专业判断就很关键了。你对这件事有什么样的信念?

所以我喜欢告诉人们的做法是,我鼓励大家做”量化思考”而非”数据驱动”。什么意思呢?好吧,确实有些东西我们没法测量。但也许你的领导团队对 Superhost 的留存价值有不同的看法,他们各自的判断可能五花八门。

你可以在这些相互竞争的信念的语境下来处理实验结果。这几乎就像一个预测市场。然后开始问:“好吧,如果我们对业务的认知是这样,而实验数据告诉我们的又是那样,让我们把这两者放在一起来看——这是否足以让我们做出决定,仍然继续推进?“即使你可能做的那个短期测试结果是平的。

Lenny: 回过头来看,这恰好就是我对 Superhost 的看法。那是个好主意,我真的挺高兴的。我甚至无法想象没有 Superhost 的 Airbnb,尽管至少在最初阶段,没有任何证据表明它产生了任何影响。我猜他们后来又重新审视了这件事,也许确实发现了一些效果。但即使它真的没有影响,它就是让人觉得平台市场变得更好了。这对我来说是一个很大的启发——它不一定要总能驱动某个可测量的指标。有时候就是一种直觉:事情就应该是这样的。

Ramesh Johari: 你说的这种情况之所以会出现,原因之一是平台市场有点像打地鼠游戏。我的意思是,就 Superhost 这个具体场景来说,因为你把注意力重新导向了一些房东,代价是……你甚至不太能确定预订量是否真的会上升。也许你运气好,能多出一些预订。但你一开始就不太可能期待这种结果的其中一个原因是,Superhost 的数量是有限的。因为所有这些额外的关注,他们能多吸收多少预订呢?而你同时又把注意力从其他人身上移走了。在完全不做数据分析的情况下,我的先验判断就会是预订量应该是下降的。

有一个我非常喜欢的例子,来自我曾经合作过的一家公司。我们合作了一段时间,某个月我们看了一些数据,显示新入驻的供给侧用户体验相当差。大家说:“我们得对此做点什么。”

于是我们决定开发一些定制功能,把这些新用户导向市场上更有经验的对手方。很好。然后果然,很快这些指标就开始好转了。但接着我们又看了一下,“等一下,现在对方那些老用户的体验变差了。”

于是你就像被甩来甩去一样:“等等,我们得解决这个问题。“所以我们把他们匹配给更有经验的用户。然后一个月后你又发现:“等一下。“你的指标就这么不停地来回晃动。

这就是因为这里的打地鼠游戏本质上在于——平台市场管理的很大一部分工作就是在重新分配注意力和库存。有时候你运气好,真的能把蛋糕做大,让所有人都受益。但 Servaes Tholen——他在 Upwork 做过 CFO,后来去了 Thumbtack——我之前在那边认识了他,他来我们课上做客座讲座时说过一句话,我特别喜欢:“你必须认识到,运营平台市场时,许多最有影响力的变革都会创造赢家和输家。接受这些变革,就是要判断你所创造的赢家对你的业务而言,是否比你在过程中制造的输家更重要。“这是一个残酷的现实,因为没有人喜欢承认一个功能变更正在伤害你平台市场中的一部分人。但由于平台市场运作方式中根深蒂固的这个基本约束,我们选择做的很多事情以及它们所引发的资源再分配,并不一定能在短期内创造出可观测的、大幅扩张的收益。你往往是在下注——赌的就是你正在朝那个方向前进,部分通过你当下所做的再分配来实现。

所以我觉得 Superhost 的案例有趣之处在于,它部分指向了这样一个思考:你在短期内定义的目标是什么?你定义的度量指标是什么?它是否真正捕捉了这种权衡取舍的概念?

Lenny: 这是一个很好的思考方式。我想回到你之前分享的那个观点——也许你应该更快地运行实验,不要等到统计显著性,建立一种重视学习而非影响的文化。但在实践中这非常困难,因为人们是被影响力来衡量的。有绩效考核,有晋升评定,有”这个团队驱动了多少影响”——大家会去看他们的实验结果。你跟很多平台市场公司、很多不同类型的公司合作过。你有没有见过什么做法,能帮助公司转变思维并真正以这种方式运作,同时又能够认可成功——谁做得好、谁做得不好、哪个团队在驱动影响、哪个团队没有?

Ramesh Johari: 有意思的是,这恰好是我目前的一个活跃研究领域。我说的活跃研究领域是指,我非常关注我们通过设置奖励机制为数据科学所创造的激励。所以我认为有几件事可能会有帮助,不过它们可能不太直接——也许我不会直接回答你问的问题,因为我认为那是个很难的问题,对吧?我承认以影响来衡量是关键的。嗯,让我先从最直接的角度来回答。我认为这里有一个至关重要的文化问题。


数据科学家的定位与期望

Ramesh Johari: 我经常发现,我们的博士生毕业后去做了很好的数据科学家工作。从某种意义上说,他们在做的事情很出色,用到了非常精密的技术方法。但当我看他们所处理的问题时,往往是在业务的边缘地带,而不是更核心的地方。

这其实是一个文化问题。因为如果你仅仅以狭隘的影响力来衡量一个人,而周围所有人也都只看这个,那他们就很难去触及业务变革中那些创造性的、战略性的层面。

所以在文化层面,我认为领导者有责任对数据科学家有更高的期望。所谓更高的期望,是指不要只要求他们在报告中交付狭义定义的、统计上严谨的结果,而是要期望他们在过程中也谈谈对业务的认知和理解。这指向一个概念——“假设驱动”(hypothesis driven),这是比较技术化的说法。用更通俗的话来说,这意味着什么?

意味着测试不应该仅仅以赢家和输家来定义。每一个测试还应回答:我们能从业务流程、漏斗、房客偏好、房东偏好中学到什么?如果我们调整定价,能了解到他们的需求弹性吗?这些都是可以在实验文档(experiment doc)、上线文档(launch doc)中清晰表述的——你到底在测试什么假设?所以我认为,在文化上建立这样的规范很重要:学习是对话的一部分,而且是被明确期望的。

利用过去的学习:贝叶斯 A/B 测试

但另一方面,我想谈谈更偏向操作层面的做法——数据科学平台团队可以做什么?实验中一个有趣的现象是,我们实际上在丢弃过去的经验。这是因为我们分析实验的方式造成的:常用的统计方法——P 值、置信区间——都属于频率学派统计(frequentist statistics)的范畴。频率学派统计的核心思想,不过于技术化地说,就是让数据自己说话,不带入任何关于数据来源的先验信念。

但如果你在公司内部思考这件事,在一家做 A/B 测试的公司里,这其实很奇怪,对吧?因为我可能已经对这个完全相同的按钮、行动号召或颜色跑过一千次 A/B 测试了,现在却要完全忽略这些,只关注当前这一次实验。

所以有一些方法可以把过去的经验纳入考虑——在跑实验之前建立一个所谓的先验判断(prior belief),然后拿实验的数据与先验判断结合,得出一个结论:“综合过去和这次实验,它对未来的启示是什么?“这大致属于所谓贝叶斯 A/B 测试(Bayesian A/B testing)的范畴。

有趣的是,我认为这在文化层面也能起到帮助。虽然这是一个非常技术性的东西,但它能在文化上产生积极效果,因为它现在是在奖励人们为先验判断贡献信息。这时你可以说:“你那个失败的实验实际上推动了我们的先验判断。“这一点很重要,因为这样做,你就改变了我们在所有未来实验中如何看待这个流程或定价方案的方式。

如果我能把你学到的东西编码到未来实验的分析中,就对你的业务其余部分产生了一个信息正外部性(positive externality)、正向的网络效应。A/B 测试的文化和激励,与将过去的学习纳入先验判断的能力之间,有着紧密的联系。

Lenny: 我很高兴你在这个领域做研究。等你完成研究、有了终极答案来改变大家的操作方式时,我们应该再邀请你回来。

Ramesh Johari: 教授的伟大之处就在于,我们永远不会完成任何事情,也永远没有终极答案。

Lenny: 天哪。

Ramesh Johari: 不过我会尽力的。

学习不是免费的

Lenny: 这触及了你之前跟我分享的一个非常有趣的概念——学习并不是免费的。人们以为自己可以学到一堆东西而不需要付出代价。我很想听听你谈谈这个观点意味着什么。

Ramesh Johari: 让我从一个故事开始,我非常喜欢这个故事,每年上课都会用。我曾经跟一个房地产平台交流,他们有一位营销数据科学经理,跟很多营销经理一样,负责在不同渠道之间分配广告支出。

到了年底他们发现,一方面团队做得很好,但另一方面这位经理私扣了一部分来访用户,没有向他们展示团队正在做的任何创新。

Lenny: 类似一个对照组(holdout group)?

Ramesh Johari: 没错,就是实验中所谓的对照组(holdout group)。但这个对照组是未经授权的——这不是正常的操作方式。你的广告预算给了你,你去分配就好了。所以到了年底,他们看了这个对照组的数据,说:“哇,这花了我们几百万美元,大致是那个量级。这可不是小数目。怎么回事?你当时在想什么?” 当然,那位经理的回答是:“我知道我花了你们那么多钱,但第一,现在你知道我的团队值多少了。第二,如果我不自己这么做,你永远也不会知道这个答案。”

为什么这个故事这么有力量?我觉得实验最有趣的地方在于:当你不知道答案时,把样本分配给所有选项——处理组和对照组——这似乎根本不是一个需要犹豫的问题。我有两种做事的方式,不知道哪个更好,当然要各给一些样本。但事后你回头看:“处理组更好。我们当时在想什么?为什么给对照组那么多样本?这说不通啊。” 这让我想起《宋飞正传》(Seinfeld)里的一个片段:吃完一顿丰盛的大餐后收到账单,大家盯着账单说:“我们现在又不饿了,怎么点了这么多菜?“道理是一样的。你现在知道处理组更好了——当初为什么在对照组上浪费那么多样本?

我认为这是一个非常有力的观察:你必须把自己放回到那个还没有答案的视角中去。在那一刻,你本质上是在对自己说——为了学到这个答案,值得付出代价。我们现在这样说,或者这个营销经理和对照组的故事,听起来似乎显而易见。但我认为在文化上并没有真正内化这个观念。我之所以说它没有被文化内化,是因为我们使用的”赢家和输家”这种语言。因为如果我们用这种语言,言下之意就是:当我们在 A/B 测试中跑了一个输家时,我们浪费了时间。如果我奖励你上线赢家,那我真正在告诉你的是——你在测试失败上花的时间全是浪费的。

当然,我不是说你想留下一批只会不断制造失败的数据科学家。这不是我的观点。


但我的观点是,这里存在一种断裂。一方面,我们都能看着那位营销经理的故事付之一笑;但另一方面,我们每天都在使用着强化同一主题的语言和流程,本质上是在告诉你:“如果你把样本浪费在那些最终没有成为赢家的东西上,那么这样做本身就是一种失败。”

所以,我真的认为”必须为学习付出代价”这个理念——这不仅是文化层面的问题,也是企业内部的教育问题。企业里汇聚了各种背景的人,并非每个人都来自数据科学或实验领域。而”学习是有成本的”这个观念,实际上并不自然。从人性角度看它不自然,从经营企业的角度看它也不自然。

Lenny: 我非常喜欢那个房地产平台的例子,那种损失非常直观、非常清晰——因为他们长时间没有对那个群体推出实验,所以遭受了损失。这是这个理念在实践中极好的一个案例。

你提到了星级评分。我知道你在评级系统设计上花了大量时间。抱歉,我不是特指星级评分,那只是其中一种实现方式,我想说的是评级系统整体。

那么,为了聚焦话题——假设一位平台市场创始人正在决定和设计他们如何做评分、评论等机制,你会给他们哪几条建议?有没有一个你可以推荐给他们作为标杆的平台市场,你会说”这家做得真的很好”?我知道这非常取决于具体平台市场的类型,但有没有哪个让你觉得”他们真的搞定了”?

评级系统的挑战与评分通胀

Ramesh Johari: 天哪,这问题太难了。我想先回答第二部分。我不觉得有谁真的搞定了这个问题。确实发生了很多创新,但从根本上说,我们仍然在使用与 eBay 和 Amazon 最初思考评级系统时相同的工具。

我们之所以还没搞定,部分原因在于系统中有很多动态机制会导致所谓的”评分通胀”——如果你观察平台市场中评分随时间的变化……我的一位同事 John Horton,他是 MIT 的教授,与 Upwork 有密切合作。我在 oDesk 的时候,他是那里的驻站经济学家,我们一起共事过。他写了几篇很好的论文,描述了这个经验现象:随着时间推移,你会看到中位数评分在不断膨胀,比如在 oDesk、Uber 等平台上。

原因有很多,但其中之一是互惠性问题。从你的角度来看,如果有人对你说”请给我留个好评价”,你的成本几乎为零。而且如果你还要继续和这个人打交道或互动,大多数人不想显得刻薄。所以这种情况就会发生。

但还有另一个层面,就是”规范化”效应。随着平台市场中的评分整体上升,标准也随之被重新校准,于是你就处于这样一种状态——“四星评价?我这是在坑这个人。“而在平台市场刚起步的时候,你可能并不会这么想。

所以,我们在研究中确实花了心思思考”重新规范”这些标签的含义。重新规范可以意味着,星级评分不再只是从差到优秀,而是最高评分代表”超出预期”。你还可以更进一步,问:“这次体验与你之前给过高分的体验相比如何?“Airbnb 曾经有过类似的做法,他们会让你进行比较,或者问你关于预期的问题。

我觉得这非常有价值,因为对人们来说,说”还不错,但没有超出我的预期”或者”还不错,但肯定比不上我两个月前那次超棒的住宿”要容易得多,而说”我要给这个人扣分,只给四星”就要难得多。这是第一个问题。

评分平均的分布公平性问题

我想对任何平台市场创始人指出的另一点是,你需要非常小心”平均”这个概念,以及平均化意味着什么。因为许多平台市场的默认做法就是把人们得到的评分取平均。感觉很自然,对吧?Lenny 有五个评分,我来取个平均。

但这实际上对平台市场有一些相当重要的分配后果。“分配”是指谁赢谁输。因为如果你使用平均分,而且你在平台上已经非常成熟了——想象一下 Yelp 上有一万条评价的餐厅——下一条评价是什么完全无关紧要。无所谓。到了那个阶段,什么都动摇不了它。

但如果你是刚进入这个市场的新人,你的第一条评价是负面的,你可能就彻底完了。事实上,关于 eBay 的一些早期研究表明,如果你的第一条评分是负面的,可能立即导致你短期预期收入下降 8%,更不用说长期后果了。后续研究发现,这是退出平台的一个显著指标——仅仅因为现在很难找到活干。有些平台会采取一些措施,比如在你积累到一定数量的评价之前不显示你的评分。

但归根结底,平均化带来的这种分配公平性问题是非常显著的。我们最近写的一篇论文就是试图让平台开始思考这个问题。有趣的是,可以通过”先验判断”(prior)这个概念来解决这个问题。先验判断的基本思路是:如果有人进入平台市场,我不是简单地对他取平均,而是把他与一个先验信念放在一起取平均。那么这个先验信念的作用就是说:“是的,你得到了一个负面评价,但也许你只是运气不好。“而我的先验信念可能会把你的评分往上拉一点,让你仍然能和平台市场中的其他人并列,给你一个获得工作、获得订单等的机会。

所以我相当坚定地相信,评级系统设计中这种分配公平性的维度非常重要。我认为它被研究得远远不够。说句更概括的话——我认为评级系统整体都被研究得不够,这让我感到震惊。因为从那些集市广场和图拉真市场那样的传统市场到现在,在我看来最大的变化就是:我们现在能够看到匹配的结果如何。

所以,作为一个在平台市场领域工作的数据科学家,我觉得很不可思议——我们当中居然没有更多人花时间思考我们从匹配中学到了什么,这些评级系统在告诉我们什么,以及这对市场中谁赢谁输产生了什么影响,思考这些东西的社会影响。这是我很热衷的事情。

双盲评价的设计

Lenny: 我在 Airbnb 的时候也负责过一段时间的评价系统流程。我最引以为豪的成果之一是推出了我们所谓的”双盲评价”——在你留下自己的评价之前,你看不到对方的评价。初衷是创造更多诚实、更准确的评价。

结果发现,最大的影响是评价率大幅上升了。因为人们会收到这样的邮件:“Ramesh 给你留了一条评价。如果你想看到它,你也应该留下评价。“这真的提高了评价率,从而给了我们更多数据。这是一个非常有意思的实验。


Ramesh Johari: 评价系统的文献中有一个很棒的概念,叫做”沉默之声”(sound of silence),意思是那些没有被留下的评价中蕴含着大量信息。Berkeley 的教授 Steve Tadelis 曾和 eBay 的一些人合作发表过一篇非常好的论文,讨论他们所谓的”有效好评率”(effective percent positive)——不是仅对已留下的评价做归一化,而是把未留下的评价也纳入归一化分母。结果发现,这个指标对卖家后续表现的预测力要强得多。所以,“没有回应”这件事本身就包含了大量信息。你能从中获取更多这类数据,确实很棒。

Lenny: 不留评价可比留差评容易多了,对吧?对你来说不作为的代价就是更低。天哪,平台市场真是太迷人了。我能理解为什么创始人会想做一个平台市场创始人,因为这个领域实在太有趣了。而听到你的反馈说”不,你不是做平台市场的料”,让我们想想你真正要解决的问题——它可能是平台市场,这种思路可能会改变人们的想法。另外,我觉得我们触及的每个话题都能单独做一期播客。我知道很多东西我们都只是浅尝辄止。

我知道你得走了。在我们进入快问快答环节之前,还有什么你想特别强调的、想分享给那些正在做平台市场或考虑做平台市场的人的吗?

AI 与数据科学的未来

Ramesh Johari: 我想强调的一个高层次观点是——正如你所说,这个话题可以聊整整一期播客——我觉得人们总是想象大语言模型和 AI 驱动的数据科学会自动化掉工业界数据科学工作中的很大一部分。我认为这个视角可能是错的。在某种平凡的意义上,这是对的——我写代码比以前更容易了,做可视化比以前更容易了,搭建仪表盘更快了。所以在编程层面,我觉得在某种基本意义上确实如此。

但我相当坚信的一点是——我在这里教授数据科学,我的学生每周都要在所有作业中使用大语言模型和生成式 AI,所以我对这一点有非常切身的观察——AI 实际上为我们做的,是极大地扩展了我们可以思考问题的边界,我们可以提出的假设,我们可以测试的东西。它带来的是解释、想法和原则的天文数字般的爆发。

而我真正认为的是,这实际上给人类施加了更大的压力,而不是更小。我认为人类”人在回路中”与这些工具进行交互变得更加重要,以便驱动那个从海量可能性中筛选出关键因素的漏斗过程,这在各个层面都是如此。比如你在做一份数据科学分析,现在因为有了这些工具,你可以提出 10 种解释,甚至 100 种解释。你要把注意力集中在哪些上面?你要告诉其他人把注意力集中在哪些上面?再比如你做实验,过去测试一个营销活动可能只有 10 个创意素材,现在你有 1000 个创意素材。这可能彻底改变了做实验的含义。你现在到底在寻找什么?你怎么评估你找到的东西足够好了?

我认为这些问题没有得到足够的关注。人们在寻找那个能把人类彻底剔除出去的自动化工具。但据我目前所见——当然,谁知道呢?也许到 2024 年我会给你一个完全不同的答案。我不这么认为。但就目前而言,我看到的是人类实际上在高效的数据科学闭环中变得远比以前重要,而不是更不重要。

Lenny: 这是一个非常重要的观点。我觉得我们需要给这个播客加一个 AI 角落,每次都思考一下 AI 如何影响我们正在讨论的话题。

Ramesh Johari: 是的,我能想象,完全能想象。

Lenny: 好的,我们可能真的会开始这么做。Ramesh,说到这里,我们已经到了令人兴奋的快问快答环节。我有六个问题。让我们尽快过一遍,这样你就能去上课了。准备好了吗?

Ramesh Johari: 准备好了。

快问快答

Lenny: 好的。你有哪两三本最常推荐给别人的书?

Ramesh Johari: 说到书,我有一本最喜欢的,总是第一个推荐——《How to Lie with Statistics》。这是一本很小的书,作者是 Darrell Huff,1954 年出版的。对于任何层面上喜欢数据的人来说,这都是一本非常有趣的读物,很棒的书。

第二本我推荐给人们的,其实即使对非专业人士也同样适用——David Freedman 是 Berkeley 的一位统计学家,在 2000 年代初去世了。他的写作非常出色,能引导我们认真思考过程。他特别推崇他所谓的”皮鞋统计”(shoe leather statistics)——卷起袖子,脚踏实地,真正深入进去,真正努力理解你的数据。

他的文笔和讲解都非常出色。他有几本不同层次的书,我觉得人们都会喜欢读。最重要的是,我喜欢他如此强调对生成数据的过程进行深入取证和理解。而我经常发现,数据科学家甚至连数据样本都不看。

比如在 oDesk,这意味着你有没有去看实际的工作内容,有没有去看你的产品里到底在发生什么,然后再对它做数据科学?我认为这就是 Freedman 的洞见、Freedman 的信条,他的著作真的很棒。

最后一本我想提到的,跟数据科学什么的毫无关系。叫《Four Thousand Weeks》,作者是 Oliver Burkeman。我不是那种热衷于自助类书籍的人,但我真的很喜欢这本书。它有点斯多葛哲学的味道。但核心观点是,你在地球上大约只有 4000 周的时间。我妻子和我有个说法叫”无限队列”(infinite Q)——不管你觉得某一天完成了多少事,总有更多的事情会不断涌入。

他基本上说,认识到这一点反而是种解脱。因为一旦你认识到了,不管你做什么,你总是会有做不完的事。没必要因为事情太多而焦虑。仅仅是这种心态上的小转变,就把更多的注意力放到了人们通常担心的问题上:我应该把时间优先花在哪里?他有一种很好的方式来讲述这个道理,还有一些具体的经验法则来帮助管理这种思维方式。是的,我觉得这是一本很棒的书。

Lenny: 你最喜欢的近期电影或电视剧是什么?

Ramesh Johari: 我是一名攀岩爱好者,有一部电影我非常喜欢——《The Alpinist》。我知道很多人都看过《Free Solo》,但对于喜欢那个类型的人,我会推荐他们看《The Alpinist》。

我觉得攀岩是一项很有意思的运动,因为它有很强的心理层面。而那部电影在元层面也做得很好,让你反思一下:拍摄那些显然把自己置于如此危险境地的人,拍一部关于他们的电影意味着什么?所以我真的很喜欢。

电视剧方面,我们一直在看《Only Murders in the Building》,但我现在落下了好几集,所以我就不多说了,因为我在努力避免任何剧透,我相信听众中也有人也在做同样的事。不过确实是 Hulu 上一部很棒的剧。

Lenny: 你面试候选人时最喜欢问的问题是什么?

Ramesh Johari: 我面试的人可能和你播客的大多数听众不太一样。不过话虽如此,有一个问题我很喜欢经常问,那就是……在学术界的面试中,不管是招研究生还是招教员,我们通常会问对方的计划。

我喜欢问的是:“好,现在想象一下,一切都顺利了——你面临的所有挑战都解决了,你的所有计划都实现了,一切都达到了你设想的上限。你想象一下,做到这一点之后会产生什么影响?谁会因此受到影响?这件事为什么意义重大?”

我发现这是一个非常有价值的问题,因为首先,很多人根本没有想过这个问题。我们太专注于短期,根本没想过”天哪,如果一切顺利,我做的事情会有多大的意义?“当然,创业者在这一点上通常比大多数人做得更好。

另一个我喜欢这个问题的原因是,在对话中你会发现,他们的视野会扩展一些——会触及到他们原本没想到的、会受到影响的其他领域。所以从两个角度来看,这都是一个很有揭示力的问题。这对我的行业很重要,但我直觉认为,这对你的一些听众可能也有用。

面试方式与 AI

Lenny: 相比我在科技公司采访的大多数嘉宾,这是一个非常独特的面试视角。

Ramesh Johari: 对,通常面试都是问编程题,对吧?不过我要说,2022 年 11 月之后我再也不问编程题了——自从我们有了 AI 来帮我们写代码。我认为这是一种超能力。

最近发现的好产品

Lenny: AI 角落。你最近有没有发现什么特别喜欢的产品?

Ramesh Johari: 我也很喜欢骑自行车。而且我不羞于承认,我认为电动自行车是自行车界最伟大的发明。诚然,我已经四十多岁了,也许我正是目标用户群体。但我真的很喜欢我的电动公路车。它不是那种带油门的——你还是得自己踩——但当你爬到第六个坡、回家路上不想再爬最后一个坡的时候,它就会恰到好处地助力。这真的很棒。我认为对于喜欢骑行但生活忙碌的人来说,这是革命性的。

还有一件,其实是我十岁的儿子拉我入坑的。我们在 Santa Cruz 逛一家厨具店,他看到了一个户外披萨烤箱——很小、便携的那种。然后他花了两个星期做研究,坚持要我们买一个。

于是暑假的时候他买了一个,买了之后,作为一个十岁的孩子,他再也不愿意出去吃披萨了。这也许是我对家用便携户外披萨炉做出的披萨品质最好的背书了。

Lenny: 天哪,我都饿了。我现在得去弄点披萨吃了。

人生座右铭

Lenny: 你有没有什么喜欢对自己重复、分享给他人、在日常生活中觉得有用的人生座右铭?

Ramesh Johari: 我的工作很大程度上涉及和各种各样学生交流。这些学生后来有的成了数据科学家,有的成了创始人,很多进入了科技行业。所以从这个意义上说,我的建议可能是相关的。

我最常告诉人们的就是:慢下来。我发现,我们太相信速度是找到正确答案的方式,以至于我们根本不慢下来去建立对所做之事的有意义的心智模型。在我参与的研究项目中确实如此。当我和商业界的人交谈、问他们的……所谓心智模型,我的意思是:如果你在运营一个平台市场,你对用户关心什么有什么模型?什么让人留下、什么让人离开?什么让匹配成功、什么让匹配失败?所有这些东西会在你脑中形成一张路线图。而我觉得现在很多路线规划、很多执行、学术界很多论文写作,都变得越来越快节奏,代价是对你所构建之物的结构性特征缺乏更深入的思考。

所以不管是和我的学生,还是和工业界的人交流,我认为慢下来实际上是一种被低估的美德。

Lenny: 这和最近一位嘉宾分享的座右铭非常相似,我想是”慢即是快”,或者”保持平稳才能快”。

Ramesh Johari: 说得好,我很喜欢。也许我去跟研究生谈话时会借用一下。

斯坦福教授的真实体验

Lenny: 最后一个问题。你是斯坦福大学的教授,听起来非常酷。关于在斯坦福当教授——不管是特指斯坦福还是泛指——有什么让人意想不到的事情,好的坏的都行?

Ramesh Johari: 嗯,我们经历了一段艰难时期,大家可能都知道。斯坦福上了很多新闻,过去五年尤其如此,原因都不太光彩。

所以我不知道这算不算”惊喜”,但我觉得在斯坦福让我感到很有活力的一点是,这里从来没有人要求我出示资历证明。我的意思是,我之前在其他几所很好的学校待过,显然也在工业界和一些很棒的公司共事过。在很多地方容易形成的一种文化动态是:“在我跟你交谈之前,我得先知道你值不值得聊。把你的资历亮出来。你在哪里读的研究生?在哪里当教授?先介绍一下你自己。”

我来这里之后感到非常惊讶的一件事是,这种情况在任何层级都没有发生过。研究生们经常跟我说——你可以直接去校园另一头找某人,一上来就聊你的 X 怎么和我的 Y 结合,我们能一起做什么。作为教员,这种事更是家常便饭。就在前几天,我还在和一个人聊关于纳米加工实验设计平台市场的事情——这完全不在我的专业领域内,但我们的对话毫无障碍。我们讨论的是实质内容,而不是互相展示资历。

我真的认为部分原因在于斯坦福的独特之处——它在各个领域都没有短板。我们有很强的职业学院——法学院、商学院、医学院——有很强的工程学院,有很强的人文和社会科学。然后我通常还会加上天气——这话我是认真的,天气很重要。人们愿意走到任何地方去。我觉得这些因素共同营造了一种不需要对每个人查验资历的文化和环境。

我认为这意义非凡。这是我在其他地方没有发现的。如果有人想知道斯坦福内部是什么样,我觉得这是一个不太常被讨论的方面。这也是让在这里工作变得非常有趣的原因之一。

Lenny: 而且斯坦福的校园也梦幻极了,走在里面非常愉悦。这肯定也有帮助。Ramesh,我觉得我们让听众的大脑都在嗡嗡作响了。我想我们既催生了新的平台市场创始人,也可能说服了一些人他们其实不适合做平台市场创始人。所以也许我们净增了零个新创始人。最后两个问题:人们想联系你的话在网上哪里能找到你?听众怎样才能帮到你?

Ramesh Johari: 如果是对工业界方向更感兴趣的人,最简单的方式可能是 LinkedIn。你可以在那里给我发消息或加我好友。另外,因为我是学术界的,我也有自己的斯坦福主页,找到我的方式也很简单。

Ramesh Johari: 听众怎样才能帮到我?我觉得正在听这个节目的人能做的最重要的事情,就是把我们在节目中讨论的关于数据素养意味着什么的理念带回去、传播出去。我认为在提升数据素养方面,你能做的事情有很多。

最后再分享一个想法:就像 AI 能生成大量创意一样,AI 也会生成大量文字。而在数据科学领域,这实际上可能是致命的,因为你会得到更多的解释,而其中有些可能是多余的。

所以把这一点当作一个小故事来看,我认为这个世界需要的是人们在与其他工具和彼此时互动时具备数据素养。这是我最关心的事情。我所教授的课程、我所做的研究,都与这个主题相连。这也是我感到兴奋的地方。我确实会定期与企业合作,所以如果有有趣的机遇落在我们在播客中讨论过的这些领域内,我总是很乐意倾听。

Lenny: 太棒了。我想我们在帮助人们提升数据素养方面已经有所推进。Ramesh,非常感谢你来到这里。

Ramesh Johari: 好的,非常感谢你,Lenny。

Lenny: 大家再见。

非常感谢你的收听。如果你觉得这期节目有价值,可以在 Apple Podcasts、Spotify 或你最喜欢的播客应用上订阅本节目。另外,请考虑给我们评分或留下评论,因为这真的能帮助其他听众发现这个播客。你可以在 lennyspodcast.com 找到所有往期节目或了解更多关于本节目的信息。下期再见。

术语表

原文中文
Agora集市广场
AirbnbAirbnb(平台名,保留原文)
badging徽章
Bayesian A/B testing贝叶斯 A/B 测试
black box algorithms黑箱算法
causal inference因果推断
CMO首席营销官(CMO)
credentialing资历证明
Darrell HuffDarrell Huff(人名,保留原文)
data literate / data literacy数据素养
David FreedmanDavid Freedman(人名,保留原文)
disintermediation去中介化
distributional fairness分配公平性
DoorDashDoorDash(平台名,保留原文)
double-blind reviews双盲评价
effective percent positive有效好评率
flywheel飞轮
Four Thousand WeeksFour Thousand Weeks(书名,保留原文)
Free SoloFree Solo(电影名,保留原文)
frequentist statistics频率学派统计
friction摩擦(指交易成本/障碍)
holdout group对照组
How to Lie with StatisticsHow to Lie with Statistics(书名,保留原文)
HuluHulu(平台名,保留原文)
humans in the loop人在回路中
hypothesis driven假设驱动
infinite Q无限队列
John HortonJohn Horton(人名,保留原文)
lead gen线索生成
LennyLenny(人名,保留原文)
lifetime value, LTV终身价值(LTV)
LinkedInLinkedIn(平台名,保留原文)
liquidity流动性
litmus test试金石
local maxima局部最优
LyftLyft(平台名,保留原文)
machine learning model机器学习模型
market failure市场失灵
Marketplace平台市场
matching algorithm匹配算法
mental model心智模型
nano fabrication纳米加工
norming规范化
oDeskoDesk(平台名,保留原文)
Oliver BurkemanOliver Burkeman(人名,保留原文)
Only Murders in the BuildingOnly Murders in the Building(剧名,保留原文)
out of left field意想不到的领域
positive externality正外部性
prediction market预测市场
prior先验判断
quantified量化思考
Ramesh JohariRamesh Johari(人名,保留原文)
rating inflation评分通胀
reciprocity互惠性
renorming重新规范
roadmap路线图
roadmapping路线规划
Ronald Coase罗纳德·科斯
Ronald FisherRonald Fisher(实验设计之父,保留原文)
Ronny KohaviRonny Kohari(人名,保留原文)
Santa CruzSanta Cruz(地名,保留原文)
scaled liquidity规模化流动性
Seinfeld《宋飞正传》
Servaes TholenServaes Tholen(人名,保留原文)
shoe leather statistics皮鞋统计
smell test直觉检验
sound of silence沉默之声
Stanford斯坦福
stat sig统计显著性
Steve TadelisSteve Tadelis(人名,保留原文)
Stitch FixStitch Fix(品牌名,保留原文)
SuperhostSuperhost(Airbnb 功能名,保留原文)
The AlpinistThe Alpinist(电影名,保留原文)
ThumbtackThumbtack(平台名,保留原文)
Trajan’s Market图拉真市场
transaction costs交易成本
UberUber(平台名,保留原文)
unit economics单位经济
UpworkUpwork(平台名,保留原文)
UrbanSitterUrbanSitter(平台名,保留原文)
VenmoVenmo(支付服务名,保留原文)
vignette小故事
whac-a-mole打地鼠游戏

此文档由 AI 分片翻译(translate_long_document)