
多年来,在线实验推动了亚马逊、Alphabet、Meta、微软和Netflix等领先科技公司的创新,使它们能够快速测试并完善新的创意、优化产品功能、个性化用户体验,并保持竞争优势。
如今,由于实验工具的普及和成本的降低,大多数公司,甚至是科技领域之外的公司,都会开展在线实验。
然而,许多公司只在少数精心挑选的项目上使用在线实验。这是因为只有公司的数据科学家才有能力设计、运行和分析测试,而这种方式无法实现规模化,但同时规模又非常重要。微软公司所做的研究(在其他公司也得到了验证)表明,进行大量测试的团队和公司的表现,要优于那些只进行少量测试的团队和公司,原因有两点:首先,因为大多数的创意不会产生积极的影响,同时哪些创意会成功又很难预测,所以公司必须进行大量的测试。其次,随着AI(尤其是生成式AI)的发展,公司可以更便宜、更容易地创造出海量的数字产品体验,因此必须大幅增加实验次数,要达到数百次甚至数千次,才能保持竞争力。
要将实验规模化,公司就必须转变以数据科学家为中心的实验方式,让产品、营销、工程和运营团队中的每个人,包括产品经理、软件工程师、设计师、营销经理和搜索引擎优化专家在内,都有能力进行实验。但这也会带来挑战。根据我们为爱彼迎、领英、Eppo、Netflix和Optimizely等领先公司工作和咨询服务的经验,我们在此呈现一份利用实验来提高公司竞争优势的路线图,其具体的方法是:(1)迁移到自助服务模式,为每年测试数百个甚至数千个创意赋能;(2)专注于假设驱动型创新,既从单一实验中学习,也要跨实验学习,根据客户的反馈推动战略选择。这两个步骤齐头并进,就可以让公司相比竞争对手更快地进行创新和学习,从而为在AI时代取得成功做好准备(本文所表达的观点仅代表作者的观点,并不代表文中所提及公司的立场)。
当前的状态
实验的基本原理很简单。进行一项A/B测试包括三个主要步骤:创建一个偏离现状的挑战者(或变体);定义一个目标人群(测试所针对的客户子集);选择一个用于评估结果的指标(如产品参与度或转化率)。这里以一个案例来说明:2019年底,当本文的一位作者(马丁)担任Netflix实验平台团队主管时,Netflix 在用户界面上添加了Top 10榜单栏目(挑战者)来向会员(目标人群)显示其所在国家最受欢迎的电影和电视节目,并对这一改进能否提升用户体验进行了测试,以观看度(结果指标)作为衡量标准。实验结果表明,这一改进确实提升了用户体验,同时也不会影响诸如客户服务请求数量或用户界面加载时间等其他重要的业务指标。于是,Netflix在2020年初向所有用户推出Top 10榜单。正如这个案例所表明的,实验让公司能够基于观察到的用户行为做出数据驱动的决策。
实验规模化的障碍
数据科学团队通常会主导公司对在线实验的采用。然而,在实验取得初步成功之后,公司往往会陷入停滞,实验的回报依然有限。我们经常看到的模式是:一开始,公司会对一个在技术层面上能够实现设计、运行和分析实验的平台进行投资。大型科技公司会在内部搭建自己的平台,而其他公司则需要从供应商处购买。虽然这些工具广泛可得,但通常投资成本高昂。公司在内部搭建一个平台可能会花费超过一年的时间,通常需要一个五到十名工程师的团队。而外购平台通常成本更低,实施更快,但仍需要专门的资源去和公司内部的开发流程进行整合,同时还要获得法律、财务和网络安全部门的批准。
在初始投资之后,支持该平台的领导者(通常是数据科学和产品负责人)就开始面临迅速证明平台价值的压力,需要通过成功的实验来证明,也就是要得出显著有利于挑战者的正面统计结果。因此,为了避免出现负面结果,他们就会试图预测哪些创意会产生巨大的影响,但做出这样的预测异常困难。例如,2012年末,爱彼迎推出了周边旅游指南(在网页上列出房源周边可做的事情、最好的餐馆等信息)功能,虽然内容的浏览量很高,但总体预订量却有所下降。而与此相反的是,当该公司推出的另一个看似微不足道的修改,让用户可以保留现有的浏览器标签页,同时在新的标签页中打开房源列表,从而使得比较多个房源变得更加方便时,总体预
订量因此增加了3%到4%,让它成为公司最成功的实验之一。
为了让每次实验都取得成功,团队经常会过度分析每一个实验,导致数据科学家在单一实验上花费的时间超过10个小时。实验结果以备忘录的形式分发,并会在产品开发会上进行讨论,这也耗费了员工大量的时间。虽然这些备忘录在原则上可以被广泛获取,但它们所包含的结果却从未被汇总起来,没能识别出模式或形成普适的经验;它们也没有以标准化的方式存档。因此,不同团队(甚至是同一团队在成员更替后)对同一个不成功的创意进行重复测试的情况并不少见。
为了提高实验的采用率和回报,数据科学和产品负责人更倾向于把重点放在渐进式变革上:扩大产品团队的规模,以便开展更多的实验,同时更容易确定创意测试的优先级;聘用更多的数据科学家来对更多的测试进行分析,同时减少执行所需的时间;以及召开更多的知识分享会来传播实验成果。然而,根据我们的经验,这些策略往往无法奏效。管理人员很难确定哪些测试会产生有意义的影响;聘用更多的数据科学家也只会带来实验能力的边际提升;而知识分享会也无法形成机构性知识。这些策略看似合理,但由于对它们建立的流程无法实现规模化,最终限制了对实验的广泛采用。
普及实验工具
要在整个公司范围内进行支持数据驱动决策的实验,公司就必须向自助式的实验方式迁移:使产品、营销、工程和运营团队的所有员工都能测试大大小小的变动,然后可以从结果中学习并采取行动。这意味着要在实验平台中嵌入一些重要功能,并重新设计数据科学家的职能。
平台。数据科学部门(数据科学家、数据工程师和软件工程师)应确保平台,无论是内部搭建还是外部购买,都包含以下的功能。
简单易懂的界面。爱彼迎就有这样一个系统,只需一名工程师就可以实现并测试在新标签页中打开房源列表的功能。
自动应用统计严谨性的能力。平台应能自动化处理某些任务,诸如确定特定类型实验的适当持续时间,以及决定实验结果是否显著的标准等,都应使用历史数据自动完成。
嵌入实验规程。平台指南应提供标准实验中绝大部分的默认设置,例如决策指标的选择等。借助这些规程,用户只需从数据科学家那里获得最低限度的输入,即可设计并启动实验。
自动回滚功能。这是一些作为触发机制的定量指标,当实验产生的影响过于负面时,例如社交媒体网站的日活跃用户数量大幅下降,实验应立即自动停止。对影响的评估应通过约束性指标完成,即那些用于确保在专注于某一成果的改善的同时,不会无意中损害诸如用户体验、收入或系统稳定性等其他重要方面的次级指标。当同时进行大量实验时,这一功能至关重要。
解释复杂概念的AI助手。这一核心功能可以简化实验的设计和分析,让流程即使对于全新用户也会非常友好。
数据科学家的角色。除了搭建平台,数据科学家还应该负责培训员工,为培训编写教程,并在大家行动起来后,安排答疑时间来解答复杂问题。因为不再参与实验的执行或分析,他们花在大多数测试上的时间将降至几乎为零(他们仍将会参与全新的测试,例如那些在新的产品领域中的首次测试,并会在测试结果难以解读时提供咨询。但这些都是例外情况)。因此,数据科学家可以把精力集中在那些更具影响的项目上,充分发挥自己的独特专长:例如,开发新的统计方法来分析复杂的实验,以及根据以往的测试结果分析公司的数据,为产品规划挖掘新的可能性。
组织建设
在尚未采用实验方法的组织中,产品团队的表现通常依据是否有新产品发布来评估。当组织开始采用实验后,评估标准往往就变成了“成功”运行实验的数量。然而,员工在这种方式下容易选择规避风险,从而导致他们只会运行很少量的实验。因此,要扩大实验规模,就需要改变激励机制。公司应该根据业务部门和组织的整体绩效来评估员工,而不是单一测试的结果。
这种转变将会鼓励更多的员工生成并测试尽可能多的创意,增加他们发现能够提高绩效的突破性机会。但是,一些未经充分审查的高风险创意也会被投入测试,而这些测试缺乏经验丰富的数据科学家的密切监督。这种情况下,可能会有人因为担心实验失败或带来不良后果,而变得不愿意运行实验。正如我们提到的,对此的一种解决方案是在平台中嵌入防护栏(作为触发机制的量化标准)。另一种在大型科技公司中非常常见的做法是分阶段发布新功能或变更。例如,苹果应用商店(Apple App Store)和谷歌应用商店(Google Play Store)的移动应用更新通常采取这种方式,以降低风险。
假设驱动的创新
随着组织在全公司范围内采用实验并实现了规模化,同时转向基于整体业务影响的激励模式,产品负责人就应该能够通过专注于理解测试结果背后的原因,获取更显著的价值。这就要求管理人员能够利用实验,不仅仅做出诸如某项变化是否优于现状的数据驱动型决策,还要能对为什么会这样做出假设。通过实验,他们可以验证假设;通过考虑附加指标,他们可以了解实验结果背后的驱动机制。最重要的是,对“为什么”的关注能促进以用户为中心的创新,因为通过实验收集到的反馈意见不仅能帮助在变化和现状之间做出选择,还能决定下一次的实验以及整体产品方向。
举例来说,Netflix的Top 10实验一开始就有一个明确的假设:Top 10榜单将通过激发会员们对分享体验和讨论的内在渴望,帮助他们找到想要观看的内容。这将会提高会员的愉悦感和满意度,并表现为参与度的提高。除了跟踪整体的参与度,实验还会监测一些额外指标,例如会员找到内容的途径(搜索、我的清单、主页上的不同栏目),以及他们如何与Top 10榜单中的内容互动(这些内容在原有浏览体验中也有,只是位置不同)。这些额外指标揭示了会员对新功能的行为变化。例如,因为Netflix的目标是让会员可以直接在主页中找到最适合他们的内容,所以如果Top 10榜单导致了搜索的使用率增加,那么表明主页的设计并没有实现这一目标。这一信息将用于设计后续测试,以进一步优化用户体验。
然而,一旦一家公司每年要进行成百上千次实验,就不可能以专门的备忘录加会议的形式去审议每一次实验。因此,公司应将重点从分析单一实验,转变为分析、讨论和学习相关联的实验群组,例如那些与搜索功能相关,或与提供图片、规格、评论和其他信息的产品详情页相关的实验组合。我们将这项工作称为实验项目。这种转变是从实验中释放出显著附加价值的关键。当以这种方式考虑实验时,公司可以采用以假设为导向,更高效的创新实践,基于先前的测试去指导未来的测试。实验项目还能鼓励产品团队将复杂的想法分解为可测试的小假设,从而更容易根据客户需求去调整产品方向。
实验项目
一旦公司具备了跨实验学习的能力,下一步就是去对比不同实验项目的结果,这使得评估不同产品领域的相对表现,以及甄别潜在的投资机会成为可能。比如,一个电子商务平台拥有多种旨在帮助购物者找到合适产品的功能,其中的两项是搜索功能和产品详情页。该公司很可能会为搜索和产品详情页分别制定各自的实验项目。
现在,假设以连续实验中对销售额的影响来衡量,改变搜索引擎的排名算法会产生正向但是递减的收益。而与此同时,对产品详情页的测试,除了一次偶然的测试产生了重大的正向影响,其他所有测试都稳定地显示出对销售额微小的负面影响。在众多不成功的测试中,产品详情页取得的这一次大“胜利”表明,公司尚未对产品详情页中的哪些方面最能引起客户的共鸣有足够的了解。因此,公司应该为该实验项目投入更多的资源。同时,搜索排名实验中的收益递减趋势,表明了搜索引擎算法已经成熟;领导者应该考虑探索诸如AI聊天机器人等截然不同的方法,或者将资源转移到诸如产品详情页等其他实验领域。
知识库
大规模的跨实验学习需要创建一个知识库:一个用于存储、分类和组织实验结果(包括对销售和其他关键指标的影响、对客户影响的假设等等),并将这些信息供数据科学家、产品经理和领导层访问的系统。当公司每年需要进行大量实验时,知识库不仅能让公司跟踪所有实验项目的状态,还能在公司内部传播学习成果,这对假设驱动的创新至关重要。
知识库应具备四项关键功能:(1)它应能将多个实验组合归纳为实验项目。许多公司很可能会希望按照功能(如搜索引擎或产品细节)或业务部门(如市场营销或客户支持)进行分组。(2)它应存储并跟踪对整体业务非常重要的关键绩效指标(如销售数量、收入、转化率等)。这样,各种实验和实验项目的影响就可以在统一的条件下进行比较。例如,Netflix的大多数实验都是为了改善少数关键绩效指标而设计的,参与度就是其中之一。(3)它应接管与每项测试相关的所有文件,并将它们一一对应到实验项目中,以确保所有的学习成果可以集中访问。(4)最重要的是,它应提供让所有员工都能轻松得出洞见的能力。一个跟踪实验项目绩效的仪表盘(去显示如运行的实验数量、向整个用户群推出的功能变更数量,以及上一季度实验对用户的累积影响等)就是个很好的起点。当然,更具活力的访问方式是一个由生成式AI驱动,可以回答有关过去实验的复杂问题的智能“助手”。
领先的科技公司使用实验来进行创新,通过测试所有的,而不仅仅是那些经过仔细审核或重大的创意,来快速提高绩效。而且,从这些实验中汲取的经验(通常是从类似实验的结果中总结出来的)也会催生出新的测试想法。只有实现实验工具使用的普及,将激励措施与长期效果的改善相结合,并使员工能够轻松查看、比较和汇总实验项目内部和实验项目之间的结果,才能够将实验规模化。得益于现代化的数据工具和AI的进步,现在有更多公司也同样可以成为实验专家。而鉴于同样的AI进步,正在逐步降低构想、测试和制造多样化创新产品的成本,公司的领导者必须要将潜力转变为现实。
伊沃·博伊诺夫是哈佛商学院工商管理学助理教授和理查德·霍奇森研究员。他还是哈佛大学统计系和哈佛数据科学计划的合作教师。大卫·霍尔茨是加州大学伯克利分校哈斯商学院组织管理和创业创新小组的助理教授,也是麻省理工学院数字经济倡议的合作研究成员。拉梅什·乔哈里是斯坦福大学管理科学与工程学教授、斯坦福数据科学研究中心副主任。斯文·施密特是实验平台供应商Eppo的统计工程主管。马丁·廷格利是Netflix实验平台分析团队的负责人。
伊沃·博伊诺夫(Iavor Bojinov) 大卫·霍尔茨(David Holtz) 拉梅什·乔哈里(Ramesh Johari)斯文·施密特(Sven Schmit) 马丁·廷格利(Martin Tingley)| 文
张矩 | 校译 廖琦菁 | 编辑