网络巨头的实验课★

2012年,微软Bing的一名员工想到一个改进搜索引擎展示广告标题的方法。这在技术上并不难,一名工程师几天就可以完成。但同时提出的还有几百个创意,因此,项目管理者并未优先考虑这个改进方案。半年多后,一位工程师看到写代码不太费事,于是发起了一项简单的线上A/B测试,检验这个方案的效果。仅仅几小时后,新方案产生了高得不正常的收入,触发了“好过头”警报。通常,这种警报说明可能存在漏洞,但这次不是这样。分析显示,改进方案带来的收入提升高达12%,相当于美国市场每年增加1亿美元收入,而且对用户体验核心指标没有影响。这是Bing历史上最赚钱的创意,但直到测试前,它的价值都被低估了。

够丢人的吧!这个例子显示了评估创新方案的潜力是一项多么困难的工作。同样重要的是,它也显示出低成本同时进行多项实验的能力所带来的益处——更多企业已开始认识到这一点。

现在,微软和亚马逊、缤客、Facebook、谷歌等领先企业每年都会进行超过1万项网络对照实验,很多测试涉及数百万用户。一些创业公司,以及沃尔玛、赫兹国际租车、新加坡航空等传统企业,也定期进行网络实验,只是规模较小。这些组织发现,“凡事实验”的做法回报惊人。例如,Bing每个月收获数十项改进创意,每年可将单次搜索产生的收入提高10%到25%;此外,每月还出现数百项能够提升用户满意度的改进方案。这些进步帮助Bing保持盈利,且美国个人电脑搜索占有率从2009年推出时的8%上升至23%。

如今,互联网对几乎所有企业都非常重要,因此严格的网络实验应被纳入运营流程。如果拥有网络实验所需的软件基础设施和组织能力,企业不仅能评估与网站相关的创意,也能评估商业模式、战略、产品、服务和营销方案,而且成本相对低。对照实验能让决策更加科学、客观,减少直觉成分。如果没有这类实验,很多突破可能永远不会发生,而糟糕创意会得到应用,白白浪费资源。

但我们发现太多组织,包括一些大型互联网企业,在实验方面存在严重缺陷。这些企业不知道如何进行严谨的科学实验,或实验次数过少。

我们研究实验、操作实验,并为多个行业企业提供相关咨询合计已有35年。在本文中,我们将分享实验设计和操作、有效性、数据分析等方面的经验,并讨论可能出现的困难。本文将主要探讨最简单的对照实验,即A/B测试,但我们的结论和建议也适用于更复杂的实验设计。

A 认识A/B测试的价值

在A/B测试中,实验者对两个对象进行观察:“A”即对照组,一般是当前使用的系统;“B”即实验组,是某种改进方案。如果A是“擂主”,那么B就是“挑战者”。实验参与者或用户随机体验A或B,二者的核心指标会由计算机进行分析和比较。(与此相对,单变量A/B/C、A/B/C/D测试和多变量测试会同时评估多种改进方案。)对于互联网企业,改进方案可能是新增产品功能、用户界面调整(如改进布局)、后台调整(如改进亚马逊图书推荐的算法),或改变商业模式(如提供免运费服务)。无论是销售额、回头率、点击率,还是用户在线时间,企业都可以利用A/B测试优化核心运营表现。

只要有几千名日活跃用户,任何企业都可以进行A/B测试。如果能采集大量客户样本、自动收集网站和app用户的海量互动数据,并同时进行多项实验,企业就能以前所未有的速度和准确度评估大量新创意,而且边际成本接近于零。这使得企业有能力快速迭代、发现错误、完成转变。

认识到A/B测试的价值后,一些领先科技企业设立专门团队,负责建立、管理和优化实验基础设施,并在多个产品团队应用。如果使用得当,实验能力可以转化为重要竞争优势。管理者需要留意以下几点:

小改变可能带来大影响。很多人认为,投资越大效果越明显,但网络实验并非如此。更多时候,成功就是把很多小事情做对。虽然商业世界总是将重要的颠覆性创意捧上神坛,但实际上,进步更多是由千百个小改进带来的。

再来看微软的另一个例子。(本文作者之一科哈维在微软负责实验系统。虽然本文案例大部分来自微软,但能反映很多企业的经验。)2008年,微软英国的一位员工提出一项不起眼的建议:用户点击MSN主页上的Hotmail链接时,默认在新标签页(如果是较老版本的浏览器,则是新窗口)而非原有页面打开邮箱。90万英国用户参与了新版本测试,结果相当积极:以MSN主页点击量计算,用户参与度提升达8.9%(大多数改进带来的用户参与度提升不到1%)。然而,对于新版本仍有争议,因为当时很少有网站会在新标签页打开链接,所以新版本只在英国发布。

2010年6月,同样的实验面向270万美国用户重复了一次,结果依然良好,因此新版本在全球范围推出。接着,为探索这个创意的其他应用方式,微软尝试将MSN搜索结果在新标签页显示。在1200万美国用户参与的实验中,用户平均点击数增加了5%。在新标签页打开链接,是微软实施的提升用户参与度效果最佳的改进,而这一切只需要改几行代码。今天,包括Facebook和Twitter在内的很多网站都使用这一技巧。

微软的经验并不独特。例如,亚马逊的实验表明,将信用卡产品信息从首页移到购物车页面,每年可增加数千万美元利润。显然,小投资可能产生大回报。而较大投资却可能回报很低,甚至颗粒无收。微软曾试图将Bing与社交媒体整合,在搜索结果页面上增加新窗格,显示来自Facebook和Twitter的搜索结果。这笔投资高达2500万美元,对用户参与度和收入的提升效果却微乎其微。

实验能指导投资决策。管理者可以根据网络测试结果合理分配资金,优化投资决策。例如,微软曾考虑减少Bing显示搜索结果所需时间。理论上说,加载速度当然越快越好,但这项改进带来的价值能否量化?应当派3名、10名还是50名工程师做这个项目?为回答这些问题,微软进行了一系列A/B测试,人为延迟搜索结果加载,并分析速度变化带来的影响。数据显示,加载速度变化0.1秒,收入将变动0.6%。Bing年收入超过30亿美元,因此0.1秒的提速能使年收入增加1800万美元——足够支持一个较大的团队了。

测试结果还能帮助Bing权衡一些重要创新方案,特别是能够提升搜索结果相关度、但降低运行速度的新功能。Bing不希望很多小功能叠加导致系统性能显著下降。因此,如果某个新功能将导致运行延迟超过几毫秒,微软就会在推出前先提升其性能,或在其他方面提升处理速度。

B 构建大规模实验能力

一个多世纪前,经营百货商店的约翰·沃纳梅克(John Wanamaker)说了这句营销名言:“我花在广告上的钱有一半是浪费,但我不知道是哪一半。”我们发现,新创意也差不多是这样:大多数创意都无法通过实验测试,而即便专家也经常看错有潜力的创意。在谷歌和Bing,只有10%到20%的实验会得到积极结果。从微软整体实验情况看,1/3创意有效,1/3中性,1/3产生负面结果。这些都表明,企业须吻很多青蛙(也就是进行大量实验),才能找到王子。

特写2-BING实验系统的发展

只有凡事实验,才能确保新创意不产生负面影响或意外效果。Bing内部提出的改进方案中,80%都要先经过对照实验。(一些低风险的漏洞修复,以及操作系统升级等本地更新不在此列。)

对几乎所有新创意进行科学测试,这需要基础设施,包括插桩技术(记录点击、鼠标悬停、事件时间等)、数据管道,以及数据科学家等。几种便捷的第三方工具和服务能让你做一些尝试,但如果要大规模进行实验,就必须将相关能力嵌入流程,这样才能降低实验的平均成本,并提升可靠性。如果缺少基础设施,实验不仅边际成本较高,也难以取得企业高层的支持。

微软的实验基础设施可称典范——如果企业规模较小或业务不太依赖实验,当然可以降低标准。微软拥有超过80人的分析和实验团队,每天都在进行数百项网络对照试验,涉及产品包括Bing、Cortana、Exchange、MSN、Office、Skype、Windows、Xbox等,邀请数十万甚至数百万用户尝试新功能或新变化。团队针对所有测试进行严格统计分析,自动生成的记分卡评估成百上千项指标,并标出重大变化。

企业的实验团队有以下3种构成方式:

中心模式。按这种模式,一个数据科学家团队服务整个组织。它的优势在于可以专注长期项目,如打造高质量实验工具、开发先进统计算法等。一个主要劣势是,由于各业务单元优先事项不同,在分享实验团队服务时,可能会在资源分配和成本方面产生冲突。另一个问题是,数据科学家在与业务单元打交道时可能有局外人之感,因此不够认同各部门的目标和专业领域,这让他们难以把握全局、贡献有价值的观点。此外,数据科学家可能对高层缺乏影响力,难以说服他们对必要工具进行投资,或让公司和业务单元领导者认同实验结果。

去中心模式。另一种方法是,将数据科学家分派到各业务单元去。这种模式的好处是,数据科学家可以成为各业务领域的专家。一个主要劣势是,这些专家的职业道路不清晰,而且可能缺少个人发展所需的反馈和指导。此外,各单元独立进行实验,可能无法产生足够有说服力的结果来证明所需工具的必要性。

卓越中心模式。第三个选择,是将部分数据科学家划入中心团队,再把其他人分派到业务单元。(微软使用的是这种模式。)卓越中心主要专注于对照实验的设计、操作和分析。建立全公司范围的实验平台、打造相关工具,可以大大节省实验所需时间和资源。通过组织课程、实验室和会议,卓越中心也能有效传播最佳实验方法。这种模式的一个主要缺陷是,卓越中心和产品团队权责不清晰:当业务单元需要进行更多实验时,谁来出钱请额外的数据科学家?谁又应该负责投资实验结果检验工具?

实验团队的组织方式没有对错之分。小公司一般会先尝试中心模式,或使用第三方工具,规模扩大后再转为其他模式。在业务多元的企业,想要进行重要测试的管理者可能不愿等待总部制定整体规划,这时去中心模式可能更合适,至少一开始如此。而如果网络实验属于组织的优先事项,领导者应先依靠中心团队构建相关能力和标准,再将其应用于各业务单元。

点赞

发表回复

电子邮件地址不会被公开。必填项已用 * 标注