决策的隐形赋税:噪声★

我们合作的一家国际金融服务机构中,一位老顾客无意中将同样的申请文件提交给了两个办事处。尽管两边的员工本该遵循同样的章程,得出类似结果,但返回的报价却相去甚远。大惊之下,该顾客选择了该机构的竞争对手。从公司角度看,同样职能的员工应该可以互换,但现实并非如此。遗憾的是,类似问题并不罕见。

很多组织对专业员工的项目分配相当随意:信用评级机构的评估师,急诊室的医生,贷款员和保险核保人等。组织希望这些专业员工能表现稳定:同样的项目即便处理不完全相同,也应基本类似。问题是,人类并非可靠的决策者;他们的判断受到不相关因素严重影响,比如当时的情绪,距离上一次就餐的时间以及天气。我们将这种随机变量称为“判断噪声”。对很多公司的利润而言,噪声都是一笔隐形成本。

有些工作没有噪声。银行或邮局职员的任务颇为复杂,但他们必须严格遵守那些防止主观判断的规则,并且规则本身的设计能保证同样的项目得到同样对待。相比之下,医务人员、信贷员、项目经理、法官和高管全都需要凭判断做决策。他们依靠非正式经验和一般原则,而非遵循严格规则。如果他们没有和同样职能的员工得出一模一样的结论,是可以接受的;所以我们才会说,决策是“关乎判断的事”。需要员工做出判断的公司并不指望决策不会掺杂任何噪声。但通常噪声往往超出了高管所能容忍的范围,而且他们对此还浑然不觉。

若干研究已经证明,噪声无处不在。学术研究者已反复证实,专业人士在不同情景下处理同样的数据,往往给出互相矛盾的判断。例如,当软件开发者在不同的两个工作日中被问及完成某任务的时间,他们预估的时间平均相差71%。当病理学者对活组织检查结果的严重性进行两次评估时,他们评分之间的关联性只有0.61(理想情况是1.0)。这意味着他们做出不一致的诊断很常见。不同人员做出的判断甚至更容易产生分歧。研究表明,在股票估价、鉴定房地产、审判罪犯、评估工作表现以及审计财务报表等很多任务中,专家的决策十分不稳定。不可避免的结论是,专业人士经常做出与同事、自己以及他们声称所遵循规则大相径庭的决策。

噪声往往很难察觉:它让成功的企业在不知不觉间损失大笔金钱。损失有多大?为获得大致数目,我们询问了所研究组织中高管下列问题:“如果某项目的最高估值是10万美元,所负责的专业员工给出估值11.5万美元或8.5万美元,成本分别是多少?”估算出的成本十分高昂。合计每年数字,噪声的成本将数以十亿计——即便是大型跨国公司也难以容忍。哪怕将噪声减少几个百分点,都意味着减少几千万美元的损失。值得注意的是,在发生损失前,组织完全忽略了稳定性的问题。

人们早已知道,简单统计学算法做出的预测和决策往往比专家更准确,哪怕专家能获得比算法更多的信息。但鲜有人知的是,算法的关键优势在于没有噪声:与人类不同,输入相同信息,公式得出的结果也相同。因为稳定十足,哪怕是简单甚至有瑕疵的算法,也比人类专家的准确性高。(当然也有些时候,算法因为组织运营或政治原因不可行,我们后面会讨论该情况。)

本文中,我们将解释噪声和偏差的不同,并检视高管如何审查组织中的噪声强度及其影响。然后我们介绍如何构建一种成本低、未被广泛采用的降噪算法,之后我们描述了当无法使用算法时,如何提高稳定性的步骤。

噪声VS.偏见

当人们考虑判断和决策中的差错时,想到的总是社会性偏见,比如对少数族裔的成见、自负等认知偏差以及盲目乐观。而被我们称作噪声的无用变量属于一种不同的差错。为了理解两者区别,你可以想想浴室体重秤。如果读数太高或太低,我们可以说,体重秤出现了偏差。如果你的体重取决于脚放置的位置,那么可以说体重秤有噪声。总是显示比正确体重少4磅的体重秤存在严重偏差,但没有噪声。在你两次称重时,显示不同重量的体重秤存在噪声。很多计量差错既包括偏差也包括噪声,一些廉价浴室体重秤就两者兼具。

为了能更直观地展示这种区别,请参考图表《噪声和偏差如何影响准确性》中的靶子。图表展示了4人团队,每人射击一次的打靶训练结果。

大思路-噪音

●A队很准确:所有队员都打中靶心,弹孔离得很近。而另3支队伍都各有各的不准。

● B队有噪声:弹孔在靶心四周,但彼此很分散。

● C队有偏差:弹孔都没有击中靶心,但彼此离得很近。

● D队既有偏差也有噪声。

正如A队和B队所示,在没有偏差时,噪声增多常会影响准确性。当偏差存在时,噪声增多反而可能歪打正着,比如D队的情况。当然没有组织愿意靠运气取胜。噪声通常不受欢迎,有时甚至具有灾难性。

显然,弄清员工决策时的偏差和噪声情况,对组织帮助很大,但很难直接收集相关信息。在评估这些差错时会出现不同问题。其中一大问题是,决策带来的结果只有在未来才能看到(如果产生了结果的话)。比如信贷员往往要在数年后才能发现他们批准的贷款结果如何。他们几乎从不知道自己拒绝申请者的后续情况。

与偏差不同,评估噪声无须了解准确回应是什么。试想,射手瞄准的目标从图表上被抹去。你可能不了解所有团队的准确性,但你可以确定B队和D队分散的弹孔一定有问题。无论靶心在哪儿,队员中肯定有人没打中。只须一个简单实验:让几名专业人士对若干现实案例进行独立评估,就可以用来测量噪声。同理,我们不需要知道正确答案,就能观察到各不相同的判断。我们将这种实验称为噪声审查。

进行噪声审查

噪声审查的意义不在于出报告,最终目的是提高决策质量,只有部门领导者能够接受不理想的结果,并有所行动时,审查才能成功。如果高管能将这种调查看作自己的分内事,目标更易达成。为了达成目标,项目应由享有威望的团队成员整理,并且要包含常见、典型的一系列问题。为了让所有人都关注结果,部门全体成员都要参加审查。一名有经验进行严格行为实验的社会科学家应该在技术层面监督审查。但专业部门必须掌控审查过程。

最近,我们帮助两家金融服务机构进行了噪声审查。我们研究的两个团队拥有非常不同的职责和专业知识,但它们都需要评估较为复杂的材料,决定往往涉及数十万美元。我们在两家机构中都遵循了同样规则。首先,我们让相关专业团队的负责人整理出若干个现实项目的文件以供评估。为防止实验信息外泄,整个过程在同一天完成。员工被要求用半天时间分析2到4个项目。他们将按常规估算出每个项目的钱数。为防止串通,参与者不知道本调查与可靠性有关。例如在其中一个机构,他们被告知目标是了解员工的专业思维,增强工具的实用性,以及改善同事间沟通。A机构中有大约70名专业员工参与,B机构约有50人参与。

我们为每个项目设计了噪声指数,对下面这个问题做出了解答:“两个随机选择的员工做出的判断相差多大?”我们将该差异量化为他们平均值的百分比。比如两个员工对同一项目的估值为600美元和1000美元,他们估算的平均值就是800美元,他们估值的差距是400美元,所以两人的噪声指数就是50%。我们用同样方法计算了所有员工配对的估值,然后计算出了每个项目的平均噪声指数。

审查前的访问中,两家机构的高管表示他们预计专业员工决策的差异在5%到10%左右——关乎判断力,他们认为这个范围可以接受。但结果令人震惊。A机构6个项目的噪声指数从34%到62%不等,平均为48%。机构B的4个项目噪声指数为46%到70%,平均为60%。可能最令人失望的是,工作经验并没有降噪的作用。在具有5年或以上工作经验的专业员工中,平均差异为:A机构46%,B机构62%。

没有人想到结果如此。但因为他们对该审查负责,两个机构的高管都接受了结论:专业员工的判断不可靠,且无法容忍其严重程度。所有高管很快同意,必须采取措施控制局面。因为审查结果与之前对专业判断不可靠的研究结果一致,我们并未感到惊讶。我们主要困惑的是,两个机构之前都没有意识到可靠性的问题。

在商业世界其实几乎没人关注噪声问题;我们发现,专业判断力被作为问题提出,让受众很惊讶。是什么让公司没有意识到员工的判断力有噪声呢?答案能从两个常见现象中找到:富有经验的专业员工对自己的判断信心十足;对同事的专业水平评价也很高。这两点加起来,导致对共识估计过高。当被问及同事的想法时,专业员工预计,其他人的判断和自己差不多,实际远非如此。当然多数情况下,有经验的专业员工完全不关心其他人的想法,默认自己给出的是最佳答案。噪声隐于无形的一个原因是,人们在生活中不会去思考他们做出每个决策的可行替换选项。

期待他人同意你的意见有时是合理的,尤其是当判断力十分老练,成为一种本能的时候。比如,高段位的国际象棋手和司机经过练习,判断可近乎完美。大师级棋手评判棋局,会对当前形势给出类似的判断,比如白方皇后有危险,或者黑方国王防守薄弱。驾驶也同理,如果我们不默认周围的司机和我们在路口和环岛做出的判断一致,无法想象交通会有多么危险。达到一定高度的技术鲜有或没有噪声。

达到国际象棋和驾驶的高水平技术须在可预测的环境中练习多年,做出的行动须及时和清晰的回应。可遗憾的是,专业人士很难有这样的行动环境。多数工作中,人们学习判断的渠道来自上级和同事的解释和评论——与从自己的错误中学习相比,可靠度大打折扣。长期工作经验总会增加人们对判断的自信,但如果没有迅速反馈,自信不能保证准确或达成共识。

一言以蔽之,只要做出判断,就会产生噪声,而且噪声往往比你想象得严重。一般来说,专业员工和他们的领导都无法准确估测出他们判断力的可靠性。唯一获得准确评估的办法是进行噪声审查。至少在有些情况下,噪声严重到了需要采取行动的地步。

大思路-噪声和偏差种类

点赞

发表回复

电子邮件地址不会被公开。必填项已用 * 标注