当机器学习脱离正轨 【特写】

机器学习是一类会吸收新信息、随之改变决策方式的计算机程序。如果机器学习导致投资损失、招聘和贷款偏见或车祸,那会怎么样?企业应该让智能产品和服务自主进化,还是应该“锁定”其算法并定期更新?如果选择后者,那么应该在什么时候、以什么频率更新?企业又该如何评估和降低诸如此类的各种选择带来的风险?

在商业世界,随着基于机器学习的人工智能渗透到越来越多的产品和流程中,高管和董事会必须准备好回答这些问题。在这篇文章中,我们以自己在医疗保健法案、道德、监管和机器学习方面的工作经验为基础,介绍了理解和管理这种先进技术潜在问题所需的关键概念。

机器学习为什么有风险?

机器学习与之前的数字技术最大的区别在于,它能够独立地做出越来越复杂的决策——比如交易哪种金融产品、车辆对障碍物做出什么反应、病人是否患有某种疾病等——并根据新的数据不断调整。但算法有时会出问题,不一定能做出合乎道德的正确选择。根本上的原因有三个。

首先,很简单,算法依靠的通常是概率,比如一个人拖欠贷款或得病的概率。算法做出许许多多的预测,很可能会出错,只是因为总是有可能会出错。出错受很多因素影响,包括用于训练算法的数据数量和质量,选择的机器学习方法的具体类型(如深度学习用的是复杂的数学模型,分类树则依靠决策规则),以及系统是否牺牲部分准确性、只使用可解释的算法(即人类可以解释其决策流程的算法)。

其次,机器学习的运行环境本身可能会发生变化,或者与算法开发时的环境有所不同。这类情况有很多种,最常见的是概念漂移和协变量漂移。

对于前者,系统使用的输入和输出之间的关系可能出现波动或偏差。例如,一个用于股票交易的机器学习算法,如果只使用市场低波动、经济高增长时期的数据进行训练,那么当经济进入衰退或经历动荡时,比如新冠疫情这样的危机期间,它可能就不会有好的表现。随着市场的变化,投入与产出之间的关系(如公司杠杆率与股票回报之间的关系)也可能发生变化。在商业周期的不同阶段,信用评分模型也可能发生类似的错位。

在医学领域,概念漂移的一个例子是,某基于机器学习的诊断系统使用皮肤图像作为检测皮肤癌的输入,但由于没有充分掌握肤色(可能随种族或阳光照射而变化)与诊断决定之间的关系,无法做出正确诊断。用于训练机器学习模型的电子健康记录里往往并没有关于肤色的信息。

如果算法在使用时输入的数据与训练时不同,就会发生协变量偏移。即使算法学习模式稳定,不存在概念漂移,也会发生这种情况。例如,医疗设备公司可能会使用来自城市大医院的数据开发其基于机器学习的系统,但这样的设备投入市场,农村地区医院使用时输入的医疗数据可能与开发时的数据不一样。城市医院可能会有更多来自某些社会人口群体的患者,他们的基本医疗条件在农村医院并不常见。只有等到设备在市场上出现的错误比测试时的错误更多时,才会发现这种差异。考虑到市场的多样性及其变化速度,预测系统运行环境中会出现的情况变得越来越具有挑战性,而且数据无法捕捉到现实世界中所有的细微差别。

机器学习可能做出不准确决策的第三个原因与其所在系统整体的复杂性有关。举例来说,用于根据医生输入图像诊断疾病的设备——比如IDx-DR,它可以识别糖尿病视网膜病变和黄斑水肿等眼部疾病,是美国食品和药物管理局(FDA)授权使用的首个基于机器学习的自主医疗设备。这种设备的诊断质量取决于提供的图像是否清晰、设备使用的具体算法、该算法所用数据、输入图像的医生是否得到了适当的指导,等等。在如此多的参数下,很难评估这种设备是否出错、为什么出错,更不用说确定其行为了。

但不准确的决策并不是机器学习的唯一风险。现在让我们看看另外两类:代理风险和道德风险。

代理风险

机器学习的不完善带来了另一个重大挑战:不受特定企业或用户控制的因素带来的风险。

通常情况下,我们可以利用可靠的证据来重现导致事故发生的情况。因此,发生事故时,高管至少可以大致估计公司潜在责任。但由于机器学习通常在一整个复杂的系统当中,无法确认究竟是什么导致了故障——究竟哪一个“行为主体”(如算法开发人员、系统部署人员或合作伙伴)应当对错误负责,是算法本身有问题,还是用户反馈的数据有问题,抑或是用于训练算法的数据有问题(这部分数据可能来自多个第三方供应商)。环境的变化和机器学习的概率性,使得责任归属更难确定。事实上,即使没有哪一方出问题,也可能发生事故,出现不正确的决定——因为归根结底出现错误决定的概率总是存在的。

高管需要知道根据现行法律,公司何时可能要承担责任,而法律本身也可能逐渐变化。例如在医疗方面,法院历来将医生视为最终的决策者,因此迟迟未能将医疗产品出现问题的责任归于医疗软件制造商。然而,随着越来越多的自主系统(或称“黑匣子”)在没有医生参与(或医生参与程度比以往更低)的情况下做出诊断和建议,这种情况可能会发生变化。如果一个机器学习系统为病人推荐了一种非常规的治疗方法(比如给出比平时高得多的药物剂量),而相关规定是医生只有在不遵循系统建议的情况下才为患者受到的伤害承担责任,那么会发生什么?这种监管方面的变化可能会将责任风险从医生转移到机器学习支持的医疗设备的开发者、参与开发的数据供应商或参与安装和部署算法的公司。

道德风险

自主决策的产品和服务也需要解决伦理困境——这一要求带来了额外的风险,令监管和产品开发难度增加。学者们现在已经开始将这些挑战划为负责任的算法设计问题,其中包括如何自动化道德思考的难题。例如,特斯拉是否应该通过编程让汽车从功利主义的成本效益角度考虑问题,还是从康德的角度来考虑,即某些道德问题无论是否有利都不能妥协?即使选择功利性,道德问题也很难量化:我们应该如何给汽车编程,让它重视三个老人的生命甚于一个中年人的生命?企业应该如何权衡隐私、公平、准确和安全之间的关系?这些种类的风险都能避免吗?

道德风险还包括与人口群体有关的偏见。例如,面部识别算法很难识别有色人种;皮肤病症分类系统在不同种族之间的准确度似乎不一样;累犯预测工具给黑人和西班牙裔打出错误的高分,而信用评分系统则给他们不公正的低分。随着广泛的商业应用,机器学习系统可能会被认为在某些维度上对特定群体不公平。

由于定义公平性和在算法中嵌入公平性的方式多种多样,而且可能相互不兼容,问题就变得更加复杂。贷款算法可以校准——这意味着在控制风险水平后,它的决定是独立于群体身份的——但仍然不成比例地拒绝向信用良好的少数群体提供贷款。因此,公司可能会陷入“怎么做都错”的境地:如果使用算法来决定谁获得贷款,那么根据公平的定义之一,公司可能难免被指控为歧视某些群体。不同文化中的道德标准也可能不尽相同——这对于面向全球市场的产品来说是个问题。2020年2月欧盟委员会关于人工智能的白皮书体现出了这类问题:白皮书呼吁开发符合“欧洲价值观”的人工智能,但这样的人工智能能否出口到价值观不同的地区?

最后,这些问题也可能是由模型不稳定造成的。这种情况下,即使是相似的输入,也可能导出相差甚远的决定。不稳定的算法可能会对非常相似的人进行非常不同的处理——而且可能是不公平的。

当然,所有这些顾虑并不意味着我们应该完全避免机器学习。相反,高管需要积极把握机器学习创造的机会,并确保能妥善应对风险。

锁定还是不锁?

如果领导者决定采用机器学习,接下来的一个关键问题就是:公司应该让机器学习不断进化,还是隔段时间推出经过测试的锁定版本?选择后者能否减轻上文提到的风险?

医疗界很熟悉这个问题。迄今为止,FDA通常只批准算法被锁定的“作为医疗设备的软件”(不需要特定硬件就能实现医疗功能的软件),因为该机构不想批准使用诊断程序或治疗途径会以其无法理解的方式不断变化的设备。但FDA和其他监管机构现在意识到,锁定算法可能同样有风险,因为不一定能消除以下风险:

不准确的决定。机器学习算法通常是基于估计的概率进行决策的,锁定无法改变这个事实。此外,虽然输入更多的数据通常会提升准确度,但也不尽然,而且改进的程度可能参差不齐;不同的系统下,不同的数据量令解锁算法获得的改进可能更大或更小。尽管很难确定解锁算法的决策准确性(或不准确性)会发生怎样的变化,但尝试一下还是很重要的。

环境的变化。系统做出决策的环境是否会变化、如何变化,也是一个很重要的因素。比如说,汽车自动驾驶仪运行的环境不断被其他司机的行为改变。每当商业周期进入一个新的阶段,定价、信用评分和交易系统都可能面临市场制度的变化。其面临的挑战是确保机器学习系统和环境共同发展,让系统做出适当的决策。

代理风险。锁定算法并不能消除其所在系统的复杂性。例如,使用第三方供应商的劣质数据来训练算法或不同用户之间的技能差异所导致的错误仍然可能发生。在数据提供者、算法开发者、部署者和用户之间明确责任归属仍有难度。

道德风险。锁定的系统可能会保留开发者不知道的缺陷或偏差。在分析乳房X光片是否有乳腺癌迹象时,锁定的算法无法从新的亚群体中学习。由于乳腺平均密度可能因种族而异,如果系统筛选的人群来自训练数据中代表性不足的人口群体,就可能出现误诊。同样,在社会经济隔离的人口子集上训练的信用评分算法可能会对某些借款人造成歧视,影响与非法的贷款歧视相同。我们希望算法能够在“观察”到更多来自子人群的数据后尽快更新,纠正这类问题,因为这些数据在样本中可能没有得到很好的体现,甚至之前没有被识别出来。相反,如果设备的机器学习系统没有被锁定,随着时间的推移,它们可能会伤害一个或多个群体。而且设备具体的问题点很难确定。

高管工具箱

那么,高管应该如何管理机器学习的现有风险和新风险呢?制定适当的流程,让管理层和董事会对相关问题加深了解,提出正确的问题,以及采用正确的思维框架,这些方法都很重要。

把机器学习当作人类来对待。高管需要将机器学习视为一个活生生的实体,而不是一种无生命的技术。就像对员工的认知测试不会揭示他们加入企业中已有团队后的表现一样,实验室测试也无法预测机器学习系统在现实世界中的表现。高管应该要求全面分析员工、客户或其他用户的使用情境,以及各种情境下对机器学习的决策做出的反应。即使监管机构没有要求,公司也可以将基于机器学习的新产品进行随机对照试验,在上市前尽量确保其安全性、有效性和公平性。不过,高管还需要分析产品上市后在实际应用中的决策。实际市场中存在各种类型的用户,这样做可以了解产品提供给不同用户的决策质量是否不同。此外,公司还应该将算法做出的决策质量与相同情况下未采用算法的决策质量进行比较。在大规模推广产品(尤其是没有经过随机对照试验的产品)之前,公司应该考虑在有限市场中进行测试,以更好地了解产品在各种因素发挥作用时的准确性和行为,比如当用户不具备同等的专业知识、输入的数据不同或环境变化时。现实环境中的失败说明算法需要改进或淘汰。

像监管机构一样思考,先进行认证。企业应该在机器学习产品上市前制定认证计划。监管机构的做法提供了很好的参考。例如在2019年,FDA发布了一份讨论文件,对用作医疗设备的机器学习软件提出新的监管框架。该框架提出,允许这种软件在保障患者安全的同时不断改进,包括对开发软件的公司或者团队进行全面评估,确保该组织拥有可以保证高质量产品的卓越组织文化,能够定期测试其机器学习设备。如果公司不采用这样的认证流程,可能会承担法律责任——比如没有进行充分的尽职调查。

许多初创公司提供认证服务,证明产品和流程没有受到偏袒、偏见、刻板印象、不公平和其他陷阱的影响。电气和电子工程师协会和国际标准化组织等专业组织也在为这种认证制定标准,而谷歌等公司则提供人工智能道德服务,从用于训练系统的数据、系统的行为到对福祉的影响等多个维度进行检查。公司可能需要自行开发类似的框架。

持续监控。随着基于机器学习的产品和服务以及它们所处环境的发展,公司可能会发现技术并没有按照最初的设想发展。因此要制定方法来检查这些技术是否在适当的范围内运行,这一点很重要。其他行业可以作为榜样。FDA的“哨兵计划”从电子健康记录等不同的数据源中获取信息,以监控医疗产品的安全性,如果不合格,可以强制撤销这些产品。在许多方面,公司的监控程序可能与制造业、能源公司或网络安全领域目前使用的预防性维护工具和流程相似。例如,公司可能会对人工智能进行所谓的对抗性攻击,就像用于常规测试IT系统防御强度的攻击一样。

提出正确的问题。高管和监管者需要深入研究以下问题。

→准确性和竞争力。如果我们不锁定算法,基于机器学习的系统性能可能会随着新数据的增加而提高多少?这些改进对企业意味着什么?消费者会在多大程度上理解锁定与非锁定系统的优缺点?

→偏差。用哪些数据来训练算法?这组数据对最终应用算法的人群有多大代表性?如果我们允许算法随着时间的推移进行学习,产生的误差是否会比锁定的算法更少?算法的错误是否会特别影响少数群体或其他群体?持续监测的方法能否建立“防护栏”,阻止算法变得有歧视性?

→环境。随着时间的推移,产品的使用环境将如何变化?是否存在不允许机器学习进行决策的条件,如果有,是什么条件?考虑到环境本身的变化,我们如何确保产品的行为得到适当的发展?环境和产品行为不匹配到什么程度的时候应该撤回产品?我们的产品能够适应怎样的环境?我们的机器学习系统在其整个生命周期中的稳健性和安全性如何?

→代理。我们的机器学习算法的行为依赖于哪些第三方组件和数据源?被不同的人使用时,比如不具备相关专业技术的人,表现会有多大差异?其他组织的哪些产品或服务使用了我们的数据或机器学习算法,可能使我们承担责任?我们是否应该允许其他组织使用我们开发的机器学习算法?

制定应对业务风险的原则。企业需要建立自己的准则,包括道德准则,来管理这些新风险,谷歌和微软等公司已经做到了。这种准则往往需要相当具体(比如要明确定义什么是公平)才有用,而且必须根据所涉风险进行调整。如果你正在使用机器学习来做招聘决策,最好能有一个简单、公平、透明的模型。如果你使用机器学习来预测商品期货合约的价格,那就不必再去研究这些价值,而是要更关心机器学习做出的任何决策所允许的潜在最大经济损失。

幸运的是,开发和实施原则的旅程并不孤独。高管可以从经合组织(OECD)等机构的多年努力中学习到很多东西,经合组织制定了第一个政府间人工智能原则(2019年被许多国家采纳)。OECD原则提倡创新、值得信赖、负责任的透明人工智能,尊重人权、法治、多样性和民主价值,推动包容性增长、可持续发展和福祉,还强调人工智能系统在整个生命周期中的稳健性、安全性、保障性和持续风险管理。

OECD最近推出的人工智能政策观察站提供了更多有用的资源,如世界各地人工智能政策的综合汇编。

机器学习具有巨大的潜力。但这项技术与其他形式的人工智能一起融入我们的经济和社会结构中,风险也会随之增加。对于企业来说,减轻相应风险可能与管理机器学习本身的采用同样重要,甚至可能更为关键。如果没有建立适当的实践来应对新风险,企业可能难以在市场上获得吸引力。

鲍里斯·巴比奇(Boris Babic)格伦·科恩(I. Glenn Cohen)西奥多罗斯·叶夫根尼奥(Theodoros Evgeniou)萨拉·格克(Sara Gerke)| 文

鲍里斯·巴比奇是欧洲工商管理学院决策科学助理教授。格伦·科恩是哈佛大学法学院副院长、法学教授和Pete-Flom卫生法律政策、生物技术和生物伦理学中心主任。西奥多罗斯·叶夫根尼奥是欧洲工商管理学院的决策科学和技术管理教授。萨拉·格克是Pete-Flom中心医学、人工智能和法律方面的研究员。

刘隽 | 译  蒋荟蓉 | 校   李源 | 编辑

点赞

发表回复

电子邮件地址不会被公开。必填项已用 * 标注