像FDA测试药物那样去测试AI 【专栏】

我们绝不允许一种药物未经严格测试就在市场上销售——哪怕是在新型冠状病毒疫情这类健康危机的情况下。那么,我们为什么允许那些破坏性堪比强效药物的算法未经类似的严格测试就被投放到世界上呢?目前,任何人都可以设计一种算法,并利用它做出牵涉到人的重要决定——他们是否可以得到贷款、工作、公寓或徒刑——而无需任何监督或任何基于证据的要求。普通人群正在被当作小白鼠。

人工智能是一种预测技术。比如,他们评估一辆车是否可能撞到物体,一家超市本周是否可能需要更多的苹果,以及某人是否可能偿还贷款,是否一名好员工,或者是否会再一次犯罪。重要的决定,包括生死攸关的决定,都是在算法预测的基础上做出的。

预测试图填补关于未来的缺失信息,以减少不确定性。可是,预测极少是中立的观察员——它们会改变自己所预测的事态,程度之深以至于它们变成了自我应验的预言。比如,当信用评级等重要机构公布对一个国家的负面预测时,这可能导致投资者逃离该国,反过来又会引发经济危机。

当涉及审计算法的准确性时,自我应验的预言就是一个问题。假设一个广为使用的算法判定你不可能成为一名好员工。你未找到任何工作不应该算作是算法准确的证据,因为你没有找到工作的原因可能在于算法本身。

我们希望预测性的算法是准确的,但不是通过任何手段——当然不是通过创造他们应该预测的现实。太多时候,我们认识到,一旦算法毁掉了人生,他们就是有缺陷的,就像当初密歇根州失业保险局实施的一个算法错误地指控34000名失业人员欺诈一样。我们如何才能限制预测改变未来的能力?

一种解决方案是对预测性算法进行随机对照试验。随机对照试验在辨别偏见和其他不可预见的负面后果方面也有很大的潜力。算法出了名的不透明。很难弄清它们是如何工作的,而且当它们只在实验室中接受测试时,一旦接触到真实世界的数据,它们的表现通常让人始料不及。严格的试验可以确保我们不使用种族主义的或性别歧视主义的算法。可以创立一个类似于食品和药物管理局(FDA)的机构,以确保算法经过足够的测试,可以用于公众。

随机对照试验之所以被认为是医学(以及经济学)的黄金标准,原因之一是因为它们是我们所能拥有的最好的因果关系证据。反过来,人工智能最明显的缺点之一就是它可以识别相关性,但它无法理解因果关系,这通常导致它误入歧途。比如,当一个算法判定男性求职者成为优良员工的可能性大于女性求职者时,它之所以做此判断,是因为它无法区分因果特征(比如,过去大多数成功的员工都上过大学,因为大学是培养人技能的好途径)和相关性特征(比如,过去大多数成功的员工都是男性,因为社会遭受性别歧视主义偏见之害)。

随机对照试验一直以来不仅是医学进步的基础,而且还阻止了无数潜在的灾难——投放原本可能害死我们的药物。这样的试验对人工智能可以起到同样的效果。如果我们将人工智能识别相关性的技巧与随机对照试验帮助我们推断因果关系的能力结合起来,我们就会更有机会开发出既更强大又更道德的人工智能。

卡丽莎·贝利斯是英国牛津大学人工智能伦理研究所的副教授,著有《隐私就是力量:为何应该以及如何夺回对你数据的控制权》(Privacy is Power: Why and How You Should Take Back Control of Your Data)(Corgi Books,2021年)一书。

卡丽莎·贝利斯(Carissa Véliz) | 文

时青靖 | 编辑

点赞

发表回复

电子邮件地址不会被公开。必填项已用 * 标注