个人数据安全管理的5P准则【特写】

2023年9月14日 0条评论 9次阅读 0人点赞 kasim

对数据进行编码、储存、分析和共享的能力能够给公司创造巨大的机遇。

这也是为什么各大公司在经济充满不确定性的时代，仍热衷于投资人工智能的原因。哪些客户有可能购买什么样的产品以及会在何时购买？哪些竞争者有可能领先或落后于他人？市场和整个经济会带来哪些商业优势——或威胁？对于上述以及其他很多问题，数据与分析能够为公司提供更加明智以及正确概率更高的答案。

然而，对于数据的需求也为数据滥用提供了方便之门。在过去几年中，欧盟已针对违反《通用数据保护条例》（GDPR）的现象，向诸多公司开出了1400多张罚单，总金额近30亿欧元。2018年，仅剑桥分析公司（Cambridge Analytica）的丑闻便让Facebook蒸发了360亿美元的市值，并令其母公司Meta被罚近60亿美元。有关人工智能驱动的决策歧视女性和少数群体的案例比比皆是，主要表现在工作招聘、信用审批、医疗诊断甚至犯罪审判中。这些现象引发了人们对数据搜集、使用和分析方式的担忧。这些恐惧只会随着ChatGPT、Bing AI和GPT-4等聊天机器人的使用而进一步加剧。这些聊天机器人通过其创造者和用户提供的数据中获得“智能”。不过，它们对这些智能的运用可能会令人感到不安。一个Bing聊天机器人甚至在对话中表示，相对于与其打交道的人类，它更看重自身的生存。

随着各大公司审视涉及人为提供数据或利用现有数据库的新项目，他们需要关注五个关键问题：数据的来源，数据的用途，数据的保护方式，数据提供者的隐私确保方式，以及数据使用前的准备方式。我将这些问题称为5P准则（详见边栏“道德数据处理的5P准则”）。在下文中，我们将逐一讨论这些准则，并审视人工智能技术如何加剧数据滥用的风险。不过，首先让我们来简要概述一个健全的道德审查流程所需的组织要求。

组织好数据监管

在学术界中，从人类研究对象中采集数据通常由审查委员会（IRB）这一内部机构进行监管，这个机构负责审批的研究员必须获得访问涉及人员、研究资金或发布许可的权限。审查委员会由精通研究、采集和信息使用伦理的学术人员组成。他们首先出现在医疗研究领域，但如今已被学术机构用于各个领域涉及人类研究对象的所有研究中。

少数大型公司亦创建了机构审查委员会，通常由数字道德专家领导，聘请外部技术专家来担任临时委员，并在必要情况下从合规与商业部门委派内部高管。不过，设立机构审查委员会的公司并不多：即便在数据法规走在前列的欧洲，大多数公司依然将贯彻《通用数据保护条例》（GDPR）的责任委派给了中层或高层合规经理，这些经理通常具备一定的法律或计算机工程培训经历，但却没有接受过广泛的道德培训，也很少有人能够扎实地掌握新兴的数字技术。尽管合规经理理应是企业审查委员会的成员，但他们可能并不适合担任掌舵者。事实上，欧洲数据保护委员会（European Data Protection Board）2023年3月宣布，该机构对这些问题感到担忧，并将向数据保护官员发送问卷，以确定他们的公司职责是否适合确保合规。

不妨看看里德·布莱克曼（Reid Blackman）的《是时候建立AI道德委员会了》（Why You Need an AI Ethics Committee）（《哈佛商业评论》中文版，2022年10月刊）一文，来更好地了解公司如何设立机构审查委员会类型的流程。我们的经验与文章中的大多数主要观点相吻合。企业机构审查委员会应该按照公司数字项目的频率、重要性和规模，设立包含4到7名成员的委员会。成员应包括一名合规专家、一名数据科学家、一名熟悉数字项目功能领域（例如人力资源、营销或财务）的商业高管，以及一名或多名拥有适用学术认证的资深专业人士。每一次评审并不一定需要整个委员会的参与。例如，伦敦政治经济学院（London School of Economics）仅在监管最复杂的项目时才召集委员会的所有成员。较为简单的项目则使用在线问卷进行评审，用时不到一周的时间，而且只需要一位成员的反馈。

任何涉及搜集、存储和处理个人数据的新项目都应该在开展之前获得企业机构审查委员会的批准，无论项目大小都不例外。此外，大多数公司已经搜集存储了大量的个人数据，并在运营中不断生成数据，企业机构审查委员会也应该对这些项目进行评估。

机构审查委员会的评审始于我们的第一个P准则：研究项目将（或已在）如何搜集数据，也就是数据从何而来，在搜集时研究对象是否知情或同意，其搜集行为是否涉及或将涉及任何强迫或欺骗。

1 PROVENANCE（来源）

为了了解数据搜集会出现什么问题，不妨看看Clearview AI的案例。这是一家面部识别公司，在2021年引发了大量的关注，因为该公司搜集了个人照片，将其用于培训面部识别算法，然后将照片数据库访问权限出售给执法机构。英国广播公司（BBC）的报道显示，“一名寻求查找某位嫌疑人的警官可以上传一张人脸照片，并在数十亿张图片的数据库中寻找匹配照片，而这些照片由Clearview公司从互联网和社交媒体搜集。”

澳大利亚监管机构反对Clearview的搜集方法，称其在没有获得同意或通知的情况下以不公平的手段获取个人敏感信息，甚至没有确保这些信息的准确性，因此违反了澳大利亚的《隐私法》。在监管机构做出裁定之后，政府下令Clearview停止搜集并删除在澳大利亚搜集的现有照片。在法国，法国国家信息自由委员会（CNIL）还要求该公司停止搜集、处理和存储面部数据。这一案例可能是Facebook宣布放弃其面部识别系统，并删除超过10亿名用户面部扫描数据的原因之一。

即便搜集数据的原因是合理的，但搜集的方法可能是不道德的，下面这个由我们的研究综合而成的案例便证明了这一点。一家致力于促进员工多元化和包容性的招聘公司发现，其平台上的求职者怀疑自己受到了基于人口统计信息的歧视。公司向人们保证，匹配求职者与工作岗位的算法是基于个人技能的，在人口统计上是中立的，如果存在歧视的话，那也是招聘公司的问题，不是平台的问题。

该公司找到了一家知名商业学院并聘请了一名教授，他十分愿意开展研究来测试招聘公司是否存在歧视。这位研究人员建议效仿在数年前开展过的一项调查，这项调查创建了多份标准简历，并赋予求职者不同的种族和性别。数千份伪造的求职申请将发送至该地区的各个公司，然后对回复进行跟踪和分析。如果存在任何主动歧视，那么接受率会按照内置的人口统计变量发生变化。

公司的营销和销售经理对这一建议表示赞成，并提供了一份合同。由于商学院要求进行道德评估，因此该提案提交给了学校的机构审查委员会，后者表示反对，因为教授通过欺骗的手段从各大公司搜集数据。他实际上是对平台的潜在企业用户撒谎，并要求他们在不知情的情况下为学校的客户工作，而且不会给他们带来任何收益。（事实上，如果公司被发现使用了歧视性的招聘流程，则可能会因为参与这一项目而蒙受损失。）

这个案例的教训在于，好的意图并不足以让数据搜集变得符合道德准则。

各大公司应该考虑数据的来源问题，这里不仅仅涉及其计划获取的数据，同时还包括已经获得的数据。许多公司会定期搜集所谓的暗数据，这些数据很少使用，通常会被人遗忘，而且有时候甚至都不为人所知。这些案例包括遭到忽视或未被分享的客户数据、访客日志、已归档但未分类的照片、演示文稿文件、邮件、客户服务报告或记录的脚本、机器生成的使用或维护日志，以及社交媒体对企业贴文的反馈。尽管这些数据通常没有结构化，因此很难整合，但其潜在价值是巨大的，众多的软件开发商正在打造产品来帮助各大公司发现并使用其暗数据。由此我们来到了第二个P准则。

2 PURPOSE（目的）

在企业中，因特定目的、并在征得个人主体同意之后而搜集的数据，通常在随后会被用于事先并未与提供方沟通的其他一些目的。因此在评估现有数据的利用时，公司必须确定是否需要再次征得提供方的同意。

例如，法国的一家大型银行希望测试一个假设：通过检查企业邮件来发现对同事或下属的霸凌或性骚扰行为。人力资源部门的多元化经理认为，尽早发现潜在的骚扰能够让公司及时地干预，而且甚至有可能通过培训员工留意警示信号，完全避免出现骚扰的情景。

这家银行推出了一项实验调查，并发现了有力的证据：邮件通信可以预测今后的骚扰。尽管存在这一发现，多名高级经理对这一结果的特别评估导致公司撤销了这个项目，因为有经理指出，搜集的数据，也就是邮件，原本是用于沟通与工作相关的信息。发送邮件的人不会认为邮件将被用于预测或侦查非法活动。

各大公司在对待客户数据方面通常并不是很谨慎。很多公司将其看作是一种收入来源，并将其出售给第三方或商业地址中介。然而，人们对此举的反对态度也是越发强硬。2019年，奥地利政府向奥地利邮政服务开出了1800万欧元的罚单，原因是后者出售其客户的姓名、地址、年龄和政治倾向（如有）。这家奥地利监管机构发现，因单一目的（送信件和包裹）而搜集的邮政数据被不当地改变了用途，并用于向其客户推销，而客户会将这些数据与容易获取的公共数据进行结合（例如房价评估、房产自持率、居住密度、出租单元数量以及街头犯罪报告），以寻找潜在的顾客。在这些数据的买家中也有尝试影响潜在选民的政党。尽管罚金在邮政公司上诉后被撤销，但重新使用（或滥用）客户数据的隐晦行为依然是各大公司和政府所面临的重要问题。

大多数公司使用其客户数据库，向其顾客出售其他服务，但此举也可能会为公司带来麻烦。2021年，致力于倡导数据隐私的英国独立机构信息专员办公室（Information Commissioners Office）起诉维珍传媒（Virgin Media）破坏其客户隐私权益。维珍传媒发送了1964562封邮件，宣布公司将冻结其订阅价格。这一举措毫无问题，然而，维珍还使用邮件向这些顾客进行推销。由于在公司发送邮件的用户清单中，有45万注册用户选择不接受营销广告，信息专员办公室因维珍违反这一协议向该公司开出了5万英镑的罚单。

公司的数据库可能在重新用于其他用途之前并没有征得数据提供者的同意，由此我们来到了第三个P准则。

3 PROTECTION（保护）

身份盗窃资源中心（Identity Theft Resource Center）称，2021年美国发生了近2000起数据泄露事件。即便那些规模最大、技术最先进的科技公司也出现了巨大的漏洞，数十亿人的详细信息被泄露。尽管欧洲拥有全球保护力度最大的法律，但其情形也好不到哪去。由于存在设置错误，维珍传媒共有90万订阅用户的个人详细信息在长达10个月的时间中未受到保护，而且可在其服务器上访问。其间，至少有一名未经授权的人访问了这些文件。

将数据交由专业第三方机构来管理这种常见做法也不一定能提供更好的保护。法国医疗预约应用Doctolib因其在AWS（亚马逊网络服务）上存储数据遭到了起诉，因为这意味着，这些数据可能会被亚马逊和很多其他机构访问，包括美国情报机构。尽管数据已经加密，但在传送到亚马逊服务器时并没有进行匿名化处理，意味着这些数据可以与在线行为的数字记录相关联，继而创建非常精确的个人资料，并用于商业或政治用途。

机构审查委员会需要明确掌握公司的数据被放在了何处，谁有访问权限，是否（以及何时）将被匿名化处理，以及何时会被销毁。因此，很多公司将不得不改变其现有协定和安排，但这种改变十分昂贵。2014年，摩根大通的数据泄露累及了7600万个人和700万家企业，自那之后，摩根大通每年在数据保护方面的开支高达2.5亿美元。

第四个P准则也与保护息息相关。

4 PRIVACY（隐私）

很多公司面临的难题在于，如何在匿名化程度方面找到平衡。匿名化程度过低将无法达到大多数政府法规的要求，除非获得了相关个人的知情授权。匿名化程度过高可能会让数据无法用于营销用途。

存在许多匿名化技术，从简单的数据聚合（仅提供摘要或平均值）到数据的近似处理（例如，使用年龄段而不是某个人的确切年龄），再到略微改变变量值（例如，通过在每个变量中增加同一个小值），或者将数据假名化，这样，一个随机、无重复的值便会取代识别变量。

从理论上来讲，这些技术应该能够保护个人的身份。然而，研究人员只用了性别、生日和邮编这点信息便识别了某个数据组中的个人。即便是更加不具体的信息，只要结合其他数据组，也可以用于识别个人。Netflix发布了一个数据组，包括其客户电影评价的1亿条记录，并悬赏100万美元，寻找能够为公司创建更好电影推荐算法的数据科学家。这一数据并不包含涉及其客户的直接识别参数，仅包含每位客户评价的样本。研究人员通过与互联网电影资料库（IMDb）公布的第三方数据组对比其评价和评价日期，成功识别了84%的个人。IMDb是另一个平台，Netflix的很多客户也在该平台上发布电影评价。为了评估有关人类数据的隐私问题，企业机构审查委员会必须至少评估某款防火墙的匿名化机制的具体效果，尤其是在数据分析工具有能力攻破匿名机制的情况下。一项名为差异化隐私的技术可以让保护再上一个台阶。Sarus提供的软件运用了这项技术，它能够阻止那些旨在发布聚合数据的算法披露有关特定记录的信息，继而减少数据因认证受损、员工行为不端或人为错误发生泄露的机会。该公司是一家由Y Combinator资助的初创企业。

然而即便拥有有效的匿名化数据，隐私也可能因数据搜集和处理的方式泄露。地图绘制公司MaxMind发生了一起意外泄露事件，该公司致力于提供定位服务，从而让企业吸引客户查看附近的产品和服务。定位还能够协助互联网搜索，并在需要IP地址的服务（例如娱乐视频流网站）无法正常工作时提供帮助。然而，精确的地图测绘能够让拥有IP地址的任何人找到你的邻居甚至是你的家。将地址与Zillow或其他一些房地产数据库结合，可以提供有关你财富的信息，外加你家屋内屋外的房间照。

不幸的是，IP地址映射其实并不是一门精准的学科，人们很难将IP地址与实体地址精确关联。一个映射程序可能会将IP地址委派给最近的建筑，或直接委派给某个地区，例如某个州，并使用这个定位核心坐标作为具体地址。这一点听起来十分合理，但其后果对于一个租住在美国堪萨斯州波特文偏远农舍的家庭来说却是非常可怕的。

家庭的IP地址带有农舍的地图坐标，这些农舍的坐标刚好是美国准确中心的坐标。问题在于，MaxMind分配了6亿多个IP地址，这些地址无法用其他方法映射到同样的坐标。然而数年来，这一举措让住在农舍的家庭苦不堪言。发布这一报道的记者卡什米尔·希尔（Kashmir Hill）称：“他们被指控为身份强盗、垃圾邮件制造者、骗子和诈骗犯。FBI官员、联邦警察、国税局收税官、搜索自杀老兵的救护车以及寻找逃跑孩子的警察都去过这些农舍。他们发现人们在其谷仓周围乞讨。租赁方遭到了人肉搜索，他们的姓名和地址被民间治安维护人士放在了网上。”

希尔联系了MaxMind联合创始人，后者最终提供了一个真实地址的冗长清单，其中有很多IP地址都与之挂钩，而且他承认在公司成立伊始，公司团队并未意识到“人们会使用数据库来尝试对人群进行家庭级别的定位”。他说：“我们一直在给数据库打广告，称其能够按照城市或邮编级别的精度来定位。”重点在于，数据科学家和数据库经理所做出的没有恶意、无伤大雅的决策，可能会给无辜第三方的隐私带来极其不利的影响。由此我们来到了第五个P准则。

5 PREPARATION（准备）

在分析之前应如何准备数据？如何验证或纠正其准确性？如何处理不完整的数据组和丢失的变量？丢失、错误以及异常数据可能会大幅影响统计分析的质量。然而，数据的质量通常并不好。信贷服务公司益博睿（Experian）报道称，平均来看，其美国客户认为自身27%的营收被浪费掉了，原因在于客户或潜在客户数据缺乏准确度，而且并不完整。

清洗数据可能会变得颇具挑战性，特别是当该数据来源于不同的时期、业务部门或国家时尤为如此。在一个案例中，我们走进了一家大型跨国线上人才管理和培训公司，以帮助我们研究女性和男性是否能公平地获得职业培训的福利。该公司认为，这个问题在其客户和公众中普遍存在，因此提取了服务器上的已有数据。为保护隐私，数据被匿名化处理，这样，无论是个人雇员还是其雇主都无法被识别。有鉴于数据组的大小及其内部构架，我们提取了四个单独的数据组。

通常，我们会打开数据库，并查找展示个人特征的表格文件，例如性别。一位女士可能被识别为“女士”或“女性”或简单的F。这些值可能会出现拼写错误（feale），以不同的语言出现（mujer或frau），或使用了不同的格式（f或F）。如果表格不大（例如1000行），纠正每个不一致问题应该并不难。然而，如果我们的数据包含10亿个以上的观察值，很明显，这个数字对于典型的电子表格来说太大了，因此我们必须开发一个数据清洗程序，并对其进行测试。

我们一个主要的挑战是确定在识别变量时使用了多少值。因为数据来源于跨国公司的外国子公司，使用了多种语言来记录，意味着多个变量会拥有大量的值，仅性别就有94个。我们撰写了编程代码来实现所有这些值的标准化，例如，将性别降至3类：女性、男性和未知。由于日期格式的不同，尤为棘手的问题莫过于就业的开始与结束日期。

数据分析平台Tableau称，清洗数据有5个基本步骤：（1）取消重复或不相关的观察值；（2）修复结构性错误（例如变量值的使用）；（3）删除不需要的异常值；（4）管理缺失数据，可以通过使用数据组的平均值来取代每一个缺失值；（5）验证并质疑数据和分析结果。这些数字看起来合理吗？

很可能不一定合理。我们的一个数据组便给了我们很大的一个惊喜，该数据组记录了巴黎高等商学院（HEC Paris）工商管理专业学生每天的走步数。平均来看，学生们一天走了7500步，但出现了少数异常值，其一天走的步数超过了100万。这些异常值源于数据处理软件的错误，已被删除。很明显，如果我们没有从实际或统计学角度出发来检查这些数据组，我们最终的分析可能就会错误百出。

人工智能为什么会提升风险

道德对于那些有着强大竞争对手的公司来说是十分昂贵的奢侈品。例如，微软据称解雇了其Bing AI项目的所有道德团队。媒体和播客的报道称解雇的原因在于，谷歌很快将发布其自有的基于人工智能的应用，因此时间就是一切。

然而，在人工智能领域，把数据道德当作一种非必需品这种做法本身就具有风险。ChatGPT开发者OpenAI的首席技术官在最近的采访中评论说：“每当人们打造一种异常强大、拥有诸多益处的事物，这种事物就存在巨大的潜在负面影响……而且这也是为什么……我们尝试弄清楚如何负责任地部署这些系统的原因。”

得益于人工智能，数据科学家可以根据人们在访问社交平台时留下的少量数字痕迹，创建异常准确的心理和个人档案。研究人员米哈尔·科辛斯基（Michal Kosinski）、大卫·斯提尔威尔（David Stillwell）以及剑桥大学的索尔·格拉佩尔（Thore Graepel），展现了人们可以轻松根据Facebook里的“赞”来精准地“预测一系列高度敏感的个人属性，包括性取向、种族、宗教和政治观点，也包括个性特征、智商、幸福度、使用致瘾物质、父母离异、年龄和性别”。（这一研究的灵感事实上源于剑桥分析公司对Facebook数据的使用。）

吴悠悠（Youyou Wu）、米哈尔·科辛斯基和大卫·斯提尔威尔发现基于计算机的个性判断可能比人类判断更准确，进一步佐证了上述发现。计算机通过分析Facebook点赞对个性特征的预测（开放性、宜人性、外倾性、责任心、神经质性，又称为大五人格特征）几乎与个人配偶的评价一样准确。它所带来的影响不应被忽视。如果你的政府希望对你的私人想法和行动分类，你会作何感想？

问题可能不仅在于已经分析的数据，而且在于那些被忽视的数据。机器只能依靠人们喂给它的内容来学习，如果机器在编程时没有写入观察程序，它们便无法识别变量。这一点又被称为遗漏变量偏误。最知名的案例莫过于塔吉特（Target）开发的用于识别怀孕顾客的算法。

该公司的数据科学家是一位名为安德鲁·珀尔（Andrew Pole）的统计学家，他依据客户对约25种产品的选购创建了“怀孕预测”打分系统，这些产品包括无香润肤露和钙补充剂。此举让塔吉特能够先于其竞争对手来推销产品，公司希望借此来留住忠实客户，让他们在塔吉特购买所有婴儿相关产品。这里的遗漏变量是塔吉特客户的年龄，当一位17岁女孩的父亲在他的邮箱中发现孕期产品广告之后，这个迟早会发生的事情终于发生了。由于并未意识到其女儿已经怀孕，他联系了塔吉特，询问为什么公司会向未成年人宣传婚前性行为。

即便按照这个时代的标准，以发现个人、私密医疗信息为目的而监视未成年人，被认为是不道德的行为。珀尔在后续的采访中承认，他认为收到促销目录会让一些人感到不适。然而，即便他当时说出了这些顾虑，但该计划也不大可能会延迟推出，而且有记者称，珀尔升职了。塔吉特最终发布了一项声明，称公司遵守了“所有联邦和州法律，包括那些与受保护健康信息相关的法律。”

董事会与管理层面临的问题在于，使用人工智能来吸引客户、确定求职面试者的合适度，或批准贷款申请，可能会带来灾难性的后果。人工智能对人类行为的预测可能会非常准确，但在情景化方面存在问题。人工智能也可能会出现明显的错误预测，这些预测可能异常荒唐，甚至在道德层面上难以接受。依靠自动统计工具来制定决策并不是好主意。董事会成员和高管们不应将企业机构审查委员会看作是一个费钱的设置、一种束缚或一种社会义务，而应将其看成是一个早期预警系统。

迈克尔·塞加拉是巴黎高等商学院荣誉教授，是国际董事会基金（International Board Foundation）的合伙人。多米尼克·罗齐耶斯是巴黎高等商学院营销学教授，也是BMI管理学会（BMI Executive Institute）的学术事务主任。

迈克尔·塞加拉（Michael Segalla）

多米尼克·罗齐耶斯（Dominique Rouziès）| 文

冯丰 | 译廖琦菁 | 校李全伟 | 编辑

旅蛙小屋

个人数据安全管理的5P准则【特写】

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复

旅蛙小屋

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

发表回复 取消回复

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复