
商业领袖们正在努力理解一件事——应该如何认真对待人工智能领域的最新现象:生成式AI。一方面,它已经展示了惊人的创造新内容的能力,如音乐、语音、文本、图像和视频,以及最新已被用于编写软件、转录医生与患者的互动,并允许人们与客户关系管理系统交谈。另一方面,它远非完美:它有时会产出扭曲或完全捏造的结果,并且可能无视隐私和版权问题。
生成式AI的重要性是否被夸大了?承担的风险是否值得潜在的回报?公司如何找出最佳应用之地?它们的第一步应该是什么?为了提供指导,本文借鉴了我们对具体AI项目的研究,也借鉴了对技术如何影响整个经济中的任务和工作的广泛分析。
本文作者之一(埃里克)与MIT的林赛·雷蒙德(Lindsey Raymond)和丹妮尔·李(Danielle Li)一起研究了一家大型企业软件公司,表明有办法既能获得生成式AI的好处,又能控制其风险。该公司的客户服务代理们通过在线聊天帮助用户,客服代理们面临着一个共同的挑战:新员工需要几个月的时间来掌握如何回答技术问题和处理困惑的客户,但许多人在有利润之前就辞职了。该公司将生成式AI视为一种解决方案。它聘请了一家生成式AI的初创公司Cresta(埃里克一直在为其提供建议),实施两种AI技术。第一种是大语言模型(LLM)——旨在用人类自己的话理解和回应人类——在聊天“倾听”。它被微调以识别在各种情况下导致良好客户服务结果的短语。但由于存在混淆、或听起来合理但不正确回答的风险,该系统还使用了一种称为上下文学习的机器学习技术,该技术从相关用户手册和文档中获取答案。
大语言模型技术监控在线聊天中的特定短语,当其中一个短语出现时,它会根据上下文学习系统中的信息做出回应。作为额外的保障,它不直接回答查询。相反,人类代理可以自由地运用他们的常识来决定是否使用或忽略大语言模型的建议。
经过七周的试点,该系统已经推广到1500多名客服代理。在两个月内,多个好处出现了:平均每小时解决的问题数量和客户代理可以同时处理的聊天数量增加了近15%;平均聊天时间减少了近10%;对聊天记录的分析表明,在新系统实施后,客户满意度立即提高。例如,沮丧的表达减少了,全大写的愤怒表达也减少了。
很有趣的是,技能最低的客服代理,通常也是最新的代理,受益最大。例如,在新系统引入之前,最慢的20%的客服代理每小时的解决率增加了35%(最快的20%的解决率没有变化)。生成式AI系统是一种快速的技能提升技术。它使所有客服代理都能获得以前只有经验或培训才能获得的知识。此外,客服代理的流动率下降了,尤其是那些经验不足六个月的人——也许是因为当人们有强大的工具帮助他们更好地完成工作时,就更有可能留下来。
考虑到生成式AI在许多其他功能(事实上,任何涉及认知任务的功能)中提高生产率的潜力,称其为革命性并不夸张。商业领袖应该将其视为类似于电力、蒸汽机和互联网的通用技术。但是,尽管这类技术的全部潜力需要几十年才能实现,但生成式AI对整个经济的绩效和竞争力的影响将在短短几年内显现出来。
这是因为过去的通用技术需要大量配合的物理基础设施(电线、新型电机和电器、重新设计的工厂等)以及新技能和业务流程。但生成式AI并非如此。许多必要的基础设施已经到位:云、SaaS、API接口、应用商店和其他进展,不断降低获取和开始使用新信息系统所需的时间、精力、专业知识和费用。因此,公司部署几乎任何数字技术变得越来越容易。这是ChatGPT在60天内从零用户增加到1亿用户的一个重要原因。随着微软、谷歌和其他技术提供商在它们的办公套件、电子邮件客户端和其他应用程序中整合生成式AI工具,数十亿用户将迅速获得访问权限,成为他们日常生活的一部分。
生成式AI也将快速部署,因为人们通过与这些系统交流来与它们互动,就像与另一个人交流一样。这降低了某些工作的入门门槛(想象一下,编写软件时通过用日常语言向大语言模型解释你想完成什么工作)。此外,这些系统不一定需要公司改变整个繁忙流程;起初,它们将仅用于离散任务,这将使它们更容易采用。例如,使用技术重新设计公司与客户互动的方方面面是一项重大任务;用它来向客户服务代理建议更好的聊天响应则不重要。然而,随着时间的推移,生成式AI将在公司如何完成最重要的工作方面带来巨大而深刻的变化。
因此,商界领袖不应袖手旁观,等着看生成式AI的应用如何发展。他们不能让竞争对手抢占先机。
生成式AI如何影响公司工作?
关于生成式AI必将取代的工作种类和数量的预测比比皆是。但是,考虑技术可以执行或帮助执行的认知任务实际上更有作用。
本文作者之一丹尼尔、OpenResearch的萨姆·曼宁(Sam Manning)和OpenAI的泰纳·埃伦杜(Tyna Eloundou)、帕米拉·米什金(Pamela Mishkin)合作的研究采取了这种方法。
他们的起点是O*NET数据库,自1998年以来一直由美国政府维护和更新。O*NET包括近1000个职业,并将每个职业分解为其组成任务——通常是20到30个。例如,根据O*NET,放射科医生有30个不同的任务,包括“执行或解释诊断成像程序的结果”和“为放射科患者制定治疗计划”。
研究人员在OpenAI选择的人的帮助下,回答了两个问题:在生成式AI的帮助下,每个O*NET工作的哪些任务可以用至少两倍的速度完成,而质量不会显著下降?在这些“暴露”出来的任务中,哪些除了生成式AI之外,还需要至少一个系统来获得生产力的提高?研究小组还向OpenAI的GPT-4的大语言模型提出了同样的两个问题,并将其答案与人类的进行了比较。结果是近似的。
这一努力表明,80%的美国工人至少有10%的任务显露在生成式AI中,19%的工人有超过一半的任务显露在外。但“显露”出来并不意味着这些任务将会或应该被自动化。在许多情况下,生成式AI的最佳用途是使人类工人更具生产力或创造力,而不是取代他们。程序员就是一个很好的例子。他们已经大量使用像GitHub Copilot这样的大语言模型来写代码的初稿,但还必须纠正错误;咨询管理、工程和技术人员以澄清程序的意图;培训下属;并执行许多其他不适合生成式AI的任务。随着大语言模型在编写代码方面变得更好,程序员将有更多的时间和精力投入到其他任务中。(有关生成式AI如何帮助而不是取代工人的更多信息,请参阅《AI,“生成”你独有的创造力》,《哈佛商业评论》中文版,2023年8月刊。)
领导者可以采用这种研究方法的版本之一,以了解生成式AI在组织中最有效地应用的地方。每个董事会都应该期望CEO制定可行的玩法。这是一个由三部分组成的过程。
首先,对知识型工作进行粗略盘点:你们有多少人主要以写作为生?有多少数据分析师、经理、程序员、客服代理?等等。
接下来,对每个角色提出两个问题。一是:“这个角色的员工会从拥有一个称职但天真的助手中受益多少——一个擅长编程、写作、准备数据或总结信息,但对我们公司一无所知的人?”今天公开的大语言模型产品就像这样的助手。例如,它们会写代码,但不知道你的软件开发或系统集成需求是什么。它们可以创建一个项目方案或评判一个现有的方案,但不知道你在做什么项目。
二是:“这个职位的员工从拥有一个经验丰富的助手中受益多少?这个助手在公司工作的时间足够长,可以吸收公司的专业知识。”本文开头描述的软件公司不需要天真的客服代理;它需要知道产品出现了哪些问题,并能有效地与客户合作解决问题的代理。
这就是为什么它将面向客户的大语言模型工具与上下文学习相结合。正如这个例子所示,当一家公司需要访问其特定的内部知识时,它通常必须将“现成”的生成式AI与另一个系统相结合。
最后,一旦你们公司的知识型工作角色被盘点完并回答了这两个问题,就优先考虑最有前途的生成式AI的贡献。这项任务很简单:选择效益成本比最大的工作。为了估计效益,看看公司为每个角色花费的薪酬总额。目的不是确定要淘汰的职位;相反,它是为了确定大幅提高生产力的机会——新的数字助理将最有价值。
与其他数字化转型项目一样,生成式AI项目的成本是金钱、时间和丧失机会的组合——你不追求的项目,因为生成式AI是更高的优先级。现成的大语言模型项目相对便宜且快速,而需要将生成式AI与另一个系统集成的项目需要更长时间且更昂贵(尽管与许多其他IT项目不同)。
目前,大多数生成式AI项目都集中在改进特定任务上。这是合适的,因为有很多机会以这种方式使用该技术。但随着技术的成熟和公司经验的丰富,生成式AI努力将涵盖整个业务流程,而不仅仅是单个任务。例如,它们将用于改变公司与客户互动的各个方面,而不仅仅是改善在线故障排除的聊天。生成式AI仍然是一项新兴技术,我们无法准确预测它在未来几年将如何发挥作用。但我们可以自信地预测,它将在成功公司的数字战略中发挥重要作用。
修补“伪造”问题
鉴于生成式AI有望在不久的将来对各种企业产生重大影响,对于它最大的缺点之一——它会伪造信息——的回应不应该是避免技术,而应该是防范这种危险。以下是实现这一目标的方法。
构建多级大语言模型工具,或将其与另一个系统结合起来。构建大语言模型的公司很清楚这些系统会伪造,并正在努力减少问题。一种技术是识别用户的请求何时不适合大语言模型的标准方法,即根据训练过的所有单词和句子之间的关联来制定答案。
对于这样的请求,系统采取了不同的策略。例如,对于只有一个正确答案的问询,谷歌的对话式AI工具Bard,现在实际上编写了一个算法来产生这个答案,并将其报告给用户(连同代码)。例如,当被要求颠倒“Lollipop”这个单词时,它写了几行代码来完成任务,并给出“popilloL”。正如所指出的,改善客服的项目使用了大语言模型工具来监控在线聊天和理解客户问题,但上下文学习系统修订它的回答。
让人类填补大语言模型。用户应该对大语言模型的输出持保留态度。例如,使用大语言模型工具为网站或社交媒体活动生成脚本的市场营销官可以查看系统提出的内容,并快速评估它是否已上线。软件工程师可以查看生成AI产生的代码是否运行并完成了所需的任务。即使没有,据工程师称,它使用的方法也可以帮助他们解决手头工作。使用大语言模型记录和总结患者知情报告的医生称,记录这些访问所需的时间大大减少。一位医生告诉《纽约时报》的史蒂夫·洛尔(Steve Lohr),大语言模型工具已经将他每天花在这项任务上的时间从最多两个小时缩短到了20分钟左右。医生仍然需要审查AI生成的摘要,但他们不再需要同时与患者互动并亲自记录互动。另一位医生告诉洛尔:“作为一名医生,AI让我100%为患者而在。”同样,在客户服务的例子中,客服代理用自己的判断审查AI答案的合理性。
不要单独使用某个大语言模型。有些任务对于生成式AI来说风险太大,根本无法参与。例如,一个系统在90%的时间里开出正确的药物,但在十分之一的情况下会出现混乱,单独使用是不可接受的、不安全的。它也不会节省医生的时间,因为他们必须在将其传递给患者之前仔细检查所有建议。即使对于安全不是问题的任务,大语言模型的混淆倾向也可能排除它们。当本文作者之一安德鲁为他最近的书整理尾注时,他兴奋地得知ChatGPT可以列出书籍、文章和网站,并为它们生成一组正确格式的参考文献。但在检查输出时,他惊愕地发现,AI生成的结果具有看似合理但虚构的标题,给出了不正确的出版日期,或者将文章归错了作者。他发现人工创建所有参考文献比检查大语言模型生成的参考文献的每个方面都要快。
化解隐私侵犯、知识产权问题和算法偏见
如果你使用机密报告来帮助训练生成式AI系统,则报告的部分内容可能会在稍后回复来自不应访问该信息的人的需求时显示出来。因此,明确你正在使用的任何生成式AI的隐私政策非常重要。好消息是大语言模型和严格的隐私保护并不矛盾。例如,梅奥诊所宣布努力部署一个内部大语言模型工具,帮助其医疗保健供应商搜索跨来源信息,包括网页、内部文件和患者记录。如果医生要求“向我展示所有患者今天的测试结果”,这个大语言模型将向电子健康记录系统生成查询并呈现结果。为了使该系统符合美国联邦健康保险流通与责任法案(HIPAA)关于患者信息隐私和机密性的要求,梅奥将指定哪些员工有权访问受保护的健康信息。
除了伪造结果和隐私问题之外,一些大语言模型的风险还包括侵犯知识产权(IP)。ChatGPT已经接受了大量文本的培训,其中一些仍然受到版权保护或其他IP权利。最新的图像生成式AI系统也是如此,比如Stable Diffusion和Midjourney,这两个系统都因侵犯版权而被起诉。如果公司使用的AI生成图像被发现违反了知识产权法律,公司可能会面临法律责任(见《生成式AI的知识产权问题》,hbr.org,2023年4月7日)。因此,许多组织都在等待法庭案件如何裁决,然后再深入研究生成式AI。但为了鼓励立即采用,这些系统的一些创建者正在保护客户免受知识产权风险。例如,Adobe 已宣布将为Firefly(其图像生成式 AI,未在受版权保护的图像上进行过训练)的用户提供法律索赔的赔偿。
与大多数其他类型的人工智能一样,生成式AI的最后一个问题是偏见。“垃圾进,垃圾出”是计算机时代最古老的说法之一,现在比以往任何时候都更正确。如果机器学习系统是基于有偏见的数据进行训练的,它生成的结果将反映这种偏见。例如,如果一家公司只雇用大学毕业生作为程序员,并利用其就业历史来训练一个帮助做招聘决策的系统,那么该系统很可能会拒绝那些没有上过大学或没有完成大学学业的高素质程序员。因此,在将生成式AI投入使用时要保持警惕。问问自己,“我们是否希望这个系统提供的结果比它所训练的数据更少偏见?”如果答案是肯定的,重新考虑这个项目。
准备好实验
在过去的几十年里,领先组织采用敏捷方法成功开发和采用了新的信息系统(参见《拥抱敏捷》,《哈佛商业评论》中文版,2016年5月刊)。他们通过反复试验而不是大型规划来管理这种努力。他们将项目分成短周期,可以在一两周内完成,有时甚至更短。项目团队成员在开始下一个周期之前跟踪进展并反思他们学到了什么。事实上,整个周期通常是一个实验:目标与其说是构建某些东西,不如说是测试假设并获取认知。
生成式AI非常适合这种迭代方法。它的优点和缺点与任何早期系统都不同。你必须弄清楚如何表达你的需求以获得最有用的响应。你还必须弄清楚如何防止虚假结果。开始学习这些艺术的最佳方法是找到一个具有吸引人的成本效益比和低风险的项目,并开始尝试。同样的方法也应该用于更雄心勃勃的生成式AI工作,例如将大语言模型与其他技术相结合。快速迭代是学习和取得进步的最佳方式。组织越快地通过重复的OODA循环——观察(Observingthe situation)情况、定向行动(Orienting for action)、决定做什么(Deciding what to do),然后采取行动(Acting),它就会学到越多,生产力提高以及其他好处就会出现得越快。
生成式AI有可能会伪造答案,对其隐私、知识产权和算法偏见风险都是合理的担忧,但都可以得到控制。领导者不能采取观望态度。他们应该现在开始探索这项技术的潜力。
安德鲁·迈克菲是MIT的首席研究科学家,也是即将出版的《极客之路》一书的作者。丹尼尔·洛克是宾夕法尼亚大学沃顿商学院运营、信息和决策助理教授。埃里克·布林约尔松是斯坦福数字经济实验室主任、斯坦福以人为本AI研究所教授和美国全国经济研究所研究员。他们是Workhelix的联合创始人,这家机构为公司制定生成式AI战略和实施计划。
安德鲁·迈克菲(Andrew McAfee) 丹尼尔·洛克( Daniel Rock) 埃里克·布林约尔松(Erik Brynjolfsson)| 文
飞书 | 译 程明霞 Claude | 校 李全伟 | 编辑