生成你的“绿色”AI 【专栏】

虽然观察人士对ChatGPT、BERT、LaMDA、GPT-3、DALL-E-2、MidJourney和Stable Diffusion等新型生成式AI工具的能力惊叹不已,但这些模型所暗藏的环境成本和影响却通常被人忽视。这些系统的开发和使用耗能巨大,维护其物理基础设施也很耗电。现在,这些工具刚刚开始获得主流关注,但我们有理由相信,这些成本在不久的将来定会增长——而且是大幅增长。

数据中心行业是指为存储和管理信息与通信技术系统而设计的物理设施,占全球温室气体排放量的2%-3%。全球的数据量规模每两年翻一番。存储着这与日俱增的海量信息的数据中心服务器需要巨量的能源和水(直接用于冷却,以及间接用于产生不可再生的电力)来运行计算机服务器、设备和冷却系统。这些系统约占丹麦用电量的7%,占美国用电量的2.8%。

几乎所有最著名的生成式AI模型都是由“超大规模”的云提供商生成的,这些云提供商拥有成千上万台服务器,会产生大量碳足迹;特别是,这些模型是在图形处理单元(graphics processing unit,GPU)芯片上运行的。这些芯片所需的能量是传统中央处理单元(CPU)的10-15倍,因为GPU在算术逻辑单元中使用了更多的晶体管。目前,三家主要超大规模云提供商是亚马逊云科技(AWS)、谷歌云(Google Cloud)和微软云(Microsoft Azure)。

如果我们试图从碳足迹的角度来理解ChatGPT对环境的影响,那么我们应该首先了解机器学习(ML)模型的碳足迹生命周期。这是开始通过降低能耗让生成式AI变得更加环保的关键所在。

 

是什么决定了生成式AI模型的碳足迹?

所有大型生成式模型在能源使用和碳排放方面都不尽相同。在确定某种机器学习模型的碳足迹时,需要考虑三个不同的值:

 

 训练模型产生的碳足迹

 一旦部署了机器学习模型,使用该模型进行推理(使用提示等新的输入数据推断或预测结果)所产生的碳足迹

 生产所有必需的计算硬件和云数据中心功能所需的碳足迹

 

拥有更多参数和训练数据的模型通常会消耗更多能量,并产生更多碳。GPT-3是ChatGPT的“母”模型,在规模上处于或接近生成式模型之冠。它有1750亿个模型参数,并依据5000多亿字的文本进行过训练。据一篇研究文章所言,相比上一代AI模型,最近这一类生成式AI模型需要增加十倍到百倍的计算能力来训练模型,这要视所涉的是哪种模型而定。因此,总体需求大约每六个月翻一番。

训练模型是生成式AI中能耗最高的部分。研究人员指出,训练OpenAI的GPT-4或谷歌的PaLM之类的“单一大型语言深度学习模型”估计要使用约300吨二氧化碳——作为比较,平均每人每年要产生约5吨二氧化碳,尽管北美人平均产生的二氧化碳是这一数量的好几倍。根据其他研究人员的计算,使用一种名为“神经架构搜索(neural architecture search)”的技术训练一个中等规模的生成式AI模型所使用的电力和能耗相当于62.6万吨二氧化碳排放量——或者说相当于驾驶五辆普通美国汽车终生所产生的二氧化碳排放量。从头开始训练一个BERT模型(谷歌开发的一种大语言模型)所需的能源和碳足迹等同于横跨大西洋的一次商业飞行。

推理,或利用模型来获取对用户提示的响应,每次消耗的能量较少,但最终会涉及更多的环节。有时,这些模型只受训一次,然后就部署到云端,供数百万用户用于推理。在这种情况下,部署大型深度学习模型到云端用于推理目的也会消耗大量能源。分析师报告称,英伟达公司(NVIDIA)估计,神经网络80%-90%的能耗成本在于模型受训后的持续推理处理。

除了大型生成式模型的初始训练和推理使用的能量外,这些模型的用户和经销商也越来越多地采用微调或基于提示的训练。当与依据大量数据进行训练的原始生成式模型相结合时,微调可按照某一组织的具体内容量身定制提示和答案。一些研究表明,与初始训练相比,微调训练消耗的能源和计算能力要少得多。然而,如果许多组织都采用微调方法并经常这样做,总体能耗可能会相当高。

虽然很难计算制造电脑来运行所有这些AI软件所需的成本,但人们有理由相信这个成本非常高。2011年的一项研究估计,一台典型笔记本电脑有70%的能耗是在制造过程中产生的,台式电脑的能耗甚至更高。很有可能的是,用于运行AI模型的复杂而强大的GPU芯片和服务器在能耗方面远远高于笔记本电脑和台式电脑。

 

如何让AI更环保

鉴于这一切,现有一场运动旨在让AI建模、部署和使用更具环境可持续性。其目标是用更合适、更具环保意识的替代之法取代耗电的方法。为让AI算法绿色环保,供应商和用户都需要做出改变,以便这些算法的实用程序能够得到广泛部署,不对环境造成危害。尤其是对生成式模型而言,鉴于它们的高能耗,它们需要在普及之前变得更加环保。我们知道,通过好几种不同的方式,AI和生成式AI可以朝这个方向发展,我们会在下文描述。

 使用现有的大型生成式模型,不要生成自己的模型。现在已经有许多大型语言和图像模型提供商,未来还会有更多。创建和训练这些模型需要巨量的能源。除了大型供应商或云服务提供商之外,其他企业几乎没有必要从头开始生成自己的大型模型。他们已经可以在云端获取所需训练数据和海量的计算能力,因此不必获取自己的模型。

 微调对现有模型的训练。如果一家公司希望按照自己的内容训练生成式模型,就不应该从头开始训练模型,而是应该完善现有模型。相比于从头开始训练新的大型模型,在特定内容领域进行微调并及时训练所消耗的能量要少得多。与受通用训练的模型相比,它还能为许多企业提供更多价值。对于希望针对自己的内容采用生成式模型的公司来说,这应该是首要关注的地方。

 使用节能的计算方法。减少生成式AI能耗的另一种方法是使用TinyML之类的计算成本更低的方法来处理数据。TinyML框架允许用户在微控制器等小型、低功率边缘设备上运行机器学习模型,带宽要求低(无需将数据发送到服务器进行处理)。一般CPU平均耗电70瓦,GPU耗电400瓦,而微型控制器仅耗电几百微瓦——耗电量减少千倍——就能在本地处理数据,无需将数据发送到数据服务器。

 只有当大型模型提供重大价值时才使用它。对于数据科学家和开发人员来说,了解模型的价值所在十分重要。如果使用3倍以上功耗的系统仅能让模型的准确性提高1%-3%,那么额外的能耗就不值得。更广泛而言,机器学习和AI并不总是解决问题所必需的。开发人员需要首先对多种备选解决方案进行研究和分析,并根据研究结果选择一种方法。比如,蒙特利尔AI伦理研究所(Montreal AI Ethics Institute)正在积极研究这一问题。

 使用生成式AI时要独具慧眼。机器学习和自然语言处理(NLP)工具在涉及医疗的健康问题和预测方面具有革命性意义。它们在预测海啸、地震等自然灾害方面十分出色。这些都是有用的应用,但仅仅用于生成博客文章或创作有趣故事的工具可能并不是这些运算量大的工具的最佳用途。它们耗损地球健康的可能性大于对人类的帮助。如果一家公司采用生成式AI进行内容创作,该公司应该尽量确保只在必要时使用模型,或尽量减少其他计算成本,这应该也会减少其总体计算预算。

 评估云提供商或数据中心的能源来源。在能够使用环保能源的地区以及在低碳环保的地区部署模型,可以最大限度地降低AI(以及一般软件)的碳强度。这种做法表明,运营排放减少了75%。比如,在美国培训和运行的某个模型可能使用化石燃料能源,但同样的模型可以在魁北克运行,那里的主要能源是水电。谷歌最近开始在魁北克建造一个耗资7.35亿美元的清洁能源数据中心,并计划在2030年前转向全天候的无碳能源。谷歌还提供了一个“碳感应套件(Carbon Sense Suite)”,帮助企业降低他们云工作负荷中的能耗。云提供商的用户可以监督这些公司关于何时以及如何部署碳中和或零碳能源的声明。

 重复利用模型和资源。就像其他材料一样,技术也可以重复使用。企业可以使用开源模型,而不是训练新的模型。循环使用可以降低产生碳的AI行为的影响。原材料可以进行提取,以制造新一代的最新笔记本电脑、处理器、硬盘驱动器等等。

 将AI活动纳入你的碳监测。所有研究实验室、AI供应商和使用AI的公司都需要采用碳监测的做法,以了解自己的碳足迹是何模样。他们还需要公布自己的碳足迹数字,以便让客户在与他们开展AI相关业务的问题上做出明智的决定。温室气体排放量的计算取决于数据供应商、研究实验室之类的数据处理公司、OpenAI等AI服务提供商的数据集。从最初的想法到会被利用来获得研究成果的基础设施,全都需要遵循绿色环保的AI方法。可供使用的软件包和在线工具有好几个,比如CodeCarbon、绿色算法和ML CO2 Impact,这些都可以在运行时纳入代码中,以估算你的排放量。我们应该鼓励开发者群体考虑这些业绩指标,以建立基准并评估机器学习模型。

. . .

当然,组织和个人在使用生成式AI模型时需要考虑很多因素:道德、法律,甚至哲学和心理学的因素。不过,生态方面的考虑也值得加入其中。我们可以讨论这些技术对人类未来的长远影响,但如果我们不能在一个可居住的星球上来讨论这些问题,那么这些考虑将毫无意义。

 

阿贾伊·库马尔是法国里昂商学院(EMLYON Business School)信息系统与商业分析学副教授。阿贾伊曾在麻省理工学院和哈佛大学担任博士后研究人员。目前,他是牛津大学萨伊德商学院的访问学者。汤姆·达文波特是巴布森学院(Babson College)IT及管理学校长特聘教授、麻省理工学院数字商业中心(MIT Center for Digital Business)研究员、国际分析研究所(International Institute for Analytics)的联合创始人以及德勤分析公司(Deloitte Analytics)高级顾问。他著有新书《工作中的大数据》(Big Data at Work)以及畅销书《分析法竞争》(Competing on Analytics)。

阿贾伊·库马尔(Ajay Kumar) 汤姆·达文波特(Tom Davenport)| 文  

时青靖 | 编辑

点赞

发表回复

电子邮件地址不会被公开。必填项已用 * 标注