生成式AI胡说八道？你需要一套质检方案【精选方案】

2025年9月10日 0条评论 6次阅读 0人点赞 kasim

尽管人们对生成式AI饱含热望，但其应用的推广仍然受限于一个主要障碍：这项技术会虚构内容、遗漏信息，并生成过多选项，以至于让人很难识别有效内容。因此，目前绝大多数公司都还依赖人工审核和独立测试工具或服务来弥补生成式AI的这一缺陷。然而这两种质量控制方法成本高昂，而且仅能处理生成式AI总产出的一小部分内容。

亚马逊为其庞大的商品目录运营开发出了一种更好的方法：一套名为Catalog AI的基于生成式AI的系统。该系统能够检测并拦截不可靠的数据，生成新商品页面的创意并测试其有效性，还能利用质量检查和实验反馈实现自主改进。该系统每年可以创建和测试数千万个假设，相比之下，大多数依赖人工的系统仅能处理数千个。

尽管许多公司都还在为“从对AI的投资中获取财务回报”苦苦挣扎，但亚马逊的Catalog AI项目已经创造出了可衡量的价值。截至本文撰写时，其8%的建议都对销售收入产生了积极影响。本文作者之一斯蒂芬了解到，虽然其他公司的在线实验成功率更高（10%至20%），但这些公司都依赖人工生成假设，而且其测试系统的自动化程度也远不如亚马逊，这意味着他们生成和测试的假设数量要远低于亚马逊。此外，亚马逊系统的自主改进能力也保证了成功率随着时间的推移而提高。尽管亚马逊认为这一于2023年推出的系统仍然有待完善，但我们相信，它已经取得了足够显著的进展，其他公司的管理者们也已经可以从学习亚马逊对AI生成的内容进行质量控制的规模化中获益匪浅。

传统方法的缺陷

亚马逊的在线目录包含了数以亿计面向全球客户的商品，每天都要添加或编辑数百万条商品展示信息。包括图片、标题、描述和推荐在内的商品数据必须完整、准确、且有吸引力，以便购物者能够快速找到所需商品。此外，重复购买者期望看到熟悉的版面，包括易于查找且快速加载的图片、商品标题、描述和购买按钮。数据质量利害攸关：当商品信息不完整、与搜索无关或完全错误时，客户就会放弃交易或退回不符合自己预期的商品。无论发生哪种情况，都会让亚马逊损失金钱和客户信任。

为了保证数据质量，亚马逊传统会依赖数千名专职管理商品展示的员工的专业知识。亚马逊还运行着数百个机器学习模型，每个模型会针对特定的商品类别（如衬衫或电视）和相应的布局组件（如商品标题或描述）进行优化。专员会与这些模型协同，添加或删除信息、识别不准确之处、整合信息、将文本翻译成不同语言，并整合来自第三方的数据。不过这些传统的机器学习模型有一定局限性：它们最适合规模较小、结构化的数据集，而且要实现跨商品类别扩展的成本高昂。例如，一个针对衬衫训练的机器学习模型无法经济高效地被用到电视或其他非衬衫产品上。相比之下，大语言模型是基于大规模数据集训练，可以实现跨商品类别工作。通过利用大语言模型替代传统的机器学习模型，亚马逊简化了技术基础设施（模型数量减少）和组织结构（职能专家减少），同时也降低了成本。

确保新方法可靠

在 Catalog AI上线的最初几周，它生成的结果中约有 80%并不可靠。系统会虚构内容、遗漏信息，或提供客户并不感兴趣的建议。例如，在缺少相关信息的情况下，它会声称一款电动泵的功率为15匹马力。同样，在被问及沙发材质时，模型会提供沙发框架材质的信息，而非绝大多数客户更关心的座垫材质信息。为了纠正这些质量问题并测试更改建议是否有效，亚马逊采取了以下四个步骤。

1 进行审核

为了追踪进展，一个组织需要了解其系统的基准性能。在制造业领域，这是通过对一个稳定期间内的流程进行评估，并利用评估结果确定控制阈值来实现的。亚马逊让大语言模型生成了数千个已知的商品页面，然后由人工审核员将其与已知信息进行比对，对可靠性打分，并对表现不佳的页面进行根因分析。这种做法带来了一系列快速改进，接下来我们会给出详细描述。

2 部署防护措施

当一个模型给出并非基于输入数据的输出时，就会出现“幻觉”（即把虚构或不准确的内容当做真实的结果呈现出来）。提高可靠性并避免幻觉的一种方法是对大语言模型加以限制，使其仅使用业务相关的特定数据，而不使用来自网络的通用信息，或与业务无关的数据源来输出结果。不过这也是一种妥协：大语言模型访问外部和内部数据的自由度越大，系统就越能探索、修改和测试更多新想法，例如根据从网上获取的信息，大语言模型可能会建议不要将纸质盘子放进洗碗机清洗。对大语言模型的输入加以过多限制，就会降低它做出此类推理的能力。因此，亚马逊决定不在大语言模型的输入上做出限制，而是设置另外三种限制。

简单规则。确保可靠性的一种方法，是指示系统拒绝不符合规则的内容。例如，可以设置这样一条规则：描述重量的数字后面必须跟有千克或磅的单位。亚马逊就创建了这样一条规则，要求Catalog AI必须拒绝对当前商品展示做出非实质性更改的建议（例如，将商品风格从“当代”改为“现代”）。这些简单规则还规范了页面布局，以保证客户在整个网站中都能获得一致体验。

统计画像。这一防护措施与工厂中使用的统计过程控制 (SPC) 阈值类似。当过程变量超出阈值，就会触发警报和对问题根因的调查。在为生成式AI模型创建此类防护措施时，公司可以用当前商品的数据来判断生成式AI的输出是否在预期范围内。例如，大语言模型可以用于生成由第三方供应商销售的桌子信息。这时，亚马逊线上商店的桌子数据就可以用来生成“防护措施”。当由大语言模型创建的商品信息超出控制阈值时，另一个大语言模型就会对该模型提出质疑。在某些情况下，当第一个大语言模型被提示要解释生成信息的原因时，它就可以识别出自己的错误。

AI检查AI。我们刚描述了这种做法的一个例子，但不可能为每个可能的AI输出制定规则或防护措施。部署第二个生成式AI系统就能解决这些问题。亚马逊会用生成式AI来发现生成式AI产生的问题。第一个大语言模型是内容生成器，被训练来生成假设；第二个大语言模型则是内容审查器，被训练于检查前者的输出。它们相互连接，并会基于各自不同的背景知识自动进行对话。

例如，亚马逊会使用一个大语言模型检测商品页面间不一致的地方，比如确保标题中的商品颜色与图片颜色匹配。如果发现差异，商品信息的更改就会被系统自动拦截。内容审查器可以向生成式AI系统提问，例如“为什么新页面比现有页面更好？”这会迫使内容生成器去分析输出结果，并可能会因此放弃之前的建议。为了提高可靠性检查的严谨性，Catalog AI能够连接到基于不同数据训练的内部和外部大语言模型。由于所用的训练数据不同，这些大语言模型可能会发现不同问题。例如，如果内容生成器模型犯下了推理错误，并错误计算了产品体积，基于不同数据集训练的内容审查器模型就很可能发现并拦截这个错误。

在通过全部质量检查后，由生成式AI提出的设想就会被发布到实验平台上。该平台会对其有效性做出评估：改进建议会增加销售收入或销量吗？

3 测试有效性

公司需要找到高效方法，来评估生成式AI生成的众多创意中的有效内容。此前，亚马逊的商品展示专员会创建规则和算法，自动批准、设计并改进他们认为最有效的页面布局。这种做法有以下几个局限：专员在创建这些规则和算法时引入了部分未经测试的假设，而且他们采用的测试也并非总是符合成本效益或可以自动化执行。此外，传统的市场研究（例如焦点小组和调查问卷）也可能有误导性，因为客户的言行并非总会保持一致。这些都让预测客户偏好变得非常困难。Booking.com的一位高管告诉本文作者之一斯蒂芬：“我们每天都能看到，人类非常不擅长预测。我们对客户行为的预测十次有九次是错误的。”

为了找出哪些改进可以引起客户共鸣，Catalog AI团队将 A/B 测试集成到了系统的工作流程中。想要科学测试生成式AI产生的海量输出，就需要一个进行实验的基础设施，包括：测量仪器（记录点击、鼠标悬停和事件时间等）、数据流水线，和数据科学家。虽然一些第三方工具和服务有助于进行这些实验，但要做到规模化，公司必须将这些能力紧密集成到自己的工作流中。在亚马逊，这些基础设施实现了完全的自动化：Catalog AI生成的所有商品页面更改建议都要经过 A/B 测试。

Catalog AI会运行一个对照实验来比较两种（或多种）可能的用户体验选项：选项A（对照组，或基准版本）是当前的商品展示，选项B（实验组，或挑战版本）是由AI生成，旨在实现特定目标（例如提高客户转化率）的修改版本。用户会被随机分配到这些体验选项，然后系统会计算和比较用户体验的综合指标。这些指标的选取应与公司的战略目标保持一致，最佳的短期指标也能够预测长期结果。［参考“构建实验文化”（The Surprising Power of Online Experiments），《哈佛商业评论》中文版，2020年3月刊］。

在最近一项针对一种护肤品的实验中，Catalog AI生成的实验组选项重点描述了产品的核心优势，而对照组选项则包含了一长串对产品特性及好处的描述。对照组选项详细描述了这些产品特性是如何带来诸如清洁毛孔、改善肤质和减少泛红等功效的，而由AI建议的实验组简短版本则仅仅列出了产品的主要优势：减少皱纹，让肌肤更水润光滑。在随机选择的客户群体中，简短版本选项显著提升了销量。

然而其他实验也揭示出，大语言模型在生成商品标题时会遗漏一些产品功效。例如，AI从之前“芒果黄油泡沫沐浴露，亮泽肌肤，13.5盎司（4支装）”的商品标题中，删除了“亮泽肌肤”，而改为“芒果黄油泡沫沐浴露，13.5盎司，4支装”，对商品的销量产生了负面影响。

整体来看，实验显示，在通过了亚马逊可靠性检测的AI生成内容中，约有40%要么提升了关键绩效指标（如销售转化率），要么没有产生任何影响，无论正面还是负面。而其余的60%则造成了显著的负面影响，这些内容通常不会被发布到公司的商品目录中。

4 创建一个学习系统

理想的质量系统应该是一个有学习能力的系统，能在很少或没有人工干预的情况下持续改进。亚马逊的系统可以生成用以改进其大语言模型性能的数据，使其能够更有效地挑战关于客户喜恶的假设。不过，该公司的科学家发现，适当引入人工干预仍会有助于生成更好的学习数据。例如，针对结果负面的实验所做的人工调查有时能发现并纠正大语言模型的缺陷。有这样一个调查，一个团队发现，缺少保修信息时，大语言模型会错误地将“无保修”当做默认值写入商品展示。不过，随着Catalog AI的进步，人工干预的范围将逐步缩小，仅限于在系统设计和要决定基础设施时引入。以下是构建一个学习系统所需的组件。

客户模型。为了加快反馈速度，公司可以开发一个反映客户偏好的综合指标。虽然严格来说，客户模型并非是构建一个学习系统的必要条件，但只要模型准确，它就能显著加快系统的运行速度。客户模型可以让公司通过运行虚拟实验获得近乎即时的反馈。就像不使用实体原型而在计算机上运行汽车碰撞的模拟测试，由于不再需要真实客户的参与，对AI输出的测试可以更快完成。

设计一个与典型客户有相同反应的指标时，要考虑很多问题。公司必须确定指标中包含哪些数据，并通过大量客户实验对其进行验证。Catalog AI会使用目录数据质量（CDQ）指标这一客户模型与实时测试，该指标包含了来自规则、统计画像和可靠性检查的数据。CDQ 最终将取代大多数需要真实客户参与的测试，从而显著加速系统的学习过程。

多元变量实验。除了A/B测试，亚马逊的系统还采用了多元变量实验。这是一种更加复杂，能够深入洞察多个变量（如文本、颜色和图片）如何相互作用，或决定最佳设计选择的实验。亚马逊的算法会通过对客户浏览量高，且对主要绩效指标产生显著影响的商品页面进行多元变量实验，来发现这些模式并进行研究。数据科学家会审核结果最显著的实验（对某些关键指标产生超过1%的积极影响，且对其他指标的负面影响小于1%），以发掘其中的模式和错误。鉴于亚马逊市场的客户流量和交易规模，即使对数百万商品展示做出的微小改变，也可能会转化为数十亿美元的额外收入。这里网站流量较小的公司在实施变更时，会设定与亚马逊不同的阈值。

尽管Catalog AI的终极目标是实现自主学习，但它目前的训练过程仍需人工赋能。一些实验能够隔离变量的影响，并生成可供Catalog AI管理团队与数据科学家共享的案例样本。例如，Catalog AI标题团队就可能会提示大语言模型生成不同长度和内容的商品标题：

· X品牌植物蛋白粉，香草味，22克蛋白质，20份装（21个字）

· X品牌植物蛋白粉，香草味，22克蛋白质，非转基因，纯素，无麸质、乳制品或大豆，20份装（36个字）

· X品牌植物蛋白，香草味，22克蛋白质，非转基因，纯素，无麸质、乳制品或大豆，无人工香料、合成色素、防腐剂或添加剂，20份装（52个字）

通过实验可以判定以上三个商品标题中最有效的一个，随后可以将该结果用于大语言模型的训练。通过生成更好的跨商品类别的训练数据，Catalog AI的输出质量得以显著提高：现在80%的系统输出都能通过初始质量检查。

概念测试。Catalog AI在推出初期，生成了几百万个需要经过客户测试的商品展示变更。理想情况下，每项变更都要通过独立的测试实验，但许多商品展示产生的客户流量都不足以达到所需的关键样本量(要达到统计置信度，一项变更可能产生的效果越小，将其从背景噪音中区分出来所需的观察次数就越多）。

当客户流量不足，即浏览量少于100万次时，实验平台就会自动将AI生成的内容按商品展示的相似度批量组合为单一概念测试来获得洞见。平台会使用一种特殊算法，根据商品类别，对有时来自高达数千个AI生成的商品展示中的内容进行批次分拆。而对于浏览量超过100万次的产品，平台则会运行独立实验。在满足统计样本量需求的前提下，内容批次分拆的批量越小越好。例如，由AI生成的数千种对咖啡机描述做出改进的变体，将被组合到一个单一的概念实验中。这些实验可能会对未经验证的客户偏好假设提出挑战。

例如，一项实验就颠覆了专员们长期坚持且已嵌入机器学习模型的假设：购物者更喜欢白色背景与商品展示间形成的强烈对比。这项概念测试探索了经AI增强的图片会如何影响客户参与度。数以千计由AI生成的商品页面都包含了场景化背景建议，即在真实的使用场景中展示商品的方案。这些建议被批量纳入到了概念测试中。测试的对照组使用了白色背景和穿着黑色保暖上衣的模特图片，而测试组的图片则添加了丰富的背景，将穿着同样上衣的模特置于室内环境，帮助客户直观地看到商品在日常场景中的样子。实验发现，添加丰富的背景可以显著提升销量，随后这一改进也被应用到了数百种基础时尚产品中。

提升AI项目的效能

一旦准备就绪，质量系统不仅可以管理AI生成内容的质量，还能帮助公司将资源导向投资回报率（ROI）最高的AI项目。通常来说，负责这些项目的业务部门会提交过于乐观的财务回报预期，而这些预期又决定了专员团队和计算资源的分配（事实上，德勤在2024年对6个行业中2770名公司领导者的调查显示，41%的受访者表示其组织难以界定和衡量对生成式AI的投入所产生的影响）。而当质量系统可以与客户一起测试新项目的有效性时，领导者们就可以依照确凿证据，决定分配资源的最佳方式。它还能让领导者根据持续测试，更加动态地调整资源分配。

例如，这样的系统可以让公司从项目原型中进行学习，量化项目对客户子集的影响，然后再进行更大范围的推广。Catalog AI系统的改进往往始于原型设计，有时这些原型设计间还会相互竞争。团队会针对它们运行实验，并利用实验结果为扩展自己的原型争取更多资源，最终，胜出的原型将会得到推广。亚马逊的“阿米莉亚项目”（Project Amelia）是公司为卖家设计的生成式AI助手，目前正在逐步向更多卖家开放。公司会在这一过程中监控模型性能，并将客户反馈整合进来。

实验还有助于对AI基础设施的权衡管理，比如模型性能与计算成本间的平衡。增加大语言模型的规模可能只会带来少量边际效益，但这样往往需要很长的训练时间。通过实验，亚马逊发现一些较小模型的表现要优于大型模型，因为它们需要的资源更少、能够更频繁地进行再训练，对客户查询的响应速度也更快。其他公司也可以进行类似实验，以决定在诸如自己开发专有的大语言模型，还是使用第三方模型等问题上的最佳路径。

数十年前，哈佛商学院教授戴维·加文（David Garvin）撰文阐述了质量系统为企业带来的可持续优势［参见“流水线上的质量”（Quality on the Line），《哈佛商业评论》英文版，1983年9-10月刊］。他在针对室内空调制造商的研究中发现，质量最高的制造商的产品故障率比质量最低的制造商要低500至1000倍。他总结道，实现高质量的核心在于拥有一套全面的质量控制系统。加文的这一心得在AI时代依然正确。

斯蒂芬·托姆克是哈佛商学院威廉·巴克利·哈丁工商管理教授。菲利普·艾森豪尔是亚马逊的高级经济学家。普尼特·萨尼是亚马逊的高级首席工程师。

斯蒂芬·托姆克（Stefan Thomke）菲利普·艾森豪尔（Philipp Eisenhauer）普尼特·萨尼（Puneet Sahni）| 文

DeepL | 初译张矩 | 编校孙燕 | 编辑

旅蛙小屋

生成式AI胡说八道？你需要一套质检方案【精选方案】

传统方法的缺陷

确保新方法可靠

提升AI项目的效能

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复

旅蛙小屋

传统方法的缺陷

确保新方法可靠

提升AI项目的效能

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

发表回复 取消回复

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复