别让生成式AI限制你的创造力 【前沿】

没有人质疑ChatGPT产生大量想法的能力,但这些想法真的好吗?最近一次真实世界实验中,参与创造性问题解决任务的团队,大多数情况下都从AI的帮助中适当获益,但也有一些团队表现不佳。领导力开发公司GeoLab的CEO、本研究的作者之一基安·戈哈尔(Kian Gohar)说,不要怪罪于技术。关于生成式AI、问题解决和创造性过程的普遍误解,会导致员工及管理者不正确地使用这些工具,有时会比没有AI更糟糕。

戈哈尔和核心研究员、斯坦福大学的杰里米·阿特利(Jeremy Utley)与四家公司合作:两家在欧洲,两家在美国,每家公司最多有60名员工需要在小团队中,解决公司面临的业务问题,例如,开发内部培训资源,或者扩大特定产品的B2B销售。每家公司中,一些团队(对照组)在完全没有AI帮助的情况下解决这个问题,而其他人(实验组)则有开源版本的 ChatGPT。所有团队都观看了关于任务问题的简短演示,并在信息表中得到了相关细节。

团队有90分钟的时间按照研究人员规定的结构生成潜在的解决方案。员工首先单独工作,然后在头脑风暴环节与队友分享想法。实验组可以在两个构思阶段使用ChatGPT,并通过输入信息表中的内容训练工具。结束时,每个团队都提交了自己的想法。

每个问题的“所有者”——每个组织中负责实施最终解决方案的人——在不知道哪些答案由人机协作产生的情况下,对想法给出评价,从A(“极具说服力”)到D(“不值得深究”)分配等级。戈哈尔表示,结果颠覆了研究人员的预期。他和同事们本认为,利用ChatGPT的团队会产生更多更好的想法,但这些团队平均只比对照组的团队多8%的想法。他们得到的D少了7%,但也得到了8%多的B(“有趣但有待发展”)和大致相同比例的C(“需要重大改进”)。最令人惊讶的是,他们得到的A少了2%。戈哈尔说:“生成式AI会帮助员工避免糟糕想法,但也导致了更普通的想法。”实验前后进行的调查显示,使用AI的团队比其他团队更有信心解决问题——这里相差21%,但是他们得到的分数表明,大部分信心是错误的。

当然,AI在解决问题方面具有真实潜力,戈哈尔说。以下是将其最大化的几个步骤。

问题要具体。支撑生成式AI聊天机器人的大型语言模型旨在给出“平均”回答;它们的算法已经被训练成识别连续单词的最高概率。如果输入“我像个……一样吠”,并要求机器人完成这个想法,它几乎肯定会给出“狗”这个词。但如果团队正在寻找跳脱的解决方案,平均回答就没有太大用处。

因此,管理者应该教导团队,在使用工具前编写高度具体的问题陈述,包括尽可能多细节。例如,不要问:“我们如何提高客户满意度?”可以说:“我们的客户旅程包括以下步骤……入职步骤的哪些变化将提高10%的保留率?”戈哈尔评论说:“人们期望AI成为一个预言机:输入问题,就能得到解决方案。”简单用广义术语陈述问题,并要求ChatGPT解决它的团队,得到的结果平平。

找时间在没有机器人时,进行独立的头脑风暴。在团队成员与AI互动之前,给他们一些时间,比如15分钟到半小时,来单独提出想法。这将有助于保证他们在团队会议和部署AI时,不受群体思维或工具建议的影响。这一步对于收集多样和创造性的想法至关重要,并最大限度增加了小组讨论中出现独特想法的数量。

严格训练AI。生成式AI系统缺乏人们在组织和行业工作数月或数年获得的环境理解。在将ChatGPT或类似工具集成到构思过程中前,需要帮它赶上进度。尽可能多地输入与具体问题相关的数据,可以包括客户群体的思维方式、之前的成功和失败举措,以及行业基准。

把AI当作持续的对话伙伴,而不是指示。这项研究中的团队在多次与ChatGPT相互交流时,会产生更好的想法。戈哈尔说:“大多数问题解决过程都需要对话。你会和同事讨论,想出一个更好的解决方案,其中一个同事ChatGPT时,也是如此。”

实验中许多团队只是接受了ChatGPT的第一个建议。戈哈尔将其归因于“定势效应”(einstellung effect):这是一种认知偏见,人们倾向于早期、熟悉的解决方案,而不是更广泛地探索可能性。这可能导致AI辅助团队产生B级想法的高比率。戈哈尔说,无论工具最初的建议看起来有多好,团队都应该跟进更多更具体的问题。这样可以让模型完善自己的回答,让用户最终有更多的方案选择。戈哈尔强调:“获得A的团队,是那些与机器人进行互动对话的团队。”

让团队外的人协助做出最终决定。在团队聚在一起分享可能的解决方案时,指定一名成员整合建议。然后让AI分析它们是否符合你的目标,提出批评,挑战假设,并提出更多替代方案。这一步也是一种训练机制,可以提高模型的未来表现。戈哈尔说,可以招募外部加速者——一位不参与狩猎的人,最好精通AI构思——来指导过程,帮助确定想法的优先级,并计划下一步。

“与生成式AI进行头脑风暴,需要重新构思工作流程并学习新技能,”戈哈尔总结道,“但是,如果把它当作一次结构化、持续的对话,你就能获得惊人能力,更快开发出更好、更有创意的想法。”

 

 关于本研究  “评估生成式AI对构思和团队解决问题的实际影响”(Evaluating the Practical Impact of Generative AI on Ideation and Team Problem Solving),基安·戈哈尔和杰里米·阿特利,工作文件。

 

“问题越多,答案越好”

乔·里斯伯格(Joe Riesberg)是爱荷华州EMC保险的高级副总裁和首席信息官,该公司也是参与研究的组织之一。他最近与《哈佛商业评论》讨论了这个实验,以及他对使用生成式AI最佳实践的了解。以下为采访节选。

 

为什么加入这个实验?

2022年11月ChatGPT发布,这项技术显然会对我们的业务产生巨大影响。我们立即展开研究,到2023年初,已经确定了五个项目和案例。我们认为它可以提高我们的绩效。因此,研究团队找到我们时,我们将其当作了一个解决实际业务挑战的机会。

当时有哪些挑战?

我们的代理商与客户的关系至关重要,我们希望集思广益,找到方法进一步改善这些关系。我们向ChatGPT提供了一些关于我们公司与服务的关键文件,然后要求我们的代理商为这一问题找到最有创意的答案:“我们如何开发新方法来优化互动,以增强这一关系,并最终提供卓越的客户服务?”

结果令你惊讶吗?

是的!那天下班时,我本以为ChatGPT给实验团队员工的回答质量、数量和深度都好,肯定比纯粹的人工答案要好。结果证明我错了。

怎么会这样?

我的团队想出了四五个点子,输入到AI系统,并要求它加以改进。一旦系统给出一些回应,就要接受,而没有要求系统提供更精妙或有创意的回应;他们非常确定它一开始就给出了最佳回答。但是,系统产生的是它认为“正确”的解决方案,即在它所掌握的信息中,最符合逻辑的解决方案,而我同事的任务是找到最有创意的解决方案。很多时候,有AI辅助的团队只是将 ChatGPT 合理但通用的答案粘贴到Word文档中。

你从实验中学到了什么?

身处美国中西部,我们在EMC有时会过于友好,很难自然地对同事说,“你的回答不是很有创意,给我更好的答案。”但是和ChatGPT一起工作,需要直接、毫不留情的反馈。越是质疑生成式AI,它的答案就会越好。第一轮头脑风暴后,它可以帮助人们克服创意障碍。如果能够反复挑战AI来改进其建议,就会创造出令人难以置信的东西。尽管学习找出这些答案并不容易,人们需要时间和练习。技术带来的即时效率可能不会像人们希望的那样令人印象深刻。但是,从长远来看,技术迭代带来的速度、生产力和创造力提升,将是巨大的。

 

“分离者”与“混合者”

分离者(splitter)喜欢朝九晚五的工作安排,而混合者(blender)则喜欢全天在工作和其他活动间切换。盖洛普在2023年对美国工人进行的一项调查发现,偏好得到满足时,这两类员工的表现都会更好。例如,在偏好和实际工作方式相匹配的人中,只有46%的人在找新工作,而在无法按照个人偏好工作的人中,有60%的人在找新工作。

 

展示同理心,慢慢说出来

大量研究表明,措辞的微小变化也会影响信息的接收。例如,用“我”而不是“我们”的服务人员,可以提高客户满意度;有脏话的在线评论会被视为更有帮助;而将拒绝表达为“我不”而非“我不能”时,更有说服力。一项新研究发现,表达同理心时,重要的不只是说话内容,还有说话方式,特别是说话速度。这可能会对接收者的感受和满意度产生强烈影响。

研究人员首先进行了一项实地研究,分析了近200个美国大型在线零售商的客服电话。自动工具测量了每个客服的发音速度,即每秒说话时发出的音节数,顾客会对客服提供帮助的程度进行打分。客服说话越慢(在正常范围内),客户对得到的帮助就越满意。

为了探究这些结果的驱动因素,研究人员进行了三项实验。第一项实验中,参与者需要想象给客服打电话处理账单问题。配音演员录制了两个版本的假设回应,参与者会听到其中一个。一个版本中,客服的语速比实地研究中客服的平均语速慢一个标准差。另一个版本中,语速比平均语速快一个标准差。然后,参与者回答了有关客服同理心和乐于助人,以及对电话满意度的问题。听语速较慢的座席人员讲话的人,感受到了更大程度的理解和帮助,并报告了更高满意度。

第二个实验在设计上与之类似,但比较了缓慢和平均语速,并使用了不同情境:参与者想象自己正在听医生对持续和令人痛苦的医疗投诉的反应。这里,较慢的语速也增加了同理心的感知,并提高了满意度;它还使医生看起来更专业。

第三个实验测试了人们对同理心需求减少时,语速是否重要:当参与者被告知医疗问题不严重,并且很容易解决时,语速慢的好处就不那么明显了。另一项分析发现,如果说话者使用的语言本身就能引起共鸣,那么语速带来的好处也会减少。

研究人员写道:“说话慢一点,表明沟通者更加理解并关心受众的需求。一线员工寻求建立忠诚度,政治家希望被信任,教育工作者则努力促进成长。我们的研究结果表明,相对简单的转变……就可以有所帮助。”

 

 关于本研究  “说话更慢的力量”(The Power of Speaking Slower),乔瓦尼·卢卡·卡西欧·里佐(Giovanni Luca Cascio Rizzo)和乔纳·A.伯格(Jonah A. Berger),工作论文。

 

音乐带动销售

一些超市里,顾客会听着流行歌曲推着购物车,另一些超市中则播放着背景音(Muzak),还有一些超市没有音乐。如果有不同,每个环境会对销售产生什么影响?

为了找出答案,研究人员首先在同一家连锁超市的三家欧洲商店,进行了为期三周的实地研究,将流行歌曲、Muzak和没有背景音每种,在每家商店播放一周。分析数据显示,在工作日,两种类型的音乐都大幅提高了11%的销售额。周末时音乐几乎没有影响,如果有的话,它甚至略微降低了销售额。第二项实地研究和对照实验也产生了类似结果。

对购物者的采访表明,差异源于人们在工作日精神更加疲惫,因此更多是直觉决策,这是一种基于情感的思维模式,可能会受到音乐等元素的影响。而在周末,购物者的休息时间更长,通常不会专注于工作,音乐就无法发挥同样的效果。

“人们没有筋疲力尽时,播放音乐的好处就会减少,甚至可能产生不利影响,”研究人员写道,“因此,杂货零售商应该在工作日播放音乐,并提供情感暗示,但应该优先考虑其他营销方式……例如试吃或与顾客互动。”

 

 关于本研究  “理解音乐对工作日和周末购物的影响”(Understanding How Music Influences Shopping on Weekdays and Weekends),卡尔·菲利普·阿尔博姆(Carl-Philip Ahlbom)等,《市场营销研究杂志》(Journal of Marketing Research),2023年。

 

 

要有各个年龄段的领导者

新任CEO的平均年龄正在上涨,但2022年对1000多家美国上市公司的分析表明,“企业活力”——基于销售增长、战略方向和其他因素的长期前景的衡量标准——正在下降。代际领导力可以帮助企业平衡经验与好奇心。

 

禁止使用所有个人数据,会怎样?

随着全球范围个人信息使用法规的提出和实施,研究人员决定模拟隐私保护的极端效果:禁止所有个人数据的收集或使用。

研究人员对中国最大在线零售商阿里巴巴进行了一项实地实验。在一个没有重大促销或活动的平常日子,他们追踪了登录该平台的50多万名客户。他们调整了一半选定客户的常规推荐算法,删除了所有个人数据,并将其行为与对照组进行了比较。

推荐给实验组的产品集中在比平时少很多的产品中,主流产品和来自相对较大卖家的产品获得了最多曝光,而小型、小众和新卖家则遭受了不成比例的损失。实验中顾客的点击率和浏览量立即下降,导致购买量下降了81%。只有一小部分购物者会通过自己搜索产品进行弥补。新顾客、女性、购买力低的顾客,和来自发展中地区的顾客的浏览量和购买量下降幅度最大,而这些顾客正是电子商务的最大受益者。研究人员写道:“数据监管不仅可能导致[互联网销售]规模缩小,还可能使电子商务的发展朝着某个方向倾斜。”他们主张政策制定者在思考这个问题时,谨慎平衡数据隐私和数据价值。

 关于本研究  “个人数据在互联网商务中的价值:数据监管政策的高风险现场实验”(The Value of Personal Data in Internet Commerce: A High-Stakes Field Experiment on Data Regulation Policy),孙天舒(音)等,《管理科学》(Management Science),即将出版。

 

赛场内外都会赢

与其他学生相比,被录取的运动员即使之前的学业成绩并不突出,被名牌大学录取的几率也更大。这是否意味着他们之后可能表现不佳?一项调查其职业成果的新研究表明,情况恰恰相反。

研究人员调查了1970年至2021年,从常春藤学校毕业的40多万名大学运动员和非运动员的工作经历。选择这个数据集是因为,这些学校录取的运动员在学业上与非常春藤院校的同学更接近。他们从体育系网页搜集信息,找出获得校队录取的人,研究了劳工分析公司Lightcast收集的薪资信息(该公司利用了领英的数据),并使用了美国劳工统计局(U.S. Bureau of labor Statistics)的工资信息,结果发现,运动员在多个方面都表现优异。他们比非运动员更有可能获得MBA,尤其是来自排名靠前的学校,并且更有可能获得C级职位。他们的终身薪资更高(平均182万美元,而非160万美元),最高年薪也更高(13.5万美元,而非12.6万美元)。他们更早获得高级职位,在职业生涯中积累的资历也明显更高。

研究人员对运动员的子集进行了研究,发现通常与私立高中相关的体育项目,橄榄球、长曲棍球、壁球、马术的运动员的职业生涯,略好于公立高中常见体育项目的运动员,表明社会经济背景发挥了一定作用。但在所有运动员中,在种族和社会经济多元化的体育项目(橄榄球、篮球、田径)以及学术门槛最低的体育项目(橄榄球、曲棍球、篮球)中,运动员的职业发展前景最好,表明这些学生在参加体育运动的过程中,培养了与工作相关的重要技能。“大学运动员每周花费大量时间进行训练,”研究人员写道,“这种反复的艰苦体力劳动需要并培养纪律性、毅力和勇气,而这些[已]被证明与长期成功有关。”

 

 关于本研究  “书呆子的报复?评估常春藤运动员的职业生涯”(No Revenge for Nerds? Evaluating the Careers of Ivy League Athletes),内提·阿莫西(Natee Amornsiripanitch)等,美国国家经济研究局(NBER),工作论文。

 

员工不愿为女性创始人主动加班

众所周知,女性在为创业企业争取资金时会面临额外障碍。根据一项新研究,这种不平衡的挑战仍然存在:公司创始人为女性时,员工无偿加班的时间会更少。

研究人员利用了葡萄牙“要求所有新公司记录每位员工工作时间信息”的法规,分析了2002年至2012年间,58832家公司的243269名员工的工作时间,发现为女性领导工作的员工,每月工作时间会少1.4小时,这一差异为7%。为了探究原因,研究人员进行了两个实验,让几百名在线参与者受雇为一家虚拟初创公司为图像添加代码,并询问他们是否愿意在没有额外报酬的情况下,多做几个小时。一些人被告知公司由“马修和乔”领导,一些人则认为由“阿曼达和克洛伊”领导,一些人不知道老板信息。认为自己在为马修和乔工作的人中,有50%承担了额外工作,相比之下,为阿曼达和克洛伊工作的人中只有40%,对领导层一无所知的人中,这一比例为30%。

调查显示,努力的差异源于对性别的假设。“人们通常认为,女性会优先考虑工作与生活的平衡,而不是高投入的劳动,”研究人员写道,因此“员工容易将女性创始人与较低的工作要求联系起来。”当情况并非如此,例如当人们被要求贡献额外的时间和精力时,就会觉得受到了不公平待遇,不愿为了公司利益付出努力。

 

 关于本研究  “女性领导者的员工工作更少吗?创业型企业的多方法研究”(Do Employees Work Less for Female Leaders? A Multi-Method Study of Entrepreneurial Firms),奥兰卡·卡克(Olenka Kacperzyk)、彼得·永肯(Peter Younkin)和薇拉·罗恰(Vera Rocha),《组织科学》(Organization Science),2023年。

 

大迁徙

 

亲朋好友的“附加价”

许多B2C组织会向员工及其亲友提供折扣。研究人员想知道,社会关系是否也会影响B2B交易。他们发现,买卖双方之前的关系确实会影响定价,但这种关系会提高,而不是降低收费金额。

研究人员收集了美联储回购贷款计划五年的交易数据,这是美国最大的短期贷款市场。他们确定了负责每笔贷款的投资组合经理——卖方,并使用领英、Capital IQ和彭博确定这个人是否曾在接收贷款的银行工作。分析显示,曾受雇于买方的卖方,平均会比其他卖方多收取四分之一个基点的贷款费用,这代表着利润率提高了3%。

为什么买方会接受更高的价格?研究人员发现,他们是在为可靠性付费。回购市场的意外冲击导致许多买家争相套现,这时卖家对之前有业务往来的买家会采取更可靠的行动,为他们提供所需的额外资金。研究人员写道:“管理者在组建销售团队时,不妨考虑成员的职业关系(即现任员工是否曾是客户的员工)。同样,管理者在做出招聘决定时也应注意职业关系,因为正如研究显示,新员工带来的经验和专业知识以外的资产,会影响他们对公司盈利能力的贡献。”

 

 关于本研究  “B2B市场中职业关系的价值”(The Value of Professional Ties in B2B Markets),纳维德·莫吉尔(Navid Mojir )和斯里亚·安比尔(Sriya Anbil),工作论文。

 

自我推销,事半功倍

自我推销是件很棘手的事。怎样才能不夸夸其谈,又大谈成就?一项新研究找到了解决办法: 双重宣传(dual-promoting),即在宣传他人技能和成就时,也宣传自己的技能和成就,这样就可以帮助我们展现能力和热情。

在对1500多名参与者进行的几项实验的第一项中,研究人员要求参与招聘决策的美国经理阅读员工对与同事共同完成的项目的评估。一半人阅读了强调两个员工贡献的评论(“他的工作给我留下了深刻印象,我们都负责了最擅长的事情”);另一半人阅读纯粹的自我推销(“我负责了最擅长的事情”),然后所有人对员工能力、热情和整体印象进行评分。两类员工在能力方面得分相似,但双重宣传的员工会被认为更有亲和力,给人留下的印象更好。

随后的实验表明,无论同事或其他人是否也这样做,双重宣传都会提升人们的形象。最后一项实验中,注册选民在阅读一位虚构政治家的双重宣传或自我宣传声明时,不仅认为双重宣传者更有魅力,而且更有能力。这表明,在政治背景下,承认他人会发出特别强烈的信心和专业信号,选民也更愿意在投票箱前支持双重宣传者。研究人员写道:“有时,描述我们的成就并留下良好印象的最佳方式,是保证自己也赞美了他人。”

 关于本研究  “双重宣传:通过宣传同行更好地抬升自我”(Dual-Promotion: Bragging Better by Promoting Peers),艾瑞克·M. 梵珀(Eric M. VanEpps)、伊芙·哈特(Einav Hart)和马鲁斯·E.施韦策(Maurice E.Schweitzer),《人格与社会心理学杂志》(Journal of Personality and Social Psychology),即将出版。

 

飞书、DeepL | 译   孙燕 | 编辑

点赞

发表回复

电子邮件地址不会被公开。必填项已用 * 标注