欢迎来到AI产品经理从0到1研习之旅。 随着大型语言模型(LLM)技术的快速发展和应用,我们见证了一系列创新的LLM集成搜索产品的出现,例如New Bing(已更名为Copilot)。LLM+搜索产品展现出巨大的潜力和优势(当然也存在问题和挑战)。本文要分享的就是微软研究院的相关团队成员于2023年7月7日发表了一篇名为《Comparing Traditional and LLM-based Search for Consumer Choice: A Randomized Experiment》的论文(当前版本V2修订于2023年11月8日)。这篇论文提供了关于大型语言模型(LLM)在搜索引擎应用方面的深刻见解,尤其是在改善用户搜索体验、提高搜索效率和准确性方面的潜力和挑战。实验结果揭示了基于LLM的搜索相较于传统搜索引擎在处理复杂查询、减少查询次数和缩短决策时间方面的优势。然而,同时也突出了准确性的问题,尤其是当LLM提供的信息不准确时,用户很难识别错误,这可能导致错误的决策。(结论已经帮大家提炼了,而论文内容稍显晦涩,翻译后近1.5万字,如果你只是对最新的应用进展感兴趣,读到这里也差不多了,可以等候下篇)结合AI产品管理的视角,重要的是要理解大模型(不仅限于文本,还包括图像、声音等多模态模型)在搜索产品中的应用不仅仅是技术的展示,更重要的是如何利用这些技术为用户提供价值,同时也要注意到它们可能带来的风险。目前我还没有看到对应的中文版本,在此斗胆进行翻译(部分说明有删减),分享如下: 00—摘要近期大型语言模型的发展迅速改变了在线应用程序的功能。例如,基于大型语言模型(LLM)的搜索工具提供了一种自然语言界面,能够处理复杂的查询并提供详细、直接的回应。同时,由于在算法生成的文本中可能出现的错误或捏造信息,人们对基于LLM工具提供的信息的真实性表示担忧。在一系列在线实验中,我们调查了基于LLM的搜索如何改变人们的行为相对于传统搜索,以及如何减少对基于LLM输出的过度依赖。在我们的实验中,参与者被要求解决一系列涉及研究和比较不同产品的决策任务,并随机分配使用基于LLM的搜索工具或传统搜索引擎完成这些任务。在我们的第一个实验中,我们发现使用基于LLM工具的参与者能够更快地完成任务,使用的查询更少但更复杂。此外,这些参与者报告说他们对基于LLM搜索工具的体验更加满意。当LLM提供的信息可靠时,使用该工具的参与者做出的决策与使用传统搜索的参与者在准确性上相当;然而,我们观察到当LLM出错时,人们过度依赖不正确的信息。我们的第二个实验进一步调查了这个问题,通过随机分配一些用户看到一个简单的颜色编码突出显示方案,以警告他们LLM回应中可能不正确或误导性的信息。总的来说,我们发现这种基于信心的突出显示大大增加了用户发现不正确信息的比率,提高了他们整体决策的准确性,同时对大多数其他度量影响不大。这些结果表明,基于LLM的信息检索工具有望提高从事决策任务的人的生产率,并强调了传达不确定性的机会,以帮助人们知道何时进行进一步研究。 01—引言近年来,人工智能(AI)特别是大型语言模型(LLMs)的快速进步,正在改变数十亿人日常使用的工具。第一个被转型的应用之一便是搜索引擎。ChatGPT,一个基于LLM的聊天机器人,于2022年11月30日发布,到2023年2月,微软和谷歌宣布即将推出基于LLM的搜索引擎,并开始了快速部署,微软在2023年5月4日结束了对Bing Chat的等待名单。从用户体验的角度来看,传统的网络搜索与基于LLM的搜索在许多方面都有所不同,每种都有其自身的优势和劣势。使用传统网络搜索时,用户通常会发出相对简洁的查询(Jansen et al. 2000; Silverstein et al. 1999),并被呈现一个包含与搜索查询相关的网页链接和摘要的列表。这种信息检索方式有几个好处。首先,传统搜索允许用户通过超链接直接访问源材料。其次,传统搜索使用户能够通过结果页面上的不同引用看到不同信息源之间的一致性或分歧。第三,传统搜索显式优化以返回权威结果(Brin 1998),并提供额外的线索来判断信息的可靠性,例如通过不同结果的域名和发布者(例如,认为国会图书馆的信息比来自未知域名的信息更可信)。同时,传统网络搜索过程也有一些缺点。尽管能够从不同来源访问参考材料很方便,但整合这些信息可能既困难又耗时。尽管有时候搜索结果页面的“即时答案”或摘要会展示相关信息,但用户通常需要点击几个不同的结果并在这些页面中搜索以找到相关信息。此外,冗长或复杂的查询经常导致搜索结果不佳(Bendersky and Croft 2008; Gupta and Bendersky 2015),鉴于许多现实世界的决策任务都是复杂的,这可能导致用户需要将任务分解成一系列更简单的查询(Jiang et al. 2014)。最后,在复杂的搜索会话中,搜索引擎保持查询之间的上下文是一个技术挑战(Finkelstein et al. 2001; Lawrence 2000)。基于LLM的搜索有一套不同的优势和挑战。就优势而言,基于LLM的搜索提供了一种自然语言界面,可以处理复杂查询并返回详细、直接的回应。这包括能够从许多不同的引用中提取细节,并综合它们之间可能复杂的信息。基于LLM的搜索也更倾向于保持更多的上下文比传统搜索,允许用户进行对话式交流,以细化并跟进一系列的查询。同时,基于LLM的搜索目前面临许多挑战。众所周知,LLMs在生成听起来合理但事实上不准确的文本序列时会有“捏造”或“幻觉”问题(Maynez et al. 2020)。在使用LLMs进行网络搜索的上下文中,这一问题尤其令人担忧,如果用户简单地假设他们被展示的内容总是正确的,那么捏造的信息可能导致对不正确搜索结果的过度依赖。此外,与传统搜索相比,基于LLM的搜索提供了较少的可靠线索,用户可以用来评估信息的准确性。响应可能缺乏指向源材料的超链接,用户依赖这些链接来验证声明。即使提供了外部链接,它们也不像在传统网络搜索中那样显眼,通常出现为微妙的脚注而不是整页列表,并且LLM生成的回应与它们引用的来源之间可能存在不一致(N. F. Liu et al. 2023a)。传统与基于LLM的搜索之间的差异将如何影响人们的日常决策呢?基于LLM的搜索可能提供实质性的好处,提供一个更易使用的界面,加速复杂任务的完成,帮助人们更快地达成目标或为他们腾出时间来获取更多信息。同时,LLM生成结果中的捏造可能会误导人们,因此虽然他们可能更快地完成任务,但也可能基于不准确的信息做出次优的决策。在接下来的部分中,通过大型随机实验,我们将实证测试基于LLM的搜索工具如何影响决策制定,并提出并测试干预措施以减少对错误LLM响应的过度依赖。在我们的实验中,参与者被要求解决一系列决策任务,这些任务涉及研究和比较不同的产品,并随机分配使用基于LLM的搜索工具或传统搜索引擎来执行这些任务。在我们的第一个实验中,我们发现使用基于LLM工具的参与者能够更快地完成任务,使用较少但更复杂的查询。此外,这些参与者报告了对基于LLM搜索工具的更满意的体验。当LLM提供的信息可靠时,使用该工具的参与者做出的决策与使用传统搜索的参与者在准确性上相当;然而,我们观察到当LLM犯错时,人们过度依赖不正确的信息。我们的第二个实验进一步调查了这个问题,通过随机分配一些用户看到一个简单的颜色编码高亮显示方案,以警告他们LLM回应中可能不正确或误导性的信息。总体而言,我们发现这种基于信心的高亮显示显著增加了用户发现不正确信息的比率,改善了他们整体决策的准确性,同时对大多数其他度量影响不大。这些结果表明,基于LLM的信息检索工具有望提高从事决策任务的人的生产率,并强调了传达不确定性的机会,以帮助人们知道何时进行进一步研究。图 1: 对于相同查询“2020款吉普牧马人的载货空间是多少”在(左)2023年5月15日Bing的传统搜索和(右)2023年5月15日Bing的会话式搜索中的示例。 02—相关工作在这项工作中,我们通过一种新颖的搜索工具测量了人们使用传统搜索或基于LLM的搜索进行消费者决策的方式。虽然基于LLM的搜索是一个非常新的创新,但这项工作与过去关于生成式AI对知识工作影响的研究,以及关于人们如何使用搜索引擎的丰富文献有所联系。Noy和Zhang(2023)进行了一项在线实验,评估了基于LLM的写作助手对工作者生产率及相关指标的影响。参与者被分配完成模拟真实工作活动的任务,如编写新闻稿、简报和电子邮件。相应领域的经验丰富的专业人士评估了参与者的工作,并发现AI助手提高了生产率,并在多个方面增强了写作质量。Brynjolfsson等人(2023)探索了生成式AI在客户服务领域对生产率的影响,通过研究基于GPT的聊天助手的部署。他们发现,这对生产率有积极影响,尤其是对于低技能工人,并带来了其他益处(例如,减少升级)。Dell'Acqua等人(2023)在波士顿咨询集团的顾问身上执行了一项受控实验,展示了某些类型任务的生产率提升,对于低技能工人的收益更大。相反,他们也展示了对于LLM-based工具已知存在困难的任务的准确度下降。在软件开发者生产率领域,Peng等人(2023)使用一个基于LLM的编码工具(GitHub Copilot)进行了一项受控实验,以评估其对生产率的影响。被随机提供LLM辅助的开发者完成编码任务的时间不到对照组的一半。该研究揭示了某些群体(例如,经验较少的开发者)获得了更多的好处。较早的研究由Ziegler等人(2022)表明,接受代码建议的速率,而不是这些建议在最终代码中的持久性,预测了开发者对生产率的感知。Peng等人的发现表明,生产率的提高可以带来显著的时间节省。在一项实地实验中,Inwegen等人(2023)展示了在撰写简历和选择候选人时的生产率提升,因为使用基于LLM的工具制作的简历更加清晰,这本可以消除雇主的身份识别来源,但反而使他们的选择更加高效。此外,我们的工作调查了当LLM-based工具的回应包含错误或捏造时,可能出现的对LLM-based工具过度依赖的情况,这一现象已经得到了充分的记录(N. F. Liu et al. 2023b)。尽管已经有很大努力在算法上识别这些错误或为响应的正确性生成校准概率,但大多数工作集中在相对简单的场景上,例如标准化测试或类似的问题-答案对(Kadavath et al. 2022; Lin et al. 2022; Yin et al. 2023)。最近的研究对更复杂的、与现实世界相关的场景显示出希望,使用颜色编码高亮显示LLM-generated代码,帮助程序员将注意力引向潜在的问题输出(Vasconcelos et al. 2023)。在我们的研究中,我们将这种方法应用于基于LLM的搜索,使用颜色编码高亮显示来警告用户LLM-generated响应中潜在的误导信息。这篇论文基于对搜索使用和技术发展随着时间演变而适应搜索行为的广泛文献,其中LLMs是众多变革中的最新一次。Bates(1989)引入了在线搜索模型,重要的是不仅关注人们开始做什么,还关注用户的技能如何与界面共同发展。Bennett等人(2012)提供了详细的搜索会话元素分类——从术语到查询数量——我们在本文中进行了扩展。J. Liu(2021)调查了用户在各种搜索会话中旨在实现的广泛研究范围。许多研究已经检查了搜索行为的变化,从新界面的影响(Bates 1989)到自动完成功能(Mitra et al. 2014)。这项研究还建立在关于转化路径和人们如何使用搜索引擎找到产品的文献基础之上(Ramos and Cota 2008)。我们的研究在几个方面扩展了现有文献。首先,与研究写作或编码不同,我们关注LLMs如何影响搜索和信息检索。其次,我们专注于消费者决策制定领域,这是一个广泛的类别,据我们所知,尚未在LLM-assisted生产力文献中被探索过。第三,我们探索了在LLMs返回不可靠信息的情况下减少过度依赖的解决方案。 03—研究领域和研究问题我们在这项工作中调查的领域是消费者进行产品研究。搜索引擎在所谓的转换旅程中扮演了关键角色,即消费者从对产品类别的兴趣到考虑集合、最终购买产品,甚至是寻求支持或选择配件等后购买活动的过程。在一个简单的模型中,消费者以对一个产品类别的兴趣开始,使用搜索引擎来收集初步信息。他们在探索不同产品时进出搜索引擎。选择继续这一旅程的人会越来越接近通过搜索引擎找到的购买点。由于它与转换旅程密切相关,搜索广告已经成为一个庞大的行业,2022年的收入达到840亿美元,占所有互联网广告形式中最大的收入份额(IAB 2023)。特别地,我们关注了对一款运动型多功能车(SUV)的购买研究。图1提供了传统搜索引擎结果页面的截图,以及当前运行的基于LLM的搜索工具,Bing Chat,对查询的回应是如何的。在两个面板中,查询都是“2020款吉普牧马人的载货空间是多少?”在左侧面板中,Bing的传统搜索提供了一系列广告、将用户链接到相关网页的有机结果,并突出显示了来自链接网站片段的“即时答案”。在右侧面板中,使用Bing的基于聊天的搜索,会话式的即时答案以自然语言出现,通过基于LLM的摘要生成相关网页的详细信息。在这里我插入一个最新的、中文环境下Microsoft Copilot的结果(以帮助没有体验过的读者理解) 假设有人市场上寻找一款提供充足载货空间(用于运输包裹)但总长度最小(以便于停车)的SUV。他们如何着手搜索一辆最大化这一载货空间与总长度比率的车辆?查看来自传统搜索引擎的数据(表A1),我们看到人们经常一次搜索一个车辆,一次只搜索一个维度(例如,载货空间)。也许我们假设的寻找高容量、短长度SUV的搜索者可能会在使用传统搜索引擎时发出一系列简单的查询。例如,一系列1个产品和1个维度的搜索可能是:“jeep wrangler总载货空间”作为一个查询,而“jeep wrangler长度”作为另一个查询,然后进行一些计算来确定载货空间与长度的比率。基于LLM的搜索工具的搜索体验又会有何不同?在这种环境中,用户可能会简单地发出一个复杂的自然语言查询,直接解决他们想要做出的决定。例如,当在两款SUV之间做选择时,一个人可能会发出一个复杂的查询,如“在吉普牧马人和现代圣达菲之间,哪款车的载货空间与长度比率更大?”然而,仍然存在两个关键的未解之谜:用户将如何(多快)适应这种新型搜索方式,以及如果LLM响应包含错误,将会发生什么?为了深入了解这些问题,我们进行了两项在线实验,参与者被随机分配使用基于LLM的搜索工具或传统搜索工具来完成消费产品研究任务。我们设计了这些实验,重点关注以下问题: