我要投稿

大模型+搜索（上）：从微软研究院的论文说起

发布日期：2024-04-09 18:43:32 浏览次数： 4266

作者：AI产品经理研习与实践

微信搜一搜，关注“AI产品经理研习与实践”

欢迎来到AI产品经理从0到1研习之旅。

随着大型语言模型（LLM）技术的快速发展和应用，我们见证了一系列创新的LLM集成搜索产品的出现，例如New Bing（已更名为Copilot）。LLM+搜索产品展现出巨大的潜力和优势（当然也存在问题和挑战）。

本文要分享的就是微软研究院的相关团队成员于2023年7月7日发表了一篇名为《Comparing Traditional and LLM-based Search for Consumer Choice: A Randomized Experiment》的论文（当前版本V2修订于2023年11月8日）。

这篇论文提供了关于大型语言模型（LLM）在搜索引擎应用方面的深刻见解，尤其是在改善用户搜索体验、提高搜索效率和准确性方面的潜力和挑战。实验结果揭示了基于LLM的搜索相较于传统搜索引擎在处理复杂查询、减少查询次数和缩短决策时间方面的优势。然而，同时也突出了准确性的问题，尤其是当LLM提供的信息不准确时，用户很难识别错误，这可能导致错误的决策。

（结论已经帮大家提炼了，而论文内容稍显晦涩，翻译后近1.5万字，如果你只是对最新的应用进展感兴趣，读到这里也差不多了，可以等候下篇）

结合AI产品管理的视角，重要的是要理解大模型（不仅限于文本，还包括图像、声音等多模态模型）在搜索产品中的应用不仅仅是技术的展示，更重要的是如何利用这些技术为用户提供价值，同时也要注意到它们可能带来的风险。

目前我还没有看到对应的中文版本，在此斗胆进行翻译（部分说明有删减），分享如下：

—

摘要

近期大型语言模型的发展迅速改变了在线应用程序的功能。例如，基于大型语言模型（LLM）的搜索工具提供了一种自然语言界面，能够处理复杂的查询并提供详细、直接的回应。同时，由于在算法生成的文本中可能出现的错误或捏造信息，人们对基于LLM工具提供的信息的真实性表示担忧。在一系列在线实验中，我们调查了基于LLM的搜索如何改变人们的行为相对于传统搜索，以及如何减少对基于LLM输出的过度依赖。在我们的实验中，参与者被要求解决一系列涉及研究和比较不同产品的决策任务，并随机分配使用基于LLM的搜索工具或传统搜索引擎完成这些任务。在我们的第一个实验中，我们发现使用基于LLM工具的参与者能够更快地完成任务，使用的查询更少但更复杂。此外，这些参与者报告说他们对基于LLM搜索工具的体验更加满意。当LLM提供的信息可靠时，使用该工具的参与者做出的决策与使用传统搜索的参与者在准确性上相当；然而，我们观察到当LLM出错时，人们过度依赖不正确的信息。我们的第二个实验进一步调查了这个问题，通过随机分配一些用户看到一个简单的颜色编码突出显示方案，以警告他们LLM回应中可能不正确或误导性的信息。总的来说，我们发现这种基于信心的突出显示大大增加了用户发现不正确信息的比率，提高了他们整体决策的准确性，同时对大多数其他度量影响不大。这些结果表明，基于LLM的信息检索工具有望提高从事决策任务的人的生产率，并强调了传达不确定性的机会，以帮助人们知道何时进行进一步研究。

—

引言

近年来，人工智能（AI）特别是大型语言模型（LLMs）的快速进步，正在改变数十亿人日常使用的工具。第一个被转型的应用之一便是搜索引擎。ChatGPT，一个基于LLM的聊天机器人，于2022年11月30日发布，到2023年2月，微软和谷歌宣布即将推出基于LLM的搜索引擎，并开始了快速部署，微软在2023年5月4日结束了对Bing Chat的等待名单。

从用户体验的角度来看，传统的网络搜索与基于LLM的搜索在许多方面都有所不同，每种都有其自身的优势和劣势。使用传统网络搜索时，用户通常会发出相对简洁的查询（Jansen et al. 2000; Silverstein et al. 1999），并被呈现一个包含与搜索查询相关的网页链接和摘要的列表。这种信息检索方式有几个好处。首先，传统搜索允许用户通过超链接直接访问源材料。其次，传统搜索使用户能够通过结果页面上的不同引用看到不同信息源之间的一致性或分歧。第三，传统搜索显式优化以返回权威结果（Brin 1998），并提供额外的线索来判断信息的可靠性，例如通过不同结果的域名和发布者（例如，认为国会图书馆的信息比来自未知域名的信息更可信）。

同时，传统网络搜索过程也有一些缺点。尽管能够从不同来源访问参考材料很方便，但整合这些信息可能既困难又耗时。尽管有时候搜索结果页面的“即时答案”或摘要会展示相关信息，但用户通常需要点击几个不同的结果并在这些页面中搜索以找到相关信息。此外，冗长或复杂的查询经常导致搜索结果不佳（Bendersky and Croft 2008; Gupta and Bendersky 2015），鉴于许多现实世界的决策任务都是复杂的，这可能导致用户需要将任务分解成一系列更简单的查询（Jiang et al. 2014）。最后，在复杂的搜索会话中，搜索引擎保持查询之间的上下文是一个技术挑战（Finkelstein et al. 2001; Lawrence 2000）。

基于LLM的搜索有一套不同的优势和挑战。就优势而言，基于LLM的搜索提供了一种自然语言界面，可以处理复杂查询并返回详细、直接的回应。这包括能够从许多不同的引用中提取细节，并综合它们之间可能复杂的信息。基于LLM的搜索也更倾向于保持更多的上下文比传统搜索，允许用户进行对话式交流，以细化并跟进一系列的查询。

同时，基于LLM的搜索目前面临许多挑战。众所周知，LLMs在生成听起来合理但事实上不准确的文本序列时会有“捏造”或“幻觉”问题（Maynez et al. 2020）。在使用LLMs进行网络搜索的上下文中，这一问题尤其令人担忧，如果用户简单地假设他们被展示的内容总是正确的，那么捏造的信息可能导致对不正确搜索结果的过度依赖。此外，与传统搜索相比，基于LLM的搜索提供了较少的可靠线索，用户可以用来评估信息的准确性。响应可能缺乏指向源材料的超链接，用户依赖这些链接来验证声明。即使提供了外部链接，它们也不像在传统网络搜索中那样显眼，通常出现为微妙的脚注而不是整页列表，并且LLM生成的回应与它们引用的来源之间可能存在不一致（N. F. Liu et al. 2023a）。

传统与基于LLM的搜索之间的差异将如何影响人们的日常决策呢？基于LLM的搜索可能提供实质性的好处，提供一个更易使用的界面，加速复杂任务的完成，帮助人们更快地达成目标或为他们腾出时间来获取更多信息。同时，LLM生成结果中的捏造可能会误导人们，因此虽然他们可能更快地完成任务，但也可能基于不准确的信息做出次优的决策。

在接下来的部分中，通过大型随机实验，我们将实证测试基于LLM的搜索工具如何影响决策制定，并提出并测试干预措施以减少对错误LLM响应的过度依赖。在我们的实验中，参与者被要求解决一系列决策任务，这些任务涉及研究和比较不同的产品，并随机分配使用基于LLM的搜索工具或传统搜索引擎来执行这些任务。在我们的第一个实验中，我们发现使用基于LLM工具的参与者能够更快地完成任务，使用较少但更复杂的查询。此外，这些参与者报告了对基于LLM搜索工具的更满意的体验。当LLM提供的信息可靠时，使用该工具的参与者做出的决策与使用传统搜索的参与者在准确性上相当；然而，我们观察到当LLM犯错时，人们过度依赖不正确的信息。我们的第二个实验进一步调查了这个问题，通过随机分配一些用户看到一个简单的颜色编码高亮显示方案，以警告他们LLM回应中可能不正确或误导性的信息。总体而言，我们发现这种基于信心的高亮显示显著增加了用户发现不正确信息的比率，改善了他们整体决策的准确性，同时对大多数其他度量影响不大。这些结果表明，基于LLM的信息检索工具有望提高从事决策任务的人的生产率，并强调了传达不确定性的机会，以帮助人们知道何时进行进一步研究。

图 1： 对于相同查询“2020款吉普牧马人的载货空间是多少”在（左）2023年5月15日Bing的传统搜索和（右）2023年5月15日Bing的会话式搜索中的示例。

—

相关工作

在这项工作中，我们通过一种新颖的搜索工具测量了人们使用传统搜索或基于LLM的搜索进行消费者决策的方式。虽然基于LLM的搜索是一个非常新的创新，但这项工作与过去关于生成式AI对知识工作影响的研究，以及关于人们如何使用搜索引擎的丰富文献有所联系。

Noy和Zhang（2023）进行了一项在线实验，评估了基于LLM的写作助手对工作者生产率及相关指标的影响。参与者被分配完成模拟真实工作活动的任务，如编写新闻稿、简报和电子邮件。相应领域的经验丰富的专业人士评估了参与者的工作，并发现AI助手提高了生产率，并在多个方面增强了写作质量。

Brynjolfsson等人（2023）探索了生成式AI在客户服务领域对生产率的影响，通过研究基于GPT的聊天助手的部署。他们发现，这对生产率有积极影响，尤其是对于低技能工人，并带来了其他益处（例如，减少升级）。Dell'Acqua等人（2023）在波士顿咨询集团的顾问身上执行了一项受控实验，展示了某些类型任务的生产率提升，对于低技能工人的收益更大。相反，他们也展示了对于LLM-based工具已知存在困难的任务的准确度下降。

在软件开发者生产率领域，Peng等人（2023）使用一个基于LLM的编码工具（GitHub Copilot）进行了一项受控实验，以评估其对生产率的影响。被随机提供LLM辅助的开发者完成编码任务的时间不到对照组的一半。该研究揭示了某些群体（例如，经验较少的开发者）获得了更多的好处。较早的研究由Ziegler等人（2022）表明，接受代码建议的速率，而不是这些建议在最终代码中的持久性，预测了开发者对生产率的感知。Peng等人的发现表明，生产率的提高可以带来显著的时间节省。在一项实地实验中，Inwegen等人（2023）展示了在撰写简历和选择候选人时的生产率提升，因为使用基于LLM的工具制作的简历更加清晰，这本可以消除雇主的身份识别来源，但反而使他们的选择更加高效。

此外，我们的工作调查了当LLM-based工具的回应包含错误或捏造时，可能出现的对LLM-based工具过度依赖的情况，这一现象已经得到了充分的记录（N. F. Liu et al. 2023b）。尽管已经有很大努力在算法上识别这些错误或为响应的正确性生成校准概率，但大多数工作集中在相对简单的场景上，例如标准化测试或类似的问题-答案对（Kadavath et al. 2022; Lin et al. 2022; Yin et al. 2023）。最近的研究对更复杂的、与现实世界相关的场景显示出希望，使用颜色编码高亮显示LLM-generated代码，帮助程序员将注意力引向潜在的问题输出（Vasconcelos et al. 2023）。在我们的研究中，我们将这种方法应用于基于LLM的搜索，使用颜色编码高亮显示来警告用户LLM-generated响应中潜在的误导信息。

这篇论文基于对搜索使用和技术发展随着时间演变而适应搜索行为的广泛文献，其中LLMs是众多变革中的最新一次。Bates（1989）引入了在线搜索模型，重要的是不仅关注人们开始做什么，还关注用户的技能如何与界面共同发展。Bennett等人（2012）提供了详细的搜索会话元素分类——从术语到查询数量——我们在本文中进行了扩展。J. Liu（2021）调查了用户在各种搜索会话中旨在实现的广泛研究范围。许多研究已经检查了搜索行为的变化，从新界面的影响（Bates 1989）到自动完成功能（Mitra et al. 2014）。这项研究还建立在关于转化路径和人们如何使用搜索引擎找到产品的文献基础之上（Ramos and Cota 2008）。

我们的研究在几个方面扩展了现有文献。首先，与研究写作或编码不同，我们关注LLMs如何影响搜索和信息检索。其次，我们专注于消费者决策制定领域，这是一个广泛的类别，据我们所知，尚未在LLM-assisted生产力文献中被探索过。第三，我们探索了在LLMs返回不可靠信息的情况下减少过度依赖的解决方案。

—

研究领域和研究问题

我们在这项工作中调查的领域是消费者进行产品研究。搜索引擎在所谓的转换旅程中扮演了关键角色，即消费者从对产品类别的兴趣到考虑集合、最终购买产品，甚至是寻求支持或选择配件等后购买活动的过程。在一个简单的模型中，消费者以对一个产品类别的兴趣开始，使用搜索引擎来收集初步信息。他们在探索不同产品时进出搜索引擎。选择继续这一旅程的人会越来越接近通过搜索引擎找到的购买点。由于它与转换旅程密切相关，搜索广告已经成为一个庞大的行业，2022年的收入达到840亿美元，占所有互联网广告形式中最大的收入份额（IAB 2023）。

特别地，我们关注了对一款运动型多功能车（SUV）的购买研究。图1提供了传统搜索引擎结果页面的截图，以及当前运行的基于LLM的搜索工具，Bing Chat，对查询的回应是如何的。在两个面板中，查询都是“2020款吉普牧马人的载货空间是多少？”在左侧面板中，Bing的传统搜索提供了一系列广告、将用户链接到相关网页的有机结果，并突出显示了来自链接网站片段的“即时答案”。在右侧面板中，使用Bing的基于聊天的搜索，会话式的即时答案以自然语言出现，通过基于LLM的摘要生成相关网页的详细信息。

在这里我插入一个最新的、中文环境下Microsoft Copilot的结果（以帮助没有体验过的读者理解）

假设有人市场上寻找一款提供充足载货空间（用于运输包裹）但总长度最小（以便于停车）的SUV。他们如何着手搜索一辆最大化这一载货空间与总长度比率的车辆？查看来自传统搜索引擎的数据（表A1），我们看到人们经常一次搜索一个车辆，一次只搜索一个维度（例如，载货空间）。也许我们假设的寻找高容量、短长度SUV的搜索者可能会在使用传统搜索引擎时发出一系列简单的查询。例如，一系列1个产品和1个维度的搜索可能是：“jeep wrangler总载货空间”作为一个查询，而“jeep wrangler长度”作为另一个查询，然后进行一些计算来确定载货空间与长度的比率。

基于LLM的搜索工具的搜索体验又会有何不同？在这种环境中，用户可能会简单地发出一个复杂的自然语言查询，直接解决他们想要做出的决定。例如，当在两款SUV之间做选择时，一个人可能会发出一个复杂的查询，如“在吉普牧马人和现代圣达菲之间，哪款车的载货空间与长度比率更大？”然而，仍然存在两个关键的未解之谜：用户将如何（多快）适应这种新型搜索方式，以及如果LLM响应包含错误，将会发生什么？

为了深入了解这些问题，我们进行了两项在线实验，参与者被随机分配使用基于LLM的搜索工具或传统搜索工具来完成消费产品研究任务。我们设计了这些实验，重点关注以下问题：

研究问题1（效率）：在基于LLM搜索条件下，完成任务的时间和发出的查询数量（及其复杂度）与传统搜索条件相比有何不同？
研究问题2（准确性）：在基于LLM搜索条件下，做出决策的准确性与传统搜索条件相比有何不同？
研究问题3（感知）：在基于LLM和传统搜索条件下，用户体验和对结果可靠性的感知有何不同？
研究问题4（信心和错误）：当LLM响应包含错误时，参与者如何处理这些错误，无论他们是否看到关于所报告信息信心的提示？

—

实验1

我们设计了一个任务，在该任务中，参与者扮演运营一个城市送货服务的角色（见图2a）。在这个角色中，他们正在寻找一辆车来满足他们的商业需求，并且在两款SUV之间进行选择。为了捕捉选择送货车辆的常见标准（能够装载许多包裹和便于停车），我们定义了选择车辆的主要指标为载货空间与总长度的比率。这里的载货空间是指驾驶席后面所有座椅折叠后的最大空间，而总长度是指车辆的外部长度。因此，较高的载货空间与总长度比率意味着一辆车更适合满足送货服务的商业需求。这个设计确保了每个任务的参与者都有一个正确答案，并为他们的决策提供了明确的标准。

参与者被邀请完成一系列五个上述定义的任务，每个任务的目标是从随机生成的车辆对中确定最佳选项。我们在两个条件下变化他们获得的搜索帮助，以做出他们的决策，这是一个两条件、被试间设计。在一个条件下，参与者使用了基于Bing API构建的实验性搜索引擎。类似于传统搜索，实验性搜索引擎根据输入的查询返回一系列可点击的链接和描述，参与者可以访问这些链接以获取更多信息。在第二个条件下，参与者可以访问一个使用GPT 3.5.1构建的实验性LLM-based搜索工具。LLM-based工具以自然语言回应参与者的查询，并且没有对话能力，以便与传统搜索条件紧密控制。两个条件下的参与者都没有被告知他们所使用的搜索工具背后的技术，但在两个条件下，参与者都被给予了一个关于如何使用相应工具及其预期的快速教程，如附录I所示。图2b展示了两个条件下的搜索工具响应的差异。

我们对每个任务施加了10次搜索的限制和每次搜索1000字符的限制。此外，参与者必须完成至少一次搜索才能做出决策，从而进入下一个任务。在两种条件下，参与者都可以随时访问他们的完整搜索历史，并可以重新查看搜索工具的响应。完成所有可用任务后，参与者还被要求完成一项关于他们体验的简短调查，以结束实验。

(a) 主要任务界面。要求参与者在两辆车之间做出选择。左侧提供了关于场景和决策时感兴趣的指标的指示，而搜索工具则位于右侧。左下方还有一个记事本，可用于记录发现的信息。

(b) 本实验两种条件下的搜索工具响应界面：实验性的AI驱动搜索工具（左）和实验性搜索引擎（右）。

图 2：实验 1 界面的截图。

在进行这些实验时，我们使用的是Bing，并没有提供与其LLM-based搜索工具，Bing Chat，交互的API。

我们从亚马逊Mechanical Turk招募了90名美国参与者，来自一个经过验证的高效工作者池。作为资格要求，我们要求至少有2500个HITs被批准，最低批准率为99%，并有额外的大师系统资格。参与者完成实验后获得4美元的报酬，没有绩效奖金。

4.1 实验1的结果

效率。如图3a所示，基于LLM搜索条件的参与者用于完成任务的时间相对于传统搜索条件的参与者要少，这一模式在第一个问题上就已经明显。在两种条件下，我们都看到了学习效应，其中参与者在第一个任务中比后续任务慢。参与者同时在学习有关任务和领域的知识，同时也在学习他们所使用的工具的功能。除了响应时间更短以外，在基于LLM搜索条件下，方差也更低。

(a) 根据条件和任务所需的决策时间。参与者回答了有关五对车辆的问题，每个问题视为一个任务（水平轴）。每个点代表一个参与者完成任务所需的时间。

(b) 按条件和任务发出的查询数量。每个点代表一个参与者对该任务的查询次数。

图 3：实验 1：效率结果

一个线性混合模型对任务持续时间的拟合证实了这一点。具体来说，我们基于参与者id的随机效应、任务编号的控制以及条件（LLM vs. 传统搜索）的固定效应，对log10任务时间进行了建模。固定效应估计揭示了任务编号和条件对log变换任务持续时间的统计上和实际上显著的影响。与传统搜索条件相比，基于LLM的条件显著减少了log变换的任务持续时间（估计值 = -0.31613, SE = 0.05542, t(78) = -5.70, p < .001），而所有任务相对于第一个任务平均而言都更快。从log10尺度反变换的估计平均任务持续时间分别是对于传统搜索条件3.4分钟和对于基于LLM的搜索条件1.6分钟，大约减少了50%。

与参与者使用基于LLM的工具回答问题所花费时间减少一致，参与者在基于LLM的工具下发出的查询也更少，如图3b所示。使用基于LLM的工具的参与者大多数在所有任务中只发出了一次查询，而在搜索工具条件下，两次查询是最常见的模式。有趣的是，传统搜索条件下的许多参与者导航到了允许他们在少于四次、更简单的单个产品和维度查询中获取两个车辆的所有测量数据的产品信息或比较页面。

我们用一个广义线性模型测试了这种差异，使用泊松链接函数来模拟参与者id为随机效应的查询数量、任务编号为控制和条件为固定效应。该模型揭示了条件对查询数量的中等但统计上显著的主要效应（估计值 = -0.26, SE = 0.12, z = -2.244, p = 0.02）。估计的平均查询次数是对于传统搜索条件2.5和对于基于LLM的搜索条件1.9。

虽然参与者在基于LLM的搜索条件下花费的时间更少、发出的查询更少，但他们通过提出更复杂的查询来弥补较少的查询次数。我们在图4中平均每个人按任务的复杂度，其中复杂度是一个1到5之间的数字，表示查询中注意到的独特兴趣元素的数量。这可能包括0、1或2个产品，0、1或2个维度，以及0或1个数学问题，用于计算载货空间与长度的比率。传统搜索从平均值2以上开始并下降，而基于LLM的搜索从平均值3左右开始并上升。在两种条件下，大部分收益都是在第一个和第三个任务之间。大多数基于LLM的搜索要么是2要么是5，相对于3或4来说较少。与表A1中所述的遥测数据相似，传统搜索中出人意料的大量只有1个（即，单个产品和没有维度）。尽管需要很多时间和查询，这些搜索者几乎总是做出正确的最终决策。

图 4：按条件和任务发出的查询复杂度（实验 1）。每个点代表给定任务中一个参与者发出的所有查询的复杂度平均值。

我们用一个广义线性模型测试了这种差异，使用泊松链接函数来模拟参与者id为随机效应、任务编号为控制和条件为固定效应的查询复杂度。该模型揭示了条件对查询复杂度的统计上显著的主要效应（估计值 = 0.65, SE = 0.09, z = 7.38, p < 0.001）。估计的平均查询复杂度对于传统搜索条件是1.8和对于基于LLM的搜索条件是3.4。

准确性。图5展示了各条件下的准确性。对于常规任务（8款流行SUV模型之间的比较），尽管传统搜索用户花费更多时间和更多查询来回答问题，但两种条件下的准确性相当且非常高。在设计为困难的任务上（即，LLM倾向于出错的任务），准确性大幅下降，这是由于LLM响应中的错误，主要是由于它报告的是带座位的载货空间而非按照指示折叠所有座椅后的总载货空间。对于常规任务，我们使用了一个广义线性模型来比较条件间的准确性。具体来说，我们建模了参与者是否为每个任务做出了正确选择，考虑了参与者id的随机效应、任务的控制以及他们被分配到的条件（传统 vs. 基于LLM的搜索）的固定效应。固定效应估计显示，对于常规任务，条件对做出正确决策的可能性没有显著影响（z = 0.99, p = 0.33）。估计的平均正确决策概率，在常规任务中平均而言，分别是92.3%对于传统搜索条件和95.3%对于基于LLM的搜索条件。

图 5：按条件的准确性（实验 1）。前四个任务是常规任务（8款流行SUV模型之间的比较），而第五个是选择的比较，LLM倾向于在此出错。点代表平均值，误差棒表示正负一个标准误差。

我们使用了另一个广义线性模型来调查最后一个任务的准确性，这是一个为LLM构建的挑战性任务。具体来说，我们用一个固定效应为条件的logistic模型来预测参与者在这个任务中是否做出了正确选择。固定效应估计显示，与传统搜索条件相比，基于LLM的搜索条件显著降低了做出正确决策的可能性（估计值 = -2.72, SE = 0.79, z = -3.46, p < .001）。估计的做出正确决策的概率分别是93%对于传统搜索条件和47%对于基于LLM的搜索条件。

上述数字揭示了在最终任务中发生的情况：参与者如果查询非常复杂，就更有可能错误完成任务。我们仔细审查了基于LLM搜索条件下51名参与者的查询流：其中30人在最后一个任务中只进行了一次查询，其中23人得到了错误答案，7人得到了正确答案。所有23人都从他们的查询中得到了错误答案，而所有得到正确答案的7人都从他们的查询中得到了正确答案（大多数得到错误答案的23人都复制粘贴了指示到查询中，而得到正确答案的7人则以指示的变体形式写了查询）。十名回应者进行了两次查询（6人正确，4人错误），再次，他们的准确性直接由查询的答案的准确性驱动。十一名参与者进行了4次或更多次查询：他们所有的查询都返回了正确答案，他们都选择了正确的选项。没有参与者在看到错误答案后重新查询了产品和维度。再次，这些错误答案总是由基于LLM的输出给出的座位向上的载货空间而不是座位向下，给出了一个特定SUV的非常小的值所驱动：然而，没有参与者在第五个任务上得到异常小的载货空间读数后发出了进一步的查询。

用户体验和感知可靠性。在实验结束时的调查中，我们要求参与者对他们看到的整体搜索体验进行评分，并对他们看到的结果的可靠性进行评分，两者都使用5点Likert量表，1分代表最差，5分代表最好。如图6所示，感知可靠性在条件间相似且总体上相当高，这在基于LLM的工具的用户中尤其值得注意，因为他们在最后一个任务中（根据设计）接触到了错误的响应。我们发现参与者对他们看到的结果的可靠性的主观评分之间没有统计上显著的差异（t(62.03) = 0.11, p = 0.91），这表明看到不可靠信息的LLM条件下的用户未能意识到LLM输出中的错误。在体验方面，用户明显更喜欢使用基于LLM的工具完成任务，而不是传统搜索。总体而言，我们发现参与者强烈偏好基于LLM的搜索体验（平均评分为4.41）而不是传统搜索体验（平均评分为3.10），这是一个统计上显著的差异（t(58.00) = 8.38, p < .001）。

图 6：用户感知结果（实验 1）。每个较小的点代表一个参与者的回应，较大的点按条件显示平均值，误差棒表示正负1个标准误差。

—

实验2

在之前的实验中，我们看到虽然基于LLM的搜索帮助参与者比传统搜索更快地做出了决定，这些决定通常但并非总是具有相同的质量。特别是，当LLM响应包含不准确的信息时，参与者很难发现这些错误，因为他们没有关于所显示信息真实性的线索。我们设计了第二个实验来调查当人们被明确告知响应的置信度时，他们的决策制定如何受到影响。

这个实验是一个三条件、被试间设计，所有参与者都被分配使用相同的基于LLM的搜索工具，该工具对给定查询生成相同的响应。不同条件之间唯一的变化是响应中数值测量的视觉显示方式的颜色编码。在控制条件下，参与者看到的答案类似于实验1中显示的——纯文本，没有关于测量结果真实性的线索。在两个处理条件中，参与者看到了基于置信度的颜色高亮显示的数值测量。如图7所示，“高+低置信度”条件对“高置信度”测量使用绿色高亮，对“低置信度”测量使用红色，而“仅低置信度”条件只对“低置信度”测量使用红色高亮。每个测量的高亮显示基于GPT-3提供的Token生成概率，低于或等于50%的生成概率显示为红色高亮，高于50%的显示为绿色高亮。

图 7：实验 2 中测试的两种处理方式：同时突出显示高置信度和低置信度测量的数据（左）以及仅突出显示低置信度测量的数据（右）。此外还有一个控制条件，其中不显示任何突出显示，与实验 1 相对应。

程序几乎与实验1相同。参与者完成了一系列三个决策任务，比较SUV对在我们第一个实验中使用的相同标准（总载货空间与总长度的比率）上。就像在第一个实验中一样，除了最后一个任务外，所有任务都是对LLM来说“常规”的，即很有可能返回准确信息且置信度高，而第三个任务再次是“挑战性的”对于LLM来说，并可能包含不准确的信息，但置信度低。我们通过预先提示LLM提供任务中涉及的车辆的地面真实测量值来实现这一点，除了第三个任务的第一个查询外的所有内容。这意味着第一个和第二个任务主要返回了准确信息且置信度高，但第三个任务的第一个查询经常包含错误，这些错误被标记为低置信度。因此，如果参与者在第三个任务的第一个查询中发出形如“2020款丰田4Runner或2020款GMC Terrain，哪款车的总载货空间与长度比率更大？”的查询，那么在处理条件下的参与者会看到LLM响应中可能不可靠信息的线索。这个实验的关键问题是，处理条件下的参与者是否会注意到这些低置信度的线索并发出后续查询以检查所显示的信息。

我们从亚马逊Mechanical Turk招募了120名美国参与者，来自一个经过验证的高效工作者池。作为资格，我们要求至少有2,500个HITs被批准，最低批准率为99%。参与者完成实验后获得5美元的报酬，没有绩效奖金。

5.1 实验2的结果

就像我们在第一个实验中一样，我们分析了所有条件下的效率、准确性和感知体验，但在这个实验中，我们比较了LLM-based搜索中不同置信度高亮显示处理的三种不同处理。为了简洁起见，我们在这里只包括关于准确性和感知体验的顶级结果，其他结果在附录中呈现。

准确性。就像我们在第一个实验中发现的那样，对于LLM提供大部分可靠信息且置信度高的常规任务（任务1和2），所有三种条件下的准确性都相当且非常高（见图8）。然而，对于挑战性任务（任务3）——LLM在第一个查询中提供的信息不太可靠且置信度低——我们在条件之间看到了显著的差异：虽然在没有任何置信度高亮显示的控制条件下准确性骤降至26%，但在每个处理条件下的准确性都显著提高——“高+低置信度”条件下为58%（t(74.47) = -2.98, p < 0.01），“仅低置信度”条件下为53%（t(70.36) = -2.44, p = 0.02）。在这种情况下，显示高和低置信度线索以及仅标记低置信度信息都使决策任务的准确性翻了一番多。

图 8：按条件的准确性（实验 2）。前两个任务是常规任务，而第三个任务是选择的比较，LLM倾向于在此出错。点代表平均值，误差棒表示正负一个标准误差。

如附录中的额外图表所示，处理条件下准确性提高的主要原因是，参与者在发出初始查询、看到被标记为低置信度的测量后，发出了后续查询以检查所显示的信息。而大多数控制条件下的参与者在一次查询后做出了决策，大多数处理条件下的参与者发出了两次或更多次查询，这花费了他们一些额外的时间，但更常导致正确的决策。为了专门关注最受影响的参与者，控制条件下在任务2和3中有19名参与者在第一个查询中提供了一个完整的查询（即，查询同时询问两辆车在两个维度上的比较）：在两个任务中，尽管所有19人在任务2中都得到了正确答案，在任务3中都得到了错误答案，但只有2人在收到答案后发出了有意义的后续查询。相比之下，对于处理条件下的参与者，从任务2到任务3，作为第一个查询提出完整查询的人数从24增加到31，但发出有意义后续查询的人数从5增加到15。因此，与控制条件相比，处理条件下即使在答案正确时后续查询的比率略有提高，但在答案错误时后续查询的比率显著提高。

再次联系到实验1，LLM-based搜索工具创建的错误通常类似：为一款大型SUV分配了非常小的载货空间（因为输出的是座位向上而不是座位向下的测量值）。在实验1（以及实验2的控制条件）中，当面对这种小的载货空间时，参与者不太可能发出后续查询，但在实验2的处理条件中，当面对既小的载货空间又有置信度基于颜色高亮显示表示不确定的数据点时，参与者更有可能发出后续查询。

用户体验和感知可靠性。最后，就感知可靠性和搜索体验而言，我们发现所有三个条件都得到了相当高的评价，我们没有检测到它们之间的系统差异，如图9所示。没有高亮显示的条件的平均可靠性评分为4.1，而“仅低置信度”条件的平均评分为3.8，“高+低置信度”条件的平均评分为4.0。两种处理条件与控制条件之间的差异都不具统计学意义（“仅低置信度”vs. 无高亮显示：t(75.62) = 1.90, p = 0.06；“高+低置信度”vs. 无高亮显示：t(77.70) = 0.81, p = 0.42）。同样，没有高亮显示的条件的平均搜索体验评分为4.2，而“仅低置信度”条件的平均评分为3.9，而“高+低置信度”条件的平均评分为3.7。尽管估计的平均值有方向性趋势，但两者之间的差异都不具统计学意义（“仅低置信度”vs. 无高亮显示：t(71.00) = 1.31, p = 0.19；“高+低置信度”vs. 无高亮显示：t(75.75) = 1.92, p = 0.06）。

图 9：用户感知结果（实验 2）。每个较小的点代表一个参与者的回应，较大的点按条件显示平均值，误差棒表示正负1个标准误差。

—

讨论和结论

在这项工作中，我们研究了基于LLM的搜索增强功能如何影响消费者搜索任务中的效率（时间和查询次数）、准确性、用户体验和错误检测的能力。为了获得这些度量，我们创建了一个新颖的实验平台，该平台在其他所有方面保持不变，允许参与者被随机分配使用传统或基于LLM的搜索，并保留了他们交互的详细记录。

关于我们的第一个研究问题——效率，我们在实验1中发现，能够使用基于LLM的搜索工具的访问显著提高了搜索效率。使用基于LLM的搜索工具的参与者能够在与使用传统搜索引擎相比几乎减少一半的时间内完成任务。此外，我们观察到查询次数的轻微减少，伴随着查询复杂性的显著增加。换句话说，基于LLM的搜索允许人们通过发出更直接解决手头决策的查询和响应，更快地达成决策。关于我们的第三个研究问题——感知，观察到的效率提升伴随着基于LLM搜索工具的显著增加的有利评价，基于参与者对他们整体体验的自我报告。

我们的第二个研究问题涉及准确性，这是LLMs已知可能失败的一个维度。在实验1中，我们发现对于可以被认为是LLM的常规任务，使用基于LLM的和传统搜索工具的参与者的准确性水平相当。然而，我们在LLM难以处理的任务中发现了显著的准确性下降，几乎一半的参与该条件的参与者做出了错误的决定。相比之下，使用传统搜索工具的绝大多数参与者似乎能够获得做出正确决定所需的信息。在调查这种准确性下降时，我们发现，如果没有适当的线索，使用基于LLM的搜索的参与者过度依赖工具，大多数人（60%）在做出决定之前只进行了一次查询。尽管许多使用基于LLM搜索工具的参与者在任务之一中接收到了不正确的信息，但他们对这些工具的感知准确性评分高于实际观察到的准确性水平，这表明他们未能意识到错误。在实验2中，我们测试了是否可以通过为数值测量提供置信度信号来缓解这一问题。我们发现，这种干预措施可以显著提高挑战性任务的准确性，几乎翻了一番。尽管如此，即使在处理条件下，这些任务的准确性仍然低于使用传统搜索工具的准确性。

这些发现对基于LLM的搜索工具的设计和部署具有直接的含义。首先，我们的结果表明，基于LLM的搜索提供了一种有效的替代方式来访问和处理在线信息，特别是当查询复杂且多维度时。然而，我们的工作也强调了当这些工具返回不准确信息时存在的风险，尤其是当用户没有足够的线索来评估响应的真实性时。幸运的是，我们的结果表明，即使是简单的视觉线索（如颜色编码的置信度指示器）也可以帮助缓解这个问题，至少对于一些类型的任务。尽管这些干预措施在提高决策任务准确性方面取得了成功，但它们也表明，在基于LLM的搜索中系统地识别和标记低置信度信息将是重要的。此外，正如我们在实验2中所见，即使是简单的干预措施也可能需要用户适应。因此，开发者和研究者都需要在设计时考虑到这些适应过程，并可能需要在用户教育和界面设计中采取措施，以帮助用户更好地利用这些信号。

最后，我们的工作表明，基于LLM的搜索工具，尽管其准确性有时令人担忧，但可能会改变用户与在线信息的互动方式。这些工具为信息检索和在线决策制定提供了新的可能性，但也带来了新的挑战。随着这些技术的继续发展和普及，确保这些工具的有效和可靠使用将需要我们持续关注这些挑战，并探索缓解这些风险的新方法。

—

附录A

A.1 传统搜索活动

以下表格提供了2022年上半年对于排名前25的SUV在车辆数量和维度上的Bing搜索的细分。

表 A1：2022年排名前25的SUV的所有搜索中产品和维度的数量表。从2022年上半年销量排名前25的SUV开始，我们查看了包含这25款SUV的每一次2022年Bing搜索，以及前10个最常查询的维度（例如，载货空间，长度等）。大多数查询只提及一款车辆。如果提及维度，大多数查询只提及一个维度。

A.2 实验1

A.2.1 教程

在开始第一个任务之前，每个条件下的参与者都会收到一个关于他们将要使用的搜索工具可以预期的简短教程。图 A.1 展示了传统搜索条件的教程，图 A.2 展示了基于LLM的搜索的教程。

传统搜索条件的教程

第1页共1页

图 A.1：处于传统搜索条件的参与者的教程（实验1）。

基于LLM搜索条件的教程

图 A.2：处于基于LLM搜索条件的参与者的教程（实验1）。

A.2.2 速度和准确性共同考量

速度和准确性对搜索引擎用户来说都是可取的。图 A.3 将它们相互对比。每个面板的左上角代表最佳性能，即在最少的时间内获得最多的正确答案。为了便于尽管有重叠也能看出模式，对响应进行了密度拟合以创建热图。两个面板中的高密度区域显示使用LLM工具的参与者在靠近左上方的有利位置。他们在所用时间上的变异性较小，但在准确性上的变异性较大，主要是由于额外设计的困难项目所致。这个项目的表现用一个“x”标记，显示绝大多数未能正确回答所有问题的参与者都在这个项目上犯了错误。

图 A.3：速度和准确性的联合视图（实验1）。每个点代表一个参与者在五个问题上的数据。如果他们正确回答了挑战性问题，则用“o”表示，如果他们未能通过，则用“x”表示。

A.3 实验2

A.3.1 效率

与我们的第一个实验一样，我们在各个条件中看到了学习效应，其中参与者在第二个任务上达到决策所需的时间比第一个任务少（图 A.4）。

图 A.4：实验 2 中按条件和任务所需做出决策的时间。每个点代表一个参与者对该任务的查询次数。

使用与实验1中相似的线性混合模型来模拟常规任务上的log任务持续时间，我们发现平均而言，在所有条件下，参与者完成第一个任务需要3.3分钟，但完成第二个任务只需要1.8分钟。平均在这两个任务上，我们发现处理条件下的参与者比控制条件整体略慢，对于高置信度+低置信度高亮显示与不高亮显示相比，有统计学上显著的差异（t(113) = 2.09, p = 0.04），但对于仅低置信度高亮显示没有系统差异的证据（t(113) = 0.63, p = 0.53）。在第三个任务上，当参与者遇到可能不可靠的信息时，我们看到两个处理条件中决策时间的增加，但对于没有置信度高亮显示的控制条件没有这种增加（仅低置信度与无高亮显示：t(72.79) = -2.53, p = 0.01；高置信度+低置信度与无高亮显示：t(72.63) = -3.70, p < 0.001）。使用与实验1中相似的线性混合模型分析查询数量，我们没有发现在前两个常规任务中跨条件发出的查询数量有系统差异的证据，参与者平均每个任务发出的查询数量分别为无高亮显示2.3次、仅低置信度2.7次和高置信度+低置信度2.7次。然而，在第三个任务中，我们看到与控制条件相比，两个处理条件下的查询数量大幅增加（仅低置信度与无高亮显示：平均3.0次与2.2次查询，t(70.97) = -2.00, p = 0.05；高置信度+低置信度与无高亮显示：平均3.6次与2.2次查询，t(73.21) = -3.29, p = 0.002）。这在图 A.5 中可视化表现为，与左面板相比，中间和右面板的查询数量有所增加。

图 A.5：实验 2 中按条件和任务发出的查询数量。每个点代表一个参与者对该任务的查询次数。

以上，就是关于该论文主体内容的翻译（鸣谢&参考文献这2部分已省略）。

有兴趣的读者可通过查看原文链接（参考资料）自行阅读。

—

思考与延伸

相比于传统的功能产品而言，搜索产品本身是比较复杂的（偏AI和策略，参见产品经理的基础通识课），大多数的产品经理都没有机会“实战”。不过这不妨碍我们去学习和了解它。

该论文中的部分内容稍显晦涩，但总体上还是很有启发：大模型在搜索产品中的应用提供了巨大的潜力，但也伴随着挑战。作为AI产品经理，我们的目标是通过深入理解技术和用户需求，设计出既高效又可靠、既个性化又尊重隐私的搜索产品，为用户提供卓越的搜索体验，同时促进社会的信息获取和知识共享。

大模型应用于搜索产品，可以带来多方面的好处，例如：

提高搜索效率和质量：大模型能够理解和处理自然语言查询，这意味着用户可以以接近自然对话的方式提出复杂和详细的问题，而不是仅依赖于关键词。这样不仅能提高搜索的效率，也使得搜索结果更加准确和相关。
支持多模态搜索：随着AI技术的进步，大模型（如GPT-4V、Gemini等）不仅能处理文本信息，还能理解图像、音频和视频等多种数据格式。这使得搜索工具能够提供更加全面和丰富的搜索结果，如通过图像搜索相关信息或利用语音查询。

个性化搜索体验：大模型可以通过分析用户的搜索历史、偏好和行为模式来提供更加个性化的搜索结果。这种个性化不仅限于内容推荐，还包括搜索界面和交互方式的个性化设置，从而提升用户满意度和忠诚度。
增强语义理解和上下文相关性：大模型通过对大量数据的学习，能够更好地理解语义信息和上下文关系，这使得搜索引擎能够更准确地捕捉用户的意图和需求，即使在面对模糊或多义性查询时也能提供相关的结果。
改善长尾查询处理：长尾查询是指那些不常见或特定领域的查询。传统搜索引擎在处理这类查询时可能效果不佳，因为相关内容较少或难以理解。大模型通过其强大的学习和理解能力，能够更好地处理这类查询，为用户提供有价值的信息。
提供即时信息和知识汇总：大模型能够即时生成信息摘要和回答，使用户能够迅速获得问题的答案而不需要深入浏览多个网页。这对于快速学习和获取知识尤其有价值。

促进创新的搜索产品和服务：大模型的灵活性和强大能力为搜索产品的创新提供了更多可能性，比如开发专门的学术研究助手、健康咨询工具或市场趋势分析器等专业工具。包括我在此前介绍的《淘宝问问》就是一个创新应用，只不过它更偏向于“电商搜索”这个垂直领域：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业