基于LLM的生成式搜索引擎(Generative Search Engines)正在取代传统搜索引擎。答案引擎不仅检索与用户查询相关的来源,还综合引用这些来源的答案摘要。
来自PSU与Salesforce AI Research的研究者们联合21名参与者进行了一项研究:评估答案引擎与传统搜索引擎的交互,识别出了16个答案引擎的局限性,提出了16个答案引擎设计建议,并与8个指标相关联。
在3个流行的引擎(You.com、Perplexity.ai、BingChat)上实施了自动化评估,量化了常见的局限性(例如,频繁的幻觉、不准确的引用)和独特的特征(例如,答案信心的变化),包括总结了研究中发现的关于答案引擎的关键局限性,并将这些局限性归类为四个主题:答案文本(Answer Text)、引用(Citation)、来源(Sources)和用户界面(User Interface)。其中:
I.答案文本 (Answer Text)
客观细节欠缺(A.I)
缺乏全面观点(A.II)
自信语言呈现声明(A.III)
过于简化的写作形式(A.IV)
II.引用 (Citation)
错误归属和误解来源(C.I)
基于假设上下文挑选信息(C.II)
声明和信息生成缺少引用(C.III)
模型回应中源选择的透明度缺乏(C.IV)
III.来源 (Sources)
低频使用的来源(S.I)
检索的来源多于用于生成实际答案的来源(S.II)
来源类型缺乏信任(S.III)
来源引用和内容重复(S.IV)
IV.用户界面 (User Interface)
缺乏选择和过滤来源的能力(U.I)
生成和源选择中缺乏人工输入(U.II)
验证和信任答案需要额外工作(U.III)
引用格式非标准化交互(U.IV)
通过这份调研报告,个人直觉在“搜索”与“答案生成”两者间也许在更广阔的心智流形长尾分布中存在着诸多差异甚至是本质的不同,如:
人们使用搜索引擎往往也许不是为了探寻最终的确定性答案(况且在某些情况下人们在query前内心已明确无标准答案),而是某种心智驱使下希望能够更加全局的了解领域过程性全貌以及从中获得方法或思想..
因此,类似这种更多的全局群体搜索行为下的内容生成流行分布的学习无法仅通过人们先验知识去设计或被开发,还需依赖于海量用户搜索行为下的Data driven,我想这对于传统搜索引擎霸主将有着天然的数据优势基础。而这也将值得引起我们对未来除搜索外的其它人机协作过程中的内容生成、信息交互与多智能体协作模式的深层次思考...
期待我厂早日找到搜索中的流形密码。