微信扫码
与创始人交个朋友
我要投稿
—
在继续讨论大模型+搜索之前,我想有必要对传统搜索相关的概念和原理再稍作说明。毕竟大模型是加持、而非替代传统搜索。
爬虫(Crawler)
搜索引擎使用爬虫程序遍历互联网,访问网站并读取页面内容,类似于一个自动化的浏览器。例如,当爬虫访问一个新闻网站时,它会下载并存储文章的内容、图片、以及其他媒体信息。
索引(Indexing)
排名算法(Ranking Algorithm)
搜索引擎通过排名算法确定哪些网页最相关。例如,当用户查询“全球变暖影响”时,(谷歌)搜索引擎会评估索引中所有相关页面的质量和相关性,可能会根据PageRank算法(考虑网页链接的数量和质量)给予高权威网站更高的排名。
自然语言处理(NLP)
搜索结果页(SERP)
个性化和上下文搜索
更多相关内容,可参见此前的文章《第3章 智能搜索技术》。
大模型+搜索会有何不同
传统搜索引擎是从已有的信息中获取答案,显示的是一系列的网页链接,用户需要打开每一个链接进行浏览,而LLM、AIGC与搜索结合,能够更准确了解用户意图,根据需求整合内容提供生成式的摘要、答案、建议,能够提供更高质量、更多样化的信息内容,更高效的信息收集方式:
—
从New Bing到Copilot
在推出时,人工智能聊天机器人被称为Bing Chat。早期它还叫“新必应”时,我必须安装开发版的edge浏览器才能体验:
然而,在去年11月的微软Ignite活动中,微软决定重新命名其聊天机器人,并将其称为Copilot。
现在更强的copilot预览版(不只是搜索,而是一个智能助手)已经在windows操作系统的笔记本上可用了:
这是我在写这篇文章时,通过浏览器入口(https://copilot.microsoft.com/)让它做的自我介绍:
新必应可谓开创了搜索引擎产品从“传统检索模式”向“对话式搜索和生成模式”的转变。用户可以获得更体系化、更具逻辑性、更个性化的答案。
使用Copilot,对话体验增强了现有的 Bing 体验,为用户提供基于大语言模型技术的新型自然语言搜索界面。Copilot 用于形成答案的来源源自与主网络搜索结果页面相同的第三方搜索结果排名——由于聊天机器人连接到互联网,它可以为您提供最新信息,这是ChatGPT免费版本所没有的另一项功能。这些结果清楚地显示给用户,使他们有机会通过访问第三方网站进行更深入的研究。根据用户的查询或提示,模型还可以生成有助于激发用户创造力的输出。除了搜索本身,它和ChatGPT这样的聊天机器人也有不少相似之处(毕竟底层模型一样),输出可以作为诗歌、故事、代码、文章、歌曲或任何其他可以用自然语言或图像表达的内容的灵感,具体取决于用户请求的性质。
微软于2024年3月进行的最新升级意味着免费版本的Copilot运行在GPT-4 Turbo上(由GPT-4升级而来,可以认为是更先进的模型),这是OpenAI最先进的LLM。
所以,如果想要不开通ChatGPT Plus的同时又能体验到最新的GPT-4能力,这毫无疑问是非常棒的选择!
Bing 有时会在 Bing 主搜索结果页面的顶部显示 Copilot 生成的汇总结果以响应用户查询,从而使搜索体验更加轻松快捷。用户仍然可以在页面下部找到传统的搜索结果布局。
技术创新的背后:Prometheus
在2021年的时候,微软Search & AI团队就开始考虑搜索技术的未来,认为通过应用深度学习模型,可以使搜索变得更加现代化和直观,从而显著改善用户体验。随着微软与OpenAI的合作,在2022年夏天接触到了下一代GPT模型,这一模型的能力远超过了GPT-3.5,并且在合成、总结、对话和创造方面更为强大。
看到这个新模型,微软开始探索如何将GPT功能集成到Bing搜索产品中,这样就可以为任何查询提供更准确、完整的搜索结果,包括长、复杂、自然的查询。
新的GPT模型代表了大型语言模型(LLM)的突破,但与其他LLM一样,它是用截止给定时间点的数据进行训练的,因此微软认为通过将其与Bing后端的功能相结合,可以使用户体验更丰富、更相关、更准确。
为此,微软开发了一种其称之为Prometheus(普罗米修斯)的专有技术,这是同类人工智能模型中的第一个,它将新鲜全面的必应指数、排名和答案结果与OpenAI最先进的GPT模型的创造性推理能力相结合。Prometheus利用Bing和GPT的强大功能,通过名为Bing Orchestrator的组件迭代生成一组内部查询,旨在为给定对话上下文中的用户查询提供准确而丰富的答案。所有这些都在几毫秒内完成。我们将普罗米修斯生成的这个答案称为聊天答案。
选择相关的内部查询并利用各自的必应搜索结果是普罗米修斯的一个关键组成部分,因为它为模型提供了相关和新鲜的信息,使其能够回答最近的问题并减少不准确之处——这种方法被称为基础。换言之,模型对Bing提供的数据进行推理,因此它通过Bing Orchestrator以Bing数据为基础。下图展示了普罗米修斯的工作过程:
最后一步是普罗米修斯将天气、股票、体育、新闻等相关的必应搜索答案附加到聊天答案中,以提供更丰富、更吸引人的用户体验,从而进一步利用必应的力量。得益于必应的基础技术,普罗米修斯还能够将引文集成到聊天答案的句子中,以便用户可以轻松点击访问这些来源并验证信息。向这些来源发送流量对健康的网络生态系统很重要,也是微软Bing的首要目标之一。
虽然 Prometheus 是一项卓越的、开创性的基于人工智能的创新,但从用户体验的角度来看,彼时Search&AI团队仍然不清楚如何将其功能集成到 Bing 中。主要有两种观点:
团队中的一些人认为搜索是一种根深蒂固的习惯,需要保持用户体验像今天的网络搜索一样,只需在主用户体验上添加由普罗米修斯支持的聊天答案即可。就像任何其他答案一样,聊天答案将根据其与查询的相关性赢得一席之地。
Bing 的其他人认为,这是一个将搜索范式从经典网络和答案结果转变为新的交互式、基于聊天的搜索方式的机会。
提倡传统搜索的团队通常使用导航查询来捍卫自己的观点,而推动对话方法的团队将呈现类似研究的搜索会话,例如购物或旅行。下图可以表达两者之间的场景差异:
—
检索增强生成
检索生成大模型训练
思维链(CoT)技术
第一步:从搜索结果中筛选出能够回答问题的内容;
第二步:依据筛选的内容,组织并生成答案;
第三步:将答案编号,并明确标出各自的参考来源。
用户的原始查询请求是:<user query>
基于提供的搜索结果和相应链接:
1. 搜索结果a,链接:url1
2. 搜索结果b,链接:url2
3. 搜索结果c,链接:url3
...
n. 搜索结果n,链接:urln
请完成以下任务:
首先,根据这些搜索结果,生成一个连贯的文本,详细介绍[查询主题]。在文本中,针对每个关键点或信息,使用数字编号(如1、2、3等)来标注其对应的参考来源。
其次,请在文本中适当位置引入参考来源编号,以指明信息的出处。例如,如果某一信息点主要基于搜索结果a和搜索结果c,相应地在该信息点后标注编号‘1’和‘3’。
最后,文本结尾处,请提供一个参考来源列表,列出所有引用的参考来源主域名和编号,但不需要详细链接。确保参考来源列表的顺序与文中标注的编号相匹配。
生成文本的示例结构应如下:
'百度文心一言的一个重要应用是百度AI搜索,这是一个全面开放的人工智能搜索引擎2。[接下来的文本]...如果你有任何其他问题,欢迎随时向我提问!了解详细信息:1.baidu.com; 2.zhuanlan.zhihu.com; 3.zhuanlan.zhihu.com。'
请注意,将参考来源的完整链接简化为主域名,并在文末提供详细的参考来源列表。"
—
360AI搜索,新一代智能答案引擎,值得信赖的智能搜索伙伴,为复杂搜索提供专业支持,解锁更相关、更全面的答案。AI对用户提问进行精准语义分析,并通过追问获取更多有价值信息,将问题拆分为多组关键词后再进行搜索引擎检索,深度阅读网页内容,最终呈现逻辑清晰、准确无误的答案。
360AI搜索是3月份正式上线的,当时我并没有第一时间去体验,只是从网友们的使用评价来看,似乎都还觉得不错:
产品形态
例如对答案进行改写:
自动生成脑图:
相关内容和参考链接的更详细的罗列:
工作原理
顺带手又试了下智谱的AI搜索,还行:
还有百度的,链接对了,回答得有点问题:
—
“Perplexity 的信念是,搜索信息应该是一种简单、高效的体验,不受广告驱动模式的影响。”
这本质上是在“标识可靠性”,用户可以自行溯源、判断。
—
智谱清言的AI搜索(原高级联网)↓
以上,就是关于大模型+搜索的应用研习分享。
本期到此结束。
再见
如果你觉得我的分享还不错或者对你有帮助,不妨来个一键N连:点赞+在看+分享+关注。
也欢迎你在留言区与我互动。
参考资料:
https://www.jiqizhixin.com/articles/2023-10-30-6
https://mp.weixin.qq.com/s/cTfkanfqJLqxKvbIIKL2xg
https://www.zdnet.com/article/what-is-copilot-formerly-bing-chat-heres-everything-you-need-to-know/
https://www.microsoft.com/en-us/bing?ep=0&form=MA13LV&es=31
https://support.microsoft.com/en-au/topic/how-bing-delivers-search-results-d18fc815-ac37-4723-bc67-9229ce3eb6a3
https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
https://mp.weixin.qq.com/s/ZWKMT4z0lgQrOHtSBjJ5ZA
https://mp.weixin.qq.com/s/9gRQwWFn5Ly9QW6MySUGfQ
https://ahrefs.com/blog/zh/google-pagerank/
https://time.geekbang.org/column/article/222807
https://dmthought.com/search-engine-working-principle/
https://cloud.tencent.com/developer/article/2255169
https://zhuanlan.zhihu.com/p/608308322
https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
https://searchengineland.com/microsoft-bing-explains-how-bing-ai-chat-leverages-chatgpt-and-bing-search-with-prometheus-393437
https://jiandan.baidu.com/
https://mp.weixin.qq.com/s/rwCJ7HjTAiJA4iIoDw9Ztw
https://mp.weixin.qq.com/s/dwrwjuuJVl8J67KGF84zKw
https://browser.360.cn/ai/
https://ai.360.com/
https://mp.weixin.qq.com/s/rANopuBw38bATILDZhaKow
https://www.perplexity.ai/hub/faq/how-does-perplexity-work
https://blog.hubspot.com/ai/perplexity-the-ai-search-engine
https://www.quora.com/How-does-Perplexitys-search-tool-work
https://www.elegantthemes.com/blog/business/perplexity-ai
https://m.jiemian.com/article/10474939.html
https://blog.google/products/search/search-labs-ai-announcement-/
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-04-26
2024-08-13
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19