微信扫码
添加专属顾问
我要投稿
AI搜索技术突破引发激烈讨论,深度评测揭示行业现状。 核心内容: 1. DeepSeek R1+联网搜索功能引爆全网,体验大幅提升 2. 评测2025年2月大模型公司新模型发布情况,问题背后的复杂性 3. 对比benchmark老AI搜索和带长推理能力的AI搜索,DeepSeek表现如何
随着DeepSeek R1+联网搜索功能引爆全网,笔者也切身感受到有了思维链加持之后AI搜索的体验比之以往大有提升,但随之而来是一个问题:AI搜索的工程/模型优化真的走到头了吗?又或者,随着向OpenAI DeepReaserch范式的方向演进,在“搜索/研究某个命题”这个领域,真的已经能做到取代部分人的工作了吗?
带着以上疑问我做了一个很小的评测,看结果前,先给大家解释一下背景:
为什么选择这个问题?看起非常简单对吧,其实背后的门道还是挺深的。比如:什么样的公司算大模型公司?(需要考虑全球范围吗?什么领域?某个垂直领域的算吗?);新模型指的是LLM还是也包含Transformer范式下的多模态大模型、或者文生图/视频之类采用DiT架构的模型?2025年2月看似很明确,但一个月跨度下的新闻量非常大。笔者在相对熟悉行业信息的前提下,通过相对优质的信息源整理了半小时以上,才在下表中列出了11家公司19个模型的List。这里要特别说明一下,这个列表也只能代表笔者基于自己的行业认知做出的判断,难免有挂一漏万的可能。此外,整理完之后也不得不感慨一句:真TM卷...除了几家头部大厂的明星模型,过去一个月其实还有很多可能在新闻里一闪而过的名字,不信你可以看看下表的第一列。
大致可以归为以下几类:
搜索词query改写/扩写➡️从搜索引擎中拿到部分搜索结果➡️进行相关性重排序(Rerank)➡️排序靠前的结果作为input一并给到LLM➡️LLM结合搜索结果、预训练知识和用户原始query总结回答问题。
由于模型都是满血版DeepSeek R1(姑且信之),那么上面三家的差别主要就来自搜索网页的部分。做得简单一些的话可以少量query改写(甚至不改)+对接一个Bing/Brave/Tavily之类的搜索API,大多数人不会重新做一套全网爬虫+索引,当然类似腾讯/百度这类有自己搜索引擎产品的除外。召回网页之后需要抓取网页内容(也有一些搜索插件服务只提供摘要)并且基于用户的问题做一下相关性排序(有成熟的相关性算法)。其实从这个过程中可以看出,采用哪家的爬虫/搜索API(也代表了能爬到哪些内容)、query改写的策略、搜索召回的数量、重排策略、最终吐给模型的内容量等等都会影响一次AI搜索结果的好坏。而由于DeepSeek R1的加入,反而在获得内容之后模型有了更多时间思考、比对、校验甚至反思吐给它的内容,从而优化了输出质量。
关于这种“先想后搜”的模式,最近结合字节Coze上线了带function call(工具调用能力)的R1之后(原生的R1 function call能力比较弱)有了一个简单的复现方法如下:
运行时你会神奇的发现在思维链中模型出现了一个“停顿点”,然后还是调用搜索插件分析搜索结果:
此外,秘塔还有一点不同是除了通用搜索外应该还做了不少垂域数据的索引,比如你能从中搜到大量的研究报告和论文,这是其他AI搜索目前做不到的。
也就是说不同于无论上述“先搜后想”还是“先想后搜再想”的AI搜索的工程范式,DeepResearch采用的是“边想边搜”的模式,模型端到端地去学习人怎么结合一个命题去搜索网页-思考之后调整搜索词-再搜索-如此往复的行为。(这种思路也是模型去规则化的一种趋势,比如智驾领域从感知-依赖规则的规划决策-行动,转变为端到端的视觉进-动作出)具体到我们评测的问题上,DeepResearch的思考过程如下(OpenAI应该还是做了一定的简化的):
说句题外话,这例子也很好地解释了Agent这个概念除了规划、记忆和使用工具外,能对环境变化进行实时交互也是至关重要的。
啰嗦了这么久,各种AI搜索/研究的模式都分析过了,看看结果到底如何?
备注:测试时间为2-28中午,测试query相同均为“2025年2月都有哪些大模型公司的新模型发布?”,所有产品都开了联网搜索能力,其他差异如下表所示:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-14
2024-06-20
2025-02-04
2024-10-09
2024-06-14
2024-06-16
2024-06-14
2024-05-31
2024-07-24
2024-07-03
2025-03-24
2025-03-11
2025-03-10
2025-03-10
2025-02-28
2025-02-25
2025-02-22
2025-02-22