AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【深度】AI搜索产品深度分析-搜索原理和商业模式分析
发布日期:2024-07-09 08:47:58 浏览次数: 5341


1 总结

  • 传统的搜索是否会被彻底取代?不会完全被取代,但是肯定会被分流。传统搜索引擎的寡头时代和商业模式,已经让搜索形态停滞很久了,AI的到来,对搜索引擎带来冲击,细分场景的解决方案,会让流量从搜索引擎中悄悄分流到更优质的解决方案提供商。但是未来3-5年,AI搜索引擎和传统搜索引擎肯定是并存的。

  • 搜索和推荐的异同?本质都是解决信息过载的问题。现在的AI搜索其实是知识的个性化推荐:知识搜索出来以后,会根据个人的问题,通过大模型进行针对性的组装和回答。这个回答里有针对个人问题的个性化总结和回复;也有大模型底层处理逻辑的随机性处理。因此,在我看来,现在的AI 搜索就是针对问题的个性化推荐

  • AI搜索的商业价值到底是什么?海外产品大部分是订阅模式,国内产品基本都是免费。商业模式都在探索之中。搜索是做垂类还是做通用,大部分的AI搜索引擎都选择做通用,这是过去搜索引擎发展史带来的经验。如果是做通用,前期就有很长的烧钱时光。

2 搜索的背景

2.1 搜索的定义

搜,在字典里有2个核心含义:聚集和搜索。

搜索其实是动作,是过程,核心目的是找到解决方案,有可能有现成的,更有可能需要通过自己的分析和整理获得。

搜索本质上是一种过渡性功能。根据具体场景和目标,如果直接提供解决方案,就可以弱化搜索的过程,例如,AI搜索技术不仅帮助用户搜索信息,还能进一步分析和整理,提供直接的解决方案。更进一步,它可以提供一站式服务,如旅游规划和商品推荐,实现从建议到购买的全程服务。

用户的输入是起点,搜索将成为一个庞大的入口。过去,搜索主要用于信息分发,但随着AI的加入,行业巨头可能会提供更深入的服务。

2.2 搜索的场景

寻址、找资源和提问,是搜索的三大核心场景。

如下是360VP梁志辉在今年5、6月份对外提供的一些场景数据:

2019年,360搜索里,42%的用户是寻址,21%在找各种资源,37%在提问题。

2024年,360AI搜索里,这个比例发生了很大的变化。寻址跌到了12%,找资源跌到了16%,剩下的72%在提问题!

2.3 搜索引擎的分类

2.3.1 互联网搜索or网站内部搜索or企业内部搜索

搜索引擎主要包括两类:

一类是类似百度、Google这种的专门的搜索引擎,搜索即公司的主要业务,针对公开的数据。AI加持的产品非常多,比如Perplexity、360搜索、秘塔AI搜索等。

二类是作为网站内部的一个功能模块,用于服务主流业务的,比如小红书的达芬奇;字节的AI搜索助手;京东的AI导购等。-->这种一般是平台私有数据的搜索。

三类基于企业内部业务数据的搜索,这种数据绝对不会网络公开,比如ERP、CRM或者OA系统中的各种数据,其实这部分数据才是真正的宝藏数据。现在有一家AI 搜索引擎 Hebbia,比较有意思,Hebbia 的人工智能可以读取并理解没有被接触到的非结构化私人数据。其官方博客称Google 只索引了全球 4% 的数据,而 Hebbia 想处理的就是剩下的那 96% 的数据。

我们今天主要聊的是互联网搜索引擎,和对应的AI搜索引擎。

现有互联网搜索引擎的格局

搜索引擎发展至今,行业的集中度已经很高了,根据Statcounter统计数据,Google搜索全球占比90%以上;在中国比较特别,Google仅为占比2%,但是头部集中效应也很强,百度占比53.31%,然后是26.26%的bing,剩下的众多公司瓜分剩下20%左右的市场。

全球范围Google占比达到91.05%,但是相比23年5月份,这个数据是93.11%,降低了2.06%;增长最多的是bing(0.95%)、YANDEX(0.43%)和Baidu(0.43%),从这份数据上,看不出AI搜索引擎对传统搜索引擎的冲击,bing的增长可能跟AI加持有一定关系。

但是根据Google 24年Q1最新财报,Google搜索同比增长15%。Google搜索占比下降,但是搜索和广告收入增加,所以传统搜索引擎的地位短时间内很难撼动。

2.3.2 元素搜索:文字、图片、视频搜索

文本、图片、视频、新闻等传统元素维度的搜索。-->这些有很多细分场景的搜索解决方案,有待挖掘和补足。

文本:发展到最快、最多,也是目前处理得比较好的搜索。目前也是传统搜索引擎的重点领域。

图片:文搜图为主,图搜图的情况也有,但是因为不准,而且没有上下文,解决问题的场景真的不多。

视频:文搜视频为主,基本是根据视频标题检索,是很泛化的检索。

元素搜索根据场景深度提供解决方案,或者未能覆盖到的搜索元素,都是很好的发力点。

针对某一元素,提供深度解决方案,比如视频片段和文本匹配搜索,这种视频AI搜索+生成,肯定深受欢迎。

针对未覆盖元素,提供AI搜索解决方案,比如近年发展起来的播客,“音频”元素,且信息密集,现在秘塔AI就首播上线针对播客的AI智能搜索,是真香,避免了我原来觉得播客好,要看文稿时,要到小宇宙搜索-->下载音频->飞书妙计转内容……这一套流程下,至少半小时。

2.3.3 搜索场景

垂类搜索需求增加,逐渐代替传统搜索引擎,如微信搜索(媒体/平台)、知乎(专业领域)、小红书(内容新颖全面)等垂类搜索受到关注。根据2024小红书WILL商业大会对外披露的数据,有高达42%的新用户会在下载App的第一天就使用搜索。类似小红书等垂类搜索渠道正在一定程度上分走传统搜索的份额。→这种依据信息平台的搜索,也会分走搜索的广告收入。

搜索是过程,因为业务场景的细分,现在垂类信息获取的渠道也有中心化的趋势,传统的搜索偏向补位和给外行提供渠道。

针对大众化吃喝玩乐的需求,其实我们已经在垂直平台上消化了80%的需求,如下:

  • 吃-美团、饿了么、大众点评等围绕吃喝的团购和外卖平台。
  • 穿-电商平台:淘宝、京东、抖音、快手、拼多多、唯品会等。
  • 住-携程,各大酒店自己的平台。
  • 行-携程,马蜂窝等旅游平台。
  • 娱乐:
    • 长时间:bilibili,YouTube,腾讯、优酷、爱奇艺等等。
    • 短时间:抖音、小红书等。
    • 看视频:

    • 看书、文章、小说等等:微信图书、番茄……

  • 知识/信息类型:

    • 如果是视频类的,我会直接去bilibili,YouTube,因为这些才是内容平台。

    • 如果是通用类型的,比如最近我想知道新疆和四川的时差,会直接问豆包、ChatGPT、秘塔搜索等等,尤其是豆包,可以支持语音提问和回复,在一些非正式的场合下,非常常用。
    • 行业知识,有通用的,比如知乎,微信公众号,专业社群等。比如看海外的软件产品情况,有product hunt;程序员,就是看GitHub等。

优质的专业内容平台,会分散掉搜索平台的流量,但是这些年应该是必然且持续发生的场景。

2.4 现有搜索问题

2.4.1 除了寻址,搜索都没法直接提供解决方案,需要自己总结提炼。

搜索是为了找答案,除了寻址这个场景以外,找资源、提问等场景需要的是问题的解决方案。但现在传统搜索引擎给出的都是网页,答案都隐藏在网页之后,需要你挨个阅读后,自己总结提炼,麻烦。

2.4.2 广告泛滥,真假难辨

钉钉总裁叶军就在最近的亚布力论坛创新年会上吐槽百度“广告多”,前十条还多为相似的广告。

2.4.3 同质化和碎片化的信息,浪费时间

用户渴望信息的条理性和深入分析,但现有搜索引擎的结果呈现,只会增加我们的认知负担。概括而言,标准的搜索体验往往要求用户付出大量努力,基本的搜索反馈在商业化驱动下变得繁琐复杂有广告收益这个巨龙,搜索就很难自己革命。

即便摒弃广告干扰,搜索收获的内容也频繁呈现出高度的同质化与碎片特征,企图在一个平台上完整且高效地搜集信息显得尤为艰巨。迈进2024年,我们发现搜索结果依旧倾向于以媒介视角堆砌信息,而非围绕用户多样化需求构建的知识获取路径。

2.4.4 图片、视频、音频等元素搜索能力不够强

一是技术本身相对较难。二是这些资源一般是优质知识源方把控,行业内有专业需求,也有专业对口的网站。

2.5 传统搜索引擎的原理

真实的搜索引擎更加复杂,为了方便理解,我这里是简单的介绍。

2.5.1 基础数据准备:数据的获取+处理,成本大头

从服务端出发,进行数据的处理加工。

各位朋友有没有想过,百度可以实时返回你查询的关键词或者句子,是怎么做到的呢?比如你百度搜索【数据科学】,是实时去全网上找一圈吗?当然不是。哪怕计算资源再多、计算效率再快,也不可能在短时间内告诉你靠谱的结果。

因此,为了解决效率的问题,所有的搜索引擎都是提前将各类网站的数据爬下来,进行处理加工,等待用户的查询操作。

这里需要做的数据处理加工工作其实是非常多的,比如需要对网页的重复内容进行去重,比如需要对所有的网页进行文本解析、语义识别,比如需要对文本建立索引以便于后续的关键词检索等等。这里就不展开了,后面我们有机会逐一分享。

2.5.2 搜索query解析

从用户端出发,进行用户搜索语句的理解。

理解和分析用户输入的搜索语句(query),如何对语句进行处理,使得机器能够理解语句的含义,便于后续高效地搜索到相关的结果。比如输入【数据科学家的主要工作内容是啥】,搜索引擎只是冷冰冰的机器,它是不理解这句话是啥含义的,那它怎么能给你靠谱的答案呢?

分词,就是对query进行切分为符合常识的关键词,这是典型的NLP(自然语言处理)中的知识内容。比如上面切分成【数据】+【科学】+【家的】+【主要】……还是【数据】+【科学家】+……这是完全不一样的。

基于关键词是比较基础的了,现在更多地朝着知识图谱等,更加符合真正的搜索需求。

2.5.3 内容检索召回+排序

基于用户经处理后的搜索请求,系统需在优化过的数据库中检索相关信息,并依据预设规则对检索出的结果进行排序。这一过程构成了搜索引擎技术的核心部分。鉴于此,不同企业及网站所采用的搜索引擎逻辑存在显著差异,而其排序算法更是异彩纷呈。

排序机制背后的逻辑相对直观:本质上是对符合搜索条件的条目进行评分,随后依据评分高低进行排列。这样设计的目的是确保用户优先看到关联度最高或被认为最重要、最相关的信息,因为用户往往更倾向于查阅排名靠前的内容,而对后置信息的关注度则逐渐减弱。

正因如此,如何有效优化排序结果催生了一个专业领域及职位——SEO(搜索引擎优化)。SEO专注于提升特定网页在搜索结果中的排名。例如,淘宝商家为提升自家商品在平台搜索中的位置,会致力于关键词和各项指标的优化;同样,网站为了在百度搜索中获得更高的曝光率,也会通过优化标题等策略来实现这一目标。

2.5.4 搜索结果呈现

最后一个环节,主要就是产品功能层面的内容了,即针对搜索返回的排序好的结果,进行良好的产品化呈现。

现在搜索引擎根据不同的场景,呈现样式也更贴合用户需求,增加了产品体验。比如我们在百度搜索【北京青岛】,看到如下结果,会增加一些针对场景的结果展示,这本身跟AI搜索现在追求的直接给结果类似,也许“殊途同归”。

3 搜索VS推荐-AI 搜索就是针对问题的个性化推荐

  • 搜索与推荐本质上都是当前时代信息过载的产物。

  • 搜索的核心是查找,用户主动促发,有较为明确的目标,系统根据用户给出的信息,匹配对应的产品or答案。

  • 推荐的核心是预测,用户偏向被动,所以目标不明确,系统根据已有的信息,个性化推荐对应的产品or答案。

  • 虽然搜索和推荐是两个不同的逻辑,但在实际应用中,因为信息过载等原因,基本做到了,你中有我,我中有你,互相依赖

  • 现在的AI搜索其实是知识的个性化推荐:知识搜索出来以后,会根据个人的问题,通过大模型进行针对性的组装和回答。这个回答里有针对个人问题的个性化总结和回复;也有大模型底层处理逻辑的随机性处理。

3.1 搜索与推荐的联系

  • 相同的本质

搜索与推荐本质上都是当前时代信息过载的产物,解决的根本思路都是通过匹配(召回)、排序为用户在过载的信息中挑选出用户想要的信息。只是根据业务场景的不同,再召回,排序阶段考虑的侧重点不同。

  • 搜索与推荐的协同作用

  • 推荐中的搜索

推荐服务中基于内容的推荐实际上相当于一种无声的搜索,常常在实现时会采用搜索服务的中的倒排索引等技术,例如基于内容的推荐,常常是通过规则或推荐模型得到用户感兴趣的内容的标签,然后利用搜索服务的方法进行标签搜索和匹配即可得到最终的推荐列表。

  • 搜索中的推荐

当搜索出来符合用户的数据量很多时,需要根据推荐服务中用户画像等结果帮助搜索服务匹配用户的需求。例如周一的晚上进行搜索得到的结果列表和周五的晚上进行搜索得到结果列表就会有所差异。推荐与搜索常常在一个页面中协同为用户提供服务,例如搜索引擎搜索结果页面的关联推荐,电商软件搜索浏览页面的相关推荐等。

3.2 搜索与推荐的区别

  • 个性化程度不同

推荐系统更强调个性化,甚至更注重惊喜感。往往要在准确性和多样性之间作出权衡;搜索系统更强调相关性,如果搜索结果与用户的目标不符,用户的接受程度会很差,个性化对于搜索系统来说既没意义又有风险。

  • 排的更好与搜的更全

对于推荐系统来说,排序更加重要,因为只有最开始的推荐结果吸引了用户,用户才可能向后浏览。对于搜索系统来说,召回更加重要,因为用户会主动向后浏览,以期望找到自己的目标,但如果最终没有找到,也就是搜不全,就会有很差的用户体验。

  • 快速满足还是持续服务

提到搜索系统,往往会提到马太效应,只有与用户搜索的结果更为匹配的物品才会被呈现给用户,让用户得到快速满足,那么满足需求的物品那么多,搜索的越准确,用户就越不会向后浏览,最终点击的热度就只会集中在少量的物品上。这也就是为什么广告最初诞生在搜索系统中的原因。提到推荐系统,往往会提到长尾效应,也就是让用户时刻保持新鲜感和惊喜感,考虑用户的长期兴趣,提高用户粘性,期望留住用户,并提供持续的服务,这也就是为什么刷短视频停不下来的原因。

搜索是一个非常主动的行为且用户需求十分明确。而推荐系统的信息是相对被动的,且需求会更为模糊且不明确,且推荐有更强的个性化特点,基于用户本身属性来说。

4 AI搜索产品的原理和创新点

4.1 AI搜索引擎分类

  • 专门做AI搜索引擎:比如Perplexity、秘塔AI等。现在又有一个新起的Genspark,这个搜索引擎在我看来最大的特点,是在现有AI搜索引擎上,做了更加细分场景的专业搜索解决方案,在商品和旅游规划上确实更胜一筹,更像是在商品和旅游规划上的垂类agent。

  • 传统搜索引擎+AI能力:Newbing是最早的结合,再加上现在Google的AI搜索。

  • 大模型厂商+搜索能力:这种一般都是有自己的AI助手,这些AI助手会慢慢开始覆盖搜索能力,比如已有的Kimi、豆包、文心一言等,或者传闻中的openAI,要亲自下场做搜索引擎。

4.2 AI搜索产品对比

4.3 AI搜索产品原理

  • AI搜索引擎基本上都利用了传统搜索引擎的API接口,并没有完全重新做一套底层的搜索系统,因为网站信息预处理和索引库的搭建成本太高。
  • AI搜索引擎大部分会有一些自己特定领域的数据源和索引库,来增加自己的差异化竞争力,比如秘塔AI的播客和文库;360更是改造了原来的搜索索引库;博查有ESG等。
  • AI搜索引擎根据不同业务场景,通过语义识别进行场景分流,再根据场景的流程设计,多次调用大小模型,提供最终的解决方案。比如360VP 梁志辉曾经表示,360一次AI搜索有9次大模型的调用。

4.3.1 获取用户输入的查询词

就用户输入查询信息query,可选地,可以对用户的查询词进行一些预处理,比如删除敏感词。

4.3.2 使用搜索引擎,搜索查询词,得到搜索结果

这步操作和传统的对搜索引擎的使用没什么区别。但具体实现上有多种方式。比如:

1)直接调用搜索引擎的API接口,发送请求信息后,接收返回的搜索结果。

bing、google等都有提供搜索的API接口,将查询词等信息发送过去,就能得到搜索结果。

这种方式较为方便简单,但是调用搜索引擎的API接口一般要付费,有的搜索引擎还不提供这样的接口,只给自家用。

2)使用爬虫手段,向搜索引擎的URL发送查询词,得到搜索结果。

这种方式就是模拟浏览器对搜索引擎的访问,在url中携带查询词,在请求头等地方模仿浏览器行为,这种方式不用付费,但是返回的结果是网页样式,需要进行分析和解析,有些麻烦。有时搜索引擎还会有反爬手段,在接收到异常请求时,需要进行用户验证才能返回搜索结果。

3)自建搜索索引库

这类似自己做搜索引擎了,效果好,限制少,但技术难,而且成本很高。

据傅盛说,秘塔搜索也是自建了索引库。

另外,360凭借其搜索引擎的背景,拥有自己的索引库。公司副总裁梁志辉曾估算,爬取5000万网页的成本大约在1000-200万人民币。对于一个通用搜索引擎来说,5000万网页仅仅是冰山一角。为了保证搜索引擎的准确度和高性能,建立自有的索引库,是AI搜索公司必做的事情,但是耗时耗钱,所以索引库本身会成为搜索引擎的壁垒之一。

为了适应AI搜索,360公司还建立了一个规模达到100亿的多模态RAG索引库。这个新的索引库是专为大型AI模型设计的,实现了AI原生的索引架构,采用了最新的RAG技术理念,重新构建了信息提取的技术方案。梁志辉表示360在百亿级别的RAG数据库上,95%的请求实现了200mm的提取速度,这比许多开源解决方案都要快得多。

从哪个用户群体切入,优先建立哪些场景的索引库,切入就是AI搜索公司可以选择的是,先从冷启动的用户群体去切,可以降低索引库成本,也能保证用户的使用体验。

4.3.3 对搜索结果进行预处理

1)搜索引擎一般会返回很多搜索结果,相关度也有差异,如果一股脑丢给LLM进行分析,那效果会不大好,还很耗费token,甚至token超额。所以,一般需要对搜索引擎返回的搜索结果进行一些处理。

处理的方式有很多,比如根据和查询词的相关度进行排序后选取靠前的搜索结果,对搜索结果使用embedding技术,选取细粒度的相关内容等等。

2)风控处理,避免一些非法违规内容等。

方式一:

对搜索结果进行分块,使用embedding技术找相似的细粒度内容

搜索api接口返回的数据一般是一个搜索结果列表,其中的每条搜索结果可能内容较多,如果只是简单地选取前面几条搜索结果给LLM参考分析,弊端有:内容仍然较多、有较多的不相关内容、未被选取到的搜索结果中可能有重要的信息被遗漏。

为此,可以对搜索结果进行更细粒度的内容选取。这时候,可以使用embedding技术了。

具体来说,步骤如下:

  • -对每个搜索结果进行进一步的分块,例如,一个句子为一个块。

  • -然后,对分出的每个块,进行embed计算,得到向量值。

  • -对用户输入的查询词也进行embed计算,得到查询词向量值。

  • -比较查询词向量值和搜索结果的向量值的相似度,选择相似度高的搜索结果的分块。

  • -后面使用相似度高的搜索结果的分块就行

但是,这个方法也有弊端,因为粒度太细,有时会错过有价值的信息。比如一些信息和查询词向量值相似度低,但对整体的分析也是很关键的,这种信息容易被遗漏,从而影响最后的分析。

方式二:

根据搜索结果的URL,查询具体的网页内容后,把具体的网页内容加入进来

搜索api接口返回的搜索结果的页面内容,可能只是截取的部分内容,并不全,为此,我们可以根据搜索结果的URL,查询具体的网页内容,例如使用爬虫技术爬取页面内容,然后进行解析,这样得到的页面内容较为全面,用于分析,效果较好,但是也有弊端:

1)token消耗多;

2)爬取网页时有可能失败;

3)对页面的解析有时也较为麻烦。

4.3.4 [可选]本地数据参与搜索

AI搜索主要是指对互联网数据的搜索,数据广且实时。但是,有时在一些场景下,如果能结合本地数据库的数据,能更满足用户的需求。比如法律行业的AI搜索,可以把法条放在本地,进行问答时找到相关的法条,结合互联网数据进行LLM问答。再如,把企业内部数据或者用户的个人数据放在本地,在进行问答时找到相关的数据,然后,再结合互联网数据进行LLM问答。

在具体查找本地数据时,可以直接获取文件里的数据,也可以对本地数据使用embed计算和相似度计算找到高相关的数据块。

4.3.5 搜索解决方案展示

通过互联网的搜索结果,加上本地数据库的数据,就可以给到大模型进行最后的处理和结果输出了。一般会有预置的页面生成规则,在这个过程中可能会多次调用大模型,来生成各种形式的答案。

比如秘塔AI搜索,先生成框架,再生成每段答案,同时还会有各种模型,处理生成脑图、相关组织/人物等内容。

比如Genspark直接生成商品详情页面,商品详情页面有固定格式:商品标题、详情图片,介绍、参数规格、优缺点、社交媒体评论、电商网站评论和总结。老实说,这种生成页面给我惊喜,确实实用又方便。

。一般是先预设好问答prompt模板,然后将搜索结果嵌入问答prompt模板,即可得到问答prompt,然后将问答prompt发送给LLM进行答复即可。

如下是ThinkAny创始人认为的标准流程。但目前的ThinkAny暂时没有把他理想中的标准流程搭建完成。


如下是Perplexiyt的流程

5 AI搜索引擎和传统搜索引擎的对比

5.1 成本对比

上文,对传统搜索引擎和AI搜索引擎的技术原理进行了分析,可以看出AI搜索其实是在现有搜索底层上拓展,因此是单纯的成本增加。

按照谷歌母公司Alphabet董事长约翰·汉尼斯的说法,与大语言模型这样的人工智能对话,成本是传统搜索的10倍。根据摩根士丹利的预测,谷歌为2022年总计3.3万亿次的搜索量单次平均成本约0.2美分。反推一下不难算出,谷歌去年推出的AI搜索产品“搜索生成体验”(SGE)每次的成本可能达到了2美元。

目前,AI搜索的成本是传统搜索成本的10倍左右。

当然,现在大模型的成本在逐渐降低,所以AI搜索势不可挡。

另外,不管是天工AI的方汉,还是360搜索的梁志辉,都认为创业公司在这个赛道不容易成功,因为,AI搜索的成本依然很高,尤其是要做好,保证低成本,就必须自建搜索引擎索引库,甚至搭建自己的大小模型等。

5.2 关键词VS问题

搜索是通过关键词还是提问题更方便?肯定是2者兼有呀。被传统搜索引擎调教的,有时候确实麻烦,要把问题拆成关键词再搜索;但是有些场景,确实只有词蹦出来,组织语言组成问题也是难题。人性使然,不管是传统搜索还是AI搜索,未来肯定都会兼容这2种搜索模式。

5.3 结果:链接VS答案

结果形式上,肯定是答案更佳,毫无疑问,除非答案刚好就是链接,比如寻址。但是,换个角度,链接本身也是答案之一,现在的AI搜索引擎也没有完全隐藏链接,一部分是因为需要看到来源,增加可解释性,避免大模型的幻觉;另一部分也是因为,信息源本身价值也很高,是不能被完全隐藏的。

6 AI搜索引擎和传统搜索的商业模式

”所有人都觉得自己能取代谷歌,直到它需要考虑赚钱和发展。”当Perplexity表示自己要准备引入竞价排名的商业模式时,引起了网友的激烈讨论。

这个评论道尽了搜索的难,不仅要打造好的产品,突破创新,更要找到商业化的模式,“站着把钱挣了”,这是AI搜索的难。

6.1 传统搜索引擎

核心成本:

  • 爬虫集群,固定开销:如果索引全球的网页的话,那基本上在 3, 000 台服务器到 1 万台服务器之间。

  • page rank(网页排名)服务器成本,动态开销,用户越多,服务集群就需要越多。

  • 保护费的成本——比如说谷歌每年要给苹果交钱,让苹果保留使用谷歌作为默认搜索。

  • 人员成本-大型搜索引擎公司,这都是抹不去的固定成本。

盈利模式:

  • 广告收入/品牌推广。

  • 付费排名。

  • 数据服务收费,用户的搜索记录和行为的数据分析转卖给其公司或者机构。

  • 合作营销,比如与电商平台合作推广商品、与旅游机构合作推广旅游产品等等。

  • API收费

  • 云计算服务

搜索引擎的营收不是直接来自2C用户,而是源自2C用户积累到一定量之后带来的2B收入。因此,搜索引擎在营收-成本实现“转正”之前,有相当大的产品和技术的建设维护成本;还有很长的用户获取和运营周期,现在获得2C用户的成本较高,所以要想让用户快速积累到可2B商业化的量,运营成本也较高。搜索引擎技术门槛高,要实现盈利的运营周期长和运营成本高,这也解释了为什么搜索是一个头部效益很强的行业。

哲学是投资人Marc Andresson给Perplexity的建议“无论如何都不要单纯做搜索”,也许就是上述原因吧。

6.2 AI搜索引擎

核心成本

  • 大模型接口费用:国内大模型相继降价,海外模型也是一直降价。

  • 大、小模型的训练和运营成本

  • 搜索API费用

  • 私有数据存储和服务费用

  • 人工成本:在一些初创的AI搜索引擎中成本占比可能相对较少。初创公司都非常会利用现有资源,比如博查AI,核心创始团队差不多1+2(1产品+1研发+1算法)的配置,连带销售也不超过8个人,利用扣子的自定义bot搭建流程+私有数据库+各种模型资源整合,就搭建了博查AI;再比如,thinkany团队只有1个全职创始人和2-3个兼职研发。

  • 运营获客成本:这个阶段想要快速起量,获客运营是大头。比如此前席卷社交媒体的Kimi,吸引每位新用户的获客成本大约在12元到13元之间。这意味着,每天为了吸引新用户,Kimi需要支付超过20万元的获客成本

盈利模式:

  1. 现在的AI搜索引擎要么免费,要么就是付费订阅服务,直接向C端用户收费,比如秘塔AI搜索、360AI搜索等国内AI搜索暂时没有看到付费迹象,海外产品Perplexity、you等,会提供高级功能版本,收订阅费。

  1. AI搜索引擎的营收探索:比如Perplexity 公司首席业务官Dmitry Shevelenko透露,会开放自己的「相关问题」给金主开放的广告位:当用户进一步挖掘某个主题时,Perplexity会在有机问题旁边添加来自品牌赞助的问题,追问后继续显示相关广告链接。

6.3 一些营收观点

  • AI搜索成本低于 5 美分就能盈利?

天工 AI 搜索的董事长兼 CEO 方汉,在一次播客沟通中提出的这个观点:AI搜索成本低于 5 美分就能盈利。因为,谷歌每年搜索引擎查询次数是 3.3 万亿次,单次搜索的成本是 0.2 美分。然后整个谷歌搜索广告的收入是 1,500 亿美金左右,去年可能是 1,600 亿差不多,可以算出来差不多一次搜索产生的收入是 5 美分左右。

方汉进一步表示:OpenAI 早期的成本,注意不是现在的成本,早期的成本,一次对话的成本是 36 美分,就是你可以看到这里面有几个数字差,36 美分、 5 美分、 0.2 美分。可以看出来,推理成本,是 AI 搜索商业模式中非常关键的因素。

  • 用户数达到多少,搜索才能盈利?

这个我暂时找不到相关数据,如果有人有相关想法和参考数据,欢迎评论区或者私聊沟通。

Perplexity创始人Aravind Srinivas就坚信获取用户,甚至比训练模型更重要:“如果你的目标是建立以产品为核心的公司,就不要在训练自有模型上浪费时间”,他认为“成为一个拥有10万用户的套壳产品显然比拥有自有模型却没有用户更有价值”。

  • 传统搜索引擎不敢发力,还是看不清,不敢轻易颠覆自己的核心收入来源。

Google早就在布局AI搜索,但一直没有外显和发力的原因,AI搜索成本是一方面考量,最核心的还是Google不敢一下子推翻自己赖以生存的商业模式——广告和竞价排名。

那为什么bing就这么敢动自己的蛋糕呢?因为搜索头部效应明显,上文有数据Google占比91.05%,bing作为老二占比仅为3.74%。所以,一个大概率赚少了,一个有机会赚更多。这就是独属于第二名的快乐,就算烧钱都更开心。

对标国内也是类似情况,百度搜索引擎还没有大动作,360AI搜索已经颇有名声。

6.4 AI搜索产品现有问题

  1. AI搜索引擎替人工做了部分决策工作,节约了时间,但却无法对决策的正确性负责。

AI搜索通过信息提取和总结节省用户时间,但无法保证信息准确性。比如现在直播电商已经反映出的一些问题:虚假宣传、质量、误导和不文明行为等,AI搜索亦可能遇到。

更别说,现在大模型本身因为幻觉等问题,就算知识信息准确,都有概率会导致信息总结出错。如果说传统搜索背负的问题是“搜到了有问题的内容”,AI搜索背负的责任更大——说出了有问题的内容,矛盾会更尖锐。

现在网络虚假信息这么多,个人都会判断错误,AI搜索提供的解答有问题,现阶段也是可以理解的。因此,现在很多AI搜索产品都在增加自己输出答案的可解释性;未来肯定有大量工作,会放在判断信息源的准确性上。

  1. 商业模式还未验证成功。

订阅付费制跟传统搜索引擎的模式不同。用惯了免费搜索引擎的C端用户,有多少愿意付费使用搜索产品,确实需要探索。

  1. 产品要持续获客和留存,产研投入是搜索技术还是大模型技术,都是难题。但我认为核心还是要找到高价值的业务场景和难题。

  2. 技术小难题:AI搜索如果支持追问,对话轮数多了之后,就会面临 context 长度超过大模型token的瓶颈问题。当然,随着大模型上下文越开放越长,这个问题有所缓解,但是总有上限。追问一般都是因为没有找到解决方案,通过才能想问,或者追问轮数控制和迭代思路来找解决方案,应该是可以解决的。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询