我要投稿

AI搜索选哪个？18家AI搜索产品横向测评

发布日期：2024-06-03 08:33:04 浏览次数： 4433 作者：橘子汽水铺

引言

距离《AI 搜索，一次讲透》文章发布已经快一个月了，AI 搜索赛道依然火热，各款产品都在努力优化，还有几款新产品推出。

时间到了6月，非常好奇各款产品表现如何，今天就都拉过来测一测。

刚把第一个Query测完，就发现了很多产品的严重问题，结合后续的几轮测试，已经足以得出一些值得参考的结论。

受限于篇幅和时间，本文将完整记录第一轮的AI搜索测试，并结合后续几轮的测试，给出一些个人的体感结论。

希望能帮助读者选择到适合自己的 AI 搜索引擎。

防杠声明：

本文不是权威测试，而是个人向测试，测试集的目标不是大而全，而是自己用着舒服。

本文对所有的搜索结果进行了截图保存，你可以根据自己的偏好选出自己喜欢的产品。适合自己的才是最好的。

本文不接受任何赞助，不接受任何的删帖请求，但接受开放地交流讨论，请大家心态平稳，实事求是。

本轮入围选手

国际巨头白月光，4家：Perplexity、OpenAI ChatGPT、Google Gemini、Microsoft Bing Copilot

国内模型厂和大厂，10家：月之暗面 Kimi、字节跳动豆包、MiniMax 海螺、智谱 Chatglm、01万物万知、腾讯元宝、百度文心一言、百川智能百小应、阿里巴巴通义千问、阶跃星辰跃问

国内AI搜索应用，3家：昆仑万维天工AI、360 AI 搜索、秘塔 AI 搜索

AI搜索创业团队，1家：ThinkAny

入围说明：

有一半是AI助理，并非单纯的AI搜索，因为本质上AI搜索是一个AI助理很基本的功能，技术路径大差不差，而且AI助理的搜索结果未必就比专业的AI搜索差，所以放在一起测试没有任何问题。
有些品牌存在更好的选择，比如 Google 的搜索和Gemini其实是两款产品，百度的搜索和文心一言也是两款产品，但是因为产品灰度等原因，我无法体验到，所以就用他们的助理代替。话说回来，既然他们在灰度，就说明他们还没准备好，也不值得测试。
排除了 devv ai 等垂类的搜索，因为对于通用Query，垂类搜索和通用搜索相比明显弱势，放在一起比较不太公平。
有些产品除了提供基础版本外，还提供了付费和深度选项，本文只测试默认选项，如果基础底子好，才会在后续测试其他选项。

本轮的测试方法

Query 选择的原则：

Query 所对应的答案应该具备一定的实时性，答案不在大模型本身的知识库里，必须通过搜索才能获得答案
Query 所对应的是一个特定人群的需求，因为没有一个人可以代表另一个人群，这里选择我自己所属的典型人群，AI早期接受者，我认为这个人群和AI搜索的目标人群是高度重合的
Query 有一定难度，搜到的内容有多种可能性，需要模型具备一定的理解能力和推理能力才能回答出正确答案
Query 所对应的结果应该有明显的评判标准，应该是本文读书所熟悉的，且可以通过公开资料进行验证的，避免一个人对结果的评分过于主观

结合以上几点，第一轮的 Query 就是：

橘子汽水铺是什么

这个 Query 除了满足需求之外，还有一些巧妙的点：

它的信息源主要来自5个网站，Notion、Quail、Substack、微信公众号、即刻。同时覆盖了国内、国外、大平台、小站点，各家产品能同台竞技，各有发挥。

同时它又是一个AI领域的关键词，在其他领域意义不大，所以人群匹配度高。

另外这个 Query 绝对不会出现在这些产品的训练数据里，大家都是第一次见。

评分标准：

能正确理解 Query 所指向的内容，加一分
搜索结果准确，没有幻觉，加一分
在结果准确的基础上，信息充足，结构清晰，加一分
AI 助理相比AI搜索会额外多出一个判搜的环节，有几个AI助理产品产品在这里做的很差，所以使用了多轮Prompt进行引导搜索，但由于本文主要关注搜索结果，而且AI助理并未宣称自己是AI搜索，所以这里对判搜错误不扣分。如果你关注端到端体验，非要扣分的话，可以按0.5分来扣。

第一轮的测试结果

0分组：豆包、秘塔AI、天工AI、文心一言、Bing、跃问、千问

1分组：万知、Gemini、

2分组：智谱、海螺、kimi、元宝、thinkany

3分组：Perplexity、ChatGPT、360 AI 搜索、百川

看到第一轮的这个结果，说实话还是蛮意外的，如果不敢相信，所有结果都已截图留存，附在文末。

0分的几个产品，除了 Bing 之外，主要输在优质信息源的匮乏上。如果信息源连即刻和公众号都没有，自然也不适合使用即刻和公众号的用户群体。

1分的两个产品，万知也是输在信息源上，但 Google Gemini 的表现真是令人百思不得其解。

2分的几个产品，信息都能够正确找到，但是各款产品都有些不完美的地方。

3分的几个产品，在信息找到的基础上，内容更丰富，格式也更友好一些。

结合后面几轮测试的一些个人体感结论：

上面只是第一轮的初步测试，摸摸底，接下来的测试，进一步上升 Query 难度，包括双关键词的测试和更加实时的关键词测试。

结合以上测试和个人体感，给出的一些选择 AI 搜索的建议：

Perplexity，综合体验断档第一。Query鲁棒性高、信息准确度高、输出结果的格式和总结能力都很好。如果你只想用最好，闭眼选它。
海螺AI和ThinkAny，本次测试的黑马，虽然第一轮的搜索结果都不完美，但在后续双关键词Query测试中，只有这两款产品和PPLX能够回答正确。继续迭代一下，未来可期。
360和百川，有着多年搜索技术的积累，在AI搜索上还是能体现出一些优势。但360有时候输出不是很稳定，百川则是对复杂Query的处理不够好。两者都需要一些迭代，未来可期。
秘塔AI，虽然秘塔很火，而且在格式处理上下了很多功夫，但是这个10B模型的能力有限，经常出现幻觉。如果你要给别人水报告可以用它，如果是自用，建议对自己好一点。
百度和Bing，实在无法理解它们为什么积累那么多，结果会这么差，可能这就是做一件事认真不认真的区别吧。建议是不要选。
其他几款产品，目前还没太多的体感，需要继续测试下。

再次祭出防杠声明护体：

本文不是权威测试，而是个人向测试，测试集的目标不是大而全，而是自己用着舒服。

为了中立客观，本文对所有的搜索结果进行了截图保存，如果不认可我的打分，你完全可以按照你的标准对结果进行重新打分。

本文不接受任何赞助，不接受任何的删帖请求，但接受开放地交流讨论，请大家心态平稳，实事求是。

附录：第一轮测试结果的所有截图和简单分析

由于测试和排版要花费一整体天的时间，所以本次只放出第一轮的截图。

如果本文阅读数超过十万，会写一篇新文章放出所有的截图和分析。

0分组，无法理解 Query 或无法找到正确信息：

豆包，信息源太受限，未找到正确信息。

秘塔，找到了很多的信息，但没找到核心信息。组合在一起没有一个对的。用RAG解决幻觉的同时引入了更多的幻觉，属于是秘塔这个技术路线的典型问题了。