我要投稿

又一个AI搜索引擎诞生：Exa AI

发布日期：2024-07-19 07:18:37 浏览次数： 2627

最近AI搜索领域又出了个大动作，Exa这家公司刚刚宣布拿到了1700万美金的A轮融资。这家公司可不简单，他们的目标是要“整合世界知识”，说白了就是要做AI搜索的中间层，给AI和AI产品提供最准的关键数据和知识。

我去他们官网exa.ai溜达了一圈，发现他们已经开放API了，这对搞研究的和做AI搜索产品的人来说简直是福音啊。

Exa用的是Embedding技术来理解语义提问，然后找最匹配的链接。这么说吧，它就是在LLM这块要跟Google刚正面。我随手搜了个"GenSpark的竞品"，结果差别就出来了：

Exa这边直接给了公司名和对应的链接，干脆利落。
Google那边就是一堆基于关键词匹配的结果，准确度低得让人想哭。

感觉Exa是在AI搜索最底层的Indexing上下功夫。有些语义化程度高的场景，Google直接就歇菜了，Exa居然还能语义搜索Twitter/X的内容，简直是神了。这对那些用Twitter数据搞事情的产品和AI模型公司来说，简直是雪中送炭啊。

Exa还能搜Github、Reddit、新闻、PDF、播客、论文等等，把Perplexity的一些短板给补上了，比如PDF处理差、读不了Paper、搜不了Github/Tweet之类的。

Exa这次融资还发了篇文章，说我们要进入“AI Agentic Web”时代了。他们认为，在实现超级智能之前，得先搞定超级知识。

Exa的创始人Will Bryk说，超级智能就是能处理超复杂推理请求的系统，超级知识则是能处理超复杂检索请求的系统。

这个“AI Agentic Web”，说白了就是能通过API在公共互联网上检索信息，获得最新最准的知识。Google现在被SEO和广告搞得乌烟瘴气，内容还老旧，哪像个样子。理想的AI Agentic知识系统应该能理解语义搜索，懂实体概念。

AI Agentic只需要看到最准的结果，再加上推理就能实现超级智能。

为了打造“AI最佳Agentic Web”，Exa搞了个"预测下一个链接"的模型，这模型懂"实体"、懂"语义"，自己建索引，还能理解搜索请求并给返回的链接排序。

跟Perplexity、GenSpark这些面向用户的AI搜索比，Exa的核心是提供超级知识，是AI搜索的中间层。他们的API可以被各行各业用，不光是AI搜索。现在Exa已经有上千家付费客户了，Databricks就是其中之一，用Exa获取数据来训练模型。

看来AI搜索这块水是越来越深了，咱们接着瞧。

最后附上“AI Agentic Web”的原文翻译：

Lightspeed 很高兴宣布对 Exa 的投资，这是一款专为 AI 智能体优化的 AI 驱动搜索引擎。
最近，我们深入思考了即将到来的智能体网络，即专门支持 AI 智能体的新型网络基础设施。这将改变现状，因为 AI 智能体的理想基础设施将不同于人类用户的理想基础设施。
为什么需要智能体网络？首先，AI 智能体需要访问最新且准确的信息以完成任务。虽然大语言模型能记忆大量数据，但这些数据很快变陈旧且难以检索。检索增强生成（Retrieval-augmented generation）成为关键范式，使大语言模型能对训练数据之外的信息进行推理，但目前大多集中在私人或内部信息上。理想情况下，AI 智能体能通过 API 检索整个公共互联网的信息，这需要新的基础设施——智能体网络。
构建智能体网络面临诸多技术和经济挑战。现有网络基础设施因服务广告商而退化，而非服务用户。传统搜索引擎更注重广告点击和展示，而非生成有用的答案。精明的网站所有者逆向工程搜索引擎的排名信号，导致“搜索引擎优化”产业兴起，充斥低质量内容农场。
内容并不总是王道。现代搜索引擎难以区分用户真正寻找的内容和仅仅讨论相关话题的内容。这种区别虽微妙，但对于向 AI 智能体提供最佳信息至关重要。例如，搜索“精通 Go 的软件工程师”理想情况下应返回这些工程师的个人网站或社交媒体资料，而不是讨论 Go 语言的页面。理想的搜索引擎应理解“实体”的概念，而非仅仅讨论一般主题内容。
AI 智能体与人类有不同需求：AI 的最佳搜索响应不一定与人类相同。AI 智能体不需要看到广告，而是需要结果。他们需要所有相关结果，以利用不断扩展的上下文窗口。如果有单独的搜索基础设施供 AI 智能体使用，这些都不会成为问题。不幸的是，人类和 AI 被迫使用相同的搜索结果。这是一种通用尺寸，但却是最差的选择。
这就是 Exa 的用武之地。Exa 是一个基于嵌入的搜索引擎，专为 AI 智能体打造。Exa 获取并索引网络最新内容，并通过独特的“链接预测”基础模型，通过搜索 API 向基于 LLM 的应用程序公开这些数据，这个模型专门调整用于理解搜索查询并从其索引中返回相关链接。重要的是，Exa 理解实体的概念——搜索“顶级开源 AI 模型”实际上会返回 Mistral、Llama 等模型的链接，而 Google 返回的是讨论开源 AI 的网站。
Exa 在大规模上解决了巨大的技术挑战。团队构建并调整了自己的网络爬虫基础设施，从整个网络中获取信息并纳入不断增长的索引。Exa 的爬虫获取数据，以识别互联网上的高质量内容。除了他们的自定义基础模型，Exa 还用 Rust 构建了独特的向量数据库，旨在以低延迟处理数十亿文档的大量查询。
Exa 的联合创始人 Will Bryk 和 Jeff Wang 是最佳搭档。他们从哈佛大学学习计算机科学时就是朋友和合作者，经常熬夜处理问题集和技术项目。Will 后来成为 Cresta 的早期工程师，以学习能力和创造性解决问题闻名。Jeff 在 Plaid 期间磨练了技能，以工程速度和找到新项目产品市场契合度闻名。
有了 Exa，互联网变得又新又有趣。Exa 让我们对旧互联网充满怀旧之情。AI 需要一次重启。我们很高兴与 Nvidia Ventures 和 Y Combinator 一起领导 Exa 的 1700 万美元 A 轮融资。
Exa 正在执行重新设计适用于 AI 的互联网的使命。