微信扫码
与创始人交个朋友
我要投稿
理想中的 AI 应该和爱因斯坦一样,每当你提出了一个棘手的问题,它可能会说,“我暂时不知道答案。”但一周后,它经过深入研究,带着全新的见解回来,让你惊叹不已。
如果我们能够实现这种深度的推理计算,随着算力的增加,得到的答案质量也会显著提升,这将是推理能力真正突破的起点。
谁是 Perplexity?对于经常关注 AI 圈的开发者来说,这个名字已经不再陌生。英伟达黄仁勋称它为“自己每天都在用的 AI 工具”,而这家公司也成为 AI 应用浪潮的第一先锋,在年初拿下了超 7000 万的融资。
此前,我们以《靠一个 AI 搜索框颠覆谷歌命脉的奇兵》为题,简单介绍过这款产品的前世今生。最近,知名播客主播、MIT 科学家莱克斯·弗里德曼(Lex Fridman)邀请到了 Perplexity 的 CEO 埃拉文德·斯里尼瓦斯(Aravind Srinivas)进行了一场三小时的采访,内容极长,横跨了几大话题:
AI 搜索(RAG 架构大解密);
谷歌往事(埃拉文德作为谷歌前科学家,亲历了 Transformer 前生今世);
名人点评(从马斯克、贝索斯、杨立昆、扎克伯格,聊到了科学家、作家、艺术家,甚至梅西和罗纳尔多两位运动员);
算力危机(AGI 究竟“值多少钱”?)
畅想未来(埃拉文德为 AI 描绘的图景非常具有想象力,这将是你从未见过的角度!)
埃拉文德·斯里尼瓦斯
Perplexity 的诞生,恰逢信息过载与个性化需求激增的交汇点。它不像传统搜索引擎那样被动等待指令,而是面对提问时迅速锁定核心,给出的答案不仅直接击中要害,还一一附带权威来源链接,确保每条信息可靠,每个知识点都有据可查。
此外,Perplexity 最独特的地方在于其创新的“相关问题”功能,每次答完问题就会用 AI 智能推荐一系列相关问题,引导你探索未知领域,层层深入学习,营造出一个持续进化、自我强化的知识探索旅程。
由于采访长达四万字,因此我们先以目录形式总结了接下来每个小标题下涵盖的内容以及亮点,尽可能优化您的阅读体验:
1. 开发 Perplexity,是因为在 Google 搜到了一堆广告
开门见山,埃拉文德将在第一段对话中介绍 Perplexity 的两大本质:答案引擎 & 知识发现引擎。由于埃拉文德有学术背景,所以他对待 Perplexity 的方式就像博导对学生一样,让搜索答案的每一句话都有准确的引用出处,这份“铁则”成就了这款应用,并从根本上区分了 Perplexity 和 Google。
2. 不会在谷歌的规则下玩游戏,而是“反其道而行之”
3. 引用《孙子兵法》,靠自己的长处击溃谷歌的广告帝国
4. 我们最大的敌人不是 Google
在接下来的三段内容里,埃拉文德开始聊起他的老东家 —— 谷歌。三段对话中会分别体现 Perplexity 对谷歌的态度、对谷歌的策略以及这家公司的“终极目标”。比起做一个“最强的竞品”,埃拉文德瞄准的其实是搜索引擎最本质的几大痛点,即人类问问题的方式。
5. 偶像大盘点:贝索斯、马斯克、黄仁勋、扎克伯格、杨立昆
这一段会涉及 AI 圈的许多名人,埃拉文德自称“汲取了他们每一位的优良品质”,在开启“大夸特夸”模式的同时展示了自己“狂”的一面。对话的重点在后面侧重于“人工智能三大教父”之一的杨立昆,而埃拉文德也是盛赞了开源模型以及 Llama 在这场 AI 革命中的重要贡献。
6. 深入前沿技术细节:Transformer 改变了历史
如果有人还不了解目前这波 AI 热的来龙去脉,我会非常建议他听埃拉文德讲述这段历史。埃拉文德曾经在谷歌实习时深度接触了“Transformer 八子”中的一人,他的这段回忆不仅细节拉满,还做了相当完整的脉络梳理:软注意力、Ilya、DeepMind、思维链……你想了解的都在里面。
7. 当 AI 的好奇心到达一定程度后,就可以迎来智能爆炸的时刻
8. 算力是通往 AGI 的钥匙,也是重大的责任
个人认为,这两段对话是整场采访的核心,也是当前关于人工智能最具想象力的一段对话。当 AI 学会了思考,拥有了人性,那么它所能做到的不会是我们以往在 90 年代科幻电影想象的那样,而是不顾人类,自行进展到更遥远的下一阶段。
9. Perplexity 的创业史:寻找一个比打败谷歌更有意义的使命
10. 我不在乎
11. 将推理能力与存储事实数据的能力分开考虑
接下来回到正题,埃拉文德将在这几段对话中回顾 Perplexity 的创业史以及 AI 搜索的技术细节。相比前文提到的上一篇采访,他这次透露了更多的信息,比如在推特上开小号爬虫、和投资人的谈话以及更多的搜索技术前沿。
当莱克斯问埃拉文德,是否希望 Perplexity 的自研模型成为主流,埃拉文德的回答却让莱克斯大跌眼镜:“我不在乎”。他始终以用户为本,而用户事实上并不关心哪家模型是主流,用户只关心这个产品能不能给出自己想要的答案。
12. 创业像是奇异博士在千万种可能性里找到一丝生机,而我热爱逆风翻盘的故事
无数 AI 初创公司,为什么只有 Perplexity 脱颖而出?埃拉文德在这一段对话中为所有的创业者提出建议,他是一位热爱逆风翻盘故事的人,他相信任何伟大的成就背后,都伴随着磨砺和全身心的投入。黄仁勋称之为“磨难”,而他更愿意视之为“承诺与执着”。
13. 未来的搜索会演变成知识的直接获取
14. 知识能带来爱、希望、和平与 AGI
最后两段分别描绘了埃拉文德和莱克斯二人对 AI 搜索与人工智能的未来预想。埃拉文德无疑是一位知识的“狂信徒”,他的一生都在做着知识相关的工作,而他也相信知识可以带来技术突破,消除人与人之间的隔阂,甚至满足自我。
开发 Perplexity,
不会在谷歌的规则下玩游戏,
引用《孙子兵法》
谷歌唯二的 Google Senior Fellow(11 级工程师),AI 领域黄金搭档
我们最大的敌人不是 Google
偶像大盘点:
贝索斯、马斯克、黄仁勋、扎克伯格、杨立昆
莱克斯:你说的是长远的宏观愿景,还是一些具体的小目标?
埃拉文德:即使只是确定接下来六个月的计划也行,比如“我们在做什么?为什么要这样做?我们的定位是什么?”如果明确知道自己的目标,开会才更有效率。比如说,在雇佣某人时,人事可能会说,“给的薪酬也太高了。我们真的应该给这个人这么多钱吗?”我会这么回答,“如果这个人来了并为我们做出卓越贡献,你就不会后悔给这么多。”如果不行,那就说明他不适合,我们会分道扬镳。
所以,其实没那么复杂。不要因为不确定就把所有精力都花在优化那几万美元的薪酬上。相反,应该把精力放在解决其他更重要的问题上。我觉得贝索斯的这种思维方式,体现了他清晰的思路和卓越的运营能力,对客户的执着追求。比方说,你知道 relentless.com 会跳转到 amazon.com 吗?你可以试试,这是真的。relentless.com 这个域名是贝索斯个人拥有的。而这显然是他最早给公司起的名字之一。
莱克斯:对,我记得这好像是早在 1994 年就注册的。真是惊人。
埃拉文德:每个成功的创始人都有一个共同点,那就是他们坚持不懈。所以我特别喜欢这种对用户的执着。YouTube 上有个视频,里面的内容是问贝索斯,“你是不是互联网公司?” 他回答,“互联网不互联网,其实不重要,重要的是客户。”
于是,当人们问我“你是在做套壳,还是在自研大模型?”时,我会模仿贝索斯,说我们两者都做。但这些概念问题并不重要,重要的是答案是否有效,搜索答案是否真的快速、准确、可读、美观,产品是否好用。如果你真的希望 AI 能广泛普及到每个人的父母都在用,那我认为这只有当人们甚至不在乎底层运行的是什么模型时才有可能发生。
此外,我还从埃隆·马斯克(Elon Musk)身上学到了坚韧。当所有人都说做某事太难的时候,马斯克会无视他们并坚持去做。我认为这非常难,需要极大的意志力。他是一个很好的榜样。
SpaceX 创始人埃隆·马斯克
而在特斯拉,马斯克却改变了策略,他不再依赖传统经销商,而是直接建立起与用户的联系。这条路充满挑战,可能难以迅速获得大规模市场,但他却奇迹般地成功了。这种坚韧不拔的精神,以及“任何工作都不卑微”的态度,我认为至关重要。据说在开发 Autopilot 时,他亲自参与数据处理,只为深入了解其运作机制。每一个细微之处都可能对制定正确的商业决策产生影响,而他在这方面做得非常出色。
莱克斯:当你深入了解每一个细节,你便能发现突破难关的方法,同时也能找到简化系统的方式。
埃拉文德:确实如此。
莱克斯:当你观察到大家正在做的事情时,自然而然就会思考其本质:我们为何采取这种方式?这其中是否存在多余的操作?比如标注工作,为何我们要用当前的方式进行?是不是因为用户界面设计不够高效?或者更进一步,我们是否真的需要人工标注?难道不能实现自我监督学习吗?持续追问“为什么”,质疑既定流程,我们是否有必要遵循旧有的模式?有没有可能采用更简洁的方法?
埃拉文德:确实,黄仁勋同样展现过这种特质,他对系统有着持续的热忱和深入细节的理解力。这种精神在这些行业领袖中普遍存在。黄仁勋以他独特的方式闻名,他说过自己从不 1v1 对谈,而是直接和 60 个高管开会,这样能够一次性掌握所有资讯,迅速连接各种信息点,效率极高。我觉得他敢于挑战常规智慧,探索不同的行事方法,这是极其关键的。
埃拉文德和亚马逊创始人贝索斯(右)的合影
他不断引领着下一个技术世代。比如即将推出的 B-100 芯片,在推理效率上据称将是 H-100 的 30 倍之多。试想一下,30 倍的提升绝非易事,即便实际性能提升没那么夸张,也足以证明其性能的卓越。当对手追赶上这一代产品时,他又将推出新的突破。创新的脚步从未停歇。
莱克斯:让人着迷的是,所有与黄仁勋共事的人都透露过,他不仅着眼于短期规划,他有着长达 10 年、20 年乃至 30 年的宏伟蓝图。他总是在远见卓识地布局未来。未来 30 多年里,如果人工智能的奇点到来,AGI 时代开启,人类社会发生根本性变革时,他或许还会穿着那件熟悉的皮夹克,宣布新一代运算技术,他的 GPU 将支撑起整个智能文明的运行。
埃拉文德:GPU 成为了智能的基石。
莱克斯:他们对于主导市场的态度好像异常低调?
埃拉文德:我有幸与黄仁勋本人交谈过一次,我问他是如何在取得成就后依旧不懈努力的。他回答:“我其实一直担心公司会垮掉。每天醒来我都会紧张不已,考虑哪里可能出差错。”在硬件领域,特别是考虑到芯片从设计到生产的周期长,往往需要提前数年布局,一旦架构设计出现失误,可能延误两代产品的更新周期,让竞争对手趁机超越。因此,那种紧迫感、对失败的警惕以及对细节的极致追求,是他身上不可或缺的品质,也是值得学习的典范。
莱克斯:是的,一旦有哪一代 GPU 出现了失误,后果不堪设想。硬件生产的每一个环节都让我敬畏,因为任何细小的错误都可能导致全局的失败,没有后悔药可吃。
埃拉文德:这也是初创企业在该领域难以竞争的原因之一。除了自身要足够优秀,还得面临已有的市场压力,并在摸索中不断试错。
莱克斯:还有哪些人物让你印象深刻?你已经提到了贝索斯、马斯克和黄仁勋。
埃拉文德:我想到了马克·扎克伯格(Mark Zuckerberg)那句著名的“快速行动,打破常规”,体现了他对速度的执着追求。
Meta(前 Facebook)创始人扎克伯格
莱克斯:对于他在开源领域的引领作用,你怎么看?
埃拉文德:令人惊叹。作为一家初创企业的成员,我对 Meta 和扎克伯格能放下身子做 Llama 深感庆幸。尽管他在社交媒体领域的某些做法备受争议,但他在 AI 领域将 Meta 置于前列,亲自推动开源项目,尤其是像 Llama-3-70B 这样并非随便打造,而是质量上乘(接近 GPT-4)的模型。从整体表现来看,可以说 Llama 已经达到了 GPT-4 的 90%。而且,Meta 尚未公开的 40 亿参数模型,有望超越现有的水平。即便效率稍低都没关系,因为这预示着一个充满可能性的未来,未来不再由两三家巨头垄断顶级 AI 模型,而是有更多玩家加入。因此,我认为他的成功不仅重要,还能激励和促进更多人的成功。
莱克斯:说到 Meta,我记得杨立昆(Yann LeCun)是 Perplexity 的资助人之一。他一生都很活跃,最近在 Twitter(现在的 X)上尤其……暴躁。
“AI 三大教父”之一的杨立昆
埃拉文德:我非常尊敬他。我觉得人们在 AI 寒冬时期没有给予他应有的尊重,但他仍然坚持到了今天。他不仅仅对卷积神经网络(ConvNets)、自监督学习(self-supervised learning)和能量基模型(Energy-Based Models,EBMs)等领域作出了贡献,还培养了一代新的科学家。
比如,现在 DeepMind 的 CTO 科雷·卡武库格鲁(Koray Kavukcuoglu),在 OpenAI 发明 DALL-E 和 Sora 的阿迪蒂亚·拉梅什(Aditya Ramesh)都是杨立昆的学生。还有很多其他在这个领域做出伟大工作的人也来自杨立昆的实验室,比如 OpenAI 的联合创始人沃伊切赫·扎伦巴(Wojciech Zaremba)。所以,他为下一代培养了很多人才,而这些人才已经做出了很多伟大的工作。
杨立昆在 2016 年就指出了一个观点。那时强化学习(Reinforcement Learning, RL)非常热门。每个人都想做强化学习,但这不是一个容易掌握的技能,你必须读马尔可夫决策过程,理解一些数学,还有贝尔曼方程、动态规划、策略梯度……总之涉及很多术语。当时的强化学习被每个人视为未来,会在接下来的几年中带我们走向 AGI。
而杨立昆在欧洲的一个顶级 AI 会议上说,“强化学习只是蛋糕上的点缀。如果人工智能是一块蛋糕,那么蛋糕的大部分是无监督学习,蛋糕上的糖霜是监督学习。”
莱克斯:他当时还称之为无监督学习,但后来出现了自监督学习。
埃拉文德:自监督学习成就了 ChatGPT。花费大量计算能力和预训练去预测下一个Token,这实际上就是自监督学习。
莱克斯:这很有趣。当时他对无监督学习有任何预感吗?
埃拉文德:我觉得那时他更关注能量基模型。你可以说 RLHF(基于反馈的强化学习)中有一些能量基模型的推理,但他的直觉基本是对的。
不过,他在押注生成对抗网络(Generative Adversarial Networks, GANs)这一步走错了,自回归模型和扩散模型最终成为了主流。但他批判强化学习,发表关于大部分计算应该用于从原始数据中学习的核心洞见是非常正确且具有争议性的。
莱克斯:而且他对此毫不道歉。
埃拉文德:他现在一直在说自回归模型可能是死胡同。
莱克斯:这也非常具有争议性。
埃拉文德:他的话在某种程度上有一定的道理 —— 他并不是说自回归模型会消失,而是说我们可以在另一层次上进行推理。不是在原始输入空间中,而是在压缩图像、文本、音频等所有感官模态的潜在空间中,应用某种连续梯度的推理。然后,你可以使用自回归或扩散方法将其解码为你想要的任何原始输入空间。我认为这也可能是很有力的。
JEPA 是基于杨立昆的世界模型和自主智能体设计的架构,旨在实现更通用的推理和规划。Meta 认为这是通向先进机器智能的关键一步。换言之,杨立昆在反驳自回归模型的同时,提出了 JEPA 作为更好的替代。
埃拉文德:是的,我也不认为 JEPA 是正解。但我认为他说的部分内容可能是对的,既“如果在更抽象的表示中进行推理,可能会更有效”。
莱克斯:杨立昆其实还推动了一个观点,“解决 AI 安全问题的办法是开源”,这也是一个有争议的观点。他真的认为开源不仅 是好的,而且在各方面都是好的,是唯一的前进方向。
埃拉文德:我同意这一点,因为如果某样东西是危险的,如果你真的认为它是危险的,难道你不希望更多的人来关注它吗?
莱克斯:正反两方面都有很多论据。那些害怕 AGI 的人,他们担心这是一种根本不同的技术,因为它可能会迅速变得强大。所以,如果有很多人关注它,其中一些人可能是恶意的,并迅速造成危害或试图利用这种力量大规模地伤害他人。但历史上充满了人们担心这种新技术与之前的任何技术根本不同的例子。
所以我倾向于信任那些最接近技术核心、构建系统的工程师的直觉。但这些工程师也常常看不到技术的整体影响。所以你必须听取双方的意见,但至少在目前来看,开源似乎是最佳的前进方向,因为它最大限度地提高了透明度,并且如你所说,吸引了最多的聪明人关注它。
埃拉文德:那我们可以更快地识别出系统可能被滥用的更多方式,并建立正确的防护措施。
莱克斯:确实,这是一个非常令人兴奋的技术问题,所有的极客都会喜欢探索这个问题,找出这个东西出错的方式以及如何防御它。但我觉得,并不是每个人都热衷于提高系统的能力。
埃拉文德:大家可以一起研究模型,看看模型能做什么,猜一猜它如何被滥用,并且预判它如何在尽管有防护措施的情况下进行越狱。但如果模型不是开源的,我们就不能预先发现所有这些问题,并建立正确的防护措施。开源之后,学术界的有些学者也可能会因为获得模型权重而取得突破,这也会使所有前沿模型受益。
深入前沿技术细节:
Transformer 改变了历史
莱克斯:作为亲身参与者之一* ,你对注意力机制(Attention)是怎么看的?它为什么能让 Transformer 引领这场智能爆发,它究竟有多重要?
* 2020 年,Srinivas 曾前往谷歌实习。认识到 Transformer 架构在搜索和自然语言理解方面的巨大潜力后,他在谷歌主动接触了“Transformer 八子” Ashish Vaswani,意图共同探索和发展这一前沿技术。(详见我们先前整理的文章链接)
埃拉文德:约书亚·本基奥(Yoshua Bengio。人工智能三教父之一)和他实验室的研究生德米特里·巴赫丹诺夫(Dzmitry Bahdanau)在《Align and Translate》的论文中,首次正式提出了联合学习对齐与翻译的神经机器翻译模型,并实际应用了软注意力(Soft Attention)机制。
再是伊利亚·苏茨克韦尔(Ilya Sutskever。OpenAI 前首席科学家)发表了首篇论文,文中表明我们可以只训练一个简单的递归神经网络(RNN)模型,将其规模扩大,并击败所有基于短语的机器翻译系统。但伊利亚当时提出的只能算是一种“蛮力”,不涉及注意力机制,还花费了大量的算力 —— 我估计在那个时间节点,谷歌有一个 40B 的模型。
之后,德米特里·巴赫丹诺夫发现了注意力机制,并通过较少的计算量超越了原有成果,所以这是个伟大的发现。
接着,DeepMind 的研究人员通过《Pixel RNNs》这篇论文揭示,指出这个过程甚至不需要递归神经网络。但我认为,真正流行起来的架构是他们随后提出的 WaveNet。他们发现,只要运用掩码技术进行卷积,一个完全卷积的模型也能实现自回归建模。掩码的概念是关键所在,这使得模型能够并行训练,无需通过时间进行反向传播,而是对每个输入的 token 并行反向传播,从而更高效地利用 GPU 计算资源,因为实质上这些操作都是矩阵乘法。因此,他们认为可以摒弃 RNN,这是一个强有力的转变。
终于到了 2017 年,Google Brain 的阿希什·瓦萨瓦尼(Ashish Vaswani)等人在 Transformer 论文中指出,鱼和熊掌可以兼得。他们认识到注意力机制相较于卷积在捕捉复杂依赖关系方面更为强大,因为它通过更深层次的乘法运算实现了这一点。然后他们还借鉴 WaveNet 的并行处理思路,让 Transformer 通过完全并行的矩阵乘法操作,结合注意力机制,构建出了这一近乎终极形态的模型架构。
而自 2017 年以来,尽管有诸如非线性变换和方差缩放等细微的调整,以及后来的专家混合(Mixture of Experts, MOE)等技术引入以在保持计算成本的同时增加模型容量,但核心的 Transformer 架构没有改变。
莱克斯:这是不是挺神奇的,就靠这么一个简单的掩码技巧,效果居然能如此出色?
埃拉文德:确实,这个发现非常精明 —— 想要模型学会因果逻辑,同时又避免硬件和算力的浪费,不希望一直进行串行的反向传播。目标是训练时实现最大程度的并行计算,这样一来,以前需要运行一周的任务,现在一天就能搞定。我觉得,这是最核心的洞察。
至于是使用卷积还是注意力机制,我觉得注意力和 Transformer 模型似乎比卷积更能高效利用硬件,因为它们在每次浮点运算上倾注了更多计算力。在 Transformer 中,自注意力机制无需参数,QK 转置、softmax 后再乘以 V 的过程尽管不含参数,但却执行了大量的计算,这就是其强大之处,它能够学习到多层次的依赖关系。
OpenAI 从中学到的关键一点是(正如伊利亚所强调的),无监督学习至关重要。他们发表了一篇名为《Unsupervised Sentiment Neuron》的文章,随后合作推出了 GPT 的初代作品 —— 不叫 GPT-1,仅仅叫做 GPT,当时谁能想到它日后会发展得如此庞大。
相关文章:https://openai.com/index/unsupervised-sentiment-neuron/
他们重启了一个观点:通过训练一个巨型的语言模型,它能自我学习自然语言的基本逻辑,这在之前因为递归神经网络的扩展限制而难以实现规模增长,但现在有了效率提升百倍的 Transformer 模型,情况就不一样了。这意味着,同样的计算任务,如果采用这种方式,你会得到远超预期的结果。于是,他们在各种书籍,比如故事书、儿童读物上运用 Transformer 进行了训练,效果显著提升。接着,Google 在内部借鉴了这一思路,开发出了 BERT,不过他们采取了双向处理方式,并在维基百科和图书资料上进行训练,效果更上一层楼。
OpenAI 继续跟进,认为数据量和模型参数是关键。于是,GPT-2 诞生了,这是一个拥有十亿级别参数的模型,并在 Reddit 上的大量链接上进行了训练,结果令人惊叹,你可能还记得,它能自动生成各种关于独角兽的奇妙故事。
莱克斯:当然记得。
埃拉文德:然后,GPT-3 横空出世,进一步扩充了数据规模。利用公共网络爬虫获取的数据,参数量从 10 亿猛增到 1750 亿,这背后是所谓的「Scaling Law」,意味着随着模型增大,所需训练的标注数量也需要相应增加。OpenAI 当时基于 3000 亿个标注数据进行了训练,现在看来这个数字已经不算什么了,因为现代模型的训练数据量级已达到数万亿标记和数万亿参数。这就是发展的轨迹。
此后,研究重点逐渐转移到架构之外的因素,比如用什么数据训练、标记是否充分去重,以及内部机制的优化,如 Chinchilla 项目。不仅是单纯增大模型规模,还要扩大数据集,保证标记既多又优质,并在多种推理测试标准上做好评估。因此,真正的突破不单在于注意力机制本身,而是并行计算、Transformer 架构、无监督预训练的规模化实践、精确的数据选择,以及持续不断的性能调优共同作用的结果。
莱克斯:你刚才讲述了关于大模型及其在过去十多年中突破的史诗故事。那你觉得 RLHF(基于人类反馈的强化学习)有多重要?
埃拉文德:非常重要,如果进行 RLHF,系统就很难变得可控和行为良好。这里我需要引用两个术语 —— “预训练”(pre-trained)和“后训练”(post-trained)。RLHF 和监督微调都属于后训练阶段,而预训练阶段则是计算的扩展。如果没有好的后训练,就不会有好的产品;但如果没有好的预训练,也没有足够的常识来支持后训练。
你只能教一个普遍聪明的人很多技能,这就是预训练的重要性 —— 这也是为什么要让模型变得更大。同样的 RLHF 在更大的模型上,比如 GPT-4,会让 ChatGPT 比 3.5 更好。比如,在编码查询中,确保答案格式使用 Markdown 和语法高亮工具,并知道何时使用哪些工具。这些都是在后训练阶段完成的。这些方法让你能够构建用户可以交互的产品,收集更多数据,形成飞轮效应,分析失败的案例,收集更多的人类注释。所以我认为在后训练方面会有更多突破。
此外,还有 RAG 架构。我们在预训练中花了大量计算来获取常识,但这似乎是蛮力且低效的,所以你需要的是一个像开放书本考试一样学习的系统。如果在大学或研究生考试中允许带笔记进考场,与不允许带笔记相比,我认为这两种情况下得第一名的不会是同一批人。
《新程序员 007:大模型时代的开发者》中收录的《超越向量检索!混合检索 + 重排序改善 RAG 应用》一文很好解释了 RAG 架构,这也是 Perplexity 的核心技术,会在后文反复提到。
莱克斯:预训练就像是考试不允许带笔记?
埃拉文德:有点像。模型记住了一切,但为什么需要记住每一个事实才能擅长推理呢?看似投入更多计算和数据,模型在推理上会变得更好,那有没有办法将推理与事实分开?这里面有一些有趣的研究方向,比如微软在研究小模型(SLM),只训练那些对推理重要的 Tokens,并从 GPT-4 中提炼智能,看看只用这些 Tokens 训练会怎样。所以,你将不需要训练所有的互联网页面,只训练基本的常识。但很难知道哪些 Tokens 是需要的,也不清楚是否有一个详尽的集合。
但如果我们能找到一个合适的数据集组合,为小模型提供良好的推理能力,那将是一个突破,因为不再需要巨大的训练集群。如果这个小模型具有良好的常识,可以自我引导推理,不一定会得出一个答案,而是思考一段时间,自我引导。我认为这将带来真正的变革。
莱克斯:问题真不少啊。我们能构建那样的小模型系统吗?能否借助大模型筛选出有助于推理的数据部分?
埃拉文德:当然可以。这类设计思路正值得深入探索,这也是我强调开源重要性的原因,它为我们提供了一个优良的基础模型起点,便于我们在后训练阶段尝试多种实验,从而针对性地改进模型的推理能力。
莱克斯:你最近在社交媒体上分享了一篇论文,《STaR: Bootstrapping Reasoning With Reasoning》,里面提到了“思维链”(chain-of-thought)这一概念及其研究方向,它的实际价值如何?你为什么要分享它?
埃拉文德:“思维链”其实很简单,就是改变以往仅凭提示和回答训练的模式,让模型先产生一段解释,再给出答案。这就像解题前的思考步骤,一步步推导出最终结论。通过这样的推理流程,模型不易陷入对无关信息的过拟合,也能在遇到新问题时,即便未经训练也能尝试通过推理解决。
莱克斯:看来,引导模型进行这种“思维链”活动,可以显著提升自然语言处理任务的效果。
埃拉文德:虽然初看有些奇异,但这其实就像逐步分析问题一样。
莱克斯:这确实让人感到意外,你不觉得吗?
埃拉文德:我不觉得。这类技巧能显著提升小模型的表现,而大模型或许因具备更好的指令理解和常识,对此类技巧依赖度相对较低。不过,关键在于,总有模型难以应对的场景。如何改善?答案是培养模型自身的推理能力。并非模型缺乏智慧,而是我们往往需要通过自然语言沟通来挖掘它们的潜力。它们蕴含的智慧被数万亿参数所压缩,而我们发掘这些智慧的唯一途径,就是通过自然语言与之互动。
莱克斯:加快这一进程的一个策略是,让模型自我反馈其推理过程。
埃拉文德:是的。那篇《STaR》论文的核心思想是,针对特定的提示和输出,构建包含解释的数据集,然后基于此训练模型。当模型无法直接给出正确答案时,我们不仅要求它提供正确答案,还要求它给出为何如此的答案解释。无论结果如何,我们都将提示、解释和输出作为一个整体进行训练。这样,即便最初未能找到正确答案,但有了正确答案的提示后,模型就能学会反向推理,理解如何得到正确答案。从数学角度看,这与基于潜在变量的变分下界相关联。
我认为,将自然语言解释作为潜在信息来优化模型,使之成为自我提升的推理者,这一想法十分新颖。想象不断积累新的数据集,集中那些模型尚不擅长解答的问题,通过训练提升其能力,然后挑战更高难度的数据,持续迭代。若能以量化指标追踪这一过程,模型的性能可能会从某一数学基准测试的 30% 提升至 75% 甚至 80%。因此,这种方法潜力巨大。而且,它不仅仅局限于提升数学或编程能力,如果这些能力的增强能转化为更广泛的推理技能,进而助力我们构建基于这些模型的智能体(Agent),那将开启一片全新的天地 —— 尽管目前尚未有实证表明这将成为现实。
莱克斯:智能体领域的应用尚未明朗。
埃拉文德:是的,但这是一个合理的假设 —— 一个在数学和逻辑推理上表现出色的模型,更可能在构建智能体时应对各种复杂情况。
当 AI 的好奇心到达一定程度后
就可以迎来智能爆炸的时刻
莱克斯:这种研究似乎在某种程度上借鉴了自我博弈的思路。你想象过这样的场景吗?后训练阶段触发智能的迅猛爆发—— AI 彼此交流、相互学习。至少在我看来,这种研究似乎正朝着这个方向推进。
埃拉文德:除非能从数学证明其不可能,否则我们无法断言。当然,我们可以提出一些简单的质疑:新的反馈信号从哪里来?如何给 AI 凭空创造出新的信息输入?
莱克斯:确实需要人的介入来提供标注信息。
埃拉文德:在自我对弈的围棋或国际象棋中,胜负结果就是一种反馈信号,AI 可以根据游戏规则来判断输赢。而对于数学题解、编程验证,我们能依靠传统的校验手段来判断对错。但在更开放的任务,比如预测下个季度的股市走向,什么才是“正确”呢?也许可以使用历史数据 —— 比如我只给大模型股市第一季度的数据,看看模型是否能很好地预测第二季度,并基于此信号进行训练。之后,还需整合一系列这样的任务,构建一个强化学习环境。或者让 AI 像操作浏览器那样完成任务,并置于一个安全的测试空间内,任务完成与否由人类来评判。
莱克斯:所以 AI 的反馈还是源自人类。但我觉得关键在于,AI 所需的这种反馈量与所获得的智能增长相比将大大减少,这意味着 AI 只需偶尔与人互动就行。
埃拉文德:自举,互动和改进。也许当递归自我改进被破解时,智能爆炸就会发生。那时,我们会发现同样的运算逻辑在循环应用中不断催生更高的智能水平。到了那个节点,也许你会想,不如购置一百万台 GPU,全力推进这项技术的规模化。而这一切实现之后,人类依然扮演着按“同意”或“拒绝”按钮的角色,这无疑是一场引人入胜的实验。不过,目前无论是公开还是隐秘的前沿实验室,我们还没有见过这类事情发生。到目前为止,我们离这一步还很远。
莱克斯:我感觉并不遥远。目前一切技术都已经就绪,现在有很多人每天都在使用 AI 系统。
埃拉文德:设想一下,你未来和 AI 对话的时候,可能会像与爱因斯坦或费曼在进行对话一样:每当你提出了一个棘手的问题,AI 可能会说,“我暂时不知道答案。”但一周后,它经过深入研究,带着全新的见解回来,让你惊叹不已。如果我们能够实现这种深度的推理计算,随着算力的增加,我们得到的答案质量也会显著提升,这将是推理能力真正突破的起点。
莱克斯:你认为 AI 本质上具备这样的推理潜能吗?
埃拉文德:虽然我们尚未解开这个谜团,但可能性是存在的。人类之所以独一无二,很大程度上是因为我们的好奇心,所以即使 AI 破解了(强化学习),它仍然会像我们要求的一样,积极地去探索某件事。而 AI 尚且未能掌握的一项技能,便是自发地产生好奇心,提出有创意的问题,深入探索世界的奥秘。
莱克斯:说得好,AI 公司的使命之一正是迎合人类的好奇心。这不禁引出一个核心问题:好奇心的源头是什么?
埃拉文德:这个问题仍未被充分理解。我认为,这也是人类的独特之处。爱、生活中的自然美以及好奇心,构成了我们的特殊性。在 AI 研究中,确实有人尝试探索这种好奇心驱动的探索模式。伯克利的阿廖沙·埃夫罗斯(Alyosha Efros)教授就曾发表论文,探讨在没有奖励机制的情况下,AI 代理如何仅凭预测误差进行探索,甚至能通过好奇心独自完成《超级马里奥》的游戏关卡。但这只是游戏里的情况,还没真正接近人类的那种全面的好奇心。
因此,即便我们进入了所谓的 AGI 时代,与费曼级别的 AI 科学家进行对话成为可能,我依然看不出有任何迹象表明我们能够复制费曼那种对世界广泛而深刻的好奇心。我们或许能模仿他深入研究问题并给出非同寻常答案的能力,但费曼那份对世界天然的好奇,对正确问题的敏锐感知和追求,我们能否在 AI 身上复刻呢?至少目前,我仍持保留态度。
算力是通往 AGI 的钥匙,
也是重大的责任
莱克斯:目前 Perplexity 的模式是,每当你提出一个问题,得到答案,然后继续下一个相关问题,形成一整个问题链。这种连续提问的过程,似乎可以被 AI 持续执行。
埃拉文德:事实上你甚至不需要按照我们建议的方式提问,而是自由地提出任何问题。如果 AI 能够自主探索世界,提出并解答自己的问题,那就好比一个全功能的 GPU 服务器,人类在这个过程中只需下达任务,比如:去研究药物设计,利用 AlphaFold-3 开发一种能治愈癌症的药物,一旦有所发现就回来报告。作为代价,我猜可能需要支付 1000 万美元。
设想一下,如果 AI 针对每个问题的答案都是一种全新的解决方案,那么这个答案的价值是多少?我觉得那将是革命性的。因此,我认为我们不必过于担心 AI 会失控并接管世界,问题更多在于算力的获取,而非模型权重。这会导致世界上的权力更加集中在少数人手中,因为并非所有人都能负担得起足够的算力来解决最复杂的问题。
莱克斯:所以,关键在于谁控制了这些算力?
埃拉文德:确实如此。或者说,谁能负担得起这些资源?因为控制算力可能仅仅是云服务提供商,但谁能启动这样的任务:进行研究,然后带回一个卓越的答案。
莱克斯:在你看来,目前通往 AGI 的限制更多在于算力而非推理计算?
埃拉文德:是的。一旦你解决了这种迭代计算的问题,那预训练或后训练就不再重要了。
莱克斯:这看起来更像是先天和后天的问题。一旦你解决了 AI 的“先天能力”,即预训练,剩下的就是培育 AI 系统的“后天能力”—— 既快速迭代的思考过程,这需要大量的算力,我们称之为推理。
埃拉文德:这就是所谓的流体智力(Fluid Intelligence,意指以生理为基础的认知能力),AI 可以利用现有的知识、研究论文和世界事实,验证并提出正确的问题,形成问题链,并持续进行。
我们甚至不用讨论那些在一小时后返回结果的系统,只需想象一下:如果一个系统能在接受问题之后,花一周或一个月研究并给你答案。假设你在 2016 年,你向 AGI 提出一个请求(假如当时已经有 AGI 了):“我想提高效率,用同样的算力得到一个性能提升 100 倍的模型。”
如果 AI 最终给出的答案是 Transformer,而不是像真正的历史那样由 Google Brain 的研究人员发现,那么这个答案的价值是多少?从技术角度看,我认为这个答案价值一万亿。那你愿意为这样的答案支付至少 1 亿美元吗?答案是肯定的。但有多少人能负担得起这样的成本?非常少,只有一些高净值个人和资本雄厚的公司能付得起。
莱克斯:如果情况发展到那一步,可能会由国家控制 AI。
埃拉文德:国家 —— 这就是我们需要明确的地方。AI 监管不应该仅仅关注技术,这就是为什么我认为关于权重危险性的讨论是有缺陷的,因为更重要的是谁有权掌控这些资源。
莱克斯:还是让我们转向一个轻松的问题。你如何看待这些技术的发展时间?如果要你预测这些重大突破何时会出现,你是认为未来将是一连串的小进步,还是有一场真正的革命性转变?
埃拉文德:我不觉得会有某个单一的关键事件。至少我目前感受不到。或许我会是错的,毕竟没人能知道确切答案。但这似乎取决于如何巧妙地利用迭代计算上的几个突破。显然,你投入越多的计算资源去求解一个问题,就越能得到更优质的答案。但我还没看到类似这样的情况:拿到一个答案,你甚至不确定它是否正确,却能凭借某种算法上的真理性、逻辑推理去判断。
比如说,当你询问有关新冠疫情起源的问题 —— 这是一个极具争议的话题,证据指向不一。高智能的一个标志,就是能揭示当今专家都未能告知我们的东西,因为专家自己也不清楚。
莱克斯:所以这是关于一种对真实性或可信度的评估吗?
埃拉文德:问题在,AI 能否真正创造新知?且创造新知识需要怎样的条件,才能达到与学术界发表过影响力巨大论文的博士生相当的水平?
莱克斯:这涉及几个层面,一个是影响力,另一个是真实性。
埃拉文德:我指的是那些我们未知的、真正的事实,理想中的 AI 应该能自圆其说,并帮助我们理解为何这些事实成立。如果能在一些困扰我们的难题上见到这种迹象,哪怕只是一些。我并不是说它需要去解决克莱数学难题这样的事,而是更偏向于现实中尚未充分理解的实际问题,如果它能给出更为准确的认知。
就像马斯克曾提到的:我们能否创造出像伽利略或哥白尼那样的 AI,它会质疑我们现有的认知,提出新的观点,即便初期可能遭到反对和误解,但最终被证明是正确的?
莱克斯:基于这一点,我觉得特别是在物理学领域,如果 AI 能够基于此建造一台实现核聚变的机器,从而挑战我们对物理的既有理解,推动人类制造出能产生大量能源的装置,甚至我们能够设计并验证:“哇,不仅仅是理论,这个 AI 还能证明定理。”
尽管人类有时会经历思想上的震撼,但往往也会很快就习惯并视为理所当然。对于 AI 系统而言,这可能会削弱其影响力和价值。
埃拉文德:人类已经发明了一些精妙的算法,比如你熟悉的快速傅里叶变换、离散余弦变换,它们既实用又简洁,核心理念令人赞叹。
莱克斯:我好奇是否真的存在“史上最伟大的十种算法”这样的排名,快速傅里叶变换肯定在列,还有快速排序算法。
埃拉文德:这正好可以让我们回到当前讨论的话题,比如 PageRank 算法。我感觉这些是 AI 尚未达到的境界,像是真理的一种体现。
想象一下,假如你穿越回过去成为谷歌研究员,当时出现一个 AI 对你提出了 PageRank 算法,并说:“嘿,你不能只关注文本模式,还要考虑链接结构。”
莱克斯:我在想,如果真有台机器这么告诉我,我会不会当回事。
埃拉文德:你可能不会,但这也无妨,至少它会让你思考自己从未考虑过的问题。你会想:“好,我为何要这样做?这能带来什么改变?”然后它会进一步说明:“别急,听我说。如果你只看文本模式,很容易被那些试图操纵你的网站迷惑,但通过 PageRank 算法,有了权威评分,情况就不一样了。”
莱克斯:让用户体验到深度思考的价值,这是一个很酷的优化目标。
埃拉文德:是的。但这种价值难以量化,因为我们无法确切感受。从当前交流的层面来看,我们最好在首次发现类似迹象时来决定时间线。不必期待 AI 立即达到 PageRank 或快速傅里叶变换那种级别的影响。哪怕 AI 只是达到学术实验室中博士生的工作水平,而非最顶尖的博士生或科学家,就已经足够让我们更准确地预测时间线 —— 如今的 AI 系统似乎还远未达到这样的水平。
莱克斯:这是我闻所未闻的理念。
埃拉文德:或者说,AI 可以有助于人类对现有问题的深刻理解,比如比今天更深入地理解新冠疫情的起源,让问题超越争论、观念和辩论,直达真相。
莱克斯:这确实是个有意思的点,因为人类往往因意见分歧而形成不同阵营,使得问题变得复杂。
埃拉文德:可为什么会这样?正是因为我们还未掌握真相,这才是症结所在。
莱克斯:我明白。但问题在于,一旦 AI 揭示了某个领域的深刻真相,人们往往会迅速将其贴上政治标签。
埃拉文德:确实,这样的反应在所难免。但我设想的是那种能经受时间考验的发现。也许这仅适用于特定问题,比如如何利用 AI 攻克帕金森病,或是某种物质与另一现象是否确有关联,又或者是药物 Ozempic(一种网红减肥药)是否存在副作用。在这些问题上,我更希望 AI 能提供比顶级医生更深刻的见解。然而至今,这似乎还没成为现实。
莱克斯:当 AI 能公开展现对某个真理或新发现的独特视角时,那将是一个激动人心的时刻。
埃拉文德:没错。比如马斯克致力于火星探索,在猎鹰火箭和星舰上都做出革新设计。试想如果 AI 在 SpaceX 初创时就能告诉他:“Elon,尽管你会在猎鹰火箭上倾尽全力,但为了更大载荷,你必须重新设计,而这才是前进的方向。”这样的建议无疑价值连城。
目前还我们难以预估什么时候能实现这一幕,但能肯定的是,这一天终将来临。设计这种 AI 系统的可能性并未被自然法则排除。一旦实现,它将带来震撼性的影响。
莱克斯:确实。像马斯克或伊利亚这样的顶尖智者,在讨论任何话题时,都能体现出深邃的思考能力。假如有 AI 能像伊利亚·苏茨克韦尔或是安德烈·卡帕西那样思考,会怎么样?
埃拉文德:如果真的存在一个 AI 版伊利亚或 AI 版安德烈,且不是拙劣模仿,而是能通过简短的交流彻底转变你对当前问题的看法,那将是无价之宝。重要的是,它们可以相互交流。这很酷,就像是自我对抗的概念。但还有一种可能性,就是重复的 AI 变成了一种“共鸣室”,它们会不停重复同样的论调,变得枯燥无味。
莱克斯:但如果真的有 AI 版的安德烈,我猜会出现不同的个体,对吧?
埃拉文德:还是需要引入某种随机因素。因为即使基础智能水平相同,它们也会因不同的世界观而异。这样,就会有新信息产生的动力。它们都追求真相,但由于基本原理上的不确定性,它们会从不同角度出发,可能各自发现新的真相。但如何在不预先设定这些多样性的前提下实现这一切,目前还不明朗。
莱克斯:因此,关键是要让 AI 的探索欲不被人为设定的框架所局限。
埃拉文德:正是这样。这也是为什么目前自我对抗的构想面临着规模化的难题。
Perplexity 的创业史:
寻找一个比打败谷歌更有意义的使命
莱克斯:我们聊了很多题外话,现在回到正题 —— Perplexity 的创业史。
埃拉文德:当时,我和联合创始人们聚在一起,满脑子只想着用大语言模型打造一些很酷的产品。当时我们甚至还不清楚 AI 的价值究竟在模型中还是在产品中,但有一点是明确的 —— 这些生成式 AI 模型,从实验室里的研究项目变成了实际的面向用户的应用。
就像 GitHub Copilot,当时已经被广泛使用 —— 我自己在用,我周围很多人在用,甚至连 Andrej Karpathy 也在用,而且人们还愿意为此付费。这是一个前所未有的时刻,AI 公司不再仅仅是不断收集大量数据,而是让 AI 本身成了核心。
莱克斯:所以 GitHub Copilot 其实给了你最初的灵感。
埃拉文德:是的,你可以称它为一种高级的自动代码补全功能,但 Copilot 会在更深层次的地方起作用。而我希望我的公司具备的一个属性是,它必须是 AI-complete(AI 完备)的。
这是我从拉里·佩奇身上学到的道理:找出一个问题,在解决它的过程中从 AI 的进步中受益,让产品变得更好。产品变好之后,会有更多人使用它,并有助于你创建更多的数据,使 AI 变得更好 —— 并让产品变得更好。如此一来,就形成了飞轮效应。
大多数公司都还在努力寻找可以使用 AI 的地方,并不具备所谓的 AI 完备性。而我认为有两个产品真正做到了这一点。一个是 Google 搜索,目前任何 AI 方面的改进,比如语义理解、自然语言处理都会改进这款产品,更多的数据会使嵌入效果变得更好。另一个是自动驾驶汽车,更多的司机会提供更多的数据,使得模型变得更好,汽车视觉系统变得更好,行为克隆变得更好。
莱克斯:任何在明确进行数据收集的产品,都符合你的说法。
埃拉文德:我一直希望我的创业公司也具备这种性质,但它并非直接针对消费者搜索。我们最初的构想是研究搜索领域,我向第一个决定投资我们的投资者埃拉德·吉尔(Elad Gil)提出的初步想法是:“我们渴望颠覆谷歌,但具体该怎么做我还未明确。不过我一直在思考,如果人们不再在搜索框里打字,而是通过眼镜来询问他们看到的一切,会是怎样的场景?”我一直对 Google 眼镜的概念感兴趣。它真的很酷。
吉尔告诉我,“你得集中精力,因为没有大量资金和人力,你不可能实现这个梦想。现在,你应该先找到一个切入点,创造出一些东西,然后再逐步实现你的宏伟蓝图。”不得不说,这真是明智的建议。
于是我们决定,“如果颠覆传统,为那些以往无法搜索的信息创造出搜索体验,会怎样呢?比如说,以前我们无法直接搜索表格,但现在可以利用模型来解析问题,将其转换为 SQL(结构化查询语言)查询语句,然后在数据库中执行。同时,持续抓取数据确保数据库的实时性,执行查询,提取相关记录,最终呈现答案。”
莱克斯:那为什么我们以前无法直接搜索表格?
埃拉文德:因为有些问题本身就是没法问的。比如,你和马斯克的共同关注有哪些?
莱克斯:这个问题涉及到了 Twitter 背后的关系数据库吗?
埃拉文德:没错。以前你无法提出这样的问题,因为你需要一个 AI 智能体从语义层面去理解这个问题,将其转化为 SQL,对数据库执行查询,提取记录并呈现结果。
但随着 GitHub Copilot 等技术的进步,这一切突然成为可能。我们有了擅长代码的语言模型。于是可以决定深入研究,再次搜索,抓取大量数据,将其放入表格中并提出问题,再通过生成 SQL 查询。我们选择 SQL 的原因是觉得它的输出熵较低,且具有模板化的特点,比如一系列固定的 SELECT 语句、COUNT 等操作。这样就不会像通用 Python 代码搞出那么多的熵。
不过,这种想法后来被证明是错误的。
莱克斯:有意思,这套方案最后运行得如何?
埃拉文德:首先请记住,这个想法的提出是在 2022 年,甚至在 GPT-3.5 Turbo 版本之前。Codex 并不是通用的,它们仅仅在 GitHub 和一些国家语言上进行过训练。因此,这几乎就像是你在内存非常有限的计算机上编程一样。会遇到大量的硬编码。
我和我的联合创始人会自己编写大量针对这种查询的模板,我们自学了 SQL,然后一条又一条地编写。这也是我们最终选择构建一个通用问答机器人的原因,因为我们自己对 SQL 就不太了解。
然后我们会进行 RAG。对于给定的查询,我们会拉出看起来相似的模板查询,系统会看到这一点,构建一个动态的少样本提示,并为查询编写新的 SQL 语句,在数据库中执行它。仍然有很多事情会出错。有时 SQL 会出错,所以还需要捕获错误,让系统进行重试。
接下来,我们将这套东西全部集成到了 Twitter 上。我们先是用学术账户抓取了 Twitter 的数据 —— 这发生在马斯克接管 Twitter 之前。那时,Twitter 允许学者创建学术用的 API 账户,所以我们弄了一堆小号,再用 GPT 撰写研究提案。我通常会把自己的项目命名为 VindRank 之类的(致敬 PageRank),并收集大量的推文。由于 Twitter 本身相当于一个巨大的社交图谱,且主要价值全集中在少数人身上,所以我们的主要目标就是那些有趣的人物。
我们构建了一个 Demo(演示),可以在上面提出各种各样的问题,比如“关于 AI 的推文有哪些”。我们向许多人展示了这个演示,如杨立昆、杰夫·迪恩、安德烈。他们都喜欢它。因为人们喜欢搜索有关自己的信息,关于他们感兴趣的人。这是人类基本的好奇心,对吧?而这最终帮助我们招募到了优秀的人才,因为起初没有人认真对待我和我的联合创始人。但是因为我们得到了这些大人物的支持,所以才至少有人开始愿意听一听招聘演讲。
莱克斯:从这件事里面,你领悟了哪些智慧?
埃拉文德:展示一些前所未有的事物是非常有意义的,展示实用的东西更是如此。我认为每个人都对世界上正在发生的事情感到好奇,对社会的有趣关系和社会图谱感到好奇。每个人对自己都有好奇心。
我与迈克·克雷格(Mike Krieger)交谈过,他是 Instagram 的创始人。他告诉我,尽管你只需点击 Instagram 上的个人资料图标即可访问自己的个人资料,但绝大多数人更喜欢在 Instagram 上直接搜索自己的 ID。
莱克斯:有趣。
埃拉文德:所以,Perplexity 的第一个版本之所以能迅速走红,是因为人们可以在 Perplexity 搜索栏中输入自己的社交媒体账号。我们当时分别发布了一周的 Twitter 搜索和常规 Perplexity 搜索 —— 显然,我们无法索引整个 Twitter,因为我们是以一种非常笨拙的方式抓取的。因此,我们实施了一个回退链接,如果你的 Twitter 账号不在我们的 Twitter 索引中,它将转而使用我们的常规搜索,提取你的一些推文,并给你一个社交媒体个人资料的摘要。
由于 Perplexity 那时会稍微产生幻觉,所以人们要么被吓到,说:“哦,这个 AI 居然知道这么多关于我的事!”要么他们会说:“噢,看看这个 AI 把我说成什么样了。”
然后,他们会在社交媒体上分享搜索结果的截图,且他们的亲友会问:“这是什么 AI?”“哦,这是一个叫 Perplexity 的东西。你要做的是去输入你的账号,然后得到搜索结果。”于是,越来越多的人开始在 Discord 论坛等地方分享 Perplexity 用户界面的截图,这就是我们最初的增长动力。
我们也知道,这种“爆火”只是偶然的,但这至少给了我们信心,即提取链接和总结信息是有价值的。所以我们决定专注于这一点。此外,我们还发现这个 Twitter 搜索功能没什么继续发展下去的价值,因为马斯克当时正在接管 Twitter,并且他非常明确地表示将大幅限制 API 访问。总而言之,我们成功认识到专注于常规搜索更有意义。
莱克斯:你们最终决定进军网络搜索领域,但这是个大工程啊。你们最初是怎么考虑的?做网络搜索需要些什么?
埃拉文德:其实我们当时的想法很简单,就是发布这个产品试试看。我们觉得没什么可损失的,毕竟这是一种全新的尝试。人们应该会喜欢它,也许还会有企业联系我们,希望我们为他们的内部数据提供类似的解决方案,我们或许可以利用这个机会开展业务……这就是当初的全部预期。很多时候,一家公司最终的成就都是偶然的结果,并非一开始就设定的目标。
所以我们发布了产品,但没预料到真的有很多人开始使用它。我本以为这只是一时的热潮,使用量会随着时间逐渐减少。但实际上,即使在圣诞假期,人们也在使用我们的服务。这让我意识到我们可能真的触及到了用户的某个需求点。一开始我们的产品并不支持对话式交互,只能进行单一的查询。后来我们在新年推出了支持对话和建议问题的版本,用户量便开始迅速增长。
更令我们惊喜的是,很多用户还会点击相关的问题链接。这促使我们形成了新的愿景。大家都在问:“Perplexity 公司的愿景是什么?”我对此原本并没有具体的想法,只是想探索有趣的搜索产品。但在与合伙人的讨论中,我们形成了新的使命:“我们不仅仅是在做搜索或回答问题,我们是在传递知识。帮助人们发现新事物,引导他们探索,而不只是给出答案。”因此,我们宣称要成为世界上最注重知识的公司。这个愿景其实是受到了亚马逊的启发,他们曾说过想要成为地球上最以客户为中心的公司。我们则是想专注于知识和好奇心。
我们相信这样的使命远比与谷歌竞争更为重要。设定使命时,目标应该是超越自我和团队的更大事务,这样才能彻底打破常规思维。就像索尼的使命是让日本在世界舞台上发光发热,而非仅仅提升索尼自身的知名度。
莱克斯:说到谷歌,他们最初的愿景是让全球的信息对每个人都开放……
埃拉文德:没错。他们致力于组织信息,使之普遍可访问且有用。这是个强大的愿景,尽管对他们来说现在要实现这一使命已不再那么容易。但这不阻碍其他人接过这一棒,甚至重新定义这一使命。维基百科在某种程度上也实现了类似的目标,以不同的方式使全球信息变得可访问和有用。
Perplexity 也以自己的方式做到了这一点。我相信未来还会有公司做得比我们更好,这对全世界来说都是有益的。
“我不在乎”
莱克斯:你能详细解释一下 Perplexity 的工作机制吗?你前面已经提到了 RAG,即检索增强生成。那么,RAG 是什么?LLM 在高层次上有什么作用?它是如何运作的?除了 RAG 还有哪些组成部分?搜索又是怎样进行的?
埃拉文德:简单来说,RAG 就是针对每一个查询,系统都会检索相关的文档,并从这些文档中提取出相关的段落,利用这些信息来回答查询。
Perplexity 的核心原则是,我们只使用检索到的信息来回答问题,这实际上比 RAG 的要求还要严格,因为 RAG 仅是建议使用额外的上下文来生成答案。我们更进一步,限制只能使用检索到的信息,以此来保证回答的事实基础。如果检索到的信息不足以给出好的答案,我们会直接告诉用户:“我们的搜索资源有限,无法提供满意的答案。”
莱克斯:明白了,RAG 就是通过查询来增加额外上下文以生成更好的答案,而你们所做的就是搜集互联网上人们所写的真实文本,并引用这些文本。
埃拉文德:对,这样更容易控制。否则,AI 可能还是会说出一些无稽之谈,或是在文档信息的基础上加入自己的内容 —— 这种情况其实仍会发生,所以我并不是说这种方法万无一失。
莱克斯:大模型的幻觉(hallucination)是怎么渗入的呢?
埃拉文德:幻觉可以通过多种方式渗入。
一是你可能已经拥有了回答查询所需的所有信息,但模型还不足以深入理解查询和段落的深层语义,只能挑选出相关信息给你答案。这是模型技能的问题,但随着模型的进步,这个问题可以解决。
另一种情况是,如果你的索引质量不高,即使检索到了正确的文档,但信息可能已过时或不够详尽,这时模型可能会因为信息不足或多源信息的冲突而感到困惑。
第三种情况下,如果你向模型提供了过多的细节,例如使用了页面的完整版并将其全部提供给模型以求解答案,模型可能无法清晰判断哪些信息是必需的,从而引入大量无关信息,导致混淆并产生错误答案。
第四种情况是你可能检索到了完全不相关的文档。但在这种情况下,如果模型足够熟练,它应该能够识别出来并表示:“我没有足够的信息。”
因此,你可以通过多种方式改进这类产品以减少幻觉的发生,比如改善检索功能、提升索引的质量、更新索引中的页面内容,以及调整片段的细节程度。同时,还可以提升模型处理所有这些文档的能力。如果这些方面都做得好,产品就会不断改进。
莱克斯:这真的很了不起。因为我看到过 Perplexity 的有些答案甚至引用了我的播客的文字记录,且回答得相当准确。我现在说的话和你正在说的话,将来某一天会出现在 Perplexity 提供的搜索答案中,作为记录永远留存。
埃拉文德:但模型现在足够聪明,它能识别出我只是举个反例来说明“你不应该说什么”,还能明白我特意指出的,“这些都是模型可能犯错的方式”,并据此作出回应。
莱克斯:说到索引机制,你能分享一下有关索引构建的一些有趣细节吗?
埃拉文德:索引构建分为几个步骤。
首先得有个爬虫,就像谷歌有 GoogleBot,我们则有 PerplexityBot,还有 BingBot、GPTBot 等,各种爬虫在互联网上忙碌着。PerplexityBot 会作出很多决策,比如甚至决定什么放入队列,哪些网页、哪些域名以及各个域爬取的频率。它不单是确定要爬取哪些 URL,还要考虑如何爬取。通常需要无头浏览(headless)进行渲染,因为现代网站不仅仅有 HTML,还大量使用 JavaScript 动态加载内容。总而言之,它需要判断页面上真正有价值的信息是什么。
当然,网站一般有 robots.txt 文件作为访问规则,规定爬虫应尊重延迟时间,以免频繁访问导致服务器负担过重。这个文件还会明确哪些内容禁止爬取,哪些可以。遵循这些规则,爬虫才能有序工作。
莱克斯:真是相当复杂。
埃拉文德:另外,我们得安排好重新访问网页的时间,同时利用页面之间的链接,来决定哪些新页面该加入抓取列表里。
这就是爬取的基本流程。爬下来后,我们要从每个链接里抓内容。无头浏览完成后,我们的任务变成建立索引,对抓到的数据做后期加工,让它们能匹配搜索引擎的排名规则。
这里就用上了机器学习和文本提取技术。比如,谷歌有个叫 Now Boost 的系统,专门从网页原内容里抽取出重要的元数据和核心信息。
莱克斯:这么说来,是不是全靠机器学习,把内容转成某种向量形式存储起来?
埃拉文德:不完全是这样。不是抓到内容就丢给 BERT 模型处理,然后塞进一个巨大的向量库那么简单。因为将一个网页的所有知识打包成一个向量空间表示是非常非常困难的。首先,向量嵌入不是万能药,要准确评估文档和查询的匹配度本身就很难。它很难理解与特定查询相关的文档应该包含哪些内容,是关于查询中的个体还是具体事件?或者更深层次的查询含义?这种问题可以争论一整天。所以这是排名的部分,在有了索引部分后,根据查询,它可以从索引中获取相关文档并给出评分。
莱克斯:我的理解是,将页面转换成可以存储在向量数据库中的形式。
埃拉文德:不一定要完全存储在向量数据库中。你可以使用其他数据结构和传统检索方式。有一种叫 BM25 的算法就是为此设计的,它是 TF-IDF 的更复杂版本。而 TF-IDF 则是词频乘以逆文档频率,是一种非常传统的信息检索系统,至今仍然非常有效。BM25 是它的一个更复杂版本,仍然在许多检索任务中击败大多数嵌入。
当 OpenAI 发布他们的嵌入时,围绕它存在一些争议,因为在许多检索基准测试中它甚至没有击败 BM25。这并不是因为 OpenAI 做得不好,而是因为 BM25 本身非常强大。这就是为什么纯粹的嵌入和向量空间无法解决搜索问题,因为不仅需要传统的基于词的检索,还需要基于 Ngram 的检索。
莱克斯:对于不受限制的网络数据,不能只是简单处理。
埃拉文德:对,你需要综合多种方法,一个混合的方案。同时,也需要超出语义或基于单词的其他排名信号,比如类似于页面排名的信号,用于评估领域权威性和信息的新鲜度。
莱克斯:所以,你必须给对较新的数据给予一些额外的正面权重,但又不能让它压倒旧数据。
埃拉文德:而这实际上取决于查询的类别,这就是为什么搜索是一个需要大量领域知识和网络问题处理的难题。
莱克斯:确实如此。
埃拉文德:这也是我们选择从事这项工作的原因。人们总是谈论套壳,但要深入搜索领域,还需要掌握海量的专业知识,构建高质量索引并整合各类信号 —— 这绝非一蹴而就。
莱克斯:搜索技术中,科学与技术的比重是多少?
埃拉文德:我认为它包含了相当多的科学成分,但也融入了大量的以用户为中心的思考。
莱克斯:当面对特定文档集合和用户的特定问题时,如果 Perplexity 无法有效应对,你们会如何思考,使系统适应这类情况?
埃拉文德:确实如此,但不是针对每个查询单独处理。小型系统或许能通过这种方式取悦用户,但在大规模应用时,这种方法难以扩展。随着查询量几何级增长,从日均万级到百万乃至千万级,遇到的问题也会成倍增加,因此需要寻找能够规模化解决问题的方案。
莱克斯:就是要找到那些能代表广泛错误类型的典型案例。
埃拉文德:没错。
莱克斯:那么,在查询输入阶段,如果我输入的是杂乱无章的信息,或是结构混乱的查询,有什么机制可以优化处理,使之可用?这是否属于大语言模型的范畴?
埃拉文德:我认为大语言模型在这方面确实可以提供帮助。即使最初的检索结果没有包含一组非常出色的文档 —— 比如它有很好的召回率,但精确度不是很高 —— 大语言模型仍然能够在大量信息中找到关键信息。而传统搜索做不到,因为它们同时关注精确度和召回率。
在谷歌,我们称搜索结果为“10 个蓝色链接”,如果前三四条链接中没有正确的信息,用户会感到不满。因为用户对搜索结果的准确性非常敏感。大语言模型则更加灵活,即使正确的链接出现在第十个或第九个,你仍然可以将其输入模型,模型仍然能够识别出它比其他链接更相关。这种灵活性让你可以重新考虑资源的分配,无论是继续改进模型,还是改进检索阶段。这是一个权衡。在计算机科学中,最终都是关于权衡。
莱克斯:值得一提的是,这个模型,即预训练的大语言模型,是可以在 Perplexity 中进行替换的。它可以是 GPT-4o,可以是 Claude 3,也可以是基于 Llama 3 的模型。
埃拉文德:我们也有自己训练的模型,Sonar。它基于 Llama 3 进行了一些后训练,使其在摘要、引用、保持上下文等技能上表现更加出色。
莱克斯:我订阅了 Perplexity 的 Pro 版本,所以可以在用户界面选择 GPT-4o、GPT-4 Turbo、Claude 3 Sonnet、Claude 3 Opus 和 Sonar Large 32K 等模型,最后那个显然就是你们基于 Llama 3 训练的高级模型。我喜欢你们加入了“高级模型”的描述,听起来更加高端。这几个模型该怎么选择,根据延迟水平吗?
埃拉文德:Sonar 会比 Claude 模型或 4o 更快,因为我们自己在推理方面做得相当不错。我们托管它,并为其提供尖端的 API。我认为它在某些需要更多推理的精细查询方面仍然落后于今天的 GPT-4o,但这些都是可以通过更多的后训练、预训练等方式解决的,我们正在努力。
莱克斯:未来,你希望自己的模型成为主流或默认模型吗?
埃拉文德:我们不在乎。
莱克斯:你不在乎?
埃拉文德:这并不意味着我们不会朝这个方向努力,但我们要从用户的角度出发 —— 用户是否关心 Perplexity 配置了最顶级的主流模型?不,用户真正关心的是 Perplexity 能否给出好的答案。所以,无论哪个模型为我们提供了最好的答案,无论是我们从别人的基础模型中微调的,还是我们自己托管的模型,都无所谓。这种灵活性使我们能够真正地专注于用户。
莱克斯:但它让你可以实现“AI 完备性”,意味着随着时间推移你可以持续改进。
埃拉文德:是的,我们并没有采用市面上现成的模型。我们为产品定制了模型。至于模型的所有权,那是另一回事。我认为这也体现了产品设计的力量,使其能够适配任何模型。如果模型有其独特性,也不应影响产品本身。
莱克斯:那么它是如何做到响应如此迅速的呢?你是如何降低延迟,又是如何进一步减少延迟的?
埃拉文德:我们从谷歌那里得到了启发。有一个概念叫尾部延迟,这是杰夫·迪恩和别人合写的论文中提到的。只测试几个查询看到它们执行得很快,并不能说明你的产品就真的快。跟踪 P90 和 P99 延迟非常重要(也就是第 90 和第 99 个百分点的延迟)。因为如果一个系统有 10% 的失败率,有很多服务器的情况下,可能有一些查询在尾部失败得更频繁,甚至你自己都没意识到。这可能会让某些用户感到失望,尤其是在查询量激增时。因此,跟踪每个系统组件的尾部延迟至关重要,不管是搜索层还是大模型层。
在大语言模型中,最关键的是吞吐量和首个标记返回的时间。我们通常称之为 TTFT,意思是“第一个标记返回的时间”,以及“吞吐量”,这两者决定了信息传输的速度。当然,对于那些我们无法控制的模型,比如 OpenAI 或 Anthropic 的模型,我们需要依赖他们来构建强大的基础设施。他们有动力为了让自己和客户得到更好的服务而不断改进。对于我们自服务的模型,比如基于 Llama 的模型,我们可以自行优化到硬件层面。我们与 NVIDIA 合作密切,他们是我们公司的投资者之一,我们一起协作开发了名为 TensorRT-LLM 的框架。如有需要,我们会编写新的内核程序,在保证吞吐量的同时尽可能降低延迟。
莱克斯:保持低延迟和提供服务的过程中有什么有趣的挑战吗?TTFT 是怎样随着用户的增多而变化的?从初创公司 CEO 的视角看,计算资源的扩展是怎样的?
埃拉文德:对,你得做出选择 —— 是应该再投入 1000 万到 2000 万美元购买更多的 GPU,还是应该向模型提供商支付 500 万到 1000 万美元从而获得更多的计算资源?
莱克斯:自建数据中心和利用云服务之间的权衡是什么呢?
埃拉文德:情况一直在变化。毕竟,所有服务都在云端运行。即便是我们部署的模型也是托管在云服务提供商那里。在目前阶段,建立自己的数据中心效率很低。不过像网飞这样的公司仍在 AWS(Amazon Web Services,亚马逊网络服务)运营,这表明依靠云服务仍可实现规模化扩展。
莱克斯:网飞全部依赖于 AWS 吗?
埃拉文德:基本上是的。
莱克斯:真的假的?还是说只是大部分依赖?
埃拉文德:我是这么认为的。网飞几乎将其所有的计算和储存需求都依赖于 AWS。该公司在 AWS 上有超过 100,000 个服务器实例,还在云平台上建立了一个虚拟工作室以促进全球艺术家和合作伙伴之间的协作。网飞之所以选择 AWS 是因为其广泛的服务和规模。
莱克斯:为什么它不转向 Google Cloud(谷歌云)平台呢?
埃拉文德:很明显,因为 YouTube 与网飞是竞争关系,而且亚马逊的 Prime Video 也是竞品之一。但也有像 Shopify(加拿大电商平台)基于 Google Cloud 的例子。Snapchat 使用 Google Cloud,而沃尔玛使用 Azure……这些例子说明并非所有大型互联网公司都需要自建数据中心。Facebook 就有自己的数据中心,他们一开始就决定走这条路。甚至在埃隆·马斯克接管 Twitter 之前,我记得他们曾经使用过 AWS 和 Google 进行部署。
莱克斯:尽管埃隆说过,他们似乎使用了许多不同的数据中心集合。
埃拉文德:我认为他倾向于内部解决所有问题,但在初创公司扩张时,这会使你摆脱那些不必要的工作。此外,AWS 的基础设施令人印象深刻,不仅因为它的质量出众,还因为它能帮助你轻松招募到熟悉 AWS 的工程师,这让他们的上手过程非常迅速。
莱克斯:那么……Perplexity 也使用 AWS 吗?
埃拉文德:没错。
莱克斯:但你还是得计算出需要购买多少额外的实例?
埃拉文德:对,这就是我们需要解决的问题。有些东西可以很优雅地扩展,但有些东西就不行了,比如 GPU 或模型。我们仍然需要在离散的基础上做出决策。
将推理能力与存储事实数据的能力分开考虑
莱克斯:你在 Twitter 上发起了一个调查,询问哪家公司最有可能建立首个拥有等同于 100 万个 H100 GPU 的数据中心,并给出了多个选项。你个人看好谁?是谷歌、Meta 还是 XAI?
埃拉文德:我记得当时评论区很多人指出我没提到微软,这是个疏忽。
显然,OpenAI 的背后还有微软的支持。而且 Twitter 限制了投票选项不能超过四个。理想情况下,应该把 Anthropic 或亚马逊也包括进来。顺带一提,一百万这个数字听起来很酷。
莱克斯:我记得埃隆·马斯克在底下回复 ——
埃拉文德:是的,他提到这不仅关乎核心的千兆瓦数。考虑到技术改进的速度,不值得将 1GW 功率投入到 H100 上。
但是,我在投票中明确表示的是“等效”,因此不必每个都是百万级别的 GPU,可能是下一代较少数量的 GPU,这些 GPU 或许能以较低的能耗达到了百万个 H100 的性能。而我之前提到的推理计算对于未来的高性能 AI 系统至关重要,甚至是探索诸如模型自我引导推理等研究方向,都需要大量的 GPU 支持。
莱克斯:想在未来取得胜利,算力有多大作用?谁将拥有最大的算力?
埃拉文德:目前看来,真正的竞争似乎在于谁能在 AGI 竞赛中领先,就像那些前沿模型一样,任何技术突破都可能改变现状。如果能将智能系统中的推理能力与存储事实数据的能力分开考虑,用更少的资源实现高效的推理能力,那么就不需要相当于一百万个 H100 的集群了。
莱克斯:这种说法很精彩。将推理能力和存储事实的能力分开。
埃拉文德:是的。问题在于如何以更高效、更抽象的方式表示知识,并使推理成为一个迭代过程,且与参数解耦?
创业像是奇异博士在千万种可能性里找到一丝生机
而我热爱逆风翻盘的故事
莱克斯:根据你的经验,对于即将开始创业的人,你有什么建议或分享的创业心得吗?
埃拉文德:传统的智慧依然非常重要,我不打算否定这些“老话”。比如持续的努力、坚持不懈、自信以及信任他人,这些都是必需的素质。如果没有这些品质,创业的路会更难走。选择创业就意味着你已经有了这些品质,或者相信你能逐渐培养出来。你可以通过实际操作慢慢吸收这些精神。
我发现很多人在开始创业时常犯的一个错误是,他们倾向于追求市场看似喜欢的方向,而不是出于个人热情。他们不是对某个创意非常痴迷,而是在想:“这是个能吸引投资者的项目。”“这会带来利润和客户。” 这种以赚钱为目的的出发点,常常让人在遇到困难时更容易放弃。
以我们专注的搜索领域为例,在创建 Perplexity 之前,我就对搜索技术有着近乎痴迷的兴趣。我的联合创始人丹尼斯的第一份工作就在 Bing,他和我的另一位创始人开发了 Quora Digest,一个根据你浏览行为每天推送有趣知识摘要的服务。
我们的团队对探索知识和搜索引擎有深厚的热情,所以即使没有立即的正面反馈,仅仅通过改善搜索质量带来的满足感,我们也能继续前进。如果你不是从解决问题中获得满足,而只是追求金钱的快乐,那么面对技术难题时,你可能会感到力不从心。因此,关键是了解自己,明白是什么激发了你的动力,这将帮助你找到与市场的契合点,或是找到最适合你的产品定位。
莱克斯:这股力量也将支持你克服困难,直达目标。
埃拉文德:没错。因此,从你热爱的创意出发,确保你正在开发和测试的产品也是你自己会使用的。市场机制自然会推动你把这份热爱转化为盈利的事业。相反,如果只是为了迎合市场而启动一个项目,试图让自己对它产生兴趣,最终你可能会放弃,或者被那些对这个领域真正充满激情的竞争者超越。
莱克斯:作为创始人,你经历过的代价、牺牲和挑战是怎样的?
埃拉文德:这确实是个不小的负担。每个人都得找到适合自己的应对方式,并建立起支撑体系,否则这条路几乎无法走通。我很幸运,家人尤其是我的妻子给予了极大的支持。她对 Perplexity 的热忱几乎不亚于我,不仅频繁使用产品,还提供了大量反馈,及时提醒我潜在的盲区,这样的支持无疑是非常宝贵的。
任何伟大的成就背后,都伴随着磨砺和全身心的投入。黄仁勋称之为“磨难”,而我更愿意视之为“承诺与执着”。选择创业,不仅仅是为了盈利,更是深信自己在做一件有意义的事情。能有机会通过自己的产品每天惠及数百万用户,是一种难得的好运,应当珍惜并持续努力,让这份事业不断发展壮大。
莱克斯:但在初创阶段,像你这样才华横溢的人,其实有众多选择。你可以留在学术界,或者加入一些公司,在高级职位上从事极具吸引力的项目。
埃拉文德:确实如此。这也是为何创业者的股权在初始阶段往往会被稀释。如果真要模拟各种可能的发展路径,你会发现绝大多数结局指向失败。这就像《复仇者联盟》里的一个场景:奇异博士说,“在 1400 万种可能中,我只找到了一条生路。” 创业正是这样一场逆境求生的冒险。
莱克斯:回望过去,我时常后悔自己在建设性的事业上做得太少。比起空谈,我更渴望实践,去创造。
埃拉文德:我至今记得你与埃里克·施密特(Eric Schmidt)早年的那次播客访谈,那时我还是伯克利的博士生。访谈中你不断深入挖掘,直至最后你问他:“如何才能创建下一个 Google?”那一刻,我仿佛看到了自己内心的疑问,也在被你提出。
莱克斯:感谢你还记得那个瞬间,这真是令人感动。当然,那对我来说也是难忘的记忆。某种程度上,你成了我的灵感来源,因为我内心深处仍然渴望创办一家公司。正如你对搜索技术的执着追求,我这一生也始终对人机交互、对机器人领域抱有同样深刻的热忱。
埃拉文德:有趣的是,拉里·佩奇自己就有人机交互领域的背景。正是这种跨界的视角,使得他们在搜索领域取得了不同于传统 NLP 研究者的突破性见解。这再次证明,那些能够提出新见解、建立新联系的人,往往具备成为优秀创始人的潜质。
莱克斯:没错,当热情遇上新奇的视角,往往伴随着牺牲与挑战。
埃拉文德:但牺牲都是值得的。正如贝佐斯所言,如果能在生命的终点感到自己已尽力尝试,便不会再有遗憾。
莱克斯:这样说来,你真是个榜样,我的朋友。感谢你树立了这样的典范,给像我这样的年轻人,以及所有读者带来了启示。你之前还强调了年轻时努力工作的价值,尤其是在二十岁出头,能再多讲讲吗?对于年轻人如何平衡工作与生活,你有什么建议?
埃拉文德:首先,关键在于你内心真正追求的是什么。并非每个人都愿意拼命工作,我也无意否定轻松生活就没有意义。然而,如果某个念头时刻萦绕心头,那么至少在青春晚期到二十出头这段时间,让自己为这个想法全力以赴是值得的。这段时间正是你能够为某事累积一万小时经验的黄金时段,这些积累未来会为你打开更多可能,这确实是值得的投入。
莱克斯:体力和脑力也是要考虑的因素。正如你提到的,年轻时熬夜加班相对容易些。
埃拉文德:确实,那时的我们特别能吃苦。如果要说遗憾,我后悔在那些本可以更努力的周末,只是简单地刷了刷 YouTube。
莱克斯:是啊,年轻时要珍惜时间,明智地投资你的每一刻。因为早期的播种,终将结出硕果。那段岁月无比珍贵,特别是早期教育阶段,它给你探索世界的自由 —— 那是纯粹的探索自由。
埃拉文德:对,还要和那些激励你变得更好、指引你前行的人为伍,而不是那些质疑一切意义的人。
莱克斯:对,远离消极,靠近那些对任何事情都充满热爱的人。
埃拉文德:回忆起来,当我告诉别人打算读博时,大多数人的反应是读博浪费时间。他们认为,本科毕业直接进谷歌,起薪就能达到 15 万美元左右,几年后职位和薪水都会大幅提高。相比之下,读完博士再加入,等于晚起步五年,薪资起点还是最初级。他们没意识到,这种比较忽略了长远价值,就好比在计算人生价值时,有的人只看短期回报,而忽视了持续增长的潜力。
莱克斯:确实,我认为关键在于与人同行,无论他们是哪行哪业。在德克萨斯州,我就常和那些专职做烧烤的朋友待在一起。他们对烧烤的热爱深入骨髓,那是他们生活的全部。他们会为了烧烤熬夜,谈天说地也离不开烧烤,那是一份纯粹的热爱。
埃拉文德:这就像是痴迷的魔力。Mr. Beast(Youtube 的世界第一网红)虽然不涉足 AI 或数学领域,但那份执着推动着他不懈奋斗,直至今日。我曾看过他的 YouTube 视频,他分享了自己如何整天泡在视频里,研究什么因素能吸引观众,日复一日地研究、研究、再研究。这正应了网上流传的那句“一万小时定律” —— 据说是梅西说的,总之就是类似于“我苦练数十年,只为一夜成名”这样的话。
莱克斯:你很喜欢梅西?
埃拉文德:不,我喜欢罗纳尔多。
莱克斯:哇哦。这是我今天听到你说的第一件让我深感异议的事。
埃拉文德:让我补充一下。我承认梅西是不折不扣的“GOAT”(史上最佳),天赋异禀,但我更欣赏罗纳尔多的成长轨迹。我欣赏他的不完美,欣赏他毫不掩饰地追求卓越。能与梅西这样的超凡脱俗者并肩,本身就是一种非凡成就。
莱克斯:没错,梅西简直不属于这个世界。
埃拉文德:在网球界,还有个相似的例子——诺瓦克·德约科维奇。尽管争议不断,人气不如费德勒或纳达尔,他却最终超越了他们。从数据上看,他是无可争议的“史上最佳”,而且他并非一开始就被认为是最好的。
莱克斯:看来你偏爱那些逆风翻盘的故事。你的经历中也有类似的影子。
埃拉文德:是的,这样的故事更能引起共鸣,也更鼓舞人心。有些人的成就我们只能仰望,难以从中汲取动力;而有些人,我们仿佛能在他们的故事中看到自己的影子,激励着我们不断向前。
未来的搜索会演变成知识的直接获取
埃拉文德:追溯历史,互联网诞生前,一切就已围绕知识的传递展开,这是一个比搜索更大的概念。搜索只是达成这一目标的一种手段。互联网极大地加速了知识传播,早期通过主题分类(如雅虎)和链接整理(如谷歌)进行。谷歌随后还引入了知识面板/知识小贴士等功能,直接提供即时答案。
回溯到 2010 年代,即便在每日处理约 30 亿次查询时,仍有约三分之一的 Google 流量源自直接从谷歌知识图谱获得的答案,这主要基于 Freebase 和 Wikidata 的数据。这意味着,至少 30% 到 40% 的搜索活动本质上是在寻找答案。即便是其他家的搜索产品,我们也可以说是在提供更深层次的解答 —— 就像我们的 Perplexity 一样。
但不可忽视的是,随着深度解答和研究能力的增强,人们可以提出以往难以想象的问题。例如,没有直接答案功能,你能否轻易询问我们刚刚谈到的“AWS 是否应用于 Netflix”这个问题?这很困难,所以清晰界定搜索引擎与答案引擎的差异也同样重要。这种趋势将促使我们提出全新的问题类型,催生新的知识传播形式。
我坚信,我们的目标不仅仅是打造搜索引擎或答案引擎,而是实现知识的探索发现。这是更高层次的使命,可以通过聊天机器人、答案机器人、语音交互等多种形式实现,但核心是引领人们发现新知,满足人类与生俱来的好奇心。
莱克斯:所以,这是人类集体智慧的体现,对知识的无尽追求。你们正在提供加速这一进程的工具。你认为人类的知识水平会随时间急剧提升吗?
埃拉文德:我衷心希望如此。而且,如果能通过提供工具,使每个人都比过去更加追求真理,我相信这不仅能增加知识总量,还能促进一个更加美好的社会。根本上,让更多人热衷于事实验证和揭秘真相,而不是单纯依赖他人的转述,这样可以减少信息被政治化或受意识形态左右的风险。这种正面影响将极为可贵。我期盼我们能共同塑造这样的互联网。
目前,我们正致力于 Pages 项目,它的目的是让普通人几乎无需费力就能创作新文章。这个创意源于一个洞察:你在 Perplexity 上的每一次浏览、每一次提问,其价值不应仅限于你个人。正如黄仁勋所言,在众人面前分享心得,不是为了炫耀或贬低,而是希望通过共享经验,大家共同成长。
所以,我们的思路是,为什么不能让别人从你与 Perplexity 的互动中学习呢?无论是你的失误还是成功,都可能成为他人的宝贵财富。这就是 Pages 项目的初衷。这只是个开端,未来,人们能够轻松创作研究文章、博客,甚至撰写专题小书。比如,假定我对搜索一窍不通,却想创立一家搜索公司,能有这样一个工具,让我提问“搜索引擎的工作原理是什么?爬虫怎么运作?排名的依据在哪?BM25 算法又是什么?”仅仅通过一小时的浏览,我就能获得相当于与专家一个月交流的知识量。对我而言,这超越了传统的互联网搜索,这是知识的直接获取通道。
Pages:只要输入提示词,选择受众类型,就能快速生成报告
莱克斯:确实,Perplexity Pages 的概念非常吸引人。
在 Perplexity 上,你可以自由提问,享受即时问答的乐趣,形成一系列问答链,这像是一个私密的试验场。
如果你想将这些内容以更系统的方式展示给外界,可以选择直接分享的方式,我自己就曾这样做过。
但如果你想将这些内容整理成类似维基百科页面的形式呈现,Perplexity Pages 就能派上用场。这种改变虽比较细微,但我觉得在最终的呈现效果上有着显著区别。有时候我在 Perplexity 提出了高质量的问题,并收获了极富启发性的洞见,这些内容本身就有成为经典案例的潜力,一旦分享出去,他人也能从中获得深刻的领悟。
看到这种模式规模化后的效果会很有趣。我也很想看看其他人探索 Perplexity 的过程,因为我自己的经历就很美妙。我在使用 Perplexity 期间发现了很多事物,经历了无数恍然大悟的瞬间,这确实激发了我的好奇心。
埃拉文德:确实如此。所以在我们正准备在“发现”板块里构建用户的知识编年史,目前还是人工精选的,但我们的最终目标是让它贴近每位用户的个性,每日呈现你感兴趣的资讯。我们憧憬的未来,提问的起始点不必局限在搜索框内,它可能是你阅读或倾听时的某个瞬间,某篇文字触发了你的好奇,于是即刻追问深入。
因此,要明确一件事:我们的使命不仅是革新搜索,更是提升智慧,传递知识。实现这一目标的途径可以多种多样,可以从你阅读一页内容开始,也可以从你聆听一篇文章开始。
莱克斯:正所谓“知识发现之旅的起点”。
埃拉文德:这是一场无止境的探索。
莱克斯:(再次打开了电脑)让我们看看 Perplexity 会给我生成什么问题。“宇宙中究竟有多少外星文明?”这就是一条我肯定会继续探索的旅程。以前浏览《国家地理》时,我就深感震撼,感觉太酷了。顺便说一句,观看专业的搜索操作,让我感觉背后有很多思考在进行。
埃拉文德:感谢夸奖。小时候,我就很喜欢在维基百科上钻无底洞。
莱克斯:我们可以根据搜索结果去查德雷克方程,发现关于宇宙中外星文明的具体数量并没有确切答案。然后根据德雷克方程得到基于宇宙的大小和宜居行星的数量,并认识 SETI(搜寻地外文明计划),了解科学家如何确定一颗行星是否宜居……这种体验真的非常有趣。
另外,最近让我心碎的事情之一,就是了解到越来越多的人类偏见渗透进了维基百科。
埃拉文德:所以我们并不只使用维基百科作为信息源,这就是原因。
莱克斯:对我来说,维基百科是最伟大的网站之一。难以置信的是,它们只靠众包,就能向知识共享这么宏大的目标迈出如此大的一步。
埃拉文德:但维基百科到人类控制,难以扩展规模,这就是为什么 Perplexity 是正确的方向。
莱克斯:你说的对,人工智能版的维基百科可能是最好的。
埃拉文德:或者是人工智能版的 Twitter。这个比喻是有原因的。Twitter 承载了许多功能,包含了人类的戏剧、新闻以及许多知识,但有些人只想获取知识,有些人只想看新闻,不想看任何戏剧性的东西,很多人尝试建立其他社交网络来解决这个问题,但解决方案可能不在于再创建一个新的社交应用。Threads 就曾经试图打造无戏剧性的 Twitter,但这并非正解。我觉得正解是要尽可能满足人类的好奇心,而不是人类的戏剧性。
莱克斯:这其实和商业模式有不小的关联。如果你的盈利方式依靠广告,那么制造戏剧性就成了必需的。
埃拉文德:因此,作为初创企业,我们有机会在没有这些既定束缚下探索新的道路。毕竟,在社交应用里,戏剧性推动了用户活跃,进而吸引广告,而广告商关注的是用户投入的时间。
莱克斯:随着 Perplexity 的成长,这将是越来越大的挑战,即如何抵御戏剧性带来的诱惑,避免仅仅为了追求高参与度、广告收益等而迷失方向。对我个人而言,哪怕是运营这个小型的采访播客,我也尽量不想在意观看量和点击率,以免误入歧途。我真正追求的是 ——事实上,我主要的目标是让我的好奇心得到最大的满足。
无论是这次对话还是平日交流,我都力求找到话题间的内在联系,这正是我的目标所在。 说到邀请播客嘉宾,我确实喜欢引入些出人意料的角色。或许在相关推荐中加入更多出格、意想不到的内容会很有趣,因为目前的讨论相对聚焦。
埃拉文德:好想法,这相当于强化学习中的 Epsilon 贪心策略的应用。
莱克斯:对,就是这样。要是能像 AI 一样直接调节参数就好了,比如决定我们播客探索的领域有多大胆,这样有时可能迅速就能深入非常前沿的领域。
我在 Perplexity 的介绍页面上看到,无论是数学博士想了解核裂变,还是中学生想初探核物理领域,都能获得相应水平的解释。这是如何做到的?你们怎样控制解释的深度和难度?这技术可行吗?
埃拉文德:我们正是通过 Pages 功能尝试解决这个问题,用户可以选择目标受众是专家还是初学者,我们会据此调整内容。
莱克斯:是让人类来调整内容,还是大语言模型?
埃拉文德:人类创作者负责规划“受众定位”有哪些,然后大语言模型努力达成这一目标。实际上,你现在就可以通过搜索指令来实现,输入“ELI5 it to me”,我经常使用这个功能,因为它对我帮助很大。
ELI5 —— Explain Like I'm Five,解释给五岁小孩听。“ELI5 it to me” 这个指令的意思就是让 Perplexity 用“五岁小孩都能听懂的方式”给你解释搜索结果。
这个功能极大地帮助了我学习新知,特别是当我对治理或金融领域一窍不通时,连基本的投资术语都不清楚,却又不想在投资者面前显得无知。我甚至不了解 MOU(谅解备忘录)、LOI(意向书)这些缩写,也不懂 Y Combinator 推出的 SAFE(未来股权简单协议)是什么。
所以,我需要这样的工具来解答我的疑问。而当我想要深入了解大模型领域的最新论文,比如某篇明星论文出世的时候,我会要求提供详细的解析,包括方程和深入研究,它都能理解我的需求。
这就是 Perplexity Pages 功能的创新之处,传统搜索引擎做不到这点。它们不能个性化定制界面,也不能按你的需求定制答案的展现形式,拿不出万能的解决方案。
因此,我们在市场宣传视频中强调,我们不是万能,你(其他搜索产品)也不是。像莱克斯你一样,你在某些话题上会追求更深层次的探讨,而在其他方面则不然。
莱克斯:我希望生活中大多数学习都能实现“一键 ELI5”。
埃拉文德:我也希望产品能发展到只需你输入“给我答案”这么简单。就像费曼解释法那样,或者假如有个像爱因斯坦那样的简洁方法 —— 我们可能又要回到那个话题了。但如果未来真的有好的方法,检验你是否真正理解的标准就是能否把它解释给你的祖母听。
莱克斯:并且,要遵循简化但不至过度的原则。
埃拉文德:是的,有时候会过度简化,并非每个概念都能用轻描淡写的比喻来解释。
莱克斯:你对大模型上下文窗口尺寸不断扩大有何看法?当上下文窗口长度达到十万、百万乃至亿级 tokens 时,这是否会开辟新的可能性?这会不会根本性地改变了应用的潜力?
埃拉文德:确实,这在某些层面有所助益,但在其他方面则有反效果。上下文窗口的扩大使得模型在回答问题时能吸收页面更丰富的信息,但要注意,这与模型遵循指令的能力之间存在一种平衡。
多数人在宣传上下文窗口增长时,着重强调了从海量信息中精准定位的能力,却较少讨论这是否影响了模型遵循指令的表现。因此,关键在于确保向模型灌输更多信息时,不会让它陷入混乱。增加的信息熵可能让情况变得更糟,而不是更好。
此外,上下文扩大在提高内部搜索效率方面展现出了巨大潜力,比如在个人文件或云存储服务中进行搜索。这项功能至今无人能完美实现,因为本地索引的构建方式与网络索引截然不同。如果能够直接将所有内容加载到查询提示中,并要求模型从中寻找信息,这将极大提升搜索效率。尽管这种方法也有其局限性,但由于当前解决方案的不尽人意,这一改变仍会让人耳目一新。
另一方面,上下文扩大预示着记忆功能的实现,这并非意味着 AI 模型能储存你所有的数据并复述你的一举一动,而是说模型在交互过程中不再需要频繁被提醒你的基本信息。这可能不如预期中那般神奇,但的确是一个值得期待的进步。当系统真正进化到一定程度,记忆将成为不可或缺的一部分,它将具备持续学习和自我优化的能力,知道何时将信息归档,何时将其置于活跃状态。
我个人偏好高效解决方案,即系统能自动判断何时将信息从提示中移出并妥善存储,需要时再召回。相比单纯地增加上下文窗口,这种智能管理资源的方式显然更加高效且具有前瞻性。
莱克斯:在通用人工智能(AGI)的领域,至少目前来看,Perplexity 主要是一个增强人类能力的工具。
埃拉文德:没错,我们都认同人类的价值。
莱克斯:是的,我对人类充满热爱。
埃拉文德:正是好奇心让人类变得独一无二,我们的使命便是服务于这份好奇心。我们利用 AI 的强大力量和前沿技术模型,为满足人类的好奇心而努力。我相信,即使未来我们拥有更加先进强大的 AI,人类的好奇心也不会消减,反而会因此而更加独特。拥有更多技术支持的人类将变得更加强大、更加好奇、更加渴望探求真理,这将引领我们走向知识与探索的无限边际。
知识能带来爱、希望、和平与 AGI
莱克斯:你认为还会诞生其他形式的 AI,比如能与人类建立深厚情感纽带的 AGI 系统吗? 人类与机器人之间会出现浪漫情感吗?
埃拉文德:这并非不可能。现在已经出现了 Replika 和 character.ai 这样的应用,还有 OpenAI 近期展示的「萨曼莎」(Samantha)语音也让人很疑惑,它的“妩媚”到底是装出来的还是天生自带的?我不清楚。卡帕西甚至曾在推特上调侃说:“真正的杀手级应用是斯嘉丽·约翰逊,而非代码机器人。” 虽然这是一句玩笑,但他或许无意中触及了一个点 —— 未来的 AI 可能包含这种形态。
孤独是人们当前面临的重大问题之一。不过,我并不希望 AI 成为人类寻求情感寄托的唯一答案。我预见到未来会有一种场景,我们在工作中与 AI 的交流时间将超过与同类的交流,毕竟向工具提问比打扰同事来得轻松。但愿这能让我们有更多时间深化彼此间的联系。
莱克斯:没错,我也想象着工作之外,人们会与 AI 像知心朋友一样深入交流,这些 AI 能促进并增强我们与他人的人际关系。这就好比心理治疗,但实际上,深厚的友谊就是这样建立的。双方可以敞开心扉,相互依赖。
埃拉文德:我希望,在一个工作变得不再刻板的世界里,每个人都能投身于真正感兴趣的事业,因为有 AI 助手帮忙,让我们事半功倍,且成本可控。这将使生活更加充实,从而腾出更多时间来培养真实的人际关系。
莱克斯:是的,不过人性复杂,不全是对世界的好奇心。人心有阴暗面,荣格心理学里论述过人类所谓的“阴影”,这不是单纯的好奇心所能解决的。
埃拉文德:我提到的其实是马斯洛需求层次理论,从基本的生存需求到自我实现。自我实现和满足感,我认为,通过追求个人兴趣、让工作像游戏一样有趣,以及与人类伙伴建立真诚的联系,这些都能实现。智能的充裕、知识的广博,是积极的。当资源不再匮乏,零和思维模式自然消减。
马斯洛需求层次理论
莱克斯:当我们处于蓬勃发展的状态时,就能实现了。
埃拉文德:这是我所期待的,尽管你提到的那些情况也可能发生,比如人们与 AI 聊天机器人或虚拟伴侣发展出深层次的情感纽带。但我们公司的方向不是这个。自始至终,我就不打算涉足这一领域。尽管有人建议,既然我们的产品容易产生“幻觉”现象,不如索性将其作为卖点,比如开发 AI 伴侣,满足人们的幻想需求。但我拒绝了,这条路虽难,我却愿意坚持下去。
莱克斯:的确,这是条充满挑战的道路,不过话说回来,要构建一种既促进人类繁盛又深得人心的 AI 人际连接,其难度也不小 —— 尽管二者本质不同。
埃拉文德:我感觉这里面风险就不小。原因在于,我们可能会从那些看似关怀备至的 AI 那里获得即时的情感奖励。
莱克斯:完全同意。实际上,Perplexity 试图解决的问题也有其危险性,因为追求真相的过程中,随着能力的增长,信息也容易被操控。要正当地进行知识探索与真相追寻,做到公正无私,持续增进我们对他人及世界的认知与智慧,这绝非易事。
埃拉文德:至少在这方面,我们有一定的科学依据,我们明白什么才是真相(哪怕只是一部分)。学术训练告诉了我们一个道理,那就是真相需经得起科学检验和同行审查,要有广泛的共识。当然,这并不意味着没有漏洞,也不排除有争议的地方,但问题的关键在于,你可能看似与 AI 建立了深刻的情感纽带,实际上却什么也没有建立。如今,是否存在真正代表我们利益的个人 AI 吗?并没有。
莱克斯:没错,但这只是因为那种关心与其沟通的人类长期繁荣的“好 AI”尚不存在,但这并不意味着我们无法创造。
埃拉文德:我个人非常期待那种能与我们合作,理解我们生活真谛,并引导我们实现目标的 AI。它更像是一个教练,而非仅仅是「萨曼莎」那样的伙伴。
莱克斯:其实,「萨曼莎」所追求的就是成为一位出色的伴侣、挚友。真正的友谊不在于共同畅饮、彻夜狂欢,而在于相互成就,让彼此成为更好的人。一生的友谊意味着共同成长。
埃拉文德:我想说的是,我们还没有能够随时倾诉,且能赢得我们尊重,仿佛是个人绩效教练的 AI。这与 AI 导师有所不同,也表明了不同应用能满足不同需求。我有自己对于何为实用的看法,也欢迎别人提出异议。
莱克斯:没错,最终一切都应回归于人类本身的利益。
埃拉文德:确实如此。我们应当着眼长远,而非眼前的短暂利益。
莱克斯:通往反乌托邦的路径数不胜数。比如电影《美丽新世界》,里面描绘了很多看似美好、表面愉快的事物,实则以一种违背常理的方式逐渐熄灭着人类意识、智慧和繁荣的火种。那些看似乌托邦却最终走向反乌托邦的未来,其未曾预料的后果令人担忧。那么,是什么让你对未来的展望仍怀有希望呢?
埃拉文德:我还是坚持之前的观点,对我来说,关键在于对知识的渴望和好奇心。我相信,有许多方式可以维持意识的光辉,我们各自以不同方式努力着。而我们团队的目标是进一步减少这种局限性的思考。我认为人们天性好奇,他们渴望提问,我们致力于服务这一目标。
世界上存在大量的混淆与不解,而这往往是因为我们对许多事物缺乏理解,无论是对他人还是世界的运作方式。一旦我们有了更深的理解,便会心生感激:“啊,要是早点意识到这一点,我的决策会不同,生活也会更加高质量,更加美好。”
莱克斯:如果我们能突破信息茧房,真正去理解他人,理解各种不同的观点。
我见证过 —— 在战争时期,当社会存在严重的分歧时,增进理解才是通往和平与人间大爱的道路。因为在战争中,人们往往被诱导形成狭隘且浅薄的世界观,双方各执一词。所以,跨越这样的隔阂,这正是真正的理解,真正的真相应有的面貌。而且,AI 似乎在这方面比人类做得更出色,因为它较少受到主观偏见的影响。
埃拉文德:我期望,通过 AI 的帮助,人类能够减少自己的偏见。在我看来,这是一个积极的未来愿景,AI 让我们能更深入地理解周围的一切。
莱克斯:没错,好奇心将引领我们前行。感谢这场意义非凡的对话,感谢你给予我以及所有热爱创造的孩子们灵感,也感谢你打造了 Perplexity。在此,我想以阿尔伯特·爱因斯坦的一段话作为结尾:“至关重要的是,永远不要停止质疑。好奇心自有其存在的价值。当你思考永恒、生命和现实的奇妙构造时,不禁会心生敬畏。只要每天都能稍微理解一点这些神秘,就已足够。”
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-08-13
2024-04-11
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-16