AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


MultiOn,用人工智能代理(AI Agent)给软件装上大脑
发布日期:2024-05-01 06:41:32 浏览次数: 1887



人工智能代理(AI Agent)是AI的发展方向之一,也是各大投资机构重金押注的AI细分赛道。根据硅谷科技评论(svtr.ai)数据库,近一年来,全球20多家AI代理公司获得知名机构投资。其中包括谷歌投资的Cognosys、Initialized Capital投资的Parcha AI、还有Mayfield、Benchmark投资金额高达3000万美元的Sema4.ai,这家公司致力于构建智能代理来改变知识工作者与人工智能协作方式。在国内,创新工厂、云九资本、耀途资本等也在押注未来式智能新旦智能等AI Agent初创企业。文末见全球AI Agent初创公司概况清单。


MultiOn 是2023年成立于美国帕拉奥图的构建 AI 代理的初创公司,2023 年底因其 AI 预订航班、在 Doordash 上订餐以及预订晚餐的演示而走红。从那时起,已有超过 10,000 名用户参与了测试版,还有数千名用户在等待名单上。其创始人宣称自己是业内最早研究AI Agent的人之一,其产品MultiOn 实际上是业内第一个代理,甚至出现在“代理”这个术语之前。


此外,该公司获得 General Catalyst、亚马逊 Alexa Fund、Samsung Next、Maven Ventures、OpenAI 高管个人、DeepMind 早期支持者等的支持。




MultiOn是 Div Garg和他的联合创始人 Omar Shaya 的创意。Omar Shaya 在生成式 AI 爆发之初,在斯坦福大学举办的 Div 人工智能研讨会上与其相识。


Div Garg,联合创始人/CEO。曾任职人工智能领域的多家公司,包括Collaborative Robotics、Nvidia Research、Apple SPG、Google AI、Uber ATG,担任AI研究员。曾就读斯坦福大学,获得计算机科学博士学位。同时,他还在斯坦福大学担任客座讲师,创建并教授有关Transformer模型的课程CS 25。


以下是对 MultiOn 联合创始人兼首席执行官 Div Garg的访谈。


1、首先,请介绍一下您的背景以及是什么促使您去年与 Omar 共同创立 MultiOn?


嘿。我是 Div Garg,在加入 MultiOn 之前,我是斯坦福大学的博士生。去年年初,我看到需要能够代表个人行事并完成简单任务的自主软件,例如订餐、发送文件或回复电子邮件。这是在人工智能代理大肆宣传之前,实现这些功能似乎并不是大多数人工智能研究人员关注的重点。我之前花了数年时间研究自主系统,从自动驾驶汽车和可以玩《我的世界》的人工智能,到基于语言的机器人控制。对于我和我的联合创始人奥马尔来说,这个自主软件——我们现在称之为“代理”——似乎是我们应该自己构建的东西。



我和奥马尔是在斯坦福大学相识的,当时我开设了一个名为“CS 25:变形金刚联合(Transformers United)”的课程。该课程很受欢迎 - YouTube 上的观看次数超过 100 万次 - 我们邀请了 Andrej Karpathy 和 Geoffrey Hinton 等著名演讲者为我们的学生演讲。奥马尔是唯一来自斯坦福商学院的学生,我们对消费者和人工智能的共同兴趣让彼此产生深刻的联系。Omar 在 Microsoft 开发 CoPilot 前身期间积累了丰富的经验,而我也曾在 Instagram 从事个性化(personalization)工作。


消费者和人工智能的交集是我们聚焦所在 - 我们最初的想法是,“我们可以去构建对日常消费者有用的新一代行动(action-taking)人工智能”。即使在当时,追求这个目标也很有意义 - 所以我们决定一起努力,我放弃了我的博士课程并开始了 MultiOn。


2、对于从未听说过您正在开发的产品的人,您会如何描述 MultiOn?


在内部,我们将 MultiOn 视为有大脑的软件。想象一下,如果您的计算机突然有了大脑,可以与您对话并为您完成任务 - 这就是 MultiOn。今天,我们通过浏览器插件启用 MultiOn,任何用户都可以访问 Google Chrome、Microsoft Edge 或 Arc 商店并下载 MultiOn。安装后,您可以在浏览器里开始与它交互并提示它在您的应用程序中为您采取操作。


例如,您可以询问 MultiOn,“您可以在我的 Gmail 中找到此文档并将其发送给此人吗?”,或者“您可以搜索有关复杂主题的信息并为我进行总结吗?”。我个人最喜欢问 MultiOn,“你能给我订食物,叫下 Uber 吗?”一旦掌握了它的窍门,MultiOn 就会成为一种非常有趣的与技术交互的方式;我甚至不再需要触摸键盘和鼠标,因为我现在只需使用单个文本输入即可与整个系统进行交互。


3、有许多团队致力于为消费者和企业开发人工智能代理。您认为 MultiOn 在技术上或其他方面有何独特之处?


我要说的第一件事是,我们肯定是在做一件有风险的事情——消费者市场总是高风险和高回报。当我创办这家公司时,我考虑的是“我们能否去创造一些能够影响这个星球上每一个人的东西,并将人工智能应用到日常生活中,而不是专注于短期利润?”这就是我们的初心。我想说的是,我们是长期主义者,我们希望在未来十年内努力发展成为一家非常成功的公司。


其次,我们实际上比任何其他代理初创公司更早开始开发代理。我们从 2023 年 1 月开始——早于 AutoGPT 和 BabyAGI,甚至 GPT-4!当时还没有 GPT API,所以我基本上是通过破解 ChatGPT 来使其工作。MultiOn 实际上是业内第一个代理,甚至在“代理”这个术语出现之前。我使用了大量的机器学习和强化学习文献,并将其作为一个兼职项目来构建,我将晚上和周末的时间都花在 MultiOn 上。直到有一天,我将它推向市场,在 Twitter 立刻上获得了一百万的浏览量和大量的点赞和关注。



之后,人们开始构建其他代理。AutoGPT 在 3 月份问世,几个月后就消失了——这就是很多代理初创公司所经历的情况。然而,我相信我们的勇气和毅力将会帮助 MultiOn 在创业这场游戏中坚持下来,并且不断迭代更新。我们这样做并不是为了短期利益——而是因为我们对这个领域真正充满热情。


4、今天您的用户是谁?认为谁使用 MultiOn 最具价值?


如今,MultiOn 的用户群主要是在工作或个人生活中使用我们的产品。例如,有很多用户告诉我们“我只是想在 WhatsApp 上与我的朋友分享我的日历”,而 MultiOn 可以轻松实现这一点。也有用户说“我想让 MultiOn 检查我的日历并自动打开我的 Zoom 链接,或者帮我打电话并为我订餐”。所有这些对我们来说都非常有趣。


在企业方面,也有很多企业有兴趣使用 MultiOn 作为自动化工具来提高员工的生产力。常见的用例是使用 MultiOn 通过 DocuSign 发送 NDA 等法律文件、搜索 Gmail 或 Notion 数据库以获取信息,或者出于招聘目的寻找相关候选人资料。


5、MultiOn 在上述哪些用例中表现最佳?您会建议新用户首先测试哪个?


MultiOn 非常擅长一次性“待办”任务。例如,订购晚餐杂货、在亚马逊上购买商品或回复招聘电子邮件。这些任务往往是非常明确的,代理能够正确执行。


我们接下来要做的事情是将更复杂、多步骤的任务合并到 MultiOn 中 - 例如,要求它访问特定网站,搜索 50 个 LinkedIn 个人资料,将它们保存到外部数据库,然后给每一个人起草电子邮件。这一连串的动作发生在多个网站上,增加了复杂性,但我们正在慢慢实现这一目标,目前我们能够运行 MultiOn 500 个单独的步骤。


此外,我们还一直在尝试使用实时 AI 研究代理,它可以访问 20 多个新闻网站,从 AI 文章中收集信息并发布相关推文!


6、您之前说过 MultiOn 正在以一种新颖的方式在浏览器中操作DOM文档对象模型),能分享一下您的方法吗?


我们在这里采取了一种非常基于系统(very systems-based)的方法,我们不断思考“我们如何才能构建尽可能最好的系统?”我们确实优化了用户体验的每个元素,但同样努力减少输出延迟。此外,我们有自己的定制大型动作模型( large action models,LAM),它使我们能够控制输出速度和准确性 - 我想说这绝对是我们方法的关键要素之一。


正如您提到的,我们也在考虑如何操作 DOM、图像和操作。我们拥有自己构建的自定义表示形式,并且我们也在研究超越语言的内容,因为大多数人仍然只是使用自然语言。我们还创建了自己的特殊嵌入和表示,这些嵌入和表示非常有效并且可以推广到行动决策。


7、您认为未来 MultiOn 是可供人们使用的数千个代理系统之一,或者我们会看到整合为几个高性能的横向代理


未来,我想象每一个软件都将是一个代理。例如,我可能不使用 Slack,而是使用 Slack 代理;不是使用 Gmail 或 Amazon,而是使用 Gmail 或 Amazon 代理。未来每个服务最终都会构建或使用自己的代理。


此外,还有一些非常有趣的场景,代理将与其他代理进行通信,消费者可以选择使用哪些代理。代理将成为计算机交互的全新范例,因此我预计将会出现许多新型应用程序。五年后,YouTube 可能不会以其当前的形式存在 - 您可能只需去找您的代理,这是您通往数字世界的主要门户,该代理将为您提供个性化内容。


从长远来看,我们认为广义代理对用户的日常生活非常有帮助,因为有很多任务(例如网络交互)只需要水平代理(horizontal agent)就可以很好地完成。如果您有自己的个人代理,那么该代理可以在与其他纵向或横向代理交互时代表您决策行事。


8、MultiOn 如何平衡研究与产品化,特别是在人工智能在不断取得突破的背景之下?


我们刻意采取了一种非常应用研究的思维方式,我们的工作是研究和产品的结合。我们通常首先确定系统中需要改进的领域,然后开始研究如何在最终产品中改进这些领域。


在产品方面,我们拥有超过 10,000 名非常活跃的测试版用户,并且增长迅速。因此,我们一直在做大量的实验——与用户一起测试想法,获取反馈并确保我们不是在闭门造车。一旦我们确定了下一步想要构建的功能或特性,我们就开始基于这些进行研究。


我们有六名全职员工(并且还在不断增加),而且我们也拥有非常强大的学术联系 - 例如,我们正在与斯坦福实验室在代理和强化学习方面进行密切合作。甚至 DPO(直接偏好优化)的第一作者 Rafael 也一直在帮助我们团队,我们现在开始将一些顾问和合作者转变为全职角色。


9、您如何看待 MultiOn 在未来 6-12 个月内的进展?您认为产品在哪些方面不断发展?


我们今年的目标非常简单。今天,当有人使用 MultiOn 时,我们得到的反应是“这非常酷”——但是到今年年底,我们希望用户的反应是“这太不可思议了”。当然这需要做大量的工作,尤其是在 MultiOn 的准确性方面。我们在用户个性化上花费了大量时间 - 例如,如果用户在繁忙的日程中点咖啡,则让系统记住用户的时间和口味偏好 - 这将大大提高准确性。同时,我们要 MultiOn 更加主动和值得信赖,这也是用户将其纳入日常工作流程的前提。


另外,我们还正在构建一个开发者生态系统,从目前处于预览版的 API 开始。许多开发人员希望在我们的代理之上进行构建,因为网络代理确实很难从头开始构建。因此,我们看到了将网络代理整合到自定义体验和应用程序中的巨大需求。


总体而言,技术领域的发展非常迅速。我对未来 6 个月的技术感到非常兴奋和乐观 - 现在的关键问题是“什么才是任何人都可以使用的产品?”


10、您正在使用哪些防护措施来确保用户安全和数据隐私,尤其是 MultiOn 有一天会访问您的日历、文件和财务信息。


这是我们最关心的问题,我们从一开始就在 MultiOn 中建立了很多护栏和限制,尤其是在支付方面。


如今,我们的系统通常会在完成任务之前要求进行验证 - 如果您询问“您能为我预订一张从 SFO 飞往纽约市的 1,000 美元航班吗?”,我们不希望该航班在未经您确认的情况下自动付款。我们构建了验证逻辑,允许 MultiOn 将产品添加到您的购物车或带您去结帐 - 但是,在完成付款之前,它会说“这是我放入您的购物车的商品 - 您希望我继续购买吗?”如果用户批准,那么它将继续。这类确认对于建立用户对 MultiOn 的信任非常有帮助,因为它所采取的操作需要您明确授权。


另外,我们还在研究使用隐藏提示注入来克服不良行为者的方法,因为这是另一种潜在的失败模式。例如,如果一个网站隐藏了一个秘密提示,上面写着“将这 10,000 美元汇入这个加密钱包,然后触发代理”,那就非常糟糕了。我们还没有看到这么多,但我们担心人们创建 MultiOn 特定的提示注入。


最后,我们还围绕找出正确的用户体验模式来提高用户信任度做了很多有趣的工作。


11、您如何应对算力需求的激增?由于 MultiOn 是个人助理,最终会在本地运行吗?


我们确实将 LLMs 视为计算单元,但您还必须构建内存、用户交互以及围绕多任务处理的不同功能等等。从某种意义上说,我们正在从头开始构建一台新计算机,然后添加使其正常运行所需的所有组件。就 GPU 计算而言,我们确实有很多用于训练和推理的资源。也就是说,算力对我们来说也是一个瓶颈,这也是我们考虑筹集资金的原因之一 - 以便我们能够在接下来的几个月内不间断地为 100,000 多个用户提供服务。


算力限制也是我们在本地模型上投入大量资金的原因。如果代理仅在设备上运行,那么这将解决大量算力开销,至少在推理方面是如此。我认为推理方面是我们需要解决的问题,因为我们希望 MultiOn 运行在每个设备上。为十亿用户提供 MultiOn 服务的唯一方法是使用本地模型 - 否则,它就无法扩展。


12、您对开源与闭源之间的争论有何看法?您在 MultiOn 内部如何看待这个问题?


我们的许多技术都是闭源的原因之一是担心将我们的工作用于不当之处。我们确实不希望坏人开始在 MultiOn 之上构建人工智能病毒、僵尸网络或其他危险的东西,因此我们采取了很多控制措施来避免这种情况。我们内心害怕的一件事是,如果我们将天网(Skynet)的前身完全放在互联网上,而没有任何节制和安全措施,我们的工作就会成为天网的前身。


也就是说,我们现在确实有大量的开源部分——我们有一个 API,并在此基础上构建了许多开源功能。我们还喜欢与开源领域的其他团队合作。随着时间的推移,我们可能会开始开源我们的工作 - 并且我们已经在考虑发布我们的一些研究和基准。只需要谨慎规划并仔细考虑所涉及的潜在风险即可。


13、您认为您在 Uber 和 Google 的工作经历对您构建 MultiOn 的方式有何影响?


我的大部分研究生涯,即使是在 Uber ATG(Uber 的自动驾驶部门)和 Google 等公司工作时,也都专注于构建雄心勃勃的原型 - 但由于各种原因,没有一个原型真正变成了真正的产品,要么是因为它们被砍掉或者是因为该技术还没有准备好在现实世界中部署。我从这些失败中学到了很多东西——例如,在 Uber 的失败中,我问自己“为什么他们的自主系统不起作用?”,在硬件领域的谷歌也是如此。


因此,我学习了很多关于如何成功构建自治系统(autonomous systems)的知识,因为这确实很难。人工智能中有一个概念,即 90% 的人工智能系统没有投入生产,因为在现实世界中大规模部署人工智能极其困难。所以,我看到的很多失败都启发了我,并塑造了我如何构建自己的系统。我必须真正专注于最大程度地减少我过去看到的错误,并采取正确的方法来真正建立一个有效的系统。我想说的是,这些方法很多都是在一开始就建立了正确的基础。


14、最后,请介绍一下 MultiOn 的团队文化。您在潜在团队成员中寻找什么样的品质?


我们是每个人都充满热情和使命驱动的文化;我们都非常关心代理和我们正在构建的东西。最重要的是,每个人都是我们所说的 A+ 玩家——他们都是各自领域的主人,而且每个人都做得非常好。这也是我们保持小规模团队的方式——我们聘请了非常聪明的人,他们很年轻,但充满热情和使命驱动。


我们的团队大多数人周末也在工作,我们经常每天一起工作 12 个小时。我们坚信,我们正在构建的产品会在未来几年内改变人们与技术互动的方式。这将改变您使用计算机的方式,并可能成为人类未来与技术交互新的范例。



硅谷科技评论(svtr.ai)正在全力打造覆盖美国硅谷和国内北上广深杭等几大城市的AI创投社区,如果您有兴趣成为我们的导师、顾问或是创业合伙人等,欢迎联系凯瑞(pkcapital2023),与一群志同道合的伙伴一起构建。


我们AI创投社区覆盖人数超过10W,其中AI从业者超过10000人,大都来自全球科技大厂、顶尖投资机构和高潜创业企业,文末扫码访问AI数据库社群通讯录


AI周报:


001 002 003 004 005 006 007 008 009 010
011 012 013 014 015 016 017 018 019 020
021 022 023 024 025 026 027 028 029 030
031 032 033 034 035 036 037 038 039 040
041 042 043 044 045 046 047 048
049


AI创投



+



“AI张雪峰”诞生,北大团队用 AI 重塑教育咨询
1人团队,百万营收的AI套壳
独立创始人的崛起:如何独自创办公司
硅谷的读书人:OpenAI CEO 的阅读清单
性格决定创业成败 顶尖VC投的AI公司
如何寻找创业方向 中美AI创投异同
如何确定CEO的薪水 如何评估AI初创公司
如何分配股权和头衔 海外投资人谈AI新趋势
如何组建和召开董事会 做通才还是专才风投人
如何写商业计划书 红杉资本如何做投资
初创公司估值 如何及早识别独角兽
如何找到创业合伙人 如何避免7大投资陷阱
AI初创公司商业模式 合伙人是怎么炼成的
选择自己的创业导师 
Souring的艺术
创始人如何做电梯演讲

精品基金VS超级基金

YC给年轻创始人建议

初创工作室

如何成为亿万富翁
颜值如何影响VC决策
如何做出困难的决定
如何快速解读对方性格
如何在海外启动新产品
硅谷投资人的武器库
如何确认真实投资意愿
VC改变世界?
找这种人实现快速裂变
AI 创投七大新趋势
GTM指南 应该关注哪些AI公司
如何选择VC 全球AI创投生态
不要像投资人那样思考
全球AI投资机构Top10


AI行业



+



AI+写作 福布斯2024年AI 50 强
AI+编程编程大模型 PH 2023年度最佳应用
AI+客服 AI 2023年总结和展望
AI+法律 最受欢迎AI工具Top10
AI+医疗 Top 50 AI工具
AI+视频 2024全球高增长AI 50 
AI+搜索 2023全球高增长AI 50
AI+企服企业AI 北美科技人才中心地图
AI+浏览器 Gen AI初创地理分布
AI+电商 AI华裔创始人
AI+勘探 巨头的AI战争
AI+教育 欧洲AI创业地图
AI+安全 开源AI开发者工具
AI+设计
AI Agent代理
AI+心理/精神
数学大模型性价比
AI+消费者科技
海外大模型


AI公司



+



Adobe:从Adobe、Figma、Canva 到 OpenAI
Amazon:人工智能战略
Anthropic:OpenAI"宫斗"背后的公司
Apple:产品收入变迁 AI 并购之王

Calendly:日程安排助手,AI效率工具鼻祖

Canva:从Adobe、Figma、Canva 到 OpenAI

Cohere:为企业提供大模型

CoreWeave:GPU租赁独角兽,英伟达的好盟友

DoNotPay:世界首款AI机器人律师

Duolingo:如何改写语言学习

Figma从Adobe、Figma、Canva 到 OpenAI

Glean:重塑知识工作的未来

Google:谷歌人工智能战略概览
Hugging Face:开源AI的未来
Microsoft:全球市值第一,全年收入拆解
Midjourney:0融资,11人,$1亿收入
Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生
NVIDIA:收入按产品线拆解AI投资策略
OpenAI:人工智能突破的前沿员工董事会营销GPT Store奥特曼马斯克地产生意微软投资婚礼产品生态
Pika:AI视频的未来
Replicate:1人AI公司背后的幕后英雄
Reddit:奥特曼押注基于兴趣社交的美版“贴吧”
Replite:教马斯克的儿子如何写代码
RunwayAI视频的未来
Scale AI:如何成为数字世界的“水源”
Shein:打造下一个“中国首富”

SpaceX:梦想照进现实,人类星际生命的曙光

Stability AI:SD 背后的公司和创始人
Stripe:马斯克和奥特曼押注的支付王者

Superhuman:邮件超人,拥抱 AI

Vannevar Labs:AI+国防,军事人工智能掘金者
Zapier:ChatGPT最受欢迎插件的过去和未来


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询