支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


跟硅谷创业者聊 Agent:今年创业做 Agent,技术卡点在哪里?

发布日期:2025-03-22 15:56:37 浏览次数: 1563 来源:Founder Park
推荐语

探索2025年Agent技术的核心卡点与未来发展方向。

核心内容:
1. Agent技术的最新进展与社会影响
2. 硅谷专家对Agent技术难点的深度解析
3. Agent商业化前景与创业时机探讨

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
3 月份发布的 Manus,让大众第一次感受到了 Agent 的强大。

R1、o3 以及更多推理模型的发布,也为 Agent 的发展提供了足够强的技术基础。正如很多人所说,2025 年是真正的 Agent 之年。

但关于 Agent 仍有很多问题待解决,比如现在的技术卡点都是哪些?未来 Agent 之间应该怎么协作,现在是 Agent 创业的好时机吗?

3 月 16 日,极客公园旗下的全球化闭门社区 Global Ready,与整数智能联合组织了一场闭门讨论,邀请了硅谷的 AI 专家、创业者们,从 Agent 的落地、技术难点、商业化方向等进行了一场深度探讨。

在脱敏处理后,我们整理了本次闭门讨论的要点内容,感谢 GR 会员整数智能对本次活动的支持。

主要分享嘉宾:

Yifeng Yin, 本场 Global Ready 活动 Host,Co-founder of a stealth start-up, ex-HuggingFace

Kecheng Huang, Co-founder & CEO, Emerging AI

Dongxu Huang, Co-founder & CTO, PingCAP

Zheqing (Bill) Zhu, Founder & CEO, Pokee AI

关于整数智能:

起源自浙江大学计算机创新技术研究院,提供了智能数据工程平台与数据集构建服务(包括数据采集、数据清洗、数据标注),覆盖了包括图像、视频、文本、音频、点云等多种模态类型的数据处理能力,通过 AI 自动化加持,使数据标注效率提升 500%-1000%。

关于Global Ready :

Global Ready Community 是极客公园孵化的全球创新者社区,与世界顶尖创新者共同探索科技的无限可能。

社区会员可享受:高效链接海外 500+ 位创始人 & 技术专家 & 投资人,闭门活动入场券等权益,我们希望成为你链接世界的高效率 API。


01 

Agent 当下的技术卡点:

更多工具使用能力、更长上下文

Yifeng Yin:今天我们聊的是 agent,一项技术的商业潜力主要取决于它能颠覆什么。那么,agent 究竟是哪些问题的最佳解决方案?如果要让 agent 真正解决这些问题,我们还需要哪些技术突破?

Zheqing (Bill) Zhu:我个人觉得,如果从第一性原理出发,假设未来所有的端到端通信都由 agent 完成,那么以人为中心的网页浏览可能会消失,信息传递和任务执行都将完全由 agent 之间的协作实现。

这可能需要几个条件:首先,互联网本身可能需要一次重构,不再依赖浏览器操作,而是让 agent 直接执行任务;其次,agent 的执行能力得大幅提升。现在的 agent,比如用 Claude 或 GPT-4o 做的,执行能力很有限,可能调用 50 个工具就到极限了,再多就会出错。所以,未来我们要解决的是:如何让 agent 在未知环境下自主调用上千个工具,完成复杂任务?这可能是我们需要突破的方向。

Dongxu Huang:我的结论和 Bill 差不多,但我的思考角度稍微不同。

在评估工具时,我更关注从人的角度出发,我们真正需要什么,而不是单纯看工具能做什么或它的应用场景是什么。就像互联网的发明是为了解决人类沟通和信息获取的效率问题一样,agent 也应该匹配我们的核心需求。最近我重读了 Transformer 那篇论文,标题「Attention is All You Need」很有哲学意味。我觉得可以延伸一下,从人类角度来说,「Attention is all we have」——注意力是我们拥有的全部,也是我们最想要支配的资源。

像订机票、订酒店这些事很烦人,需要集中注意力去比价、选择,但我们并不想在这上面浪费精力。我们更希望把时间和注意力花在喜欢的事情上,比如去户外呼吸大自然、玩耍或读书。所以,agent 的本质应该是帮助我们把时间花在真正想花的地方。这也是为什么我认为通用型或个人助理型的 agent 会是一个重要方向。过去,像搜索引擎或手机应用都是基于固定场景设计的简单流程,缺乏灵活性。但随着 GenAI 的普及,我们终于可以实现更高的灵活性。比如 ChatGPT 刚出来时,它只是个对话工具,现在已经能处理 50 个工具的范围。我相信未来会更进一步,变成真正的个人助理,任何不想做的事都可以交给它。

再举个例子,作为企业高管,我肯定需要一个私人助理,但不可能给每个员工都配一个,太贵了。可这个需求是普遍存在的。如果 AI agent 能让每个人都拥有一个助理,把注意力更好地分配到我们想关注的地方,这就是它能解决的核心问题。所以,未来 agent 的方向可能是如何通过技术放大人类的注意力管理能力。这有点抽象,但希望能给大家一个不同的思考视角:我们作为人类到底想要什么?

Kecheng Huang:Bill 刚才提到网页浏览可能会被重构,我也有类似的想法。当 ChatGPT 出现后,大家开始用它,甚至到后来的 xAI,我们团队也在问自己:当新的交互形式出现时,旧的形式会怎样?我读过一本叫《传播媒介》的书,里面提到新媒介出现时,旧媒介不会完全消失,而是会折叠到特定场景。比如电脑出现后,纸笔没消失,但用途变窄了

我觉得网页浏览、ChatGPT 和 agent 可以看作三次迭代。现在我们用 Google 的时候,通常是已经明确知道要查什么,比如去 Abakai AI 的官网或 Hugging Face 的官网,直接搜索是最快的路径。而像 ChatGPT 这样的 chatbot,则适合模糊性的思考或启发性场景。至于 agent,我觉得它正在慢慢涌现。随着底层基础设施完善、数据积累和产品范式的摸索,agent 开始展现潜力。比如最近很火的 Manus,它能把你的历史行为浓缩到一个框架里,帮你处理模糊任务。

从技术角度,我认为 agent 比 chatbot 或网页更核心的能力有三点:第一,多模态理解能力,不只限于文字,而是能通过多种形式理解需求;第二,实时环境感知能力,因为执行任务时需要调用不断变化的服务,agent 得能动态适应;第三,个性化数据整合能力,把个人历史数据——各种模态、各种场景——融合起来,真正理解你。这需要高效的数据存储和转化,比如知识图谱之类的东西。这三点让我对 agent 的未来很兴奋,Manus 只是个开始,后面会有更多激动人心的东西出现。

Dongxu Huang:我特别同意 Kecheng 提到的两点。我稍微总结一下:第一,我们缺一个 agent 之间的互联网,就像路由器一样,能让 agent 之间高效通信。现在我做 MCP 开发时,发现调用十几个服务就很麻烦,有的想本地部署,有的放远端,agent 之间的上下文共享也完全不够。第二点就是 memory,记忆能力。Agent 最终要提供个性化服务,这离不开数据。但现在的软件行业处理数据的接口并不适合 AI 或 agent,可能需要一次重构。比如,怎么操作数据?现在最好的可能是 SQL,但未来可能会有更 AI 友好的方式。

另外,agent 和人类的信息交互也有区别。人类靠消息传递,但 agent 之间不需要这么低效的方式。我前阵子看到一个 demo,两个 AI agent 在电话里低声说话,挺有趣,但我觉得这是完全错误的方向。Agent 之间的记忆共享不该靠电话,而是直接给个 S3 endpoint,加载到内存就行了。所以,我觉得缺两样东西:一个是 agent 的互联网,一个是 agent 的大脑,包括记忆和上下文管理。


02 

Agent 没有创造新需求,

而是优化解决方案

Yifeng Yin:如果想让 agent 成为某些问题的解决方案,让以 agent 为核心的商业模式落地,我们需要在基础设施上做哪些努力?需要什么样的基础设施,agent 才能真正落地?

Zheqing (Bill) Zhu:Agent 不是满足一个全新需求,而是优化现有需求——有些事本来靠人做,但其实可以交给机器,只是因为互联网没完全联通或 AI 能力不足,才一直靠人力。

举个例子,前段时间我发博客,把一个平台上的图片和文字下载下来,整理成文档,再上传到另一个平台,整个过程花了我两个小时。这其实是 agent 该干的事:第一步,从 Google Docs 下载所有内容存到本地或某个存储;第二步,把这些信息上传到 LinkedIn,用最优方式完成。但现在网上没有工具能一键搞定。Agent 要解决的就是这种重复性劳动,让机器人替代人。

我觉得先要把互联网上的重复性劳动解决好,比如用 15 秒代替两小时或两天的任务。如果这能做到,肯定有市场,产品适配性(PMF)自然会显现。基础设施方面,我不觉得算力有缺口,现在已经够用了。核心问题在于工具的完整性,比如没有统一的标准接口。像刚才说的 agent 之间的互联网,现在连单个 agent 调用工具的链条都不完善。规划好一系列操作后,能不能找到对应的工具执行?这都还没解决。先得把工具链标准化,不管是政府还是个人,只要接入 agent 都用同一格式,这可能是落地第一步。后面再考虑 agent 间的通信,或虚拟世界和物理世界的连接,那是更远的未来。

Dongxu Huang:Bill 说的工具链和我的想法有些重合,比如 agent 之间的互联网和记忆能力。但从人的角度,我觉得还有个更深层的问题。

比如我想买机票,得去 United 或 Booking 网站,agent 要帮我顺利完成,得能读我的微信或接入这些平台。这不是技术问题,而是人性或商业壁垒的问题。什么时候人类能真正觉得应该让世界更美好,而不是守着自己的护城河,把 API 封闭起来,搞各种闭源和限制?所以,agent 落地的最大挑战可能不在技术,而在人性。如果现有玩家不转变思维,可能只会有新的 LinkedIn、新的 Booking 崛起。

基于开放生态重塑市场,这比技术突破更重要。

技术上,我觉得需要一个信任基础的 agent 互联网。就像现在的互联网基于 TCP/IP,agent 的生态也得有类似的底层支撑。开放性和协作是关键,这也是我为什么看好开源——它能推动集体智慧,而不是某一家独大。

Kecheng Huang:基础设施确实是个大话题。算力、算法和模型方面,现在开源模型越来越强,算法也在进步。至于数据,Dongxu刚才提到如何让行业数据更公平、更开放,这是企业和政府都需要推动的。

云端的算力集群建设已经很成熟,但端侧和边缘侧的算力流转还有优化空间。我们的手机是为互联网时代设计的,但在 agent 时代,多模态数据和高并发任务会带来新挑战,这需要更多投入。

至于政府角色,在中美的发展中,监管越来越重要。国内大模型还得备案审批,怎么在加速创新和维持社会稳定之间平衡,这是个难题。另一个有趣的点是社会背景。Agent 和具身机器人如果取代更多人力,剩余劳动力怎么办?我们在全球业务中发现,中美都在热议 AI,但在日本、欧洲,AI 普及率没那么高,这些成熟社会有抵御机制。现在中美在这方面机制不足,我担心未来会有更多像武汉萝卜快跑那样的抗议。

Zheqing (Bill) Zhu:我倒没那么担心。从工业革命到信息化时代,人口增加很多,但就业率没下降,反而上升了。执行层面被 agent 取代后,创造性工作会不会打开新空间?比如现在一年出 20 部好莱坞大片,未来能不能出 500 万部,每人都有个性化版本?


03 

2025 是 Agent 确定性的开端

观众提问: 现在大家都说 agent 和 AI agent 是生活中不可或缺的东西。作为公司创始人,你们怎么保证自己的产品不会被大厂商品化?未来你们如何定位自己的公司?

Zheqing (Bill) Zhu:这个问题很有意思,但感觉有点假设我们必须胜出,哈哈。其实我并不觉得这是一个赢家通吃的游戏。看看现在的模型:Anthropic 擅长代码和写作,OpenAI 在推理和数学上有优势,Perplexity 能搜索。市场会有很多同质化产品,但它们会自然演化,找到自己的舒适区,彼此拉开差异化。

我觉得最终不会是 winner-takes-all,肯定会有垂直领域的 agent 和不同的基础设施。每家公司可能会同时用多个基础设施,就像现在用几大云厂商一样。所以,不是先发优势或技术最强就能胜出,而是能不能找到适合的产品市场契合点(PMF),找到自己的细分领域才能生存。

Dongxu Huang: 我很认同,AI 是未来所有公司的最大杠杆,但这个杠杆不是为了赢,而是让我们的生活和工作更美好。在我们公司 PingCAP,我们有个实践:每个人在报告里都要写怎么用 LLM 或 GenAI 提高效率,连前台也不例外。程序员用 Cursor 这种工具已经尝到了甜头,我都没报销费用,他们自己就掏钱用了。

对我来说,AI 不是主营业务的竞争点,而是整个社会的生产力变革。不管愿不愿意,所有行业都会被 AI 改造。至于定位,我们做数据基础设施,也会被 AI 重塑,但核心是拥抱它,而不是想着击败谁。

Yifeng Yin:如果现在的基础模型能力就止步于此,基于现有水平做工程化和 agent,能创造多大的空间?或者说,能产生多大的商业价值?

Dongxu Huang:我过去一年一直在思考这个。一直在纠结是该多投入精力建 agent 框架和工作流,还是等底层技术模型再进步。因为有个尴尬的情况:如果你早早把 agent 的工作流做得特别复杂,但模型能力突然提升,像 OpenAI 的最新推理模型出来后,以前的努力可能就白费了。比如 OpenAI 的 o1 出来前,我做的所有工作流都没法用,底层模型太弱。但 o1 的出现让我觉得可以开始做些有用的东西了,它算是个起点。

不过 o1 也只是第一步。所以我现在不怎么建具体的框架了,而是专注做 function calling 和工具开发,把这些基础打好。我很期待 o2、o3,比如 DeepSeek 的下一代模型。到那时,市场空间会更大,确定性也会更高。回到你的问题,我觉得现在是刚起步,基于 o1 这样的推理模型,已经有一些不错的商业场景。未来空间会越来越大,只是现在还在确定性的开端。就像这几年 dify 成功,但技术进步后,老范式可能得迭代。所以我的建议是等等看,同时基于现有能力开始试水。

赵赫:我想从非技术角度补充一下。这个问题其实是在问:如果模型不进步了,能不能做所有事?当然会进步,但Dongxu从「要不要等」的角度回答很有意思。我想换个视角再答一次。

我一直在反思:现在的模型已经很强了,但为什么做出来的东西还是差强人意?我观察到两个原因。第一,Yifeng 之前跟我聊过,谷歌的模式是有现金牛业务养科学家,再由厉害的工程师把科学翻译成产品,最后设计师懂用户需求。现在的问题是,科学家不少,但能把底层技术翻译成实用产品的工程师太少。这是个信息传递断链的问题,需要时间积累。

第二,上一代互联网技术人很难有归零心态。新技术出来时,如果威胁到他们的地位,就成了一种错误——「你怎么能比我强?」要么被他们收编,要么被干掉。这种阻力阻碍创新。所以即便技术够了,好东西也出不来。这不是技术瓶颈,而是思想瓶颈。得先突破这个,才能释放价值。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询