AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


观2024智源大会Agent分论坛有感
发布日期:2024-06-19 12:17:47 浏览次数: 2046 来源:孔某人的低维认知


TLDR

  • 大概有人想看LLM+RL的Agent报告,但实际上是LLM Agent的报告+RL的报告+RL的人对于目前LLM Agent研究的吐槽。

  • Agent分会场的观感是我到目前看过的所有分会场里最差的,(我目前看过的其他有:全体大会、大语言模型、大模型产业技术、意识与通用人工智能。)民科味也是这里最浓的,其他分会场会省略的一些不重要细节在本会场也会占用很多时间来谈,观感上有点像是本科毕业设计答辩的加长版。

  • 该分会场的推荐分级是:没必要观看,闲的没事想看也不拦着。

  • 本文没有任何干货,纯吐槽。

智源官方视频回放地址:

https://event.baai.ac.cn/live/788

B站有人已经切好的版本:

https://www.bilibili.com/video/BV1JZ421M7RD/


论坛末尾,一个搞RL的讲者对于目前LLM Agent研究现状的吐槽:

https://www.bilibili.com/video/BV1JZ421M7RD/

吐槽正篇

1、总体感觉

我目前完整的看了5个分论坛和一个线上报告,包括:全体大会、大语言模型、大模型产业技术、意识与通用人工智能、Agent。这里面,Agent分会场是观感最差的。

大部分工作的深度和工作量说高可以高说低可以低,你说这是清华本科生的毕业设计我也会信。这就导致相对于别的分论坛观感来说,Agent分论坛的逼格相对低了很多,民科味道很重,说拉低了智源大会的总体质量也不为过。意识与通用人工智能那边虽然讲的也不深,但人家是有料的,只是碍于时间因素不好展开太多,大家也就是听个科普就行了。

Agent分会场这边就感觉反过来,感觉又不深入、又不高端,但还喜欢絮絮叨叨讲细节讲很久,还是一些在我来看完全不重要的细节。每个报告人含答疑时间给1h太长了,就这个内容量感觉别人分会场给30min就差不多了。

会有观众觉得通过智源这个窗口应该能看到一些最前沿的LLM+RL的可自我提升的Agent的方案,但实际上整场报告里,要么是纯LLM Agent的报告,要么是纯RL控制机器人的报告,完全没有中间交叉的部分。更搞笑的是,末尾的RL报告人还站在他的角度上吐槽了一下目前LLM Agent研究的“低劣”。这个片段见:

https://www.bilibili.com/video/BV1JZ421M7RD/

前三个讲LLM Agent的报告人,只有一个有教职(助理教授),剩下一个是博后、一个是在读博士……我就无语了。是有教职的人没有做这个方向的呢,还是他们不想来呢,还是他们也没东西可讲呢?

最后一个是做RL的人,报告大部分都是在讲纯RL控制机器人,后面有一点是LLM作为语义理解模块用于RL Agent,最后是对LLM Agent研究的吐槽。会让人怀疑他是来干啥的?

2、观后反思

连智源大会都只能邀请到如此水平的内容,说明大家真的不要期待 能结合RL的能力强Agent 能在短期落地了,学界都没有啊!

而且就整个会场这个民科味,感觉有追求的人也别说自己做的事可以算Agent了,“你才做Agent,你们全家都做Agent”。当然这个话说的有点过分,这个报告放在其他地方至少也算中等以上了,但放在智源这个大平台上一衬托就让人无语了。

3、报告1 的吐槽

第一个报告是ChatDev的作者,考虑到ChatDev的影响力比较大,以及跟会场主持人刘知远的关系,也算正常。(其他关系且说,ChatDev作者列表里就有刘知远,参见 https://arxiv.org/abs/2307.07924)但不顺带做点给面壁的PR么?其他会场都大大方方的在给公司做PR啊。

ChatDev推出这么久了,现在也没有说“能自己开个公司,全靠ChatDev低成本写代码,大幅压低2B软件服务报价”。当然AutoGPT和BabyAGI也不行,作为学术原型,不能落地才是常态。现在就别再吹ChatDev了吧,把它当成靶子,说正在努力研究更好的方案说不定会更让人有好感。

Co-Learning这个有点新意,但其实想法在应用层的人里早都想过了。我仍然不看好落地,还是学术占坑demo。

从开始提Multi Agent的scaling law的时候,就让我开始感觉民科味道变得显著了。而且更可笑的是拿出的是S曲线,大部分领域不都是S曲线么,这无论理论价值还是使用价值能蹭scaling law么?拿S曲线去拟合,数值稳定性和预测准确率好么?

4、报告2 的吐槽

如果说报告1还是在学界王婆卖瓜的常见模式,报告2就开始放飞自我了,因为它讲的是 LLM Agent OS。

但然后后面一大块价值就跑去说Agent OS可以去像“现在操作系统一样去管进程的调度”一样去管Agent的调度,等等,满眼的工程feature,而且大多是对标传统OS。这事真的需要一个新Agent OS来做么?传统OS做不好么?

整个思路也不能说是毫无创新,但主体跑去完全对标传统OS,让我觉得基本抹杀了细节上的价值。很符合去年一些投资人视角的思路,大概是挺适合搞经费的。从实际角度这个东西我是不会去考虑的。

5、报告3 的吐槽

报告3是CAMEL的作者,在读博士。CAMEL的主要学术价值在于提的早,但现在已经完成了它的历史使命。

报告整体感觉跟ChatDev那个是类似的,前面还塞了一大块历史回顾来凑时间,也同样提了Multi Agent的scaling law。对了,报告主题还叫 Finding the scaling law of agents

要不是CAMEL这种有点名气的项目的作者,我都以为自己打开了某个《XXXX论文预讲会》的视频,甚至报告的内容可能还不如论文预讲会的观感。

6、报告4

报告4 是个做传统RL的人。内容倒是没啥可吐槽的,无论是内容还是PPT内容量都能回归正常的质量。

但会让人第一反应:为啥这主题会出现在这个论坛上?然后才会意识到,原来Agent其实本来是从RL借过来的词,RL才是更正统的,虽然我们现在已经不关心了。(机器人公司:你说啥?)

那么正经做RL的人能给出一个LLM和RL的有机结合方案么?不能,也就仍然只能把LLM作为语义理解组件加入到机器人Agent中。(机器人公司:这就够了吧)大家期望的靠RL来优化LLM Agent仍然是没有的,死心吧。

颇为搞笑的是,这个报告的末尾,主讲人也吐槽了一下目前LLM Agent研究的烂现状。虽然我很认同,但这段感觉就是来砸场子的,特别是碰巧还放在了整个分会场的末尾。

A、结语

我个人很不喜欢用Agent这个词,因为它的概念已经完全混淆了,而且【在沟通中使用Agent这个词】跟【这个人对LLM应用认知的专业度】已经成负相关。

但从写文章,特别是拟标题的角度,我又不得不用,要不然大家更get不到我的意思。例如我去年年中使用“基于LLM的程序”这样的词,然后发现大家不知道我在说什么。

所以在与我沟通时请不要说Agent,请直接谈你要讨论的具体问题或者领域,“你才做AI Agent,你们全家都做AI Agent”。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询