我要投稿

四月及五一假期LLM+KG+RAG产研总结：开源的继续奔放与RAG等的转向

发布日期：2024-05-10 21:12:16 浏览次数： 2028 作者：老刘说NLP

今天是20224年5月10日，星期五，北京，天气雨，雨过后的晚霞很漂亮。

今天我们来回顾4月份大模型进展，昨日，老刘说NLP社区顺利完成第十八讲《老刘说NLP2024年4月份及五一LLM+KG+RAG产研总结:有趣的开源项目、技术观点及产品进展》，从大模型关联总结【开源、产品流量变化等】，RAG、KG、RAG以及文档图表理解、Agent几个方面进行了回顾。

本文择报告中的部分内容，供大家一起参考，如果每月形式的技术汇报感兴趣，欢迎加入社区，一起看看，共享每日早报、社区交流及每月线上分享等活动。

一、四月份大模型关键进展

4月份在开源侧，其实出现了多个关键事件，尤其是llama3的开源，后续延生出来的数十个llama3中文微调模型。

此外，在音乐生成方面，4月份也有一些动作，也出来了一些很有影响力的整理工作，此外，也有lecun一直以来对当前自回归模型的不同看法。

当然，在综述总结侧，四月份也涌现出了一些可以学习的综述性论文、开放课程等，涉及大模型自身理论与实践，多模态prompt等，这块有一些指引，

二、四月份RAG、Agent、KG等的一些有趣的话题

当前，RAG已经进入稳态，RAG与知识图谱相关的进展并不是很多，大多的工作还是集中在评估、方案集成的思想上，随着RAG的不断发展，对文档进行预处理的工作，也逐步受到关注，例如文档的版式分析、阅读顺序等。

当然，目前也延伸出来很多有趣的话题，比如RAG的长文本压缩、大模型到底理不理解图表，RAG中如何引入时间相关性、Agent的实现范式及角色定位、RAG中的文档处理具象化理解、RAG文档处理中的语义分割问题，RAG后续的演化方向、一些值得参加和关注的RAG竞赛等，可以有十多个有趣话题。

而特别的，对于Agent的进展，我们认为，其实际上是一种工程上的花活。

关于这块，早上看到一个很有意思的总结工作，来自https://mp.weixin.qq.com/s/kCXZN7Wli-RCvZXRb6mF7g，其对Agent的一些总结很到位，感兴趣的可以点击原文查看，会更有收获，图片及部分摘录如下：

1、Agent 的规划能力依赖于prompt 工程能力，它比想象中更重要、执行起来也更琐碎。

2、目前 LLM 的数学、逻辑推理能力在 COT 的基础上也仅能勉强达到及格水平，所以不要让Agent一次性做复杂的推理性规划工作，而是把复杂任务人工拆解后再教给Agent。

3、Agent 的 Action 能力强烈依赖于基座模型的 function calling 能力。在规划 Agent 之前，对模型的 function calling 能力要充分调研。