我要投稿

我的Agent拿了全国第十一！

发布日期：2024-08-15 09:24:14 浏览次数： 2306

作者：老油杂谈

微信搜一搜，关注“老油杂谈”

最近经常被读者问起：老于去哪了？

我，老于，一个自2015年MBA毕业后就从技术转为业务的BD，花了近六周的时间参与了由智谱牵头举办的黑客松：《第三届琶洲算法大赛-GLM法律行业大模型挑战赛道》。

经过艰苦的鏖战，老于最终从全国1388支参赛队伍中杀出，先以华北区第3名的成绩晋级复赛，再在强手如林的复赛中取得了全国第11名（B榜盲盒测试）的最终战绩。

虽未能PK过大厂（例如，腾讯）和名校（例如，清华），但老于的成绩也证明了，在大模型的依托下，普通人也可以在数周内构建不错的Agent。

关于比赛

本次比赛的主旨是在法律服务领域，基于智谱GLM-4大模型和相关业务API构建能回答法律问题的Agent，为法律人士提供专业的辅助咨询服务。

比赛涉及的法律问题或简或繁，简单问题只是查阅单表和数个字段，例如：

“广东鹏鼎律师事务所的电话邮箱地址分别是什么？”

而复杂问题则涉及跨多表查询、逻辑判断以及统计等操作，例如：

“(2020)吉0184民初5156号的被告是否为上市公司，如果是的话，他的股票代码和上市日期分别是？如果不是的话，统一社会信用代码是？该公司是否被限制高消费？如果是被限制高消费的涉案金额总额为？请保留一位小数点。”

从初赛到复赛，共四个轮次，每个轮次参赛队伍都要构建Agent以回答200道问题，最终正确率高者晋级。可以说整个比赛的设置非常接近于实战，且极富挑战性。

历经整个过程，对于如何构建更好的Agent，老于有八点心得。

八点心得

第一，API编排 vs Code/SQL生成。相较于Code/SQL的生成能力，企业客户会更看重Agent的API编排能力。在具备API资产的情况下，企业内和企业间的交流会更多地通过API，而非直写Code/SQL实现。而本次比赛的主要考量是Agent编排API回答自然语言问题的能力，也反映了大模型厂商对企业实际需求的理解。

图1：编排API回答自然语言问题

例如，在图1中，Agent需要能够编排并依次调用裁判文书信息、上市公司信息、企业工商注册信息和企业限高消费信息的API以回答较为复杂的问题。

第二，对Agent的要求是“又快又准”。比赛的盲盒测试要求Agent在1小时内回答200道问题，对Agent的运算速度和精度都有较高的要求。而这也与企业的实际场景契合，毕竟企业内绝大多数的信息检索场景相对简单（单表或有限多表/视图，有限的逻辑处理和统计需求），但对响应的速度和精度有近乎苛刻的要求。

第三，Plan ↑ Reflection↓。对速度和精度的高要求需要Agent能够在Plan阶段“一次搞定”，而非通过Reflection反复修正。为此，我们排除了Multi-Agents架构，而着重于保证Plan的准确性，并确保一旦Plan正确，Action必然正确（图2）：

图2: Agent的系统架构

为了达到上述目标，我们在架构中设计了两个环节：

Orchestration（编排），依据知识图谱，将自然语言问题编排为大模型友好的“指令序列”；
Question Rewrite（问题改写），“抹平”问题的缺陷，并依据知识图谱发现隐藏的实体关系。

最终，在所有正确回答的问题中，我们Agent的首轮正确率超过了90%。

第四，自然语言 -> API，NO！自然语言 -> 指令 -> API，YES！自然语言的复杂度和多样性降低了大模型Function Calling的精度，Agent需要将自然语言“格式化”为指令以提升API调用的准确性。例如，大模型可以将问题“广东鹏鼎律师事务所的电话邮箱地址分别是什么？”先转化为指令，再进行API调用（图3）：