微信扫码
添加专属顾问
我要投稿
请问哪家大模型能够更准确地转化下述问题:
“原告是安利股份的案件审理法院是哪家法院?”
为可被大模型执行的指令序列(Routine)?
公司简称:安利股份->上市公司基本信息;
公司名称:上市公司基本信息.公司名称->法律文书信息;
法律文书信息.过滤(原告等于上市公司基本信息.公司名称);
法院代字:法律文书信息.法院代字->法院地址代字信息;
法院名称:法院地址代字信息.法院名称;
评估结果见文尾
回答这类问题,可以用到“4-One Bench”,这是老于依托于在《第三届琶洲算法大赛-GLM法律行业大模型挑战赛道》中获得全国第11名的竞赛程序,构建并开源的一套大模型Routine Gen能力评估体系。
而老于开源的初衷就是希望通过开源以促进“编排型”Agent在企业的落地。
“编排型”Agent
微软和Salesforce之间的Agent之争最近开始升级:微软发布了10个Agents以硬刚Salesforce的Agentforce战略,而Salesforce CEO则直白地宣称微软的Agent“Just doesn't work”。
虽然两家公司正在开启“互喷”模式,但二者对Agent商业化方向的判定还是趋同的,都瞄准了“编排型”Agent。
Every organization will have a constellation of agents — ranging from simple prompt-and-response to fully autonomous. They will work on behalf of an individual, team or function to execute and orchestrate businesses process.
- Jared Spataro, Microsoft CMO
两家公司共同野心是在SaaS层打造一套类似于云计算(IaaS)和容器(PaaS)的编排体系,即“编排型”Agent。编排型Agent的终极目标是依据任务需求,自动编排和执行企业资产(包括系统、API、结构和非结构化数据、以及人等)以达成业务目标。
例如,在前几日的AI Tour上,微软便展示了相关案例:基于预设的Routine,麦肯锡EM Agent能够解析客户的邮件为销售机会,并调度CRM和HR系统以安排恰当的合伙人跟进该销售机会(图1):
图1:麦肯锡EM Agent,红色标识部分为对CRM和HR的调度
如果这两家公司的野心兑现,编排型Agent将有机会一统原本分散在单系统中由代码逻辑驱动、多系统间由工作流引擎驱动、以及当下还未被SaaS完全囊获,由人驱动的编排体系,并在SaaS市场攫取相当的战略优势(图2):
图2:编排型Agent有机会统一现有编排体系
但是,这两家公司尚未搞定编排型Agent的“胜负手”。
“胜负手”
编排型Agent的胜负手在于Routine Gen,即根据任务准确生成Routine的能力(图3):
图3: Routine Gen是编排型Agent的胜负手
而为了保证商业可靠性,微软和Salesforce的Routine Gen皆为手工编制,例如,在上述麦肯锡案例中,Routine就是由人工书写(图4):
图4:由人工书写的麦肯锡EM Agent Routine
以大模型当下的能力来看,手工编制不失为一种选择。但当微软和Salesforce得偿所愿,企业运转着百万,乃至数以亿计的Agents时,这些Routine的维护将成为企业的噩梦。因此,由大模型驱动的自动化Routine Gen是一种必然。
虽然OpenAI o1已经展露出些许自动化Routine Gen的潜质(详情参见我的文章《OpenAI o1正在重塑Agent?
为此,抛砖引玉,我开发了“4-One Bench”。
4-One Bench
4-One Bench是一套轻量级评估体系,定位于帮助用户快速评估大模型的Routine Gen能力,并鼓励用户结合自身商业实践定制评估内容。此外,用户亦可参照Bench中的编排自定义文法体系。
4-One Bench的架构采用Generator-Verifier模式,同时,该Bench具备如下特色(图5):
图5:4-One Bench 系统架构
首先,One-Query:4-One Bench模拟日常商业实践中常见的“一句话任务”场景,涉及单项或者多项企业资源的编排:
图6:满足One-Query需要编排单或多项企业资源
其次,One-Knowledge Graph:依据任务,一套描述资产关系的知识图谱指导大模型自动编排企业资产,同时,用户亦可结合自身商业实践定制知识图谱内容。
图7:描述API和商业实体的知识图谱
再次,One-Shot。考虑到实际商业环境中对Agent的响应速度和准确率要求,4-One Bench重点考察大模型一次性成功生成Routine概率。
最后,One-Syntax。一套自定义的文法(Syntax)主要的作用是将任务结构为指令,而指令又可被映射为函数以用于企业资产调用(图8):
图8:4-One Bench的自定义文法
我们用来源于《GLM法律行业大模型挑战赛》的51道问题评估了4家厂商(OpenAI、智谱、阿里云和字节)的8个大模型并形成了评估基线。通过评估,我们发现(图9):
当前表现最好的模型(gpt-4o)One-Shot的准确率有七成,如果我们利用Verifier将One-Shot架构转化为ReAct,凭借提示词Routine Gen的准确率有望达到90%+;
准确率超过60%的模型对知识图谱有较好的理解,而如果该指标低于50%,则不建议使用此类模型进行Routine Gen;
国产主力模型能力距gpt-4o不远(例如 glm-4-plus的准确率为~65%),市场上有望出现能够PK微软和Salesforce的纯国产的"编排型"Agent;
各个模型所犯错误较为近似,有进一步通过优化提示词工程提升准确率的空间。
图9:4-One Bench 测评结果
下述视频演示了如何使用4-One Bench测评glm-4-520的Routine Gen能力:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-01
阿里巴巴开源:AI框架,快速落地大模型应用
2025-04-01
开源Manus替代:智谱AutoGLM沉思来了
2025-04-01
Heygem - Heygen的开源平替产品
2025-04-01
挖到一个Deep Research和Manus的替代品,是新发布的开源项目,香
2025-04-01
字节跳动MegaTTS 3!0.45B超轻量语音克隆模型,中英文混合输出+口音控制黑科技
2025-04-01
开源 Remote MCP Server 一站式托管来啦!
2025-04-01
MCP的配置文件解析。不过讲真,配置文件仍然是MCP最失败的设计之一!
2025-04-01
47.3K star!这款开源RAG引擎真香!文档理解+精准检索+可视化干预,一站式搞定!
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-01
2025-03-31
2025-03-25
2025-03-25
2025-03-24
2025-03-22
2025-03-19
2025-03-17