AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


金融问答:AI搜索评估榜单
发布日期:2024-06-06 06:57:41 浏览次数: 1739


评估背景

为了能真实反映大模型在实际金融行业中的水平,给从业者做desk research或各类调研时,提供一个真实可信的参考。


1 评测集构成

项目介绍
题目数量

90样本

45个独立题目,评测时每个模型采样2次,因此得到90样本的评测集

题目来源来自于金融/行研的从业者贡献,比如券商投行分析师、咨询consultant、大厂战略分析师
题目示例
造车新势力今年一季度的销量、收入、净利润,按照顺序进行排序,用表格输出


2 评估结论

在90样本的评测集上:

  • Perplexity.ai (Pro版本)的正确率显著高于其他模型,正确率达83%,置信区间为 [89%,73%]

  • 第二梯队的模型为GPT-4o、Kimichat,正确率略微超过50%

  • 第三梯队的模型为通义千问、文心一言4,正确率不足一半,在金融行研场景可用性较低




回答正确率
95%置信区间
PPLX(Pro)83%+6%/-10%
GPT-4o57%
+10%/-10%
Kimichat
57%
+10%/-10%
鹅厂元宝
50%+10%/-10%
通义千问
43%+10%/-11%
文心一言440%+11%/-10%


3 评估方法

分为3个步骤,分别如下:

  • 端到端获取模型回答:针对业内人士常用的6个模型,在PC端上获取回答,确保是端到端的效果评估

  • 自动化评估:用GPT-4-1106-preview模型作为判分员,为每个题进行打分

  • 专家人工校验:打完分以后,由human expert统一校验,修正不准的结果,最后统计summarize结论




结论建议

对于很多金融业强搜索场景,Perplexity.ai (Pro) 确实可以提高工作效率。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询