微信扫码
与创始人交个朋友
我要投稿
为了能真实反映大模型在实际金融行业中的水平,给从业者做desk research或各类调研时,提供一个真实可信的参考。
1 评测集构成
项目 | 介绍 |
题目数量 | 90样本 45个独立题目,评测时每个模型采样2次,因此得到90样本的评测集 |
题目来源 | 来自于金融/行研的从业者贡献,比如券商投行分析师、咨询consultant、大厂战略分析师 |
题目示例 | 造车新势力今年一季度的销量、收入、净利润,按照顺序进行排序,用表格输出 |
在90样本的评测集上:
Perplexity.ai (Pro版本)的正确率显著高于其他模型,正确率达83%,置信区间为 [89%,73%]
第二梯队的模型为GPT-4o、Kimichat,正确率略微超过50%
第三梯队的模型为通义千问、文心一言4,正确率不足一半,在金融行研场景可用性较低
回答正确率 | 95%置信区间 | |
PPLX(Pro) | 83% | +6%/-10% |
GPT-4o | 57% | +10%/-10% |
Kimichat | 57% | +10%/-10% |
鹅厂元宝 | 50% | +10%/-10% |
通义千问 | 43% | +10%/-11% |
文心一言4 | 40% | +11%/-10% |
分为3个步骤,分别如下:
端到端获取模型回答:针对业内人士常用的6个模型,在PC端上获取回答,确保是端到端的效果评估
自动化评估:用GPT-4-1106-preview模型作为判分员,为每个题进行打分
专家人工校验:打完分以后,由human expert统一校验,修正不准的结果,最后统计summarize结论
结论建议
对于很多金融业强搜索场景,Perplexity.ai (Pro) 确实可以提高工作效率。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-04-30
2024-07-18
2024-07-04
2024-07-10
2024-06-11
2024-06-20
2024-03-29
2024-07-04
2024-06-29
2024-07-10