微信扫码
与创始人交个朋友
我要投稿
为了能真实反映大模型在实际金融行业中的水平,给从业者做desk research或各类调研时,提供一个真实可信的参考。
1 评测集构成
项目 | 介绍 |
题目数量 | 90样本 45个独立题目,评测时每个模型采样2次,因此得到90样本的评测集 |
题目来源 | 来自于金融/行研的从业者贡献,比如券商投行分析师、咨询consultant、大厂战略分析师 |
题目示例 | 造车新势力今年一季度的销量、收入、净利润,按照顺序进行排序,用表格输出 |
在90样本的评测集上:
Perplexity.ai (Pro版本)的正确率显著高于其他模型,正确率达83%,置信区间为 [89%,73%]
第二梯队的模型为GPT-4o、Kimichat,正确率略微超过50%
第三梯队的模型为通义千问、文心一言4,正确率不足一半,在金融行研场景可用性较低
回答正确率 | 95%置信区间 | |
PPLX(Pro) | 83% | +6%/-10% |
GPT-4o | 57% | +10%/-10% |
Kimichat | 57% | +10%/-10% |
鹅厂元宝 | 50% | +10%/-10% |
通义千问 | 43% | +10%/-11% |
文心一言4 | 40% | +11%/-10% |
分为3个步骤,分别如下:
端到端获取模型回答:针对业内人士常用的6个模型,在PC端上获取回答,确保是端到端的效果评估
自动化评估:用GPT-4-1106-preview模型作为判分员,为每个题进行打分
专家人工校验:打完分以后,由human expert统一校验,修正不准的结果,最后统计summarize结论
结论建议
对于很多金融业强搜索场景,Perplexity.ai (Pro) 确实可以提高工作效率。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-15
蚂蚁集团的创新实践:agentUniverse 在泛金融场景的多智能体应用
2024-09-12
蚂蚁联手上财:揭开AI大模型在金融领域的神秘面纱 读书笔记 - 8
2024-09-02
大模型如何助力投研提效?7家头部金融机构“大模型+智能投研”实践
2024-08-23
AI 与大模型如何助力金融研发效能最大化?
2024-08-23
大模型在金融场景应用和工具综述
2024-08-21
大模型在银行信贷场景如何应用?5家银行“大模型+智慧信贷”实践
2024-08-15
交行专利:基于用户意图和多级匹配,更快更准地审核大模型敏感词
2024-08-15
AI大模型落地金融:如何应对五大挑战?
2024-04-16
2024-04-16
2024-04-30
2024-04-17
2024-07-04
2024-07-18
2024-07-18
2024-04-06
2024-04-08
2024-06-11
2024-08-23
2024-08-21
2024-08-15
2024-08-15
2024-07-29
2024-07-26
2024-07-25
2024-07-24