微信扫码
与创始人交个朋友
我要投稿
为了能真实反映大模型在实际金融行业中的水平,给从业者做desk research或各类调研时,提供一个真实可信的参考。
1 评测集构成
项目 | 介绍 |
题目数量 | 90样本 45个独立题目,评测时每个模型采样2次,因此得到90样本的评测集 |
题目来源 | 来自于金融/行研的从业者贡献,比如券商投行分析师、咨询consultant、大厂战略分析师 |
题目示例 | 造车新势力今年一季度的销量、收入、净利润,按照顺序进行排序,用表格输出 |
在90样本的评测集上:
Perplexity.ai (Pro版本)的正确率显著高于其他模型,正确率达83%,置信区间为 [89%,73%]
第二梯队的模型为GPT-4o、Kimichat,正确率略微超过50%
第三梯队的模型为通义千问、文心一言4,正确率不足一半,在金融行研场景可用性较低
回答正确率 | 95%置信区间 | |
PPLX(Pro) | 83% | +6%/-10% |
GPT-4o | 57% | +10%/-10% |
Kimichat | 57% | +10%/-10% |
鹅厂元宝 | 50% | +10%/-10% |
通义千问 | 43% | +10%/-11% |
文心一言4 | 40% | +11%/-10% |
分为3个步骤,分别如下:
端到端获取模型回答:针对业内人士常用的6个模型,在PC端上获取回答,确保是端到端的效果评估
自动化评估:用GPT-4-1106-preview模型作为判分员,为每个题进行打分
专家人工校验:打完分以后,由human expert统一校验,修正不准的结果,最后统计summarize结论
结论建议
对于很多金融业强搜索场景,Perplexity.ai (Pro) 确实可以提高工作效率。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-23
AI+金融:AI知识检索Hebbia
2025-01-16
朝阳永续 FastGPT 最佳实践:AI 赋能金融数据服务的完美选择
2025-01-15
解锁 LangGraph和OpenAI,打造金融分析智能体
2025-01-04
智能金融文档处理:如何用Agentic工作流程重塑决策未来?
2024-12-28
刘曙峰|金融行业大模型应用观察
2024-12-26
AIGC技术实战 | AI智能问答与财富管理业务结合实践探索
2024-12-25
AI战略丨大模型时代,基金投顾AI应用探索
2024-12-25
招商银行发力“AI+金融”,从平台型组织向数据驱动组织转型
2024-04-30
2024-07-18
2024-07-10
2024-07-04
2024-11-26
2024-06-11
2024-06-20
2024-03-29
2024-07-04
2024-05-06