我要投稿

金融问答：AI搜索评估榜单

发布日期：2024-06-06 06:57:41 浏览次数： 2094 作者：一格评测

评估背景

为了能真实反映大模型在实际金融行业中的水平，给从业者做desk research或各类调研时，提供一个真实可信的参考。

1 评测集构成

项目	介绍
题目数量	90样本 45个独立题目，评测时每个模型采样2次，因此得到90样本的评测集
题目来源	来自于金融/行研的从业者贡献，比如券商投行分析师、咨询consultant、大厂战略分析师
题目示例	造车新势力今年一季度的销量、收入、净利润，按照顺序进行排序，用表格输出

2 评估结论

在90样本的评测集上：

Perplexity.ai （Pro版本）的正确率显著高于其他模型，正确率达83%，置信区间为 [89%,73%]
第二梯队的模型为GPT-4o、Kimichat，正确率略微超过50%
第三梯队的模型为通义千问、文心一言4，正确率不足一半，在金融行研场景可用性较低

	回答正确率	95%置信区间
PPLX（Pro）	83%	+6%/-10%
GPT-4o	57%	+10%/-10%
Kimichat	57%	+10%/-10%
鹅厂元宝	50%	+10%/-10%
通义千问	43%	+10%/-11%
文心一言4	40%	+11%/-10%

3 评估方法

分为3个步骤，分别如下：

端到端获取模型回答：针对业内人士常用的6个模型，在PC端上获取回答，确保是端到端的效果评估
自动化评估：用GPT-4-1106-preview模型作为判分员，为每个题进行打分
专家人工校验：打完分以后，由human expert统一校验，修正不准的结果，最后统计summarize结论

结论建议

对于很多金融业强搜索场景，Perplexity.ai (Pro) 确实可以提高工作效率。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-09

场景金融的"Manus"时刻

2025-04-03

万字详解：深度洞察金融业细分业务场景的AI应用

2025-03-24

剑有双锋—浅谈 LLM 在金融领域应用之风险与安全

2025-03-20

如何利用DeepSeek帮我做金融理财?

2025-03-10

摩根大通CEO戴蒙：落地450个AI应用靠什么？

2025-03-08

安徽某银行基于AI大模型技术在内部审计应用方案

2025-03-01

华泰金工 | 与时偕行：AI模型如何应对数据漂移

2025-02-28

【实用帖】金融从业人员如何高效使用DeepSeek来武装自己（这篇一定会大大提高你的工作效率）

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

关于人工智能在金融领域的应用研究

2024-07-18

AI 大模型在金融行业应用深度分析 2024

2024-04-30

AI Agent在金融领域的应用场景与落地案例

2024-07-10

国内外银行大模型应用对比：技术路线、落地场景以及23个国外典型案例

2024-11-26

2024 年过半，AI 大模型在各行业的落地实践走到哪了？

2024-07-04

FinGPT：12.3k 星星！金融领域的开源大模型来了！

2024-06-11

开源金融AI平台，帮你自动写研报、做分析

2024-06-20

9个“大模型+智能投顾”案例，洞察财富管理未来

2024-10-30

大模型在金融行业的应用场景和落地路径

2024-04-23

大模型在金融行业的应用场景

2024-03-29

大家都在问

如何利用DeepSeek帮我做金融理财?

2025-03-20

摩根大通CEO戴蒙：落地450个AI应用靠什么？

2025-03-10

智能金融文档处理：如何用Agentic工作流程重塑决策未来？

2025-01-04

AI 与大模型如何助力金融研发效能最大化？

2024-08-23

AI大模型落地金融：如何应对五大挑战？

2024-08-15

金融机构如何打造基于大模型的数字员工？

2024-07-10

2024 年过半，AI 大模型在各行业的落地实践走到哪了？

2024-07-04

2024 年过半，AI 大模型在各行业的落地实践走到哪了？

2024-06-29

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部