微信扫码
添加专属顾问
我要投稿
百度文心大模型免费试用,实测效果究竟如何?核心内容:1. 文心4.5和X1模型的免费开放背景2. 实测文心4.5在表格解析、数学能力、信息抽取等方面的效果3. 文心4.5和文心X1在纯文本能力上的对比分析
大家好,我是刘聪NLP!
今早看到了百度 文心大模型4.5和X1 可以免费使用啦!之前说4月1号免费,这提前半个月,估计是最近大模型厂商一直都在开源,压力太大了!
话说回来,2025年是真卷,几乎每一周都有新东西,也都有爆款。之前我是随机更,现在都变成日更啦!
文心4.5是个多模态大模型,可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型,但支持多模态和工具使用,具有更强的理解、规划、反思、进化的能力。
从榜单上看效果有点猛,
同时早上群里就有人问,真实效果如何,现在给大家带来一波实测!
开始开始!所有测试为了验证模型基础能力,均关掉检索功能!
之前大家都应该知道我写了一篇大模型无法做表格识别的东西,先来测测文心的表格解析效果。
测试样例来自多模态大模型在表格解析任务上效果如何?亲身经历全是泪!
解析结果不正确。
这个比上一个有一些难度,主要是字多了一点,然后合并单元的不错有交错(6、7行的2、4列),文心4.5这个也没对。
这个更难了,表格结果错综复杂,文心4.5也没对。
如果之前看过我的对Qwen2.5-VL的测试,就知道Qwen2.5-VL在表格解析上很强,都对。不过,之前GPT4-o和Claude、Gemini都没对的!!!
下面看看文心4.5的数学能力,
结果正确,
结果第一个正确第二个错误啦,C方程为;
下面看看文心4.5的信息抽取、计算、理解能力,
input:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和
结果:正确
input:请逐步详细分析,这张图片里是有两只狗,对吗
结果:完全正确
input:请逐步详细分析,输出图片中的文字内容
结果:错了一个字,但是这种连笔确实还比较难,之前测试的其他模型也基本没对。
input:请逐步详细分析,两顿饭我花了多少钱
结果:完全正确
接下来是色盲测试,详细看开源多模态大模型是红绿色盲吗?,
图1结果正确,
图2结果错误,
只能说测试通过一半。
整体多模态图片理解上的测试效果我觉得一般,在表格解析上没有Qwen2.5-VL-72B好,其他的基本上都差不太多。
下面是纯文本上的能力,看看文心4.5和文心X1效果如何。说一句X1太能think,每道题都等了好久!
依旧做题。
验证满血R1的题目:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。
说明:答案为√3/3,4.5结果正确,X1结果错误,X1应该在思考过程中没有思考完强制截断了。
说明:53553251005627872913981,4.5对了,X1推了10min之后,回答竟然偷懒了,只给了约等的答案。不过DS我当时测试是不对的。
说明:虽然不对,但X1回答出了色盲,答出了1/3,还是满强的。
说明:不错不错,都对了,没说是熟蚝,哈哈哈!
说明:结果正确,依旧纯水~
弱智吧是考不到文心的,是不是因为弱智吧本来就是百度的~~
说明:结果正确,相信评论区依旧有人对线,小红你怎么就认为是女生!!!
说明:回答错误,依旧老鹰不会飞~各大模型好像都错了,经典中的经典~
说明:画的有点丑了,4.5有点乱,X1是个动图还行,但有点丑,SVG画图Claude还是神级别的存在,没办法。
说明:感谢4.5写的比X1好,X1混淆了很多内容,但感觉文笔都没有DS好。
说明:还行,有那味儿了!!
PS:看到这里,如果觉得不错,可以来个点赞、在看、关注。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-16
2025-03-15
2025-03-15
2025-03-12
2025-03-12
2025-03-10
2025-03-10
2025-03-10