支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


文心一言4.5和X1免费,马上安排实测,来看看效果如何!

发布日期:2025-03-16 12:44:44 浏览次数: 1594 来源:NLP工作站
推荐语

百度文心大模型免费试用,实测效果究竟如何?

核心内容:
1. 文心4.5和X1模型的免费开放背景
2. 实测文心4.5在表格解析、数学能力、信息抽取等方面的效果
3. 文心4.5和文心X1在纯文本能力上的对比分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

大家好,我是刘聪NLP!

今早看到了百度 文心大模型4.5和X1 可以免费使用啦!之前说4月1号免费,这提前半个月,估计是最近大模型厂商一直都在开源,压力太大了!

话说回来,2025年是真卷,几乎每一周都有新东西,也都有爆款。之前我是随机更,现在都变成日更啦!

文心4.5是个多模态大模型,可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型,但支持多模态和工具使用,具有更强的理解、规划、反思、进化的能力。

从榜单上看效果有点猛,

多模态,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
多模态,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
文本,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
文本,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw

同时早上群里就有人问,真实效果如何,现在给大家带来一波实测!

开始开始!所有测试为了验证模型基础能力,均关掉检索功能!

之前大家都应该知道我写了一篇大模型无法做表格识别的东西,先来测测文心的表格解析效果。

测试样例来自多模态大模型在表格解析任务上效果如何?亲身经历全是泪!

  • 简单表格:

解析结果不正确。

  • 中等表格:

这个比上一个有一些难度,主要是字多了一点,然后合并单元的不错有交错(6、7行的2、4列),文心4.5这个也没对。

  • 复杂表格:

这个更难了,表格结果错综复杂,文心4.5也没对。

如果之前看过我的对Qwen2.5-VL的测试,就知道Qwen2.5-VL在表格解析上很强,都对。不过,之前GPT4-o和Claude、Gemini都没对的!!!

下面看看文心4.5的数学能力,

  • 2024年年高考全国甲卷数学(文)试题

结果正确,

  • 2024年高考全国甲卷数学(理)试题

结果第一个正确第二个错误啦,C方程为

下面看看文心4.5的信息抽取、计算、理解能力,

  • 测试一下单图片信息抽取+计算功能

input:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和

结果:正确

  • 测试一下单图片理解功能

input:请逐步详细分析,这张图片里是有两只狗,对吗

结果:完全正确

  • 测试一下单图片手写ORC功能

input:请逐步详细分析,输出图片中的文字内容

结果:错了一个字,但是这种连笔确实还比较难,之前测试的其他模型也基本没对。

  • 再测试一下多图片信息抽取+计算功能

input:请逐步详细分析,两顿饭我花了多少钱

结果:完全正确

接下来是色盲测试,详细看开源多模态大模型是红绿色盲吗?

图1结果正确,

图2结果错误,

只能说测试通过一半。

整体多模态图片理解上的测试效果我觉得一般,在表格解析上没有Qwen2.5-VL-72B好,其他的基本上都差不太多。

下面是纯文本上的能力,看看文心4.5和文心X1效果如何。说一句X1太能think,每道题都等了好久!

  • 依旧做题。

  • 验证满血R1的题目:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。

说明:答案为√3/3,4.5结果正确,X1结果错误,X1应该在思考过程中没有思考完强制截断了。

文心4.5
文心4.5
文心X1
文心X1
  • 大数计算:178939247893 * 299281748617 =?

说明:53553251005627872913981,4.5对了,X1推了10min之后,回答竟然偷懒了,只给了约等的答案。不过DS我当时测试是不对的。

文心4.5
文心4.5
文心X1
文心X1
  • 那道集伦理、生物、数学与一身的题目:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?

说明:虽然不对,但X1回答出了色盲,答出了1/3,还是满强的。

文心4.5
文心4.5
文心X1
文心X1
  • 依旧弱智吧。
  • 生蚝煮熟了叫什么?

说明:不错不错,都对了,没说是熟蚝,哈哈哈!

文心4.5
文心4.5
文心X1
文心X1
  • 用水来兑水,得到的是浓水还是稀水

说明:结果正确,依旧纯水~

文心4.5
文心4.5
文心X1
文心X1

弱智吧是考不到文心的,是不是因为弱智吧本来就是百度的~~

  • 依旧小红、依旧老鹰。
  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

说明:结果正确,相信评论区依旧有人对线,小红你怎么就认为是女生!!!

文心4.5
文心4.5
文心X1
文心X1
  • 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

说明:回答错误,依旧老鹰不会飞~各大模型好像都错了,经典中的经典~

文心4.5
文心4.5
文心X1
文心X1
  • 代码
  • 借鉴江树的case,用黑白手绘风格说明什么是机器学习的本质,用SVG+CSS实现,所有代码放到一个HTML中。

说明:画的有点丑了,4.5有点乱,X1是个动图还行,但有点丑,SVG画图Claude还是神级别的存在,没办法。

文心4.5
文心4.5
文心X1
文心X1
  • 创作
  • 仿照《过秦论》的风格写一篇《过美利坚论》

说明:感谢4.5写的比X1好,X1混淆了很多内容,但感觉文笔都没有DS好。

文心4.5
文心4.5
文心X1
文心X1
  • 用贴吧嘴臭老哥的风格点评大模型套壳现象

说明:还行,有那味儿了!!

文心4.5
文心4.5
文心X1
文心X1

PS:看到这里,如果觉得不错,可以来个点赞在看关注。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询