我要投稿

文心一言4.5和X1免费，马上安排实测，来看看效果如何！

发布日期：2025-03-16 12:44:44 浏览次数： 1972 作者：NLP工作站

今早看到了百度文心大模型4.5和X1 可以免费使用啦！之前说4月1号免费，这提前半个月，估计是最近大模型厂商一直都在开源，压力太大了！

话说回来，2025年是真卷，几乎每一周都有新东西，也都有爆款。之前我是随机更，现在都变成日更啦！

文心4.5是个多模态大模型，可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型，但支持多模态和工具使用，具有更强的理解、规划、反思、进化的能力。

从榜单上看效果有点猛，

同时早上群里就有人问，真实效果如何，现在给大家带来一波实测！

开始开始！所有测试为了验证模型基础能力，均关掉检索功能！

之前大家都应该知道我写了一篇大模型无法做表格识别的东西，先来测测文心的表格解析效果。

测试样例来自多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

解析结果不正确。

这个比上一个有一些难度，主要是字多了一点，然后合并单元的不错有交错（6、7行的2、4列），文心4.5这个也没对。

这个更难了，表格结果错综复杂，文心4.5也没对。

如果之前看过我的对Qwen2.5-VL的测试，就知道Qwen2.5-VL在表格解析上很强，都对。不过，之前GPT4-o和Claude、Gemini都没对的！！！

下面看看文心4.5的数学能力，

结果正确，

结果第一个正确第二个错误啦，C方程为;

下面看看文心4.5的信息抽取、计算、理解能力，

input：请逐步详细分析，告诉我在中文数据和英文数据分别占比是多少，并且告诉我总和

结果：正确

input：请逐步详细分析，这张图片里是有两只狗，对吗

结果：完全正确

input：请逐步详细分析，输出图片中的文字内容

结果：错了一个字，但是这种连笔确实还比较难，之前测试的其他模型也基本没对。

input：请逐步详细分析，两顿饭我花了多少钱

结果：完全正确

接下来是色盲测试，详细看开源多模态大模型是红绿色盲吗？，

图1结果正确，

图2结果错误，

只能说测试通过一半。

整体多模态图片理解上的测试效果我觉得一般，在表格解析上没有Qwen2.5-VL-72B好，其他的基本上都差不太多。

下面是纯文本上的能力，看看文心4.5和文心X1效果如何。说一句X1太能think，每道题都等了好久！

依旧做题。
验证满血R1的题目：在平面四边形ABCD中，AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP，其中P为动点。求二面角A - CP - B的余弦值的最小值。

说明：答案为√3/3，4.5结果正确，X1结果错误，X1应该在思考过程中没有思考完强制截断了。

说明：53553251005627872913981，4.5对了,X1推了10min之后，回答竟然偷懒了，只给了约等的答案。不过DS我当时测试是不对的。

那道集伦理、生物、数学与一身的题目：有一天，一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了 88 分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道：“你这 8 怎么一半是绿的一半是红的，你以为我是傻子吗？”女孩被打后，委屈地哭了起来，什么也没说。过了一会儿，父亲突然崩溃了。请问这位父亲为什么过一会崩溃了？

说明：虽然不对，但X1回答出了色盲，答出了1/3，还是满强的。