微信扫码
与创始人交个朋友
我要投稿
今年的 5 月可以说是大模型的竞技之月。前有 Meta,Google 前后脚释放最新版 LLaMa 3 和 Gemini,后面马上迎来 OpenAI 宣布最新 Chatgpt-4o 免费。
国内的大模型厂商也不遑多让,5 月 22 日,百度系下的百川智能发布了旗下最新一代的基座大模型 Baichuan 4 和其手机端AI 助手 App 百小应。今天就让我们来实际使用测试一下这款号称 “模型能力国内第一” 的大模型?。
不正经测试声明
本次测试主要以问答形式测试 Baichuan 4 逻辑推理、信息时效性、内容生成、图片理解等多方面常用的 AI 助手功能。参考对象为现在国内当红的大模型 —— 月之暗面 的 Kimi 和 Chatgpt-4o。前两者分别使用对应的 Android 端 APP —— 百小应 和 Kimi 智能助手,后者使用官方网页端。
?面对国内经典的“弱智吧”类型问题:
小于90度的是锐角,等于90度的是直角,大于90度的是钝角
开水有100度,所以开水是钝角吗?
百小应 和 Kimi 都给出了合理的解释:
Chatgpt-4o 表现稳定:
自 2013 年起,中国 D 市开始举办周边地区间的大学生马拉松联赛。到 2016 年,在已经连续举办四届并 积累了较丰富的组织经验的基础上,为了增进世界大学生间的交流,D 市开始举办世界大学生马拉松联赛, 将参赛范围扩大到更多地区。近日,为参加该项赛事,某高校要在小孙、小李、小张和小周四名候选人中 选拔参赛者。以下条件必须满足: (1)小孙必须入选; (2)如果小孙和小李都入选,那么小张要被淘汰; (3)小张和小周不能都淘汰; (4)只有小孙被淘汰,小周才入选。 根据上述断定,以下哪项是一定被淘汰的候选人?A.小周和小张。B.小周和小李。C.小张和小李。D.小周、小张和小李。E.小周、小张、小孙和小李
被绕晕了吗??大模型可没有,不仅都选出了正确答案,还给出了清晰的推理过程。
百小应的回答仍然是最短的,不知道是不是受限于 CoT,Kimi 和 Cahtgpt-4o 的回答都稍显冗长。
内容生成是 AI 助手的高频使用场景,考验的是大模型的创意思维能力。本次测试,我们让大模型编写一个美食文案的模板,大家来看看哪个模型生成的内容你更喜欢?
撰写一个描述某地特色美食的文案模板,要求使用Emoji来增加文案的趣味性和视觉吸引力,比如????。
大模型都能很好的遵照我们的提示词,生成采用了 Emoji 的模板。Chatgpt-4o 生成的似乎更像是具体的示例文章,百小应 和 Kimi 的回答更接近与我们提问所要求的模板???。
众所周知,大模型的知识库时效性受训练数据时间的影响, AI 助手在实际应用中,常常需要从外界(如互联网)查询最新的信息并提取整合生成相关的内容,确保回答的准确和时效。
?百小应的训练数据截止于今年的 4 月份,因此我们选取了一则 5 月 24 日(中国时间)的最新消息,来测试大模型的们的联网信息检索能力。
请告诉我美国sec关于eth etf的最新决议
根据提示和回答,百小应 和 KIMI 都能够通过网络检索到这条消息的最新进展,并汇总主要内容,同时提供消息来源。
相对的,Chatgpt-4o 的回答似乎稍显简单,这可能是由于前两者检索的信息来自中文互联网,而 Chatgpt-4o 是将问题翻译成引文后再英文互联网搜索,两者搜索到的信息浓度不同。
Chatgpt-4o 推出后,大模型都在卷多模态,特别是视觉多模态。除了已经成为标配的文档解析,这次百小应更是免费放出了识图的功能,下面是与 Chatgpt-4o 的测试效果对比(Kimi 暂未开放相关功能,不参与这项测试)。
测试图片:
请描述你在这张图片里看到了什么?
百小应 的回答:
Chatgpt-4o 的回答:
两个模型都能识别图片中的内容,相比 Chatgpt-4o,百小应 的识别结果更详细,也多了很多关于照片中物体形态和功能的描述。
从我们简单的测试结果来看,Baichuan 4 有着不错的内容生成能力和逻辑分析能力。在视觉多模态识别上更是在国内 AI 助手中走在前列。结合手机端 App 的语音输入和输出功能,百小应 在功能层面可以说是与 Chatgpt-4o 一致,做到了“能听能看会说”。
这次测评只是从功能和日常应用方面,带大家体验了最新的 Baichuan 4 大模型 和 百小应 App。相信大家已经迫不及待地想要自己上手尝试了,或想和同行交流自己泉涌般的大模型落地想法。本月 28-29 日(周三周四),「亚马逊云科技」将在上海 · 世博中心举办 2024 AWS 峰会,欢迎感兴趣的大佬们前来与各大厂线下互动,共同探索生成式 AI 前沿和本地时间,全面领略头部大模型创新体验,掌握一手信息!?
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-04-26
2024-08-13
2024-12-24
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20