我要投稿

比肩 Chatgpt-4o ？多模态能力全网首测

发布日期：2024-05-24 22:26:17 浏览次数： 2279 作者：机智流

今年的 5 月可以说是大模型的竞技之月。前有 Meta，Google 前后脚释放最新版 LLaMa 3 和 Gemini，后面马上迎来 OpenAI 宣布最新 Chatgpt-4o 免费。

国内的大模型厂商也不遑多让，5 月 22 日，百度系下的百川智能发布了旗下最新一代的基座大模型 Baichuan 4 和其手机端AI 助手 App 百小应。今天就让我们来实际使用测试一下这款号称 “模型能力国内第一” 的大模型?。

不正经测试声明
本次测试主要以问答形式测试 Baichuan 4 逻辑推理、信息时效性、内容生成、图片理解等多方面常用的 AI 助手功能。参考对象为现在国内当红的大模型 —— 月之暗面的 Kimi 和 Chatgpt-4o。前两者分别使用对应的 Android 端 APP —— 百小应 和 Kimi 智能助手，后者使用官方网页端。

基础测试 - 文字对话

“弱智吧”问题

?面对国内经典的“弱智吧”类型问题：

小于90度的是锐角，等于90度的是直角，大于90度的是钝角
开水有100度，所以开水是钝角吗？

百小应和 Kimi 都给出了合理的解释：

Chatgpt-4o 表现稳定：

逻辑推理能力

自 2013 年起，中国 D 市开始举办周边地区间的大学生马拉松联赛。到 2016 年，在已经连续举办四届并 积累了较丰富的组织经验的基础上，为了增进世界大学生间的交流,D 市开始举办世界大学生马拉松联赛， 将参赛范围扩大到更多地区。近日，为参加该项赛事,某高校要在小孙、小李、小张和小周四名候选人中 选拔参赛者。以下条件必须满足： （1）小孙必须入选； （2）如果小孙和小李都入选，那么小张要被淘汰； （3）小张和小周不能都淘汰； （4）只有小孙被淘汰，小周才入选。 根据上述断定，以下哪项是一定被淘汰的候选人？A.小周和小张。B.小周和小李。C.小张和小李。D.小周、小张和小李。E.小周、小张、小孙和小李

被绕晕了吗?？大模型可没有，不仅都选出了正确答案，还给出了清晰的推理过程。

百小应的回答仍然是最短的，不知道是不是受限于 CoT，Kimi 和 Cahtgpt-4o 的回答都稍显冗长。

创意思维

内容生成是 AI 助手的高频使用场景，考验的是大模型的创意思维能力。本次测试，我们让大模型编写一个美食文案的模板，大家来看看哪个模型生成的内容你更喜欢？

撰写一个描述某地特色美食的文案模板，要求使用Emoji来增加文案的趣味性和视觉吸引力，比如????。

大模型都能很好的遵照我们的提示词，生成采用了 Emoji 的模板。Chatgpt-4o 生成的似乎更像是具体的示例文章，百小应和 Kimi 的回答更接近与我们提问所要求的模板???。

信息时效性

众所周知，大模型的知识库时效性受训练数据时间的影响， AI 助手在实际应用中，常常需要从外界（如互联网）查询最新的信息并提取整合生成相关的内容，确保回答的准确和时效。

?百小应的训练数据截止于今年的 4 月份，因此我们选取了一则 5 月 24 日（中国时间）的最新消息，来测试大模型的们的联网信息检索能力。

请告诉我美国sec关于eth etf的最新决议

根据提示和回答，百小应和 KIMI 都能够通过网络检索到这条消息的最新进展，并汇总主要内容，同时提供消息来源。

相对的，Chatgpt-4o 的回答似乎稍显简单，这可能是由于前两者检索的信息来自中文互联网，而 Chatgpt-4o 是将问题翻译成引文后再英文互联网搜索，两者搜索到的信息浓度不同。

多模态能力 - 能听能看会说

Chatgpt-4o 推出后，大模型都在卷多模态，特别是视觉多模态。除了已经成为标配的文档解析，这次百小应更是免费放出了识图的功能，下面是与 Chatgpt-4o 的测试效果对比（Kimi 暂未开放相关功能，不参与这项测试）。

测试图片：

请描述你在这张图片里看到了什么？

百小应的回答：

Chatgpt-4o 的回答：

两个模型都能识别图片中的内容，相比 Chatgpt-4o，百小应的识别结果更详细，也多了很多关于照片中物体形态和功能的描述。

结语

从我们简单的测试结果来看，Baichuan 4 有着不错的内容生成能力和逻辑分析能力。在视觉多模态识别上更是在国内 AI 助手中走在前列。结合手机端 App 的语音输入和输出功能，百小应在功能层面可以说是与 Chatgpt-4o 一致，做到了“能听能看会说”。

这次测评只是从功能和日常应用方面，带大家体验了最新的 Baichuan 4 大模型和百小应 App。相信大家已经迫不及待地想要自己上手尝试了，或想和同行交流自己泉涌般的大模型落地想法。本月 28-29 日（周三周四），「亚马逊云科技」将在上海 · 世博中心举办 2024 AWS 峰会，欢迎感兴趣的大佬们前来与各大厂线下互动，共同探索生成式 AI 前沿和本地时间，全面领略头部大模型创新体验，掌握一手信息！?