我要投稿

GPT-4o只考了21分：AI视觉推理能力受到严重质疑

发布日期：2024-10-30 08:16:34 浏览次数： 2165

作者：AI每日资讯

微信搜一搜，关注“AI每日资讯”

德国达姆施塔特工业大学的一项新研究表明，即使是最先进的人工智能图像模型也无法完成简单的视觉推理任务。

研究人员使用邦加德问题（Bongard problems）测试了各种视觉语言模型（VLMs）——这些是大多数人类能够直观解决的简单视觉谜题。这些由俄罗斯科学家米哈伊尔·邦加德创建的谜题呈现了12个简单图像，这些图像被分为两组。挑战在于找出区分这些组别的规则，这项任务考验抽象推理能力。

比如其中的一个谜题是：下面左边一组与右边一组的区别是什么？

正确答案是：封闭曲线内外小点的聚集度，即左边封闭曲线内的小点的聚集度比价高，外面的小点聚集度低，右边刚好相反

就连GPT-4o也表现不佳

研究结果令人震惊：这些模型在处理大多数人认为简单的基本任务时都遇到了困难。

例如，它们难以区分垂直线和水平线，或确定螺旋的旋转方向。这些基本的视觉概念对于即使是最先进的人工智能模型来说也具有挑战性。

如下图所示，虽然人类可以轻松区分垂直和水平元素，但即使是像GPT-4o这样的先进VLM也无法完成这项基本任务。比如

GPT-4o目前被认为是最先进的多模态模型，但它只能解决100个视觉谜题中的21个。其他知名的人工智能模型，包括Claude、Gemini和LLaVA的表现甚至更差。

如下图所示,在分析旋转方向或空间关系等简单视觉概念时，视觉语言模型（VLMs）表现出不一致的结果。这些模型在解读螺旋形状和方向性方面特别困难,

比如下面的问题是“下面图像的旋转方向是什么?” 其中CW代表顺时针方向，CCW代表逆时针方向，我们可以看到没有一个模型全部回答正确：

当研究人员提供多项选择选项时，结果仅略有改善。只有当可能答案的数量被严格限制时，人工智能模型才显示出显著改善——在这些条件下，GPT-4和Claude分别解决了100个谜题中的68个和69个。

性能数据揭示了当前VLMs的明显局限性：即使是最好的模型GPT-4o也只能解决100个经典邦加德问题中的21个。只有在严格限制选择选项的情况下，成功率才会提高。

研究人员详细研究了四个选定问题中模型失败的原因。他们发现人工智能系统有时在达到实际的"思考"和"推理"阶段之前，就在基本的视觉感知层面上失败了。但他们找不到一个明确的单一原因。

重新思考人工智能评估基准

该研究引发了对人工智能系统评估的质疑，并表明现有的基准可能无法准确衡量模型的真实推理能力。研究团队建议重新思考这些基准，以更好地评估人工智能的视觉推理能力。

研究人员写道："我们的发现提出了几个关键问题：为什么VLMs在各种既定的VLM基准测试中表现出色的同时，却在看似简单的邦加德问题上遇到困难？这些基准在评估真实推理能力方面有多大意义？"

该研究由达姆施塔特工业大学与艾因霍温理工大学和德国人工智能研究中心（DFKI）合作进行，得到了德国联邦教育和研究部以及欧盟的资助。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-08

Coze、Dify、Ragflow等AI平台对比指南

2025-07-02

基于 Ollama 多模态引擎的 Qwen 2.5 VL 模型部署及其应用

2025-07-01

Dify落地知识库场景的小思考及多模态RAG结合图像信息的几种策略评估

2025-06-30

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架

2025-06-23

Dify v1.4.0中的Multi-Modal LLM Output：基本操作和原理

2025-06-19

搜索 ≠ 简单匹配！0代码实现语义级图文互搜

2025-06-11

AI提效99.5%！英国政府联手 Gemini，破解城市规划审批困局

2025-06-10

多模态 RAG VS 传统文本 RAG ，到底效果如何，从应用视角来测试下

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

深度体验 Lovart：这才是AI Design Agent！设计领域终于迎来了它们的「神」

2025-05-14

大模型赋能CAD图纸智能识别与集成实战指南

2025-04-27

3D 小白亲测：用 Trae + Blender MCP 从零开始 AI 建模（附踩坑指南）

2025-04-28

万字长文：OCR/多模态大模型评测体系全景

2025-05-16

ollama 大版本0.7 发布，新引擎支持多模态模型

2025-05-16

从BGE到 CLIP，从文本到多模态，Embedding 模型选型终极指南

2025-05-25

Veo 2正式登陆Google AI Studio了——实在太疯狂了！

2025-05-08

全球首款设计Agent，Lovart在海外大火，马斯克亲自点赞

2025-05-15

看见设计的未来：Lovart 全球首个设计 Agent 体验

2025-05-13

让Dify知识库“看懂”图片！一款MinerU 工作流解决方案

2025-05-12

大家都在问

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB