微信扫码
与创始人交个朋友
我要投稿
德国达姆施塔特工业大学的一项新研究表明,即使是最先进的人工智能图像模型也无法完成简单的视觉推理任务。
研究人员使用邦加德问题(Bongard problems)测试了各种视觉语言模型(VLMs)——这些是大多数人类能够直观解决的简单视觉谜题。这些由俄罗斯科学家米哈伊尔·邦加德创建的谜题呈现了12个简单图像,这些图像被分为两组。挑战在于找出区分这些组别的规则,这项任务考验抽象推理能力。
比如其中的一个谜题是:下面左边一组与右边一组的区别是什么?
正确答案是:封闭曲线内外小点的聚集度,即左边封闭曲线内的小点的聚集度比价高,外面的小点聚集度低,右边刚好相反
就连GPT-4o也表现不佳
研究结果令人震惊:这些模型在处理大多数人认为简单的基本任务时都遇到了困难。
例如,它们难以区分垂直线和水平线,或确定螺旋的旋转方向。这些基本的视觉概念对于即使是最先进的人工智能模型来说也具有挑战性。
如下图所示,虽然人类可以轻松区分垂直和水平元素,但即使是像GPT-4o这样的先进VLM也无法完成这项基本任务。比如
GPT-4o目前被认为是最先进的多模态模型,但它只能解决100个视觉谜题中的21个。其他知名的人工智能模型,包括Claude、Gemini和LLaVA的表现甚至更差。
如下图所示,在分析旋转方向或空间关系等简单视觉概念时,视觉语言模型(VLMs)表现出不一致的结果。这些模型在解读螺旋形状和方向性方面特别困难,
比如下面的问题是“下面图像的旋转方向是什么?” 其中CW代表顺时针方向,CCW代表逆时针方向,我们可以看到没有一个模型全部回答正确:
当研究人员提供多项选择选项时,结果仅略有改善。只有当可能答案的数量被严格限制时,人工智能模型才显示出显著改善——在这些条件下,GPT-4和Claude分别解决了100个谜题中的68个和69个。
性能数据揭示了当前VLMs的明显局限性:即使是最好的模型GPT-4o也只能解决100个经典邦加德问题中的21个。只有在严格限制选择选项的情况下,成功率才会提高。
研究人员详细研究了四个选定问题中模型失败的原因。他们发现人工智能系统有时在达到实际的"思考"和"推理"阶段之前,就在基本的视觉感知层面上失败了。但他们找不到一个明确的单一原因。
重新思考人工智能评估基准
该研究引发了对人工智能系统评估的质疑,并表明现有的基准可能无法准确衡量模型的真实推理能力。研究团队建议重新思考这些基准,以更好地评估人工智能的视觉推理能力。
研究人员写道:"我们的发现提出了几个关键问题:为什么VLMs在各种既定的VLM基准测试中表现出色的同时,却在看似简单的邦加德问题上遇到困难?这些基准在评估真实推理能力方面有多大意义?"
该研究由达姆施塔特工业大学与艾因霍温理工大学和德国人工智能研究中心(DFKI)合作进行,得到了德国联邦教育和研究部以及欧盟的资助。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-07-21
2024-06-14
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29