我要投稿

顶级AI拼不过3岁小朋友：拼图游戏挑战

发布日期：2024-07-31 06:55:09 浏览次数： 2327

作者：小思辩

微信搜一搜，关注“小思辩”

—

小朋友碾压顶尖AI

如果有一副4-6片的拼图，即使是3岁小朋友也可以轻易拼出来。现在我们看看顶尖的AI表现如何。

第一步：找到一幅图，最好不要常见的。我们甚至可以让模型自己生成一幅图。比如这一张：

第二步：把这幅图拆分成4-6块，然后打乱。这一步也可以让AI比如ChatGPT写代码帮忙完成。甚至直接叫它做。

第三步：新开一段对话，让AI把拆分后的图片拼成一副完整的图片。

Claude 3.5无法完成。

GPT-4o同样无法完成。

至于其他AI产品，还不具备处理多张图片的能力。

这还只是4片的拼图。一个3岁小朋友是可以15秒搞定的。

—

数据驱动，没有先验

多年前我看过一部电影，里面有一个最新研制的仿生机器人。他从外表到能力都是顶级水平，但唯一的缺陷是不会修小板凳。现在看来，目前顶级AI也有这种表现。

像Claude 3.5以及GPT-4o这样的顶尖视觉语言模型（VLM）在许多方面已经超越了人类。它们上知天文下知地理，文可写诗理可编程。然而，当面对一个只有几块拼图的简单任务时，它们却显得束手无策。

深度学习的核心在于它是一种经验主义的产物，依赖于大量数据和统计的拟合来进行学习和预测。这些模型通过训练海量数据，从中提取模式和规律，而非依靠先验知识来解决问题。虽然有一些研究尝试将贝叶斯方法引入深度学习（如Bayesian Deep Neural Networks），但这并不是主流的做法。即使使用贝叶斯方法，也无法完全替代先验知识在复杂推理任务中的作用。

这种数据驱动的方法在许多任务中表现出色。例如，在自然语言处理、图像生成和自动编程等领域，深度学习模型已经展示了令人惊叹的能力。通过不断优化模型架构和训练方法，研究人员不断提升这些模型的性能，使其在各种应用场景中取得突破。

值得注意的是，这些模型在某些容错性较高的任务中表现得尤为优异。例如，在绘画时，即使模型将人物的某些部分画偏了几厘米，整体效果也不会受到太大影响。类似地，在写诗时，即使要求对仗工整，也有多种不同的写法可以满足要求，这使得模型在生成诗歌时有较大的创作自由度。

然而，当面对需要严格准确性的任务时，它们的局限性也变得显而易见。通过这些例子，我们可以更清晰地理解，尽管深度学习模型在很多方面超越了人类，但在一些基础任务上，它们仍然需要进一步的改进和提升。

—

多模态模型还欠缺的能力

在前面我们讨论了深度学习模型的经验主义特质及其在某些任务上的卓越表现，但这些模型在解空间大且解很少的问题上表现出的局限性也是不容忽视的。

搜索空间大但解很少的问题

需要注意的是，这里提到的问题不同于国际象棋或扑克游戏。尽管这些游戏也有巨大的搜索空间，但每一步棋的价值是一个连续值，而不是离散的正确或错误结果。在国际象棋或扑克游戏中，只要你做出“更高价值”的动作，你就可以击败对手。对于拼图来说（如果我们不考虑一些特殊的拼图），只有一个正确答案。

当面对搜索空间巨大的问题时，大模型的表现往往差强人意。拼图游戏就是一个典型的例子。对于一个4片的拼图，随机排列（包括方向随机）的可能性有6144种。而6块拼图的可能性则高达2959210种。但正确结果只有一种。这意味着，即使使用穷举法，大模型在这些问题上的效率和准确性都非常低。

另一个例子是数论问题，这类问题有无限大的搜索空间，且正确答案稀少。穷举法在这种情况下是不可能实现的，这就突显了大模型在应对这类任务时的无力感。

空间推理

大模型在空间推理上的局限性也是一个显著问题。这一点图灵奖Yann Lecun也提了好几次。空间推理需要模型具备理解和操作物体在空间中的位置和关系的能力，这对于解决许多实际问题至关重要。在拼图游戏中，模型不仅需要考虑每块拼图的形状和颜色，还需要综合这些信息来完成整体的拼图任务。这就需要模型具备强大的大局观和局部推理能力。然而，目前的大模型在这方面的表现还远不如人类，甚至不如一个3岁的小朋友。

空间推理还包括物体间相对位置的判断、移动路径的规划等。大模型在这些任务上往往缺乏直观的理解，导致在处理涉及物理空间的问题时表现较差。这是因为当前的深度学习模型主要依赖于二维的数据表示，而对三维空间和动态变化的理解还非常有限。

层次概念推理

层次概念推理（例如本体论Ontology）指的是理解和运用不同层次概念之间关系的能力。在许多复杂任务中，人类能够利用层次化的概念体系，将信息组织得井井有条，从而更有效地进行推理和决策。

然而，大模型在这方面的能力依然有限。虽然它们可以通过大量数据学习到一些概念间的关联，但这种关联更多是基于数据的表面特征，而缺乏对深层次关系的理解。例如，在回答关于动植物分类的问题时，人类可以根据生物学上的分类体系进行推理，而大模型则可能仅依赖于训练数据中的模式，难以准确地处理层次化的概念关系。

这种缺乏层次概念推理能力的局限，使得大模型在处理复杂任务时，难以像人类那样灵活自如地运用知识体系，往往只能进行浅层次的模式匹配。

—

写在最后

尽管我们追求的是数据驱动的方法，但我们也要清醒地认识到，这条道路还很长。即使我们坚信知识即压缩，但在实用主义的指导下，为了让模型更有用，我们可以考虑在短期引入一些先验知识。例如，人类已经总结好的概念体系（如ontology）可以帮助模型更有效地完成任务。虽然这在某种程度上是通往终极目标的一种“绕道”，但在短期内，这种方法无疑是有效且实用的。

AI技术的发展就像一场接力赛，每一棒都承载着上一棒的经验和教训。我们需要不断探索和尝试，不仅要看到AI在某些方面的卓越表现，也要正视它在其他方面的局限。只有这样，才能推动技术的不断进步，让AI真正成为人类智能的有力补充和伙伴。

相比于一口吃成胖子直接通往通用人工智能（AGI），一个循序渐进的进步更为实际。我们可以先通过引入人类的后验知识来提升模型的效率和实用性，逐步从具体任务入手，不断优化和改进。随着时间的推移，我们可以逐步移除这些后验知识，使模型在抽象层次上变得更加智能和自主。这种从具体到抽象的逐步进化路径，虽然可能看似缓慢，但却更为稳健和现实。