论文标题:OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI论文链接:https://arxiv.org/pdf/2406.12753 项目链接:https://gair-nlp.github.io/OlympicArena/
为了全面评估当前模型在认知推理能力方面的表现,论文引入了OlympicArena,这是一个包含11,163个双语文本问题的基准,涵盖纯文本和交错文本-图像模态。这些挑战跨越七个领域和62个国际奥林匹克竞赛,严格审查以防止数据泄露。论文认为,奥林匹克竞赛问题的挑战非常适合评估AI的认知推理,因为其复杂性和跨学科性质对于解决复杂的科学挑战和促进发现至关重要。除了使用仅答案标准评估跨不同学科的性能外,论文还从多个角度进行了详细的实验和分析。论文深入探讨了模型的认知推理能力,它们在不同模态下的表现,以及它们在过程级评估中的结果,这对于需要复杂推理和长解决方案的任务至关重要。论文的广泛评估显示,即使是先进的模型如GPT-4o也仅达到39.97%的整体准确率(数学为28.67%,物理为29.71%),这表明当前AI在复杂推理和多模态整合方面的局限性。通过OlympicArena,论文旨在推动AI向超智能发展,使其能够应对科学及其他领域中更复杂的挑战。论文还提供了一套全面的资源来支持AI研究,包括基准数据集、开源标注平台、详细的评估工具和一个具有自动提交功能的排行榜。 现有的基准测试利用跨学科考试题目来评估大型语言模型(LLMs)的问题解决技能,但这些题目主要侧重于知识密集型,对于当前的LLMs来说已相对容易。此外,这些基准主要关注纯文本模式。尽管一些基准开始针对大学水平的题目并融入多模态评估,它们仍然主要集中在知识密集型任务或简单的概念应用上(如表1所示)。与论文的工作同时进行的是,He等人[17]引入了一个奥林匹克级别的基准,但它仅限于数学和物理领域。
此外,上述所有基准都缺乏对各种认知推理能力的系统性和细致评估。例如,它们大多仅基于答案进行评估,忽略了推理过程中潜在的错误。这强调了需要更全面的评估,不仅要涵盖更广泛的学科,还要关注更高层次的认知推理以及细致的评估。
论文介绍了OlympicArena,这是一个全面、极具挑战性且严格筛选的基准测试,具有详细、细粒度的评估机制,旨在广泛评估奥林匹克级别挑战中的高级AI能力(如图2所示)。论文广泛挑选、收集并处理了来自七个学科——数学、物理、化学、生物、地理、天文学和计算机科学——涵盖62个不同奥林匹克级别竞赛的问题。这一广泛收集最终形成了一个包含11,163个问题的基准,分为13种答案类型(例如,表达式、区间)。重要的是,OlympicArena通过引入过程级评估,严格审查AI模型的逐步推理过程,增强了其评估框架。这种方法对于理解超越正确答案的认知推理深度至关重要[29, 53],使论文能够识别并修正AI推理路径中的缺口,确保更强大的AI能力。该基准是双语的,同时包含英语和中文,以提高其可访问性和全球适用性。此外,它支持两种模式:纯文本和交错文本与图像,以适应现代AI系统必须处理的日益复杂的任务。论文还对一些主流模型进行了数据泄露检测实验[54],以验证论文基准的有效性。 论文在现有的顶级表现的大型多模态模型(LMMs)上进行了一系列实验,涵盖了专有模型(例如,GPT-4o [36])和开源模型(例如,LLaVa-NeXT [31])。此外,论文在两种设置下评估了各种类型的语言模型(例如,GPT-3.5):纯文本和图文结合,并从答案级别和过程级别两个角度进行了全面的评估。对于答案级别的评估,论文结合了基于规则和基于模型的方法(本文中使用GPT-4V3)来覆盖更多样化的答案类型。对于过程级别的评估,论文对模型输出的每个推理步骤进行评分,这在推理场景中论文认为非常关键。此外,论文还对不同类型的认知推理进行了细致的评估和分析,从逻辑和视觉两个角度来更好地解释当前AI的能力。论文介绍了OlympicArena,这是一个奥林匹克级别的跨学科基准,旨在严格评估LLMs和LMMs的认知推理能力。论文的基准结合了仅文本和交错文本-图像模式,以双语呈现,以促进可访问性和包容性。它涵盖了七个核心学科:数学、物理、化学、生物、地理、天文学和计算机科学,共包含34个专业分支(详细信息见附录A 1\,其中涉及近期基本科学领域的实验)。包含了一个全面的11,163个问题集合,来自62个不同的奥林匹克竞赛,结构化地设置了13种答案类型,从客观题型(如多项选择和填空)到主观题型(如简答题和编程任务),这使其与许多主要关注客观问题的其他基准测试有所区别。OlympicArena的详细统计数据描述在表2中。 此外,为了对模型性能进行细致分析,论文将认知推理分为8种类型的逻辑推理能力和5种类型的视觉推理能力。这种全面的分类有助于详细评估LLMs和LMMs能够展示的各种复杂推理技能。此外,论文特别研究了所有多模态问题,以比较LMMs与其基于文本的对应物的表现,旨在更好地评估LMMs处理视觉信息的能力。最后,论文评估推理过程的正确性和效率,不仅仅局限于基于答案的评价。为了确保涵盖各个学科的奥林匹克级别问题的全面性,论文首先收集了各种竞赛的URL,这些竞赛中的问题以PDF格式公开提供下载。然后,论文使用Mathpix工具将这些PDF文档转换为markdown格式,使其与模型的输入要求兼容。具体来说,对于计算机科学的编程问题,论文还额外收集了相应的测试用例。论文严格遵守版权和许可考虑,确保符合所有相关法规。问题提取与标注。为了从测试试卷的Markdown格式中提取单个问题,论文聘请了约30名具有理工科背景的学生。论文开发了一个用于标注多模态数据的用户界面,并已发布。为了便于进一步研究和模型的过程级评估,论文标注了如提供的解决方案等元信息。为确保数据质量,论文在初步标注完成后实施了多步骤验证流程。收集所有问题后,论文根据模型嵌入在每个竞赛内部进行去重,以移除可能在同一年份的多个测试试卷中出现的重复问题。为进一步证明论文的基准更强调认知推理,而非大多数其他基准,论文将问题的难度分为三个级别,并与相关基准进行比较。具体地,论文将所有问题分为:知识回忆、概念应用和认知推理。论文使用GPT-4V作为标注者来分类不同难度级别的问题 认知推理能力的标注。为了促进更细致的分析,论文从逻辑和视觉两个角度对认知推理能力进行分类[16, 43]。逻辑推理能力包括演绎推理(DED)、归纳推理(IND)、溯因推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。同时,视觉推理能力包括模式识别(PR)、空间推理(SPA)、图表推理(DIA)、符号解释(SYB)和比较可视化(COM)。论文还使用GPT-4V作为标注者来分类不同的认知能力(详细定义和具体提示可在附录B.3中找到)。通过这些标注,论文可以对当前AI的认知推理能力进行更细致的分析。论文的基准包含11,163个问题,其中548个被指定用于模型评估,称为OlympicArena-ot。论文跨学科抽样638个问题来创建OlympicArena-val,用于超参数调整或小规模测试。OlympicArena-val问题具有逐步解决方案,支持如过程级评估等研究。剩余的问题构成了OlympicArena-test,即官方测试集,其答案未公开,用于正式测试。本文中的结果基于整个基准数据集,包括OlympicArena-ot、OlympicArena-val和OlympicArena-test。为了全面评估LLMs和LMMs在不同模态下的能力,论文设计了包括三种不同设置的实验:多模态、图像-标题和仅文本。在多模态设置中,论文评估LMMs利用视觉信息的能力,通过交错文本和图像,模拟真实世界场景。对于无法处理交错输入的模型,论文将多张图像合并为一个输入。对于需要必要图像输入的LMMs,它们的基于文本的对应物处理仅文本问题。在图像-标题设置中,论文探讨图像的文本描述是否能增强LLMs的问题解决能力。使用InternVL-Chat-V1.58 [12],论文根据提示为所有图像生成标题。这些标题取代了原始的图像输入。在仅文本设置中,论文评估LLMs在没有视觉信息的情况下的表现,作为与多模态和图像-标题设置比较的基线。所有实验使用零样本提示,针对每种答案类型定制,并指定输出格式以促进答案提取和基于规则的匹配。这也最小化了与少量学习相关的典型偏差。 答案级评估 论文结合基于规则和基于模型的方法来覆盖多样化的评估问题。对于有固定答案的问题,论文提取最终答案并根据答案类型进行基于规则的匹配。对于代码生成任务,论文使用无偏的pass@k指标[10]来测试所有测试用例。对于答案类型被归类为“其他”的问题,这些问题的答案难以通过基于规则的匹配进行评估(例如,化学方程式书写问题),论文采用GPT-4V作为评估者来评价响应。为了确保GPT-4V作为评估者的可靠性,论文手动抽样并检查其正确性。过程级评估 为了进一步探究推理步骤的正确性,确保对模型认知能力进行严格的评估,论文进行了过程级评估。论文从OlympicArena中抽样了96个带有参考解决方案的问题。论文使用GPT-4将参考解决方案(即黄金解决方案)和模型生成的解决方案转换为结构化的逐步格式。然后,论文将这些解决方案提供给GPT-4V,并对每一步的正确性进行评分,评分范围从0到1。为了验证与人类判断的一致性,论文获取了一些样本进行人类标注。结果表明,论文的基于模型的评估方法非常准确,注释者间一致性达到83%。表3展示了各种LMMs和LLMs在OlympicArena上的评估结果。论文观察到以下几点:(1) 即使是目前最先进的大型模型,GPT-4o,也仅达到39.97%的整体准确率,而其他开源模型难以达到20%的整体准确率。这种鲜明的对比突显了论文基准的显著难度和严格性,证明了其在推动当前AI能力边界方面的有效性。
(2) 此外,与生物学和地理学等学科相比,论文观察到数学和物理学仍然是两个最具挑战性的学科,可能是因为它们依赖于复杂的推理能力。
(3)计算机编程竞赛也证明是非常困难的,一些开源模型未能解决任何问题,表明当前模型在设计有效算法以解决复杂问题方面的能力较差。
表3:OlympicArena上的实验结果,以百分比表示,每个设置中得分最高的用下划线表示,所有设置中得分最高的用粗体表示。论文使用pass@k指标(公式1)来评估CS问题。在计算整体准确率时,对于代码生成问题,如果为某个问题生成的任何代码通过了所有测试用例,则该问题被视为正确 为了对实验结果进行更细致的分析,论文基于不同的模态和推理能力进行了进一步的评估。此外,论文还对过程级别的评估进行了分析。主要发现如下:模型在不同的逻辑和视觉推理能力上表现出不同的性能。如图3所示,几乎所有模型在不同的逻辑推理能力上都显示出相似的性能趋势。它们在假设推理和因果推理方面表现出色,能够很好地从提供的信息中识别因果关系。相反,模型在归纳推理和分解推理方面表现不佳。这是由于奥运会级别问题的多样性和非常规性,需要将复杂问题分解为更小的子问题的能力。在视觉推理能力方面,模型在模式识别和比较可视化方面表现较好。然而,它们在涉及空间和几何推理以及需要理解抽象符号的任务中遇到困难。完整的结果见附录D.1。 大多数LMIMs在利用视觉信息方面仍然不够熟练。如图4a所示,只有少数LMMs(如GPT-4o和Qwen-VL-Chat)在有图像输入的情况下相比其基于文本的对应模型显示出显著的改进。许多LMMs并未显示出性能的提升。图3:不同模型在逻辑和视觉推理能力方面的表现。逻辑推理能力包括:演绎推理(DED)、归纳推理(IND)、溯因推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。视觉推理能力包括:模式识别(PR)、空间推理(SPA)、图示推理(DIA)、符号解释(SYB)和比较可视化(COM)在处理图像输入时,一些模型甚至显示出效果下降。可能的原因包括:(1) 当文本和图像同时输入时,多模态模型(LMMs)可能更关注文本,忽视图像中的信息。这一发现也在其他研究中得到证实[61, 9]。(2) 一些多模态模型在基于其文本模型训练视觉能力时,可能会丧失一些固有的语言能力(例如推理能力),这在论文的场景中尤为明显。(3) 论文的问题采用了一种复杂的文本和图像交织格式,某些模型对此支持不佳,导致处理和理解嵌入在文本中的图像位置信息时遇到困难。 **
图 4:(a) 不同LMMs及其对应LLMs在三种不同实验设置下的比较。关于每个LMM对应的LLM的详细信息,请参阅附录C.2。(b) 所有模型在所有采样问题上的答案级和过程级得分之间的相关性。(c) 错误步骤位置的分布,表示为在整个过程中从左到右的步骤比例,覆盖所有采样问题过程级评估结果分析 通过过程级评估(完整结果见表14),论文发现了以下见解:(1) 过程级评估与答案级评估之间通常存在高度一致性。当模型产生正确答案时,推理过程的质量往往在大多数情况下更高(见图4b)。
(2) 过程级的准确性通常高于答案级。这表明即使对于非常复杂的问题,模型也能正确执行一些中间步骤。因此,模型可能具有未被充分利用的认知推理潜力,为研究人员开辟了新的探索途径。论文还发现,在少数学科中,一些在答案级表现良好的模型在过程级落后。论文推测这是因为模型在生成答案时有时倾向于忽略中间步骤的合理性,尽管这些步骤可能对最终结果不是至关重要的。
(3) 此外,论文对错误步骤位置分布进行了统计分析(见图40)。论文发现较高比例的错误发生在后期阶段。这表明随着推理的累积,模型更容易出错,表明在处理长逻辑链推断方面需要改进。
可能遇到了43个基准实例。此外,这自然引发了一个问题:模型能否正确回答这些实例?有趣的是,相应的纯文本聊天模型和多模态聊天模型能正确回答的这些实例甚至更少。这些结果表明,论文的基准测试几乎没有泄漏,并且具有足够的挑战性,因为模型无法正确回答大多数泄漏的实例。 错误分析 为了进一步具体化模型的性能,论文从GPT-4V中抽样了错误的回答(每个主题16个问题,其中8个纯文本,8个多模态),并让人类评估者分析和标注这些错误的原因。如图5所示,推理错误(逻辑和视觉)构成了最大的类别,表明论文的基准有效地突出了当前模型在认知推理能力方面的不足。此外,很大一部分错误源于知识缺陷,表明当前模型仍然缺乏专家级别的领域知识和利用这些知识辅助推理的能力。另一类错误来自理解偏差,这可以归因于模型对上下文的误解以及整合复杂语言结构和多模态信息的困难。更多相关案例见附录F.1。鉴于预训练语料库规模的不断扩大,检测潜在的基准泄漏至关重要。预训练的透明度往往使这项任务变得困难。为此,论文采用了一种最近提出的实例级泄漏检测指标,即N-gram预测准确率。该指标为每个实例均匀抽样几个起始点,预测每个起始点的下一个n-gram,并检查所有预测的n-gram是否正确,表明模型可能遇到过该实例。论文将此指标应用于所有可用的基础或纯文本聊天模型。如图6所示,尽管与完整的基准相比数量微不足道,但令人惊讶且合理的是,这些评估模型背后的一些基础模型或纯文本聊天模型可能遇到了一些基准实例。例如,Qwen1.5-32B-Chat的基础模型就曾遇到过这些实例。
图6:检测到的泄露样本数量以及相应的纯文本和多模态聊天模型在这些样本上正确响应的数量