我要投稿

论文：大模型图表理解能力哪家强？CharXiv评估结果

发布日期：2024-07-07 07:40:09 浏览次数： 3123

作者：壹号讲师

微信搜一搜，关注“壹号讲师”

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs （https://arxiv.org/pdf/2406.18521）

结论
1、人对图表的理解能力准确度是80.5%、GPT-4o是47.1%、开源模型InternVL Chat V1.5是29.2%；
2、开源模型在对小的视觉或文本变化的鲁棒性方面远远落后于专有模型；
3、CharXiv是一个特别高质量的数据集，其中所有问题都由人类专家手动策划，并且所有真实答案都经过手工验证；
4、现有基准测试高估了图表理解能力，主要存在语料缺乏视觉多样性、在问题上缺乏变化等问题；
5、现有基准测试的设计策略导致对开源模型的图表理解能力的高估；本文实验结果暴露了人类、专有模型和开源模型之间的明显性能差距；
6、CharXiv评估结果表明所有模型在推理问题上都遇到了困难，表现最佳的模型 GPT-4o 仅正确回答了 47.1% 的推理问题，最强的开源模型 InternVL Chat V1.5 仅正确回答了 29.2% 的推理问题；开源模型在描述性问题上仍然存在困难；
7、具有强大推理能力的模型表现出强大的描述性能力，但反之则不一定；
8、最能区分领先开源模型、表现最佳的专有模型和人类能力的描述性任务是计算 x 轴和 y 轴上的标记刻度数量；

摘要

在将多模态大型语言模型（MLLMs）应用于分析科学论文或财务报告等现实世界任务时，图表理解起着关键作用。然而，现有的数据集通常侧重于过于简化和同质化的图表，以及基于模板的问题，导致对进展的过度乐观评估。我们展示了尽管开源模型在这些基准测试中的表现似乎超过了强大的专有模型，但通过稍微不同的图表或问题的简单压力测试可以使性能下降高达34.5%。在这项工作中，我们提出了CharXiv，这是一个全面的评估套件，涉及来自arXiv论文的2,323个自然、具有挑战性和多样性的图表。CharXiv包括两种类型的问题：1）关于检查基本图表元素的描述性问题；2）需要综合图表中复杂视觉元素信息的推理问题。为确保质量，所有图表和问题都由人类专家手工挑选、策划和验证。我们的结果显示了最强大专有模型（即GPT-4o）与最强大开源模型（即InternVL Chat V1.5）之间的推理能力存在之前被低估的实质性差距，前者的准确率达到47.1%，后者为29.2%。所有模型的表现都远远落后于人类80.5%的表现，突显了现有MLLMs在图表理解能力上的弱点。我们希望CharXiv通过提供更现实和忠实的进展衡量标准，促进未来MLLM图表理解的研究。

1 引言

多模态大型语言模型（MLLMs）[2, 42, 11, 58, 40, 12, 13, 9, 28, 29, 5, 1, 3, 52, 55, 37]对于广泛的现实世界应用[48, 50, 15, 43, 65, 46, 49, 45, 66]非常通用且有效。在这些应用中，图表理解是一个备受期望的能力，因为图表在科学论文、财务报告和新闻文章中无处不在。它也带来了独特的挑战，模型需要对数值数据、文本标签和复杂视觉元素进行复杂推理，以回答难题（见图1），从而使图表理解成为衡量MLLMs进展的合适标准。流行的MathVista评估套件[45]中的许多基准测试旨在测试图表理解。然而，这些基准测试在图表的类型和复杂性以及通常基于模板的问题上缺乏多样性（§2.1）。例如，FigureQA[26]和DVQA[25]依赖于程序生成的问题模板。虽然ChartQA[48]包括手工编写和机器生成的问题的混合，但由于来自有限数量来源的图表的同质外观，图表缺乏视觉多样性。尽管如此，许多专有模型[1, 55, 3, 52]和开源模型[9, 13, 12, 29, 21, 37, 41, 16]在这些数据集上进行评估。1这些狭窄的评估让人们觉得开源模型的表现超过了专有模型2，尽管有相反的证据：我们设计了简单的压力测试（§2.2），我们发现开源模型在对小的视觉或文本变化的鲁棒性方面远远落后于专有模型。例如，SPHINX V2的准确率从63.2%下降到28.6%，与同一套图表相比，问题稍有修改就出现了34.5%的差距。

我们介绍了CharXiv，这是一个全面的评估套件，用于复杂理解自然、具有挑战性和多样性的图表（§3），以解决上述问题。CharXiv由来自arXiv上发表的8个主要学科的科学论文中手工挑选的2,323个真实世界图表组成（§3.1）。我们通过设计两种类型的问题（§3.2）明确区分了视觉理解和推理：

(1) 描述性问题，要求理解图表的基本信息，如标题、标签和刻度；

(2) 推理问题，要求进行比较、近似和细粒度分析。

CharXiv是一个特别高质量的数据集，其中所有问题都由人类专家手动策划，并且所有真实答案都经过手工验证。为了回答这两种类型的问题，模型只需要理解图表的视觉内容，而不需要高级的领域特定知识和上下文信息。在CharXiv上评估MLLM是直接的，因为我们采用了适用于基于LLM的自动评分的简短答案格式。

我们广泛评估了13个开源模型和11个专有模型（§4.1），并发现了最强大开源和专有模型之间的巨大差异（§4.2）：InternVL Chat V1.5正确回答了29.2%的推理问题和58.5%的描述性问题，而GPT-4o正确回答了47.1%的推理问题和84.5%的描述性问题（表3）。如图2所示，推理问题上17.9%的性能差距明显大于先前工作中识别的差距[25, 26, 48]。此外，两种类型的模型在推理问题上的表现都远远落后于人类80.5%的表现和描述性问题上92.1%的表现。

模型表现的细粒度分析（§4.3）由于CharXiv的设计而显示出几个洞见。特别是，我们描述了：

(1) 推理和描述能力的差异，探索一项能力何时加强另一项；

(2) 对现有MLLMs来说哪些类型任务和图表是困难的；

(3) 不同MLLMs对无法回答的问题的反应。总的来说，我们希望CharXiv能够实现对MLLMs图表理解的全面、多方面的评估。

2 现有基准测试高估了图表理解能力

2.1 相关工作

现有的基准测试，如FigureQA[26]、DVQA[25]、PlotQA[51]，由于它们的合成特性，没有完全捕捉到现实世界图表的复杂性和多样性，而ChartQA[48]中的图表缺乏视觉多样性。更近期的基准测试，如MMC[39]、ChartBench[62]和ChartX3[61]，也存在图表来源（例如ChartX、MMC）和问题类型（例如MMC、ChartBench）的问题。我们在表1中提供了现有基准测试设计选择的摘要，并在下面进行详细回顾。我们在附录A中提供了有关多模态大型语言模型和更多MLLM基准测试的更详细信息。

图表来源。FigureQA、DVQA和PlotQA使用绘图软件合成图表，这些图表仅限于非常少的预定义图表类型，具有风格相似的元素（见图7(a)、7(b)和7(c)）。

ChartQA只从4个网站获取图表，每个网站都缺乏视觉多样性（见图7(d)）。其中一个网站还作为MMC推理问题图表的主要来源。另一方面，ChartX提供固定指令给GPT-4编写代码，以成批程序化生成预定义类型的图表和设置。所有这些方法产生的都是属于狭窄分布的人为图表。

问题类型。现有基准测试在问题上缺乏变化：FigureQA、DVQA和PlotQA使用固定模板生成QA对，而ChartBench根据4个预定义任务采用自动QA生成流程。然而，与MMMU[66]类似，MMC中更复杂的推理问题不能仅从图表中解决，需要外部领域特定知识（例如，将图例中的缩写映射到特定算法）。

答案与验证。FigureQA和ChartBench都仅基于是/否问题评估模型性能。在二元答案上评估模型不能真实反映它们在自然使用案例中一般自由形式问题回答的性能[36]。

2.2 开源MLLM对扰动敏感

许多开源模型已经适应了现有基准测试[26, 25, 48]的训练集进行视觉指令调整[42]，并在各自的评估集中显示出有希望的性能。然而，由于上述基准测试多样性问题，评估数据与训练数据太相似。结果，评估分数通常不能准确反映MLLMs的一般图表理解能力。特别是，我们在下面展示了评估组件的简单修改会导致模型性能的剧烈变化。

模型。我们选择了已知在DVQA和ChartQA训练集上训练的开源模型：Mini-Gemini (MGM)[37]、InternVL-XComposer2 (IXC2)[12]、InternVLXComposer2 4KHD (IXC2 4KHD)[13]、InternVL-Chat V1.5[9]、SPHINX V2[16]、LLaVA 1.6[41]和IDEFICS 2[29]。我们将它们的表现与专有模型[1, 3, 52]进行比较。

评估集。我们从MathVista中提取DVQA、FigureQA和ChartQA的子集。这产生了174个样本，我们称之为原始集。为了测试上述模型的鲁棒性，我们创建了原始集的两个修改版本：修改问题集（见附录P）和修改图表集（见附录Q）。在修改问题集中，我们保留原始图表，但编写偏离预定义模板[26, 25]的新问题。在修改图表集中，我们将图表更改为来自arXiv的具有类似视觉复杂性的图表，这些图表可以用相同的问题类型来询问。我们手动注释了修改问题集和修改图表集中的所有问题和答案。与原始集一样，我们保持是和否答案数量相等，以防止模型通过简单地更频繁地输出一种响应来获得人为高分，并采用与MathVista中相同的评估协议。

结果。如图3所示，所有专有模型都保持在对角线附近，表明在修改问题和修改图表的两种情况下都具有良好的泛化能力。相比之下，大多数开源模型在两种设置中都表现出显著的性能下降，表明泛化能力差。我们观察到在修改问题集中SPHINX V2的性能下降最为明显，性能下降了34.5%，从原始集中的63.2%下降到修改问题集中的28.7%。我们的发现表明，现有基准测试的设计策略导致对开源模型的图表理解能力的高估。我们假设训练和评估数据集过于相似，因此模型看起来泛化得很好，尽管它们不健壮到简单的修改。在下一节中，我们介绍了CharXiv，它以更自然、更具挑战性和多样化的方式评估真实世界的图表。

3 CharXiv：一个真实世界且具有挑战性的图表理解基准

CharXiv是一个全面且具有挑战性的图表理解基准，完全来源于真实世界的图表。我们从arXiv预印本中选择多样化的、自然发生的、复杂的图形，并手动构建需要密集视觉和数值分析的描述性和推理性问题。CharXiv由2,323个图表配对超过10K个问题组成——我们随机抽取1,000个图表作为验证集，其余作为测试集。4在以下部分中，我们描述了如何选择图表（§3.1）、构建问题（§3.2）以及验证模型响应（§3.3）。

3.1 图表策划

图表来源。我们下载了2020年1月至2023年9月间所有八个学术主题的arXiv预印本（见图4），并从源文件中提取了图表。所有图表都被重新渲染成高分辨率的JPEG格式，每个图表的较长边被调整为1024像素。

图表选择。我们定义图表为以视觉方式展示数据的任何图形。arXiv源文件中的大多数图形是图表、插图和自然图像，而不是图表。为了识别图表并促进视觉多样性，我们应用了一个四步选择流程。首先，我们利用预训练的SigLIP视觉编码器[67]来识别表现出至少0.65的余弦相似度与MathVista[25, 26, 48, 45]中现有图表的平均图像嵌入的候选图形。我们选择这个目标相似度是为了平衡识别图表并在视觉上实现良好覆盖。第二，我们招募经验丰富的研究生手动从候选集中选择图表。具体来说，我们为每个主题和年份随机抽取750个候选图形，并每次向注释者展示10个图形，要求他们选择一个既是图表又与之前选定的数据点看起来不同的单一图形（见附录O.1了解更多细节）。

在第三步中，我们移除了与其他候选项表现出较大（≥0.95）成对余弦相似度的图表。最后，我们移除了标签不清晰或看起来模糊的图表。在这个四步流程结束时，我们总共有2,323个图表。

我们在图4中提供了图表类别、年份和子图数量的详细信息，表格2中提供了尺寸信息，并在图7(e)中提供了采样图表的拼贴图。值得注意的是，与现有数据集相比，CharXiv中的图表在风格上更具构成性且复杂。单个图表经常结合了具有多种图表类型（例如，一个图表中的线和条形）的元素或子图。

3.2 问题构建

我们构建了两种类型的问题：描述性和推理性。描述性问题评估模型从图表中提取和汇总基本信息的能力，推理问题评估模型执行复杂视觉推理的能力。

描述性问题。我们设计了总共19个描述性问题的模板，这些问题需要（1）识别基本信息，如标题、轴标签、图例标签、标记的刻度，或（2）汇总图表信息以计数刻度、识别数据模式和列举标签。这些问题被广泛地分为五组：信息提取、列举、模式识别、计数和构成性（见附录L.1了解更多细节）。尽管描述性问题旨在比推理问题更简单，但由于图表的复杂性，它们仍然可能带来挑战。例如，回答具有多个子图的图表的描述性问题要求模型首先识别相关的子图5（见附录R.1、R.7和R.10）。如果图例、轴和标题等基本元素在多个子图中共享，模型随后还必须理解子图之间的关系以提取正确的信息（见附录R.3和R.23）。我们为每个图表配备了四个描述性问题，其中一个故意设计为无法回答6，其中请求的信息不存在或不适用于图表中的子图。我们在图4中提供了特定问题的分布，在表格2中提供了问题和答案的汇总统计，并在附录O.2中提供了标记过程的截图。

推理问题。我们为每个图表手动制作一个推理问题，以评估模型执行视觉和数值推理的能力。为确保数据质量，我们招募研究生作为注释者。注释者面对一个图表和由GPT-4V生成的10个样本推理QA对。基于样本问题的多样性和实用性，注释者选择或修改一个样本，或者他们为每个图表创建自己的问题。产生的问题是必须有一个明确且不含糊的答案，并且必须严格遵守以下四种类型之一：

• 图表中的文字：答案是图表中找到的一段文字（见附录S.1、S.2和S.6）。

• 一般性文字：答案是一个容易验证的短语，不一定在图表中（见附录S.3、S.4和S.30）。

• 图表中的数字：答案是写在图表上的数值（见附录S.7、S.9和S.12）。

• 一般性数字：答案需要一个确切的数值，不一定在图表中找到，到指定的精度（见附录S.5、S.14和S.15）。

我们的推理问题的一个显著特点是它们被设计为只要求视觉和数值推理，而不需要高级领域特定知识或访问标题和引用段落。这使CharXiv与MathVista[45]、MMMU[66]和基于arXiv的QA数据集[39, 35, 34]区别开来，后者通常需要额外的专家知识。尽管我们的策划过程需要大量的人力来制作问题-答案对，我们相信它促进了原创性、多样性、准确性和可回答性。QA来源和答案类型的分布如图4所示，问题和答案的汇总统计如表格2所示。我们在附录O.3中提供了注释界面的截图，以及每种答案类型的响应生成指令在附录M.1中。

3.3 评估指标

CharXiv 由于答案的明确性，适合自动评分。考虑到许多图表包含可以以不同方式键入的希腊字母和数学符号（例如，α 和 $\alpha$；Tˆa_b 和 T_bˆa），我们选择不使用完全匹配，而是使用 GPT-4o [1] 来提取答案，并基于正确性分配二元分数。类似的 GPT 辅助评估已经成为许多已建立基准测试 [45, 65, 14] 的常态。描述性和推理问题的评分说明分别在附录 L.2 和附录 M.2 中提供。

4 实验

4.1 实验设置

模型。我们评估了一系列通用多模态大型语言模型（MLLMs），它们能够（1）处理输入分辨率大于或等于 448 × 448，并且（2）在 MathVista [45] 的 testmini 测试集上至少获得 36 分。对于开源模型，我们测试了：InternVL Chat V1.5 [9]、InternLM-XComposer2-4KHD (IXC2 4KHD) [13]、InternLM-XComposer2 (IXC2) [12]、LLaVA 1.6 Yi 34B [41]、LLaVA 1.6 Mistral 7B [41]、DeepSeek VL [44]、MoAI [30]、IDEFICS 2 [29]、IDEFICS 2 Chatty [29]、SPHINX V2 [16]、Mini-Gemini (MGM) HD Yi 34B [37]、Mini-Gemini (MGM) HD LLaMA3 8B [37] 和 MiniCPM-V2 [21]（更多模型细节见表 12）。我们还评估了以下专有模型：GPT-4o [1]、GPT-4V [1]、Claude-3 Opus [3]、Claude 3 Sonnet [3]、Claude 3 Haiku [3]、Reka Core [52]、Reka Flash [52]、Reka Edge [52]、Gemini 1.0 Pro [55]、Qwen VL Plus [5] 和 Qwen VL Max [5]。对于所有模型，我们在表 11 中提供了生成配置。基线。我们提供了一个仅文本的基线，表示为 Random (GPT-4o)，我们提示 GPT-4o 在没有看到图表的情况下合理猜测答案（见附录 N 中的提示）。这考虑了使用常识或文本查询中的浅层线索正确猜测答案的效果。我们还招募了内部人员作为参与者，并报告了他们在 CharXiv 上的表现（即，人类）。值得注意的是，我们确保参与者看到的是与模型完全相同的问题和说明，并且他们的回答以与模型回答相同的方式进行评估。这种方法允许我们公平地比较人类和模型之间的性能差距。

4.2 实验结果

我们在表 3 中为所有模型提供了验证集上的定量结果。测试集上的额外结果可在表 4 中找到。为了更好地理解模型失败的地方，我们选择了一组代表性模型 [1, 3, 52, 9, 37, 29]，并在附录 R 中展示了 30 个描述性问题的失败案例示例，在附录 S 中展示了 30 个推理问题的失败案例示例。最新结果在我们的排行榜上。

所有模型在推理问题上都遇到了困难。如表 3 所示，表现最佳的模型 GPT-4o 仅正确回答了 47.1% 的推理问题，与人类 80.5% 的表现相比存在 33.4% 的差距。此外，最强的开源模型 InternVL Chat V1.5 仅正确回答了 29.2% 的推理问题，凸显了领先专有模型和开源模型之间的巨大差距。值得注意的是，没有其他开源模型能正确回答超过 25% 的推理问题，这表明尽管在现有基准测试 [25, 26, 48, 45]（例如，见图 2）中表现不错，但在处理 CharXiv 中多样化且具有挑战性的图表推理问题上存在明显的弱点。

开源模型在描述性问题上仍然存在困难。领先的专有模型 GPT-4o 在回答描述性问题上表现出强大的能力，仅比人类表现落后 7.65%。然而，与我们在推理问题上的发现类似，表现最佳的开源模型 InternVL Chat V1.5 与 GPT-4o 相比性能下降了 25.95%。总体而言，开源模型在描述性问题上的表现仍然非常低，大多数模型未能正确回答超过 50% 的问题。

4.3 分析

描述性能力是推理的前提。我们发现，具有强大推理能力的模型表现出强大的描述性能力，但反之则不一定（例如，见表 3 中的 Gemini 1.0 Pro、IDEFICS 2 Chatty 和 DeepSeek VL）。手动检查模型对推理问题的答案显示，一些模型 [52, 37, 5, 30] 利用零样本思维链（Chain-of-Thought，CoT）推理 [60, 69] 来回答推理问题。然而，这种 CoT 推理并不总是有帮助的，特别是当模型无法准确描述图表时，正如我们在附录 R.13、R.28、S.1 和 S.17 中所示。从数量上看，我们在附录 G 中展示了较长的回答（例如，可能包含更多 CoT 痕迹的回答）可能对模型在推理问题上的表现产生负面影响。这个问题在描述性问题准确度较低的模型中尤为明显，如 MoAI 和 Qwen VL Plus，它们分别正确回答了 28.70% 和 28.93% 的描述性问题。相比之下，描述性问题准确度较高的模型，如 Mini-Gemini HD Yi 34B 和 Reka Flash，分别达到了 52.68% 和 56.45%，在生成较长回答时，在推理问题上表现出改善。尽管如此，绝大多数模型的表现与回答长度无关。因此，我们假设模型必须具有强大的基本理解能力，才能生成有助于推理的多模态 CoT。

模型在人类容易完成的组合任务上遇到困难。我们发现，最能区分领先开源模型、表现最佳的专有模型和人类能力的描述性任务是计算 x 轴和 y 轴上的标记刻度数量（见附录 R.28），它们分别达到了 92.86%、59.82% 和 5.80% 的准确度。尽管计数对人类来说很容易，但这一特定任务导致 24 个模型中有 20 个模型的准确度低于 10%（我们的随机基线达到了 5.35%）。虽然我们没有特别测量每个模型的回答与真实情况有多接近，但接近随机的表现突显了 MLLMs 在解决组合和新颖图表理解任务上的弱点。

弱模型无法识别无法回答的问题。CharXiv 是第一个在图表理解中引入无法回答的问题的工作。如 §3.2 所讨论的，25% 的描述性问题是设计为无法回答的，其中请求的信息不存在或不适用于图表中的目标子图（见附录 R.2, R.4, R.6, R.12, R.14, R.16, R.18, R.20, R.22, R.24 和 R.26）。我们在图 5(a) 中测量模型能够正确识别并适当回应无法回答的问题的频率。有趣的是，准确度低于 80% 的模型在无法回答的问题上都表现出独特的失败模式。例如，IDEFICS 2 Chatty 错误地回答了近 90% 关于标题、x 轴和 y 轴标签的无法回答的问题，但正确识别了超过 90% 关于线条交点和图例存在的无法回答的问题。另一方面，IXC 2 正确回答了 80% 的关于无法回答的标题、x 轴和 y 轴标签的问题，但未能识别出当刻度是分类的或差异不恒定时刻度值差异的无法回答的情况。

随着子图数量的增加，描述性能力下降。CharXiv 是第一个收集每个图表中子图数量的详细统计数据的工作，因此我们能够对专有模型和开源模型在图表中子图数量变化时的表现进行细粒度分析。如图 5(b) 所示，一组代表性的开源和专有模型在回答具有更多子图的图表的描述性问题上遇到困难。对于 6 个以上的子图，开源模型的恶化是 30%–50%，专有模型仅为 10%–30%。这表明所有 MLLMs 在处理具有更多子图的图表的描述性查询方面都比较弱，而且这种性能下降在开源模型中更加严重。我们假设这是因为开源模型是在不包含子图的图表数据集上进行指令调整的，如 DVQA 和 ChartQA。另一方面，推理能力与子图数量之间似乎没有明确的相关性。

不同主题下模型表现不同。尽管 CharXiv 中的问题设计得不需要特定领域的知识就能回答，但我们测量了模型在各个主题上的表现（见图 4）。所有模型在与物理相关的图表上一致地表现出较弱的描述性能力，在包含电气工程和系统科学、定量金融和经济数据的图表上表现更强（见表 5）。另一方面，模型在不同主题上的推理能力表现出独特的能力，没有明显的模式（见表 6）。有趣的是，最强的开源模型 InternVL Chat V1.5 在正确回答来自数学领域图表的 39.26% 的推理问题上与 GPT-4V 相匹配，但在其他领域明显落后，物理和电气工程和系统科学领域的差距超过 20%。这些模式表明（1）来自某些领域的图表对模型来说本质上难以描述，（2）执行来自不同领域图表的复杂推理需要独特的能力。

5 结论

图表理解是 MLLMs 的关键视觉推理能力，但我们简单的压力测试揭示了现有基准测试的设计缺陷导致了对图表理解能力的高估（见 §2.2）。我们引入了 CharXiv，这是一个自然而具有挑战性的基准测试，它将从 arXiv 论文中收集的图表与人工策划的问题和答案配对。我们的结果暴露了人类、专有模型和开源模型之间的明显性能差距，我们在附录 B 中讨论了我们发现的更广泛影响。

限制。尽管 CharXiv 不需要高级特定领域的知识，但人类在推理和描述性问题的准确度仅为 80.5% 和 92.1%。我们假设这可能是由于自动化评分的问题或人类评估研究中的参与者错误。然而，鉴于现有的 MLLMs 与人类之间的巨大性能差距，我们认为 CharXiv 是图表理解能力的有见地的测量。我们还注意到，完全由人类专家策划的评估基准构建成本高昂，难以更新和扩展。然而，正如我们在 §2 中指出的，自动生成的基准测试往往高估了现有 MLLMs 的能力。

【参考文献】

https://arxiv.org/pdf/2406.18521文末列示。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业