我要投稿

图表问答哪家强？18个多模态大模型测评， Chain of Charts有效提升图表QA效果

发布日期：2024-05-15 21:24:52 浏览次数： 2951

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

图表问答哪家强？18个多模态大模型测评， Chain of Charts有效提升图表QA效果

发布时间：2024 年 05 月 11 日

图表问答

Evaluating Task-based Effectiveness of MLLMs on Charts
本文深入探讨了 GPT-4V 在图表低级数据分析任务中的效能。我们创建了名为 ChartInsights 的大规模数据集，包含近 9 万组图表分析案例，覆盖了 7 大类图表的 10 种分析任务。通过系统评估 18 个先进的 MLLMs（包括开源和闭源模型），我们发现 GPT-4V 以 56.13%的准确率领先，远超平均水平 36.17%。为了深入了解 GPT-4V 在低级数据分析中的局限，我们设计了一系列实验，并研究了图表视觉元素变化对 GPT-4V 性能的影响。我们总结了 12 项实验发现，揭示了 GPT-4V 在图表交互方面的革新潜力，同时也指出了与人类分析需求之间的差距。为了提升性能，我们提出了名为 Chain-of-Charts 的新型文本提示策略，将准确率提升至 80.49%，并通过视觉提示策略进一步提高至 83.83%。我们的研究不仅揭示了 GPT-4V 在低级数据分析中的能力和局限，也为未来研究提供了重要启示。
https://arxiv.org/abs/2405.07001

背景

数据可视化能够直观地展示信息，但信息量庞大时，用户提取关键数据便显得尤为困难。因此，根据用户需求自动定位信息变得极为关键，这一过程称为图表问答（ChartQA）。

ChartQA任务分为两大类：高级任务和低级任务。

• 高级任务通常涉及更宏观的问题，如图表的标题生成和文本转换；
• 低级任务则更细致，包括识别数据间的关系和发现异常等。

ChartQA过去因为自然语言处理的局限和图表逻辑推理的复杂性而充满挑战。不过，多模态大型语言模型（MLLMs）的突破为用户通过自然语言与系统交互，从多模态数据中提取特定信息提供了可能，为ChartQA任务的各个层次带来了新的机遇。

先前研究主要集中在利用MLLMs处理高级ChartQA任务，并取得了显著成果。本篇论文则着眼于MLLMs在低级数据分析任务上的表现，旨在深入探究GPT-4V在10项低级数据分析任务上的能力，并回答以下关键问题，以期揭示MLLMs在进行细致分析时的潜力。

• Q1: 文本提示的多样性如何影响GPT-4V的输出精确度？本问题旨在评估GPT-4V在各类低级任务中的基本性能。
• Q2: 不同的视觉提示，如色彩方案、布局配置（例如，宽高比）和图像质量，对GPT-4V在低级任务中的表现有何影响？
• Q3: 是否可以通过类似思维链的方法来增强Q1中的基本文本提示？
• Q4: 视觉和文本提示的结合是否能够提升GPT-4V在低级ChartQA任务中的表现？本问题探讨了通过整合两种提示类型来获得更好结果的可能性。

null

如上图分两步对图表中的低级数据分析任务进行有效性评估。

• 第一步，构建了一个大规模的数据集，专为10项低级分析任务设计，覆盖了7种常用图表类型（见图的上半部分）。
• 第二步，开展了四项核心实验，旨在探究GPT-4V在多样化情境下处理低级分析任务的能力（见图的下半部分）。

图表的低级分析任务

可视化图表提供丰富的洞察力，辅助用户进行数据分析。低级数据分析任务通常包括直接解读和处理图表内特定视觉元素的活动，如数据提取、异常值识别和相关性分析。

多模态大型语言模型（MLLMs）

多模态大型语言模型（MLLMs）领域正迅速进步，致力于开发能够处理和生成包括文本、图像、视频在内的多模态内容的人工智能系统。早期研究如CLIP通过对比学习展示了视觉与语言信息的有效融合，而DALL-E等后续工作进一步展示了Transformer架构在生成与文本描述相匹配的图像方面的潜力。基于这些基础成果，研究界开始为多样化的多模态应用细化这些模型，采用微调和基于提示的学习等策略。例如，VisualGPT和BLIP已针对视觉问答（VQA）任务进行了优化，显著提升了它们的多模态任务表现。同时，各种基准测试的发展，如MME，对全面评估MLLMs在不同情境下的能力至关重要。本文尝试利用现成的MLLMs来执行图表上的低级数据分析任务。

MLLMs在图表问答（ChartQA）中的应用

随着MLLMs如GPT-4V的发展，自动理解图表并根据用户查询提取洞察变得日益可行，这一过程称为图表问答（ChartQA）。近期研究集中于探索MLLMs在执行ChartQA任务上的能力，可分为评估研究和构建ChartQA数据集两大类。

在本节，我们将首先探讨为低级分析任务构建数据集的设计宗旨（见3.1节）。接下来，我们会详细介绍ChartInsights的构建过程（见3.2节）。最后，我们将通过阐述ChartInsights的特性（见3.3节）来结束本节。3.1 设计宗旨 G1: 支持低级数据分析任务。我们的主要目标是支持10项关键的低级数据分析任务[3, 6]，以填补现有ChartQA数据集在深入理解和与图表数据互动所需的细节层次上的空白。G2: 评估图表的视觉与文本变体。我们特别强调视觉变体（如颜色、大小、形状）在数据可视化中的核心作用，这些元素对于有效传递和解读信息至关重要。尽管其重要性不言而喻，但这些视觉变体在现有的ChartQA数据集和评估中常被忽略。我们旨在通过引入多样化的视觉变体，包括不同的图表元素、图像质量和视觉提示，来解决这一问题。此外，我们也将探究不同文本提示对低级分析任务的影响。G3: 提供元数据访问。第三个目标旨在解决当前ChartQA数据集中普遍存在的数据和元数据获取难题。通过为每个图表的元数据提供全面访问权限，比如原始数据、图表类型以及视觉元素的具体信息（例如颜色方案和标签），我们的数据集加深了对图表设计如何影响ChartQA性能的分析。

ChartQA数据集

近十年来，已提出多个ChartQA数据集，例如：ChartBench包含了2.1K张图表，用于四种ChartQA任务。

然而，现有ChartQA数据集存在明显缺口：尚无数据集全面评估ChartQA任务中识别的十项关键低级任务。

此外，为了进行更定制化的评估，如修改视觉元素或添加视觉提示，需要访问图表的元数据（如底层数据），而不仅是图表图像。

因此，论文作者策划了一个大规模数据集ChartInsights，包含89,388个四元组，每个四元组包括一个图表、一个指定任务、相应的查询及其答案。

ChartInsights：图表问答中的低级分析任务

探讨为低级分析任务构建数据集的设计宗旨、构建过程。

ChartInsights设计宗旨

• G1: 支持低级数据分析任务。主要目标是支持10项关键的低级数据分析任务，以填补现有ChartQA数据集在深入理解和与图表数据互动所需的细节层次上的空白。
• G2: 评估图表的视觉与文本变体。特别强调视觉变体（如颜色、大小、形状）在数据可视化中的核心作用，这些元素对于有效传递和解读信息至关重要。尽管其重要性不言而喻，但这些视觉变体在现有的ChartQA数据集和评估中常被忽略。通过引入多样化的视觉变体，包括不同的图表元素、图像质量和视觉提示，来解决这一问题。此外，也将探究不同文本提示对低级分析任务的影响。
• G3: 提供元数据访问。第三个目标旨在解决当前ChartQA数据集中普遍存在的数据和元数据获取难题。通过为每个图表的元数据提供全面访问权限，比如原始数据、图表类型以及视觉元素的具体信息（例如颜色方案和标签），我们的数据集加深了对图表设计如何影响ChartQA性能的分析。

ChartInsights构建过程

为达成三大设计宗旨，我构建流程始于从现有数据集中搜集带有元数据的图表。随后，为各种图表类型精心指定具体的低级数据分析任务。最终，为每张图表量身定制了多样化的文本提示策略及视觉变体与提示。值得注意的是，我构建过程中保留了所有元数据，使用户能够基于 ChartInsights 轻松地定制他们的数据集。

null

参照上图(a)，ChartInsights 的构建过程共分为五个阶段：候选图表筛选、低级任务生成、文本提示设计、视觉变体制作和视觉提示设计。

步骤 1：候选图表筛选

为了全面评估 MLLMs 在低级数据分析任务上的表现，并开展更详尽和深入的实验，搜集的图表数据集（包括表格数据）和可视化图表需满足以下三个条件： - 首先，这些数据集应包含图表的原始元数据，例如用于生成图表的底层数据，以便能够根据这些元数据创建定制化的推理任务。 - 其次，所选数据集中的图表应附有数据标签，因为缺少数据标签会极大限制低级任务的种类。 - 第三，数据集应同时包含简单和复杂的图表，以确保图表难度的合理性。

在综合考量上述三个要素及现有数据集的特征后，从两个现有的数据集 ChartQA 和 nvBench 中提取图表及其相应的元数据。最终获得了总计 2K 张高质量图表及其元数据，形成了初始数据集。该初始数据集涵盖了七种类型的图表，包括堆叠条形图、分组条形图、基础条形图、折线图、分组折线图、散点图和饼图。

步骤 2：低级任务的构建

null

接下来，为所搜集的图表精心设计了一组低级任务。遵循先前研究中为图表设计低级任务的方法，最终在本文中定义了10项低级任务，如上图顶部所示。根据任务的目的和所需的推理技能，将这10项低级任务分为分析、搜索和查询三大类。

然后，必须确定哪些任务适用于哪些类型的图表。将根据人类在任务执行上的建议，为每种图表类型分配相应的任务。最终，得到了22,347组（图表、任务、问题、答案）的组合。

步骤 3：文本提示的构建

为了更深入地探究不同提示方式对GPT-4V的影响，设计了四种文本提示方法：填空式、多项选择式、是非题式和纠错式提示。

• 1）填空式提示中，保持问题的原始提问方式，并为答案设置填空格式；
• 2）多项选择式提示中，维持问题的原始提问方式，但此时会为GPT-4V提供一组选项，通常包括一个正确答案和两个错误选项，并指示GPT-4V从这些选项中作出选择；
• 3）是非题式提示中，首先将原始问题转换为真/假问题，并告知GPT-4V正确或错误回答的要求；
• 4）纠错式提示中，我们以一定的概率将错误答案嵌入原始问题中，并将其构造为陈述句。

将上述四种文本提示变体应用于22,347组（图表、任务、问题、答案）的组合上，最终产生了89,388组（图表、任务、问题、答案）的组合。

步骤 4：视觉变体的生成

图表的视觉变体（如颜色、大小、形状）在传递洞察力方面起着至关重要的作用，但这些变体在现有的ChartQA数据集和评估中常被忽略，为了填补这一空白，对图表元素进行变化，并添加图像噪声以改变图表的质量。

null

• 步骤 4.1：调整图表元素：如上图(a)所示，从标签、图表尺度、元素颜色和图例四个方面对图表的视觉元素进行调整。为实现这一点，从每个图表类别中抽取5张图表作为样本，共得到35张图表。在调整标签时，分别放大、缩小并去除x轴、y轴和数据标签。在调整视图尺寸时，分别放大和缩小图表。在调整元素颜色时，将图表中的元素改为单一颜色或更高对比度的颜色；在调整图例时，首先为不同类别添加标记，然后去除颜色。最终，为35张图表生成了356个视觉变体。这些视觉变体与17,972个文本提示相关联，并覆盖了10项低级任务。
• 步骤 4.2：调整图像质量。通过添加图像噪声、应用图像模糊和调整亮度来改变图表图像的质量，如上图(b)所示。为实现这一点，同样从每个图表类别中抽取5张图表作为样本，共得到35张图表。在添加图像噪声时，采用了高斯噪声和椒盐噪声；在应用图像模糊时，使用了中值模糊和高斯模糊；在调整图像亮度时，提高了或降低了图表的亮度。最终，为35张图表生成了245个视觉变体。这些视觉变体与8,456个文本提示相关联，并覆盖了10项低级任务。

步骤 5：视觉提示的设计

Kong等人提出了五种图形覆盖层以增强用户执行数据分析任务（如数值提取和比较）的能力。直观上，希望验证这些覆盖层是否能够提升GPT-4V的性能。因此，为图表设计了三种类型的视觉提示（即图形覆盖层）。

null

探讨了三种视觉提示方式，如上图。

• 第一种方式是用手绘直接在图表中圈出与问题紧密相关的信息，如圈出推理题目中提及的两个元素的数值。
• 第二种方式是规则图形法，利用圆形或矩形等规则图形标注图表中的元素，便于通过图形大小表达元素间的顺序关系。例如，用三个大小不一的圆来代表排序任务中的三个数值。
• 第三种方式是特殊设计法，为不同的低级任务量身定制了有效的视觉提示，如用箭头展示趋势的单调性，用于相关性分析任务。

效果测评

随机抽取了 ChartInsights 数据集的 20% 作为测试集。该测试集囊括了 17,552 组（图表、任务、问题、答案）样本，涵盖了 400 幅图表，包括 7 种图表类型和 10 项低级任务。

null

首先利用这个测试集对 18 个高级的多模态大型语言模型（MLLMs）进行了评估，并发现 GPT-4V 在所有模型中的性能最为出色。各模型在 10 项任务上的表现如上表。

为了更深入地探究 MLLMs 在执行低级分析任务时的局限性和潜在边界，以 GPT-4V 作为研究的代表，将不仅研究文本提示变化的影响，还将通过三个阶段系统地评价 GPT-4V 在低级 ChartQA 任务上的表现：Q2 探讨视觉提示的影响，Q3 研究图表链的影响，以及 Q4 考察视觉和文本提示的协同效应。

null

GPT-4V 的综合评估结果在上图中展示，包含四个标记为（a）、（b）、（c）和（d）的热图子图，每个子图对应先前讨论的四种评估方法之一。这些热图形象地展示了 GPT-4V 在不同提示条件下对各类低级 ChartQA 任务的性能。从子图（a）到（d）的顺序清晰地展示了引入视觉提示、图表链提示及其结合使用的逐步增益，这最终成为了提升 GPT-4V 在低级 ChartQA 任务性能中的最有效途径。

ChartInsights 的文本提示评估模型

多款 MLLMs 的综合评估

在 18 种模型中，闭源模型的表现显著优于开源模型，这些模型的平均准确度达到 38.25%。其中，VisCPM 的表现垫底，准确度为 26.19%，而 GPT-4V 以 56.13% 的准确度位居榜首。在所有模型中，GPT-4V 在 10 项任务中的 7 项上实现了最佳表现。这可能是因为尽管某些开源模型在特定数据集上经过微调后，在某些特定任务上可能超越当前的尖端闭源模型，如 GPT-4V 或 Gemini-Pro ，但在更广泛的多模态数据集上，像 GPT-4V 这样的闭源模型仍然保持着强大的通用性，并且在逻辑推理等层面具有明显的优势。

GPT-4V 文本提示变化的深入分析

在这组实验中达成两个核心目标：

• 首先，对 GPT-4V 在 10 项基础 ChartQA 任务上的表现进行基准测试
• 其次，探究四种文本提示策略对 GPT-4V 的影响

null

上图展示了 GPT-4V 在不同图表类型和任务类别上的表现，特别指出了在分析任务类别中整体准确度的明显不足。GPT-4V 在堆叠条形图上的表现最为糟糕，平均准确率仅为 19.8%。而其在查询任务类别上的表现最为强劲，尤其是在散点图上，准确率高达 89.8%。

GPT-4V 实验结果的差异主要归因于各个类别中任务的性质。分析任务类别包含了一系列需要复杂推理、计算、确定相关性、理解数据分布和识别异常的数据分析任务。而查询任务类别则涉及更为简单的任务，如获取特定数据值，这些任务在本质上较为直接。

GPT-4V 在基础条形图和散点图的基础 ChartQA 任务上的准确率略高于 60%，而在涉及其他图表类型类似任务时则大约在 50% 左右。尽管数据集中包含大量推理任务，这些对于人类而言通常是简单的。这种性能差距表明，在这些测试的背景下，GPT-4V 的图表理解能力尚未达到普通人的水平。文本提示的效果。

null

上图展示了 GPT-4V 在四种文本提示下 10 项基础任务的总体表现。具体来说，GPT-4V 在是非题提示下展现出最高的整体准确率，达到了 66.39%。此外，它在多项选择提示下也表现不错，准确率为 64.35%。

GPT-4V 在多项选择、是非题和纠错提示上的表现超过了填空提示。前三种提示类型本质上提供了候选答案，允许 GPT-4V 进行选择或判断，而填空提示则要求 GPT-4V 直接生成答案。图表类型的有效性。

null

上表展示了 GPT-4V 在 10 项基础任务中对不同图表类型的总体准确度。总体而言，GPT-4V 在基础条形图上的表现最为出色，平均准确度达到 67.24%。这主要是因为基础条形图的图表结构相对简单。同样地，GPT-4V 在结构简单的图表，如散点图和饼图上，也取得了较好的成绩。而对于结构复杂的图表，如堆叠条形图、分组条形图和分组折线图，GPT-4V 的平均准确度低于 50%。具体来说，在堆叠条形图的三项基础任务中，GPT-4V 的表现最差，占比达到 50%（3/6）。

视觉变化与视觉提示的效应

多数ChartQA的评估集中于文本提示的影响，而忽略了图表的品质及其视觉提示的作用。本研究致力于探究视觉变化和视觉提示对GPT-4V性能的影响。

图表元素的多样性

图表通过调整其构成元素展现视觉差异，很可能对GPT-4V在基础ChartQA任务上的表现造成影响。

null

总体来看，上图（a）中的热图大多数区域呈现淡黄色，意味着大多数图表变体对GPT-4V的性能有轻微的不利影响。在缺乏数据标签的情境下，GPT-4V的性能显著下降，特别是在七种类型的图表中。

这一结果在预料之中，因为数据标签有助于GPT-4V理解图表所传达的深层信息。然而，有趣的现象是：上图(b)所示，当数据标签缺失时，GPT-4V在异常检测任务中性能提升了17.5%，在筛选任务中提升了5.5%。这暗示在某些情况下，数据标签可能反而会妨碍GPT-4V有效识别异常和筛选值。

(b)的热图清晰地展示了几种图表变体，如增大的x/y/数据标签，对GPT-4V在异常检测、筛选、排序和聚类等任务中的积极作用。这些任务本质上涉及元素间的比较。我们推测，在许多情况下，图表元素的变动可能会引导GPT-4V更多地关注视觉比较而非数值比较，从而提升其在这些任务上的表现。

右侧的条形图展示了15种图表变体对GPT-4V性能的不同影响。我们认为数据标签对GPT-4V的基础数据分析功能至关重要，因为去除或缩小数据标签的大小往往会降低其效能。此外，向图例添加标记或去除图例颜色，通过引入视觉干扰和移除关键的视觉提示，对GPT-4V产生了负面影响。

图像品质的多样性

除了图表的视觉调整如何影响解读图表的方式，图表图像的品质对于人类理解这些视觉信息同样至关重要。这引发了一个有趣的问题：那些对人的理解造成不同程度负面影响的因素，是否也会同样妨碍GPT-4V解读图表的能力？

大体上，六种降低图像品质的方法普遍对GPT-4V在多种任务和图表类型上产生了负面影响。其中，中值模糊对性能的损害最为严重，平均下降了14.8%。我们推测，中值模糊使得数值标签难以辨认，从而显著降低了与数值直接相关的任务的性能。

null

值得注意的是，亮度的调整——无论是增加还是减少——对大多数任务都产生了积极的效果，平均提升了0.6%和1.4%的性能。如上图(b)所示，分配任务是一个特例；它仅受到中值模糊的不利影响，而其他图像质量调整方式则倾向于提升其性能。

视觉提示的效应

与常规的视觉问答（VQA）任务相比，ChartQA任务，尤其是所关注的低层次数据分析任务，对模型的细致观察力和精准度有着更高的要求。

为此，为不同的低层次任务量身定制了各类视觉提示，以助力GPT-4V更好地满足各种任务的需求。

设计了三种视觉提示：手写风格、常规形状和特殊设计。

null

上图(b)展示了实验成果。可以看出，配备了视觉提示的GPT-4V在10项不同任务和4种文本提示上均有强劲表现，彰显了视觉提示的有效性。

null

如上图(a)-(c)所示，展示了在不同文本提示、低层次ChartQA任务和图表类型下，视觉提示的性能。

总体而言，视觉提示显著提升了GPT-4V的性能。尤其是在(b)中，配备了视觉提示的GPT-4V在推理和异常检测任务中取得了显著进步，这表明视觉提示使得模型能够更准确地捕捉到分析和推理所需的关键数据。然而，在相关性与排序任务中，GPT-4V并未从视觉提示中获得显著益处。这些任务往往要求GPT-4V识别并理解超过三个独立元素间的复杂关系，视觉提示在这些情况下可能会因引入了多种新的视觉元素而失去其明确性，尤其是在排序任务中，额外的视觉信息反而可能导致误解。

图表链效应

思维链（Chain-of-Thought，CoT）提示法在多种情境中已被证实卓有成效。CoT的核心理念在于通过模拟人类解决问题时的逐步推理过程，引导模型生成更加连贯和逻辑性强的输出。

最近，Xu等将CoT策略应用于ChartQA任务中，形成了ChartCoT。其核心思想是在模型构建答案前，通过一系列问题逐步引导模型深入理解图表细节。然而，ChartCoT在确保GPT-4V对引导性问题的回应准确性上存在挑战，尤其是在处理复杂图表时。

图表链提示法。因此，提出了一种创新的提示策略——图表链（Chain-of-Charts），它在思维链的基础上进一步发展，如图1-Q3所示。图表链的精髓在于通过一系列问题及其对应答案的有序组合((q1, a1), (q2, a2),...(qm, am))，逐步引导模型深化对图表细节的理解，从而提升其准确回答的能力。

null

上图(c)展示了GPT-4V的性能表现。相较于(a)，图表链（Chain-of-Charts）策略在10项不同任务和4种基础文本提示中显著提升了GPT-4V的能力，这一点显而易见。

null

上表(a)展示了在5种不同的提示策略下，GPT-4V在10项基础任务上的总体准确率。

总体来看，图表链策略在所有任务中的平均准确率上占据首位，达到了80.49%，比ChartCoT的67.55%高出12.94个百分点。特别是，在推理、确定范围、排序、筛选和聚类识别这五项任务中，图表链策略分别以73.9%、89.2%、72.5%、80.8%和95%的准确率实现了最高准确率。这一方法在推理和排序任务中尤为突出，准确率显著超过其他方法：推理任务达到73.9%，其他方法均未超过60%；排序任务达到72.5%，其他方法均低于40%。这些任务要求GPT-4V基于对元素坐标和值的精确识别进行精细推理。图表链提示框架有效地为GPT-4V提供了正确的值和坐标参考，极大地促进了不同元素的准确识别和定位。

视觉与文本提示的协同增效

尽管视觉和文本提示在复杂推理任务上的效果有所下降，如推理、异常检测和排序任务，但图表链提示在这些任务中的表现却尤为出色，尽管在相关性任务中稍显不足。这引出了一个问题：结合视觉和图表链提示是否能够提升GPT-4V在一系列基础图表问答任务上的表现？

综合结果显示，通过整合图表链和视觉提示，GPT-4V的准确度有了显著提升，超越了单独使用任一提示的效果。

在整合了不同文本提示与视觉提示后，GPT-4V的性能提升情况在表6中有所体现。特别是，图表链结合视觉提示的准确度达到了83.82%，不仅比ChartCoT的视觉提示高出14.6%，也比单独使用图表链的准确度提高了3.33%。此外，这种组合在六项任务中实现了最高准确度。然而，尽管图表链与视觉提示的结合提升了GPT-4V的表现，但与单独使用图表链相比，提升幅度有限。我们探讨了这一现象背后可能的原因。

首先，经过仔细分析，发现GPT-4V在理解图表时存在一定程度的幻觉现象，这可能导致即使计算过程正确，答案也可能与所有选项不符，从而产生错误。这表明幻觉现象显著影响了模型的准确性。

其次，目前对于开发专门针对增强MLLMs在图表问答任务中表现的系统化和标准化视觉提示的研究还相对缺乏。基于图形覆盖策略设计了视觉提示，相信更精准地与模型的图表理解机制相结合的视觉提示设计，将能带来更大的性能提升。

重要发现

• 闭源模型在低级分析任务上的泛化性能显著超越开源模型。
• GPT-4V 的准确率随着任务难度的提升而逐步降低，这一现象与人类在图表理解任务上的表现颇为类似。然而，GPT-4V 尚未能企及普通人在图表理解和分析上的同等水平。
• 有组织的文本提示和备选答案显著提升了 GPT-4V 推导出正确答案的能力。
• 图表结构与视觉元素的复杂度对 GPT-4V 处理低级任务时的性能有显著影响。
• 尽管多数图表变体对GPT-4V的性能有所影响，尤其是在缺少数据标签时，但诸如增大标签尺寸或去除数据标签等特定调整，却可以通过使GPT-4V更专注于视觉比较，从而提高其在异常检测和筛选任务中的表现。
• 中值模糊处理后的图表可读性极差，人类也难以完全理解。因此，可以合理推断，GPT-4V在处理可读性受损的图表时，同样会遇到难题。
• 视觉提示在多种情境下显著提升了GPT-4V的表现，包括文本提示、基础任务和图表类型，这突显了视觉信息在辅助理解与推理中的实用性。
• 实施为特定任务类型量身定做的动态视觉提示策略，对于提升性能和减少可能的负面效应极为关键。
• 图表链提示法全面提升了基础文本提示在多样化任务和图表类型中的应用效果，彰显了其显著的效用。
• 图表链提示法向GPT-4V提供了精确的图表参考信息，这进一步提升了模型对图表结构和元素的深入理解和细致推理能力。
• 通过提示提升模型表现的效力，本质上受限于幻觉效应的制约。
• 为图表问答（ChartQA）任务量身定制的视觉提示开发，呈现出一个充满前景的研究动向。

经验教训

文本与视觉提示的结合显著提升了GPT-4V的准确度。结构化的文本提示增强了模型的推理能力，而视觉提示则通过视觉关注点提升了图表理解，特别是在异常检测与筛选任务中表现突出。

图表元素的调整和图像质量对GPT-4V的表现有着直接影响。例如，增大的标签或缺少的数据标签等特定改动，可以通过集中模型的视觉比较能力，提高其在特定任务中的效率。然而，图像质量的下降，尤其是中值模糊，会削弱模型精确处理数值信息的能力。

GPT-4V在基础图表问答任务上表现优异，特别是在需要直接数据检索和基础比较的任务中，准确度极高。但在更复杂的推理、异常检测和相关性任务中，它仍面临挑战，这暗示需要进一步优化提示策略和模型训练来克服这些难题。实验结果揭示了通过专业化的提示策略和视觉元素的精细调控，提升大型语言模型在视觉数据分析性能上的潜力，为未来的应用和发展指明了充满希望的研究方向。

局限性

图表类型的限制

在实验中，为GPT-4V在七种常用图表类型上的性能设定了标准，深入洞察了模型解读图表的能力。然而，这种专注自然排除了如热图、雷达图等更复杂的图表类型，这些类型在数据呈现上带来了独特的分析挑战与机遇。

因此，纳入更多种类的图表，尤其是结构和解释更为复杂的热图和雷达图，对于大语言模型Agent应用在图表问答（ChartQA）领域的全面理解至关重要。这一扩展对于评估大语言模型Agent应用在更广泛图形解读任务中的适应性和效能非常关键。

视觉提示设计空间的限制

对视觉提示在辅助GPT-4V完成图表问答任务中的潜力进行了初步探索，发现它们能够提升模型性能。但是，对视觉提示设计空间的探讨尚属初级阶段，尚未全面系统地探索视觉提示的全部可能性。这一局限限制了我们的发现范围，并可能忽视了更有效的视觉提示策略，这些策略有望进一步提升大语言模型应用在解读和分析图表时的精确度和效率。

未来的研究可以系统性地探索为不同图表问答任务和图表类型量身定制的视觉提示设计空间。一个引人入胜的研究方向是开发算法，能够自动从给定的文本提示生成视觉提示，专门针对特定的图表问答任务和图表类型。

这将确保提示能够被精确定制，以提升模型的可解释性和任务执行的性能。

忽略了数据提示的考虑

方法主要依赖于图表图像，而忽略了生成这些图表的基础数据。这种疏忽可能会限制模型基于实际数据点进行更复杂分析和推理的能力。未来的研究可以探索将底层数据作为提示的一部分整合进来，可能通过多模态输入，为模型的分析提供更加丰富的上下文。

未使用微调的大型语言模型应用。在评估中仅使用了“现成”的GPT-4V，并未考虑其他模型，因为GPT-4V在视觉问答任务中表现卓越。此外，没有进行特定任务的微调，因为旨在在基础任务中对GPT-4V进行基准测试，并探究文本和视觉提示的影响，这与微调大语言模型Agent应用是相互独立的。未来的研究可以利用我们的数据集对大语言模型Agent应用进行微调，以进一步验证其效果。

因此，一个充满希望的研究方向是开发一个包含自我纠错、调试或采用多代理方法的框架——这些代理专门负责数据分析、图表理解和文本推理——这有望提高模型在图表问答任务中的准确性和可靠性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业