我要投稿

大模型在图表代码生成及图表理解的两个评估工作：可看prompt设计及其评估框架思想

发布日期：2024-05-15 16:57:26 浏览次数： 2375 作者：老刘说NLP

今天是2024年5月15日，星期三，北京，天气晴。

本文来讲讲2个问题，还是聚焦在图表这个对象上，一个是大模型在生成图表代码上的表现，另一个大模型在图表内容分析上的表现，都有对应的一些评测工作做支撑。

其中对应的prompt设计以及一些实验框架思想，值得看看。

供大家一起参考。

问题1:大模型在生成图表代码上表现如何？

关于图表code生成，这个其实是chart理解的一个逆操作，Plot2Code: 一个用于评估多模态大模型在科学图形代码生成中的全面基准，《Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots》 (https://arxiv.org/pdf/2405.07990)。

在内容侧看该工作从公开的matplotlib库中收集了六种绘图类型的132个手动选择的matplotlab绘图。

该工作可以借鉴的是其中在数据生成阶段所使用的prompt。

例如，code生成的prompt:

又如，从图表中获取text等指令信息的prompt:

整个评测流程如下图，使用的还是GPT4打分的策略：

对应的prompt为：

从结论上看，大多数现有的MLLM都难以对文本密集图进行视觉编码，严重依赖文本指令。

数据地址放在：https://huggingface.co/datasets/TencentARC/Plot2Code

问题2:大模型在图表内容分析上的表现如何？

关于，评估MLLMs在图表上的任务有效性这块，已经有了不少数据集，流入FigureQA、ChartQA等。

读到一个工作，《Evaluating Task-based Effectiveness of MLLMs on Charts》(https://arxiv.org/pdf/2405.07001)，该工作设计了一个名为ChartInsights的大型数据集，由89388个四元组（图表、任务、问题、答案）组成，涵盖7种图表类型的10个广泛使用的数据分析任务。

值得注意的点，包括其数据集的构建流程，如下：

其在图表数据上做的一些数据增强，如下：

最后得到的一些结论，如下：

1、与开源模型相比，闭源模型在低级别的分析任务中表现出优越的泛化性能；

2、GPT-4V的总体准确性随着任务难度的增加而逐渐降低，这与人类在图表理解任务上的表现相似，但GPT-4V无法达到与普通人类相似的图表理解和分析水平；

3、结构化的文本提示和候选答案显著增强了GPT-4V推理出正确答案的能力；

4、图表结构和视觉元素的复杂性将显著影响GPT-4V在低级别任务中的性能；

5、虽然大多数图表变体略微限制了GPT-4V的性能，特别是在没有数据标签的情况下，但通过将重点转移到视觉比较上，某些修改，如较大的标签和删除数据标签，实际上可以提高其在异常检测和过滤等任务中的性能；

6、中值模糊后的图表可读性非常差，即使对人类来说也很难完全理解。因此，可以合理地假设GPT-4V在处理可读性受损的图表时同样面临困难；

7、视觉提示显著提高了GPT-4V在各种场景中的性能，如文本提示、低级任务和图表类型，突出了视觉信息在帮助理解和推理方面的效用；

8、采用针对特定任务类型量身定制的动态视觉提示策略对于优化性能和减轻任何潜在的负面影响至关重要；

9、图表链提示全面改进了基本文本提示在不同任务和图表类型中的使用，展示了其有效性；