我要投稿

大视觉语言模型

发布日期：2024-04-14 14:11:55 浏览次数： 2460 作者：大语言模型论文跟踪

综述：大模型时代的哪个图表问答工具最强？（结尾附工具列表）

发布时间：2024年03月18日

LLM应用 数据可视化

摘要

图表形式的数据可视化是数据分析的关键一环，助力洞见挖掘和决策制定。近年来，得益于大型基础模型的发展，自动图表理解技术实现了显著飞跃。像LLMs这样的基础模型已彻底变革了多种NLP任务，并正逐渐渗透至图表理解任务中。本文通过全面梳理，介绍了在基础模型框架下图表理解领域的最新进展、挑战以及未来发展趋势。开篇便对图表理解的概念进行了界定，明确了问题表述，并阐述了深入探究该领域所需的基础构件。接下来，在任务与数据集章节中，我们涉猎了图表理解内部的不同任务类型，详细讨论了其评估标准及图表与文本输入资源。随后，文章探讨了涵盖分类和生成两类方法的建模策略，以及提升图表理解效能的工具增强技术。同时，我们也评析了各任务目前的尖端表现，并就如何进一步优化性能展开探讨。文章特别设立章节专论挑战与未来展望，聚焦于特定领域图表的理解难题、评估工作的不足以及面向智能体场景的应用局限性。这份综述旨在为借助大型基础模型推进图表理解的未来研究提供宝贵启示与导向，文中引用的相关研究及其不断涌现的新成果将持续在以下网址更新：https://github.com/khuangaf/Awesome-Chart-Understanding。

null

图表类问答基础模块定义

作者对自动图表类问答任务的基础模块进行了定义，包括视觉编码器、图表表格转换模块、OCR模块、文本编码器、文本解码器。

视觉编码器：通常需要从输入图表图像中提取视觉特征，以理解图表中的图形元素和场景文本之间的关系和空间排列。因此，传统的图表理解模型通常使用一个视觉编码器将输入图表图像映射到一个视觉特征矩阵；最近开发的基于大型视觉-语言模型（LVLMs）的模型，如ChartLlama和ChartAssistant，采用额外的投影层来更好地对齐文本和视觉表示。

图表表格转换模块：输入图表的基础数据表提供了其原始数据的结构化文本表示，可以帮助语言模型更好地理解输入图表中呈现的信息。在现实世界的应用中，图表的基础数据表可能不容易访问。因此，各种图表理解方法采用图表到表格转换模块从输入图表中提取数据表。提取出的表格也可以线性化为一系列表格标记[?^1，…，?^?^]，其中?^表示?^中元素的数量。

OCR模块：识别图表图像中的场景文本是图表理解的一个重要步骤。许多图表理解方法将OCR（光学字符识别）系统应用于从输入图表图像中提取场景文本。OCR系统还提供了每个提取出的标记的位置元数据，称为边界框，包括其左上坐标、右下坐标、宽度和高度。

文本编码器：为了理解输入的文本查询，通常会应用一个文本编码器将输入的文本查询映射到一个查询表示矩阵。现有图表理解模型中的文本编码器通常通过Transformer编码器或来自预训练语言模型的词嵌入层来实现。类似地，我们可以使用文本编码器将提取出的表格编码成一个表示矩阵。

文本解码器：文本解码器根据给定的输入上下文，逐步生成一个预测的文本。在现有的图表理解模型中，输入上下文集通常包括图表表示矩阵、查询表示矩阵和/或提取出的表格的表示矩阵。

数据集测试任务类型

作者为测试数据集任务定义了以下概念：

• FQA(Factoid Question Answering)：事实问题回答
• OQA(Open-domain Question Answering)：开放域问题回答
• CAP(Captioning)：图表标题生成
• C2T(Chart-to-Table)：图表到表格
• FC(Fact-checking)：事实检查
• FEC(Factual Error Correction)：事实错误修正
• FID(Factual Inconsistency Detection)：事实不一致检测

图表问题回答(Chart Question Answering)涉及向模型提出与图表内容相关的问题，模型必须正确回答。这个任务的难点在于模型理解基础数据的趋势和数据点之间的关系。先前的工作探索了两种类型的问题，事实问题和开放式问题。事实问题的答案通常是名词（例如轴上的值）、动词（例如增加或减少）或副词（例如趋势的幅度），而开放式问题的答案通常是较长的形式，例如句子。

图表标题生成(Chart Captioning)，也称为图表总结，旨在为给定的视觉表示生成一个描述性的字幕。生成的字幕应反映数据可视化传达的关键见解或信息摘要。

图表到表格转换(Chart-to-Table Conversion)需要模型解释视觉数据表示，并将其转换为表格格式。这个过程涉及从图表中提取数据值和系列，并以结构化表格表示它们。

图表事实检查(Chart Fact-Checking)涉及验证给定声明是否与输入图表在事实上一致，这有助于识别跨媒体的错误信息。ChartFC和ChartCheck是唯一的图表事实检查数据集。与事实检查文献相反，这两个数据集只考虑支持或反驳标签，并忽略了不足信息标签，其中图表不支持或反驳相应的声明。这种设置几乎与图表字幕的事实不一致检测任务相同，其目标是预测图表与生成的字幕之间的关系是否一致（即支持）或不一致（即反驳）。主要区别在于，图表事实检查侧重于人工创建的声明，而事实不一致检测使用机器生成的字幕作为文本输入。

图表字幕事实错误修正(Chart Caption Factual Error Correction)是事实检查任务的扩展，其中模型被给定一个可能与图表不一致的字幕和一个图表。目标是识别和纠正这些事实错误，确保纠正后的字幕忠实地反映了图表中呈现的信息。

实现方案

实现方案总体可以分为两种：分类方法和基于模型的方法。

基于分类的方法局限于有固定词汇表或单词标记输出的任务，不适用于大多数图表理解任务，例如涉及长篇文本输出的任务。因此，所有最近的图表理解方法都采用生成式架构。这些方法朝着更加集成、端到端可训练的框架发展。

基于模型的方案有包括：基于非预训练模型的方案、基于预训练模型的方案和基于大视觉语言模型的方案。

工具增强

工具增强是指利用外部系统来解决建模能力的限制，例如受限的视觉表示。在图表理解领域，这些增强工具主要关注从图表中提取关键信息，以便更先进的模型进一步处理。早期采用的工具是设计用于从图像中提取文本内容的OCR系统。最近的进展已经转向不依赖OCR的端到端预训练视觉-语言模型，例如Donut和Pix2Struct。

性能

null

上表里，展示了各种任务和数据集的最新性能。

预训练模型和LVLMs的性能一般是最好的。

利用更大规模的视觉和语言模型，结合预训练或指导调整技术，在推进图表理解模型能力方面会产生更好的效果。

涉及长篇文本生成的图表理解任务（即图表字幕生成）比具有黄金标准答案的任务（例如图表问题回答）更具挑战性。

使用生成式模型方法的模型

非预训练模型

• SciCap: Generating Captions for Scientific Figures.
• Figure Captioning with Relation Maps for Reasoning.
• Chart-to-Text: Generating Natural Language Descriptions for Charts by Adapting the Transformer Model.

预训练模型

• Enhanced Chart Understanding via Visual Language Pre-training on Plot Table Pairs.
• MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering.
• UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning.
• Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding.

工具增强

• DePlot: One-shot visual language reasoning by plot-to-table translation.
• Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning.
• Do LLMs Work on Charts? Designing Few-Shot Prompts for Chart Question Answering and Summarization.
• DOMINO: A Dual-System for Multi-step Visual Language Reasoning.
• StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding.

大视觉语言模型

Tailored for Chart Understanding

• ChartLlama: A Multimodal LLM for Chart Understanding and Generation.
• MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning.
• ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning.
• ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning.
• ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning.
• FigurA11y: AI Assistance for Writing Scientific Alt Text.
• Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs.

General-purpose

• Visual Instruction Tuning.
• mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality.
• mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration.
• SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models.
• Gemini: A Family of Highly Capable Multimodal Models.
• GPT-4V.
• Introducing the next generation of Claude (Claude 3).

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业