我要投稿

ChartGemma：基于真实图表数据的图表理解与推理模型

发布日期：2024-07-18 05:02:21 浏览次数： 3129

点击

上方蓝字关注我们

ChartGemma是一个基于PaliGemma架构的多模态模型，通过直接从真实世界图表图像生成的数据进行指令微调，解决了现有图表理解模型依赖数据表格、对齐性差等问题，在图表摘要、问答和事实核查等方面取得了最先进的结果。

论文介绍

图表是各个领域必不可少的工具，但当前的图表理解模型存在局限性。它们通常依赖数据表而不是视觉模式，并使用弱对齐的视觉语言模型，从而限制了它们处理复杂图表的效果。虽然语言增强的视觉模型在一般任务中表现良好，但它们在专门的图表分析方面需要帮助。研究人员尝试对这些模型进行指令微调以更好地理解图表，但数据质量和模型对齐问题仍然存在。需要一种简单、改进的方法来开发强大的基础模型，以便在多样化、真实的场景中进行有效的图表理解和推理。

约克大学、MILA - 魁北克人工智能研究所、Salesforce Research 和南洋理工大学的研究人员开发了 ChartGemma，这是一种先进的图表理解和推理模型。与现有模型不同，ChartGemma 使用直接从图表图像生成的数据进行训练，可以捕获详细的视觉信息。它建立在 PaliGemma 骨干网络之上，比其他模型更小、更高效。ChartGemma 在五个基准测试中实现了最先进的图表摘要、问答和事实核查结果。定性研究表明，它可以生成逼真且准确的摘要，使其对于现实世界的图表分析非常有效。

图表表示学习已经从基于语言或视觉语言基础进行微调的模型发展到使用特定图表目标进行预训练的模型。已经探索了对预训练的视觉语言模型 (VLM) 进行指令微调以增强图表适用性，但这些方法依赖于底层数据表和弱对齐的 VLM。图表建模的基准范围从问答到开放式任务，如解释生成和摘要。指令微调已经概括了跨功能的语言模型，现在已成为多模态 VLM 的标准。然而，使用数据表对图表进行特定领域的指令微调无法捕捉到现实世界图表的复杂性，从而限制了模型的有效性。

ChartGemma 使用 PaliGemma 架构，该架构以 SigLIP 视觉编码器和 Gemma-2B 语言模型为特色。视觉编码器处理 448×448 像素的图像，将它们转换为映射到语言模型嵌入空间的视觉标记。然后，这些标记与文本嵌入相结合，并由 Gemma-2B 模型进行处理，该模型对输入标记使用完全注意力，对输出标记使用因果掩码以增强上下文理解。与需要两阶段训练方法的现有图表 VLLM 不同，ChartGemma 采用单阶段方法，直接微调指令微调数据。这得益于 PaliGemma 对各种图像-文本对进行的广泛预训练，从而可以实现更好的适应性和泛化能力。

ChartGemma 与各种开源图表专家模型、在图表数据上微调的 VLLM 和最先进的闭源多模态 LLM 进行了比较。它在五个评估图表表示和推理能力的基准测试中进行了评估：ChartQA、ChartFC、ChartCheck、OpenCQA 和 Chart2Text，以及一个手动整理的包含 100 个未见图表的集合。性能指标包括宽松准确率、准确率以及 GPT-4 判断的信息量和事实正确性。ChartGemma 在大多数任务上都优于其他模型，证明了其卓越的泛化能力，尤其是在理解现实指令和复杂图表方面，尽管其规模相对较小。

ChartGemma 是一种多模态模型，它使用先进的骨干网络架构对从各种现实世界图表图像生成的数据进行指令微调，解决了当前模型的关键缺陷。与从底层表生成指令微调数据并使用弱对齐骨干网络的现有方法不同，ChartGemma 使用实际的图表图像，增强了适应性和泛化能力。该方法显着提高了性能，可以使用较小的参数量生成更逼真、信息更丰富且事实更准确的输出。未来的工作包括创建一个更多样化、人工指导的微调数据集，并提出一个通用的基准测试，用于使用相关指标评估图表中复杂的视觉元素。