微信扫码
与创始人交个朋友
我要投稿
普林斯顿大学、威斯康星大学和香港大学的研究人员推出了 CharXiv,这是一个全面的评估套件,旨在提供更真实、更具挑战性的多模态大型语言模型性能评估,该套件包含从 arXiv 论文中提取的 2,323 个图表,涵盖各种主题和图表类型,并配有需要详细视觉和数值分析的描述性和推理性问题,旨在弥合当前基准与实际应用之间的差距。
多模态大型语言模型 (MLLM) 正在推进 NLP 和计算机视觉的融合,这对于分析视觉和文本数据至关重要。这些模型对于解读科学论文、财务报告和其他文档中的复杂图表特别有用。主要的挑战在于增强这些模型理解和解释此类图表的能力。然而,当前的基准测试通常需要更加准确才能证明这项任务的合理性,这导致高估了 MLLM 的能力。这个问题源于缺乏能够反映现实世界场景的多样化和现实数据集,而这对于评估这些模型的真实性能至关重要。
MLLM 研究中的一个重要问题是现有基准测试中存在的过度简化。FigureQA、DVQA 和 ChartQA 等数据集依赖于程序生成的图表和问题,这些图表和问题缺乏视觉多样性和复杂性。这些基准测试需要捕捉现实世界图表中的真正复杂性,因为它们使用基于模板的问题和同质化的图表设计。这种局限性导致对模型图表理解能力的评估不准确,因为基准测试必须充分挑战模型。因此,迫切需要更真实、更多样化的数据集,以便为 MLLM 解读复杂图表的能力提供可靠的衡量标准。
来自普林斯顿大学、威斯康星大学和香港大学的研究人员推出了 CharXiv,这是一个全面的评估套件,旨在对 MLLM 的性能提供更真实、更具挑战性的评估。CharXiv 包含来自 arXiv 论文的 2,323 个图表,涵盖了各种主题和图表类型。这些图表与描述性和推理性问题配对,需要进行详细的视觉和数值分析。该数据集涵盖八个主要学科,并以多样化和复杂的图表为特色,以全面测试模型的能力。CharXiv 旨在通过为 MLLM 提供更准确、更严格的评估环境,来弥合当前基准测试与实际应用之间的差距。
CharXiv 的独特之处在于其精心策划的问题和图表,旨在评估 MLLM 的描述能力和推理能力。描述性问题侧重于基本的图表元素,如标题、标签和刻度,而推理性问题则需要综合复杂的视觉信息和数值数据。所有图表和问题都经过人工专家挑选、策划和验证,以确保高质量和相关性。这种细致的整理过程旨在提供一个真实的基准测试,比现有数据集更有效地挑战 MLLM,最终提高模型在实际应用中的性能和可靠性。
在评估 CharXiv 时,研究人员对 13 个开源模型和 11 个专有模型进行了广泛测试,结果显示出巨大的性能差距。最强的专有模型 GPT-4o 在推理问题上达到了 47.1% 的准确率,在描述性问题上达到了 84.5% 的准确率。相比之下,领先的开源模型 InternVL Chat V1.5 在推理问题上的准确率仅为 29.2%,在描述性问题上的准确率为 58.5%。这些结果突出了当前 MLLM 在图表理解方面面临的挑战,因为人类在这些任务上的表现明显更高,推理问题的准确率为 80.5%,描述性问题的准确率为 92.1%。这种性能差异表明需要更强大、更具挑战性的基准测试(如 CharXiv)来推动该领域的进一步发展。
CharXiv 的研究结果为当前 MLLM 的优势和劣势提供了重要的见解。例如,专有模型和开源模型之间的性能差距表明,前者能够更好地处理现实世界图表中的复杂性和多样性。评估结果显示,描述能力是有效推理的先决条件,因为具有较强描述能力的模型往往在推理任务上表现更好。模型还需要在组合任务方面获得帮助,例如计算轴上的标记刻度,这对人类来说很简单,但对 MLLM 来说却很有挑战性。
总之,CharXiv 解决了现有基准测试的关键缺陷。通过提供更真实、更具挑战性的数据集,CharXiv 能够更准确地评估 MLLM 解读复杂图表的能力。该研究发现的巨大性能差距凸显了持续研究和改进的必要性。CharXiv 的综合方法旨在推动 MLLM 能力的未来发展,最终为实际应用提供更可靠、更有效的模型。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-04-11
2024-08-13
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-17