我要投稿

微信AI团队颠覆传统认知的发现：数据选择比规模更重要

发布日期：2024-05-26 15:20:13 浏览次数： 2531 作者：走向AI

导读

前期解读多模态的文章也提到过近期VLM的主要改进思路集中在增加更丰富的数据（特别是OCR场景数据）和提高分辨率上面，那么是不是只要增加数据就能获得性能的增长呢？

本次解读论文主要探讨了当前VLM范式下，给预训练和SFT增加数据的有效性，得出以下结论：

简单地增加预训练数据集的大小并不能有效地提高视觉-语言模型（VLM）的性能。实际上，它甚至可能导致性能下降
并非所有使用的SFT数据都是必需的，可以优化以提高性能。

论文名称：Rethinking Overlooked Aspects in Vision-Language Models
论文地址：https://arxiv.org/abs/2405.11850

Introduction

最近的开源进展正在逐渐缩小与商用VLM如GPT-4o之间的差距（商汤联合上海AI实验室等 | 开源新突破：InternVL1.5如何挑战商业多模态模型霸权）。然而视觉语言模型的最新进展在很大程度上是由数据驱动的，包括预训练数据和指令调整（SFT）数据。例如，像InternVL-1.5、Qwen-VL-Max和DeepSeek-VL这样的模型使用了像Laion-5B和COYO这样的大规模预训练数据集，使它们能够达到10亿的预训练数据量。与以前的工作相比，它们的指令调整数据集不仅规模更大，而且种类更丰富。

Qwen-VL的预训练数据：

InternVL-1.5的预训练数据：

InternVL-1.5将sft数据集划分为11个子类，并为每个子类收集相应的开源数据集，DeepSeek-VL也采用了这种做法：

问题提出

对于预训练数据集，在LLM领域存在一个扩展法则：随着模型大小的增加和预训练数据集大小的同时扩展，模型的性能也将同步提高。然而，迄今为止，视觉-语言模型领域还没有进行过此类全面实验。因此，本文提出三个问题：

在预训练期间，简单地增加更多的预训练数据是否能够持续提高模型的性能？
当扩大LLM并且同时增加预训练数据量时，视觉-语言模型是否会展示出类似于LLM中的扩展法则？
在现有的工作中使用的SFT数据集是否都对增强模型的通用能力起到关键作用？

实验基线选择：LLaVA-1.5

使用WeChat内部开发的培训框架，通过引入更高效的数据格式来优化数据加载流程。
为了验证训练框架的准确性，训练了一个基线模型LLaVA-1.5，并与所有数据集、超参数保持一致性。

扩大预训练数据规模实验

从LAION-5B-en中提取了七组数据，范围从1M到100M，并在这些数据集上训练了相同的模型。还选择了几种语言模型（如Vicuna、Qwen-1.5和Nous-Hermes-2-Yi）来确保结论的普遍性和说服力。

可以看到：1) 目前用于视觉语言预训练的预训练数据集效率相当低。当我们将预训练数据集从1M扩展到100M时，只在三个基准上观察到微小的改进，并且当数据集大小超过50M时性能甚至恶化。例如，当我们将预训练数据的规模从20M扩展到100M时，Qwen1.5-7B在SEED-Bench上的性能下降了3.3点。2) 扩大LLM的规模可以带来显著的改进。3) 不同大小的LLM性能趋势在不同的预训练数据规模下几乎一致。基于观察到的实验现象，显然仅仅扩大预训练数据集的规模并不能有效提高视觉语言模型的性能。更有希望的方法在于提高数据的质量和多样性。（点评：例如InternVL1.5在预训练阶段加入了很多和OCR有关的数据集）

SFT数据选择

LLaVA-1.5-665K目前是最广泛使用的视觉指令调整数据集，研究证明用ShareGPT4V中的数据替换LLaVA-1.5-665K中的详细描述数据可以带来进一步的改进。因此，我们选择改进版的LLaVA-1.5-665K作为我们的baseline
引入了“Individual Select”策略，用于从大量公开可用的SFT数据集中选择最有效的数据集：

"Individual Select"策略的工作流程如下：(1) 对于表3中每个类别的每个数据集，我们将其纳入基准数据集，并在新构建的数据集上微调模型。(2) 如果模型的性能超过了或与在基准数据集上训练时达到的性能相当，将候选数据集纳入候选池。如果没有，将其丢弃。最终，我们将候选池中的所有数据集合并，并整合到基准数据集中，建立一个新的基准数据集。(3) 然后我们使用这个新的基准数据集，迭代遍历所有后续类别，并重复上述步骤1和2。
最终选择加入到SFT的数据如下：

Experiments

原始的LLaVA固定了视觉编码器，只专注于对多层感知器（MLP）适配器进行预训练以提高效率。然而，越来越多的研究表明，同时训练视觉编码器和适配器可能更为有利。这种方法允许对特征分布进行调整以适应生成任务，从而增强视觉编码器的特征提取能力。在我们的工作中，我们也解冻了视觉编码器，并为视觉编码器和MLP适配器分配了不同的学习率。所有其他设置与LLaVA-1.5保持一致。具体来说，我们使用OpenAI的CLIP-Large-336px作为视觉编码器。学习率在最初的3%迭代中线性预热，之后采用余弦衰减学习率策略。

Analysis

从上面表4的结果可以看到，采用上面步骤提取的SFT数据训练出来的模型总体上以显著的优势超越了其他模型。尽管我们的模型直接基于LLaVA-1.5，它甚至超越了引入了新策略的LLaVA-Next，例如使用高分辨率图像。这一显著的性能提升进一步强调了探索SFT数据集组合的重要性。

简单地增加预训练数据集的大小并不总是能够带来改进，我们提出两个可能的原因：

预训练数据集的质量可能不是最优的。从互联网上爬取的LAION-5B，并且只经过了基本的数据过滤处理，如图像-文本相似度过滤，可能包含大量的噪声，包括文本中的语法错误和不正确的标点。
视觉编码器已经在与视觉-语言对齐预训练中使用的分布相似的数据集上进行了预训练。鉴于视觉编码器没有冻结，视觉-语言预训练的重点在于视觉-语言对齐以及向视觉编码器注入新知识。这种新知识的注入涉及灌输在视觉编码器预训练期间没有学到的能力。因此，使用与视觉编码器预训练中使用的分布相似的更多数据，在视觉-语言预训练阶段不会产生显著的改进。（作者应该进一步验证下参考InternVL1.5的做法，在预训练阶段加入很多和OCR有关的数据集后指标是如何变化的）

总结：之前个人思考文章大模型能力受限？WPS AI套娃收费引争议揭示数据质量的重要性也提到了高质量数据对于当前大模型训练的重要性，本文通过扎实的对比实验证明了，数据并不是越多越好，需要有选择性的增加数据才能带来性能的提升。参考Huggingface论文经费燃烧后的洞见：Huggingface揭示构建高效VLM的核心要素里提到的数据，个人感觉其中的一些数据加入到本文的预训练或者SFT数据里应该有效，特别是图文交错类型的文档数据。

往期相关文章列表

大模型能力受限？WPS AI套娃收费引争议揭示数据质量的重要性

经费燃烧后的洞见：Huggingface揭示构建高效VLM的核心要素

商汤联合上海AI实验室等 | 开源新突破：InternVL1.5如何挑战商业多模态模型霸权

LLaVA-UHD：开启全高清视野任意宽高比感知的LMM新纪元