我要投稿

巅峰大模型行业认知 | 7B小模型“展现超能力”，狂甩部分13B大模型几条街！

发布日期：2024-05-29 07:34:47 浏览次数： 2231 作者：AI产品汇

“ 当前大模型界各家大厂都在不断的拼模型精度，拼模型大小，有的模型甚至都超过了110B参数量，其实模型并不是越大越好。随着模型变大，尽管精度有一定提升，但是它对内存和算力的需求也成倍的上涨！可喜的是仍然有一波人在做另外一件事情，即我一个7B的大模型能不能极大的超越其它7B大模型，或者匹敌其它10B或者13B的大模型！本文提出了一种新的高效LLVM，即基于Mamba的推理遍历（Meteor），它利用多方面的推理来增强模型的理解和回答能力。为了嵌入包含丰富信息的冗长推理，作者采用了Mamba架构，能够处理具有线性时间复杂性的序列数据。除此之外，作者引入了一个新的基本原理遍历概念，这有助于有效嵌入基本原理。虽然它仅有7B参数量，但是它基本上可以轻松击败其它任何的7B大模型，甚至可以匹敌部分10B、13B的大模型！”

代码链接-https://github.com/ByungKwanLee/Meteor

论文链接-https://arxiv.org/pdf/2405.15574

01-Mamba架构简介

Mamba是一种新的状态空间模型体系结构，在信息密集的数据（如语言建模）上表现出了良好的性能，而以前的次二次模型无法达到Transformers的性能。它基于结构化状态空间模型的发展路线，受到FlashAttention的的启发进行了高效的硬件感知设计和实现。

尽管基础模型现在为深度学习中大多数令人兴奋的应用程序提供动力，几乎普遍基于Transformer架构及其核心注意力模块。为了以解决Transformers在长序列上的计算效率低下的问题，学者们已经相继开发了许多次二次时间架构，如线性注意力、门控卷积和递归模型以及结构化状态空间模型（SSM），但它们在语言等重要模态上的表现不如关注。作者发现这种模型的一个关键弱点是它们无法执行基于内容的推理，并进行了一些改进。

首先，简单地用输入函数来作为SSM参数，就可以用离散模态来解决它们的弱点，允许模型根据当前令牌沿着序列长度维度选择性地传播或忘记信息。
其次，尽管这种变化阻止了高效卷积的使用，但作者在递归模式下设计了一种硬件感知的并行算法。并将这些选择性SSM集成到一个简化的端到端神经网络架构中，而无需注意力机制，甚至无需MLP块（Mamba）。

Mamba具有快速推理（比Transformers高5倍的吞吐量）和序列长度的线性缩放，其性能在高达百万长度的真实数据序列上得到了提高。作为通用序列模型的主干，Mamba在语言、音频和基因组学等多种模式中实现了最先进的性能。在语言建模方面，Mamba-3B模型在预训练和下游评估方面都优于相同大小的Transforme rs，并与两倍于其大小的Transformer相匹配。

02-Meteor算法简介

视觉指令调优的进步推动了大型语言和视觉模型的快速发展。最近，开源LLVM策划了高质量的视觉指令调整数据集，并利用了额外的视觉编码器或多个计算机视觉模型，从而缩小与强大的闭源LLVM之间的性能差距。这些进步归功于多样化能力所需的多方面信息，包括基本的图像理解、关于常识和非对象概念（如图表、图表、符号、符号和数学问题）的真实世界知识，以及解决复杂问题的分步程序。

本文提出了一种新的高效LLVM，即基于Mamba的推理遍历（Meteor），它利用多方面的推理来增强模型的理解和回答能力。为了嵌入包含丰富信息的冗长推理，作者采用了Mamba架构，能够处理具有线性时间复杂性的序列数据。除此之外，作者引入了一个新的基本原理遍历概念，这有助于有效嵌入基本原理。

随后，对骨干多模式语言模型（MLM）进行训练，以在基本原理的帮助下生成答案。通过这些步骤，Meteor在需要不同功能的多个评估基准中实现了视觉语言性能的显著提高，而无需扩大模型大小或使用额外的视觉编码器和计算机视觉模型。虽然它仅有7B参数量，但是它基本上可以轻松击败其它任何的7B大模型，甚至可以匹敌部分10B、13B的大模型！

03-Meteor算法流程

上图展示了Meteor算法的整体架构和训练流程。Meteor包括视觉编码器、视觉映射模块、Mamba架构、tor映射模块和基于预训练的大型语言模型（LLM）的骨干多模态语言模型（MLM）。

对于视觉编码器，作者使用CLIP-L/14，这是一个文本对齐的视觉模块，它利用了由文本描述提供的图像理解能力。对于视觉和tor投影模块，作者使用MLP模块，该模块包含两个具有GELU激活功能的完全连接层。接着，作者使用Mamba-130M架构来提高计算效率，并采用InternetLM2-7B作为骨干大语言模型（LLM），该模型是用RLHF中的2T多语言文本数据令牌学习而来。

如左图所示，在第一个训练阶段中，作者利用策划的110万个三元组中的问题-原理对来训练Meteor Mamba和其他投影模块。在整个步骤中，通过自回归生成特殊标记<tor>之间的基本原理部分，通过基本原理遍历，将长序列基本原理嵌入Meteor Mamba中。通过冻结Meteor MLM，Meteor Mamba无缝地融入了基本原理。

如右图所示，在第二个训练步骤中，作者利用策划的110万个三元组中的问答对来联合训练Meteor Mamba、Meteor MLM和其它投影模块。在这里，多个＜tor＞特殊令牌仅传播到MeteorMamba。然后，Meteor Mamba中与特殊代币<tor>相对应的基本原理嵌入特征仅输入Meteor MLM，使其能够熟练地回答复杂的问题，即使没有明确的基本原理描述。从本质上讲，这些步骤使Meteor具备了在理论基础的帮助下有效解决复杂问题的能力。

04-Meteor算法详解

04.01-特征相似度计算细节

上图阐明了在训练的Meteor Mamba下如何计算余弦相似性的特征对应关系，并显示了<tor>的特征视差（有/无基本原理）。如图所示，余弦相似性矩阵中的对角线值远高于非对角线值。这一结果表明，Meteor Mamba成功地嵌入了基本原理，其输出特征包含了多方面的信息，即使在自然语言中没有明确的基本原理。这解释了Meteor Mamba在没有明确理由的情况下如何能在推理阶段有效运作。

04.02-算法实现细节

Meteor主要包含三个关键技术细节：1）Meteor Mamba和Meteor MLM的结构；2）视觉编码器和其它投影模块；c）训练和推理细节。

为了构建Meteor Mamba，作者使用了具有24层和768隐藏维度的Mamba架构，总共产生了130M个参数，与预训练的InternetLM2-7B的大约7B个参数相比，这是相对微不足道的。它是在硬件感知状态扩展的有效计算下执行的，其中作者从骨干MLM借用标记器来拟合骨干MLM中的语言表达空间。Meteor MLM基于InternetLM2-7B，具有32层和4096隐藏维度。

作者使用具有428M CLIP-L/14的视觉编码器，该编码器具有24层和1024个隐藏维度。位置嵌入的分辨率从24×24插值到35×35，以适应490×490的图像分辨率。视觉投影仪包括MLP，该MLP将隐藏维度从1024调整到4096以适应骨干MLM的隐藏维度。类似地，作者构建了tor投影模块，将Meteor Mamba的嵌入原理传递到Meteor MLM中，采用与视觉投影模块相同的结构，但将隐藏维度从768转移到4096。

作者在以下计算环境中训练和评估Meteor：Intel（R）Xeon（R）Gold 6230、256 GB RAM和8×NVIDIA RTX A6000 48GB VRAM。为了有效地训练它，作者在Meteor MLM的4位量化和bfloat16数据类型下，对每个训练步骤使用一个训练历元，其中使用双量化和归一化浮点4位。MeteorMamba使用float32数据类型，因为据报道，使用bfloat16或float16对其进行训练会产生不稳定的学习过程。此外，QLoRA用于训练Meteor MLM，具有64个秩和64个阿尔法参数。作者使用AdamW优化器，在每个训练步骤中通过余弦退火将学习率从1e-4调度到1e-6，并将梯度检查点应用于Meteor MLM，以实现高效的内存管理。在梯度累积为6的情况下，作者为每个训练步骤设置192和576的批量大小，每个步骤大约需要三天时间。为了有效推断，Meteor在4位量化中得到验证，并且使用确定性波束搜索（n=3）来生成文本。

05-Meteor算法数据样例分析

为了构建视觉指令微调数据集，作者不仅涵盖了基本的图像理解，还涵盖了广泛的各种能力：常识知识、非对象概念（如图表、图表、文档、符号、符号和数学问题）、认知推理、多学科任务和综合能力。

对于问答可视化指令调优数据集，作者在ShareGPT4V instruction中选择了664K个问答对，包括LLaVA-Instruct-665K。此外，在ShareGPT4VCaption中，作者为LAION、CC、SBU、MS-COCO、TextCaps和网络图像中的图像选择了91K图像描述，这些图像描述描绘了地标、动物、名人、艺术、文本和自然。所选问答对主要侧重于基本的图像理解和常识知识，较少的数据样本涵盖非对象概念、认知推理、多学科任务和综合能力。

为了加强这些领域，作者从MiniGemini Instruction中选择性地收集了27K问答对DocVQA、ChartQA、DVQA和AI2D。此外，作者使用了来自Doc Downstream/ Reason的DeepForm、InfoVQA、DocVQA、KleisterCharity、TabFact、TextVQ A、WikiTable、TextCaps和VisualMRC的574K/27K问答对。为了实现广泛涵盖数学知识，作者还包括177K GLLaVA Align/Instruction、3K MathVision和566K math Instruction/Plus的纯文本样本。

总之，作者总共收集了755K幅真实世界的图像，627K幅文档、图表、符号和符号的图像，以及747K个数学样本（仅180.5K幅图像和566.8K幅文本）。总体而言，问答视觉指令调整样本总计210万个。下图展示了一些问题-原理-答案三元组样例数据。

图5.1-问题原理答案三元组样例1展示

图5.2-问题原理答案三元组样例2展示

图5.3-问题原理答案三元组样例3展示

图5.4-问题原理答案三元组样例4展示

图5.5-问题原理答案三元组样例5展示

图5.6-问题原理答案三元组样例6展示

图5.7-问题原理答案三元组样例7展示

06-Meteor算法性能评估

上图展示了从7B到110B以上的参数中，作者将Meteor与许多开源和闭源LLVM在MME、MMB、AI2D和MathVista等多个评估基准上面的比较结果。通过观察与分析，我们可以得出以下的初步结论：与其它具有超大参数的模型相比，Meteor在需要不同功能的众多基准测试上显著提高了视觉语言性能。

上图展示了Meteor与其它开源和闭源LLVM的总体比较结果。管过观察与分析，我们可以发现：这些结果支持建立高效LLVM的可能性，其原理是多方面的，超出了缩放模型大小、额外的视觉编码器和多个计算机视觉模型的范围。

上表展示了该算法与当前现有的开源LLVM进行客观比较的结果。在需要不同功能的众多评估基准上评估Meteor的视觉语言性能体，具体包括:QBench、SQAI、AI2D、ChartQA、SEEDI、POPE、HallB、MME、MathVista、MMB、MMBCN、MM Vet和LLaVAW等。

通过仔细观察与比较，我们可以得出以下的初步结论：与其它7B、10B、13B的基线大模型相比，仅有7B参数的Metror却能在多项评估基准上面获得最佳的效果，在多项指标中与第二名之间拉开了很大的差距！

上表展示了Meteor在一些具有挑战性的Benchmark基准上面与多个SOTA算法的客观指标评估结果。通过观察与分析，我们可以得出以下的初步结论：大量的结果Meteor-7B也擅长于更具挑战性的基准，这需要同时提供多方面的信息。Meteor-7B的性能大大优于其他现有型号，其中一些型号配备了额外的视觉编码器或计算机视觉模型，这表明理性比增强视觉感知更有效地提供多方面的信息。

07-Meteor算法效果展示

图7.1-Meteor输出效果展示