微信扫码
与创始人交个朋友
我要投稿
“ 当前大模型界各家大厂都在不断的拼模型精度,拼模型大小,有的模型甚至都超过了110B参数量,其实模型并不是越大越好。随着模型变大,尽管精度有一定提升,但是它对内存和算力的需求也成倍的上涨!可喜的是仍然有一波人在做另外一件事情,即我一个7B的大模型能不能极大的超越其它7B大模型,或者匹敌其它10B或者13B的大模型!本文提出了一种新的高效LLVM,即基于Mamba的推理遍历(Meteor),它利用多方面的推理来增强模型的理解和回答能力。为了嵌入包含丰富信息的冗长推理,作者采用了Mamba架构,能够处理具有线性时间复杂性的序列数据。除此之外,作者引入了一个新的基本原理遍历概念,这有助于有效嵌入基本原理。虽然它仅有7B参数量,但是它基本上可以轻松击败其它任何的7B大模型,甚至可以匹敌部分10B、13B的大模型!”
代码链接-https://github.com/ByungKwanLee/Meteor
论文链接-https://arxiv.org/pdf/2405.15574
01-Mamba架构简介
02-Meteor算法简介
视觉指令调优的进步推动了大型语言和视觉模型的快速发展。最近,开源LLVM策划了高质量的视觉指令调整数据集,并利用了额外的视觉编码器或多个计算机视觉模型,从而缩小与强大的闭源LLVM之间的性能差距。这些进步归功于多样化能力所需的多方面信息,包括基本的图像理解、关于常识和非对象概念(如图表、图表、符号、符号和数学问题)的真实世界知识,以及解决复杂问题的分步程序。
本文提出了一种新的高效LLVM,即基于Mamba的推理遍历(Meteor),它利用多方面的推理来增强模型的理解和回答能力。为了嵌入包含丰富信息的冗长推理,作者采用了Mamba架构,能够处理具有线性时间复杂性的序列数据。除此之外,作者引入了一个新的基本原理遍历概念,这有助于有效嵌入基本原理。
上图展示了Meteor算法的整体架构和训练流程。Meteor包括视觉编码器、视觉映射模块、Mamba架构、tor映射模块和基于预训练的大型语言模型(LLM)的骨干多模态语言模型(MLM)。
对于视觉编码器,作者使用CLIP-L/14,这是一个文本对齐的视觉模块,它利用了由文本描述提供的图像理解能力。对于视觉和tor投影模块,作者使用MLP模块,该模块包含两个具有GELU激活功能的完全连接层。接着,作者使用Mamba-130M架构来提高计算效率,并采用InternetLM2-7B作为骨干大语言模型(LLM),该模型是用RLHF中的2T多语言文本数据令牌学习而来。
如右图所示,在第二个训练步骤中,作者利用策划的110万个三元组中的问答对来联合训练Meteor Mamba、Meteor MLM和其它投影模块。在这里,多个<tor>特殊令牌仅传播到MeteorMamba。然后,Meteor Mamba中与特殊代币<tor>相对应的基本原理嵌入特征仅输入Meteor MLM,使其能够熟练地回答复杂的问题,即使没有明确的基本原理描述。从本质上讲,这些步骤使Meteor具备了在理论基础的帮助下有效解决复杂问题的能力。
为了构建视觉指令微调数据集,作者不仅涵盖了基本的图像理解,还涵盖了广泛的各种能力:常识知识、非对象概念(如图表、图表、文档、符号、符号和数学问题)、认知推理、多学科任务和综合能力。
图5.1-问题原理答案三元组样例1展示
图5.4-问题原理答案三元组样例4展示
图5.5-问题原理答案三元组样例5展示
上图展示了从7B到110B以上的参数中,作者将Meteor与许多开源和闭源LLVM在MME、MMB、AI2D和MathVista等多个评估基准上面的比较结果。通过观察与分析,我们可以得出以下的初步结论:与其它具有超大参数的模型相比,Meteor在需要不同功能的众多基准测试上显著提高了视觉语言性能。
上表展示了该算法与当前现有的开源LLVM进行客观比较的结果。在需要不同功能的众多评估基准上评估Meteor的视觉语言性能体,具体包括:QBench、SQAI、AI2D、ChartQA、SEEDI、POPE、HallB、MME、MathVista、MMB、MMBCN、MM Vet和LLaVAW等。
图7.2-Meteor输出效果展示
图7.3-Meteor输出效果展示
图7.4-Meteor输出效果展示
图7.5-Meteor输出效果展示
图7.6-Meteor输出效果展示
图7.7-Meteor输出效果展示
图7.8-Meteor输出效果展示
图7.9-Meteor输出效果展示
图7.10-Meteor输出效果展示
图7.11-Meteor输出效果展示
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-24
2025,AI世界的“大厦已成”,红杉资本的三大AI预测
2024-12-24
国内AI“六小龙”概览
2024-12-24
「深度」O1意义被大大低估!OpenAI核心科学家重磅发声:测试时计算将引爆AGI时代!
2024-12-24
AI大牛解析o3技术路线!大模型下一步技术路线已现端倪?
2024-12-23
AI Agent智能体产品的5个级别
2024-12-23
Anthropic官方揭秘:构建AI智能体的"最强攻略"!
2024-12-23
2025年AI大模型的趋势与洞察
2024-12-23
阶跃星辰完成数亿美元 B 轮融资,发力「超级模型」+「超级应用」
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01