AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Meta发布Llama 3.2大模型,彻底改变边缘 AI 和视觉!
发布日期:2024-09-27 18:35:33 浏览次数: 1826 来源:码农渔夫



今天分享主题,Meta 发布的Llama3.2大模型与之前Llama3.1有什么亮点

Llama 3.2 没有太多新功能,主要集中在模型的优化和适应性上,特别是在小型模型的高效性和性能恢复方面,同时也是为解决 Llama 3.1 大模型构建时需要大量计算资源,使得开发人员或小型企业都很难满足所需资源来使用。

虽然没有显著的新功能,但在上下文长度支持和合成数据生成的质量提升方面有所增强。

Llama 3.2 介绍

这次的发布 Llama 3.2 系列中,主要划分为最大模型和轻量两级模型。其中最大的两个模型 11B 和 90B 支持图像推理,比如文档级别理解图表和图形、图像字幕以及视觉基础任务。

轻量级 1B 和 3B模型,提供强大的多语言文本生成和工具调用功能,适合于总结、指令跟踪和在边缘本地运行的设备。

本地运行大模型优势,使得开发人员能够构建个性化设备代理应用程序时,具有较强隐私性,数据永远不会离开设备,安全进一步得到保障。

Llama 3.2 模型的优势

官方评估表明,Llama 3.2 视觉模型在图像识别和视觉理解任务上已经领先其他基础模型了,比如 Claude 3 Haiku 和 GPT-4o-mini。3B 模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型与 Gemma 相媲美。

Llama 3.2 视觉模型

Llama 3.2 作为首批支持视觉任务的 Llama 模型,在Llama系列中两个大模型11B 和 90B 版本中引入了新的架构以支持图像输入。

这次为了添加图像输入支持,训练了一组适配器权重,将图像编码器与预训练的语言模型结合起来。这些适配器使用交叉注意层来输入图像信息,同时保留语言模型的文本处理能力。

训练过程分为几个阶段:

首先,在预训练的 Llama 3.1 模型基础上,加入图像适配器和编码器,在大量的图像和文本数据上进行预训练,之后又在高质量的数据集上进行微调。

在微调阶段,采用了多种方法来优化模型,包括生成合成数据和使用奖励模型来提升答案质量。而且,还加入了安全缓解措施,以确保模型在保持实用性的同时具备较高的安全性。

可以看到,这次Meta发布的 Llama 3.2 能够同时处理图像和文本输入,深入地理解和推理两者的结合,也表明了Llama模型向更丰富的智能能力迈进了一步。

轻量级模型

Llama 3.2 本次也带来了高效适应设备的小型模型,主要有 1B 和 3B 两种,采用了修剪和知识蒸馏两种方法。

修剪通过系统性移除网络部分,减小模型大小并恢复性能;

知识蒸馏则利用较大模型(如 Llama 3.1 8B 和 70B)的输出,帮助小模型获得更好的性能。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询