微信扫码
与创始人交个朋友
我要投稿
今天分享主题,Meta 发布的Llama3.2大模型与之前Llama3.1有什么亮点
Llama 3.2 没有太多新功能,主要集中在模型的优化和适应性上,特别是在小型模型的高效性和性能恢复方面,同时也是为解决 Llama 3.1 大模型构建时需要大量计算资源,使得开发人员或小型企业都很难满足所需资源来使用。
虽然没有显著的新功能,但在上下文长度支持和合成数据生成的质量提升方面有所增强。
Llama 3.2 介绍
这次的发布 Llama 3.2 系列中,主要划分为最大模型和轻量两级模型。其中最大的两个模型 11B 和 90B 支持图像推理,比如文档级别理解图表和图形、图像字幕以及视觉基础任务。
轻量级 1B 和 3B模型,提供强大的多语言文本生成和工具调用功能,适合于总结、指令跟踪和在边缘本地运行的设备。
本地运行大模型优势,使得开发人员能够构建个性化设备代理应用程序时,具有较强隐私性,数据永远不会离开设备,安全进一步得到保障。
Llama 3.2 模型的优势
官方评估表明,Llama 3.2 视觉模型在图像识别和视觉理解任务上已经领先其他基础模型了,比如 Claude 3 Haiku 和 GPT-4o-mini。3B 模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型与 Gemma 相媲美。
Llama 3.2 视觉模型
Llama 3.2 作为首批支持视觉任务的 Llama 模型,在Llama系列中两个大模型11B 和 90B 版本中引入了新的架构以支持图像输入。
这次为了添加图像输入支持,训练了一组适配器权重,将图像编码器与预训练的语言模型结合起来。这些适配器使用交叉注意层来输入图像信息,同时保留语言模型的文本处理能力。
训练过程分为几个阶段:
首先,在预训练的 Llama 3.1 模型基础上,加入图像适配器和编码器,在大量的图像和文本数据上进行预训练,之后又在高质量的数据集上进行微调。
在微调阶段,采用了多种方法来优化模型,包括生成合成数据和使用奖励模型来提升答案质量。而且,还加入了安全缓解措施,以确保模型在保持实用性的同时具备较高的安全性。
可以看到,这次Meta发布的 Llama 3.2 能够同时处理图像和文本输入,深入地理解和推理两者的结合,也表明了Llama模型向更丰富的智能能力迈进了一步。
轻量级模型
Llama 3.2 本次也带来了高效适应设备的小型模型,主要有 1B 和 3B 两种,采用了修剪和知识蒸馏两种方法。
修剪通过系统性移除网络部分,减小模型大小并恢复性能;
知识蒸馏则利用较大模型(如 Llama 3.1 8B 和 70B)的输出,帮助小模型获得更好的性能。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22