微信扫码
添加专属顾问
我要投稿
今天凌晨Meta公司发布了史上最强的开源大模型,Llama3.1 405B模型,今天总结一下关于Llama3.1的一些关键点,以及对我们的启示。
首先总结一下关于 LLAMA3.1的特点
第一个最重要的特点当然是目前为止最大最有效的开源模型,拥有4050亿参数,模型是可以直接对标GPT4(目前最好的闭源大模型)。从参数的级别来讲,我们知道 GPT 3.5 拥有 1700 多亿的参数,GPT 4 是一个万亿级别的参数,这样一个模型提出到底给我们什么样的一些启示呢?
很直观的来讲,它重新会开启开源和闭源模型之间的竞争。
我们知道在405B模型出来之前,我们基本上认为是开源要落后于闭源的,而且基于开源的模型进行模型微调得出来的新模型,效果很多时候还是不如GPT4。有了我们最新的Llama模型之后,这样的一个格局是否会彻底的被改变?因为目前的LLAMA3.1 模型实际上它的性能是可以跟 GPT 4 可以媲美。所以在它的基础上我们进行了模型的微调或者一些调整,就有可能在一些领域上它的性能会超过 GPT 4,这其实对开发者来讲是一个非常好的消息。
第二个启示就是中文大模型,其实我们知道国内很多的大模型的构建极大地参考了 LLAMA3.1模型,比如说 LLAMA3.1 的架构或者是基于 LLAMA3.1接着去训练,或者基于 LLAMA3.1 做了一些模型的蒸馏,从这个观点来看, LLAMA3.1 1405 B 模型的诞生有可能会极大的加速我们中文大模型开发的进度,虽然目前发布的模型主要以英文为主,对中文是不太友好,但是可以通过一些像持续训练的方法。可以把这样的一个有效的模型造为有效的中文大模型。
第二个特点, Meta 同步发布了新的8 B,还有 70B 的模型,以及所有这些模型,它支持 128 K 的上下文。这里值得关注的一点是,新发布的 8B 和 70B模型要比同类参数的模型要高出一个等级,而且 128 K 的上下文大小其实满足了我们绝大多数的需求。
第三个特点是强调了数据的重要性,除了模型的发布,它也公开了非常完整的94页的技术报告,然后在这个报告里涵盖了非常详细的跟数据相关的细节。比如说数据的准备、数据处理、数据收集,以及如何用 AI 的方法来大量的去构造一些数据,而且这里提到的很多的数据上的一些细节方案,可以用在我们对模型的微调的过程里面,所以这个技术报告非常有价值。
总结一下 LLAMA3.1405B 模型成功的主要原因
也就是什么样的一些背后的技术或者手段促使它的性能能够去跟 GPT 4 媲美?
第一个也是最重要的就是模型的大小。这个跟scaling law是相关的,也就是随着我们把模型变得越来越大,它的整个的性能也会变得越来越好。
第二个数据大小,就是用于训练模型的数据量,对于 405 B 的模型来讲,我们总共使用了 15T 的token。然后相反,在 LLAMA2里面其实使用到的仅仅是 1.8T 的token。
除了模型大小和数据大小。
第三个就是数据上的一些工作,如果我们仔细看他发布的技术报告,我们会发现里面大量的篇幅其实在讲数据,包括怎么去收集数据,怎么去处理数据,以及怎么去构造数据,所以这里就涉及到很多跟数据清洗,还有就是数据的构造,包括配比等工作,这些对模型最后的效果会产生非常重要的影响。
第四点从模型的结构来讲,实际上新的模型它跟旧的模型相比没有本质的区别,所以在结构上是看不出太多的创新点。
第五点就是定向能力的提升,为了让训练出来的大模型它具备像数学能力,还有推理能力、写代码能力以及能够灵活地调用各类工具的能力。在技术报告里面我们可以看出他们做了大量的工作,那这里有些能力的提升,他们专注在模型的后训练上,然后另一批能力的提升,它既考虑模型的预训练,也考虑模型的后训练
但是不管怎么样,这些能力的提升的重点还是在于数据本身上,比如说我们收集什么样的数据,然后对这些数据我们怎么去处理,然后怎么去筛选出高质量的数据来训练相应的能力。所以从这几点可以看出,几乎所有的重点工作在于数据上,就是把模型变大,然后我们在数据上做更多的工作,从而得到一些更高质量的数据。以上是针对于LLAMA3.1 系列大模型的简单的总结,所以说了这么多,其实核心还是数据。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-10
Manus太火爆MetaGPT又开源OpenManus-RL引入强化学习;多智能体协作框架OWL
2025-03-10
一键包:新开源TTS,零样本克隆声音,还能自主创建声音,只需要6G显存,文末一键包
2025-03-09
LLM运行框架对比:ollama与vllm浅析
2025-03-09
真·企业级方案!MindSQL开源:四种训练方式+私有数据+RAG+生产高并发
2025-03-09
智能体的互联网时代来临,相当于http协议的MCP协议让智能体与数据源无缝连接
2025-03-09
Manus背后的核心技术:如何通过MCP简化AI集成
2025-03-08
5 个人、3 小时,开源复刻 Manus?
2025-03-08
AI 技术应用落地与投资机遇|线性观点
2025-01-01
2024-07-25
2024-05-06
2025-01-21
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-12-26
2024-07-11
2025-03-08
2025-03-03
2025-03-02
2025-03-01
2025-02-26
2025-02-23
2025-02-18
2025-02-15