微信扫码
与创始人交个朋友
我要投稿
众所周知,扎克伯格的Meta又开源了Llama3 8B和70B的预训练(pretrained)和指令微调(instruction-tuned)两个版本,还有个更大的400B参数预计在今年夏天发布,这个400B可能是第一个 GPT-4 级别的开源模型!
我们先来对Llama3做个初步的了解把。
模型架构
Llama 3 是一个自回归语言模型(an auto-regressive language),它使用优化的 transformer 架构。调整后的版本使用监督微调 (SFT) 和带有人类反馈的强化学习 (RLHF),以符合人类对有用性和安全性的偏好。
相关参数
训练数据 | 参数量 | 上下文长度 | 分组查询注意力 (GQA) | 预训练数据 | 知识截至日期 | |
Llama 3 | 公开在线数据集 | 8B | 8K | 是 | 15T+ | 2023 年 3 月 |
Llama 3 | 70B | 8K | 是 | 15T+ | 2023 年 12 月 |
Llama3这个模型是在Meta新建的两座数据中心集群中训练的,包括超4.9万张英伟达H100GPU。
如何安装
ollama如何安装可以看往期文章,这里不多做赘述了。
拉取Llama3
短短几个小时已经更新了54个tags了。
目前推荐拉取这四个版本,其他量化版本是不明用户调整的。
左边是版本下拉选择,选中的版本在右边代码窗口会显示拉取代码,只要点复制icon,并把它黏贴到CMD或Powershell终端内。
注意:这次示例以windows用户为例。
就像这样,按回车开始拉取llama3(国内用户拉取速度也非常快)。
实际使用Llama3
llama3_8B的生成速度非常快,这个版本用N卡8G的显存跑问题也不大。
接下来用Open WebUI设置SD指令大师 system prompt试一下指令的理解,很完美。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-05-28
2024-04-12
2024-04-25
2024-05-14
2024-07-18
2024-08-13
2024-04-26