微信扫码
与创始人交个朋友
我要投稿
Llama 是由 Meta(FaceBook) AI 发布的一个开源项目,允许商业应用。扎克伯格表示,Meta 提供的生成式 AI 能力在免费产品中性能是最强大的。在 Facebook、Instagram、WhatsApp 和 Messenger 上,用户现在可以借助 Meta AI 进行搜索,无需在应用程序之间切换。
llama:
官方网站:Introducing Meta Llama 3: The most capable openly available LLM to date
Hugging Face访问方式:https://huggingface.co/chat/
Github项目地址:https://github.com/meta-llama/llama3
模型包括Meta-Llama-3-70B-Instruct、Meta-Llama-3-8B-Instruct、Meta-Llama-3-8B三个版本
架构变化:
与 Llama 2 相比没有重大变化。在 Llama 2 中,只有较大的模型使用了分组查询注意 (GQA),但现在所有模型都使用了,包括最小的 8B 模型。这是注意中的键/值的参数共享方案,可减少推理期间的 KV 缓存大小。这是一个不错的、受欢迎的、降低复杂性的修复和优化。【分组查询注意力成为标配】
Llama2 结构,可以参考:Llama2:开源基座大语言模型 (qq.com)
Token长度变化:
上下文窗口中的最大Tokens从 4096(Llama 2)和 2048(Llama 1)增加到 8192。
实验测试参见:
https://zhuanlan.zhihu.com/p/693946806
为了充分释放预训练模型在聊天场景中的潜力,Meta 还对指令微调方法进行了创新。Llama 3 后训练方法用的是有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。SFT 中使用的 prompt 质量以及 PPO 和 DPO 中使用的偏好排序对模型对齐有着巨大的影响。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-18
当产品经理谈到用LLM Agent构建新一代智能体的时候,他们在说什么?
2024-08-15
对话AI教育从业者们:AI如何解决因材施教的难题?
2024-08-03
工业应用中的向量数据库与知识向量化存储方案
2024-07-25
两大深度学习框架TensorFlow与PyTorch对比
2024-07-17
让生成式 AI 触手可及:NVIDIA NIM on VKE 部署实践
2024-07-16
中文大模型基准测评2024上半年报告
2024-07-16
一文看懂人工智能的起源、发展、三次浪潮与未来趋势
2024-07-14
"自拍" 秒变 "证件照" 看Coze如何实现
2024-05-14
2024-04-26
2024-05-22
2024-04-12
2024-03-30
2024-07-18
2024-05-10
2024-04-25
2024-04-26
2024-08-13