我要投稿

惊喜！Ollama 刚刚支持Llama3.1 8B 70B 405B 全部型号的模型了，赶紧试试效果吧

发布日期：2024-07-24 20:09:42 浏览次数： 2445

前言

Llama 3.1 推出了：8B 70B 405B型 三种型号的模型，其中：

Llama 3.1 405B 是第一个公开可用的模型，在通用知识、可操纵性、数学、工具使用和多语言翻译方面的最新能力方面可以与顶级 AI 模型相媲美。

8B 和 70B 模型的升级版本是多语言的，具有明显更长的 128K 上下文长度、最先进的工具使用和整体更强的推理能力。这使得 Meta 的最新模型能够支持高级用例，例如长格式文本摘要、多语言对话代理和编码助手。

Meta 还对其许可证进行了更改，允许开发人员使用 Llama 模型（包括 405B 模型）的输出来改进其他模型。

模型架构

Llama 3.1 405B 在超过 15 万亿个token，16000 个 GPU上进行训练。

这次训练侧重于保持模型开发过程的可扩展性和简单性。

选择了标准的纯解码器转换器模型架构，并进行了少量调整，而不是专家混合模型，以最大限度地提高训练稳定性。
采用了迭代的训练后程序，其中每一轮都使用监督微调和直接偏好优化。这使我们能够为每一轮创建最高质量的合成数据，并提高每项能力的性能。

与以前版本的 Llama 相比，我们改进了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理管道，开发更严格的质量保证，以及为训练后数据开发过滤方法。

为了支持 405B 规模模型的大规模生产推理，我们将模型从 16 位（BF16）量化到 8 位（FP8）数值，有效降低了所需的计算要求，并允许模型在单个服务器节点内运行。

微调过程

通过在预训练模型之上进行几轮对齐来生成最终的聊天模型。每一轮都涉及监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。使用合成数据生成来生成绝大多数 SFT 示例，并多次迭代以在所有功能中生成越来越高质量的合成数据。此外，使用多种数据处理技术，以将这些合成数据过滤到最高质量。使得能够跨功能扩展微调数据量。

仔细平衡数据后，以生成具有所有功能的高质量模型。例如，即使在扩展到 128K 上下文时，也能在短上下文基准上保持模型的质量。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

一文带你了解大模型——智能体（Agent）

2024-05-28

全面对比dify、coze、streamlit、chainlit

2024-04-26

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

50+个AI大模型在不同领域的应用案例

2024-08-04

“大数据+”医疗

2024-04-11

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

2024-07-18

一文读懂大模型推理必备技术：KV Cache

2024-07-01

大家都在问

如何从头建立一个通用AI智能体应用？

2024-12-22

o3比o1强在哪里？

2024-12-21

OpenAI 铺垫了12天发布的 o3 到底咋样？

2024-12-21

Gemini 2.0重磅来袭！AI实力再进化，你准备好了吗？

2024-12-21

谁能握住AI这把烫手的屠龙刀？

2024-12-16

从大数据到大模型：如何做到“心无桎梏，身无藩篱”？

2024-12-06

为什么 AI 需要一次 Web 2.0 式的革命？

2024-12-03

为什么说大模型无法取代AI Agent ？

2024-12-01

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

前言

模型架构

微调过程

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

一文带你了解大模型——智能体（Agent）

全面对比dify、coze、streamlit、chainlit

本地部署大模型？看这篇就够了，Ollama 部署和实战

Cursor 一个真正让程序员产生危机感的 AI 编程工具

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

16个具有“联网搜索”功能的AI：总有一个适合你！

50+个AI大模型在不同领域的应用案例

“大数据+”医疗

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

一文读懂大模型推理必备技术：KV Cache

大家都在问

如何从头建立一个通用AI智能体应用？

o3比o1强在哪里？

OpenAI 铺垫了12天发布的 o3 到底咋样？

Gemini 2.0重磅来袭！AI实力再进化，你准备好了吗？

谁能握住AI这把烫手的屠龙刀？

从大数据到大模型：如何做到“心无桎梏，身无藩篱”？

为什么 AI 需要一次 Web 2.0 式的革命？

为什么说大模型无法取代AI Agent ？

热门标签