我要投稿

将Llama-3 的上下文长度从8K扩展到超过100万！

发布日期：2024-05-07 19:17:22 浏览次数： 3592 作者：AI研习所

Gradient Al最近将Llama-3 8B和7B模型通过渐进式训练方法不断将Llama-3模型的上下文长度从8k-路扩展到262k、524k

今天Gradient Al成功宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1 M...并且1M上下文窗口 70B 模型在 NIAH(大海捞针)上取得了完美分数。Llama 3模型最初被训练用于处理8000个token的默认上下文长度，约相当于6,000字或10页文档。

Gradient为了解锁更长上下文的使用场景，扩展了Llama 3模型的上下文窗口到超过100万。这种扩展使得模型可以处理相当于《哈利·波特》系列前五本书的内容量。

这种扩展显著增加了模型处理长文本的能力，允许它在一个任务中考虑更多的信息，从而提高了理解和生成文本的精确度和相关性。

为了逐步适应这种大幅度增加的上下文长度，Gradient Al采用了渐进式训练方法。这意味着模型从较短的序列长度开始训练，逐渐增加到目标长度。这种方法有助于模型逐步学习处理更长文本的策略，而不是一开始就直接面对极大的挑战。

方法概述

1.渐进式训练(Progressive Training)

步骤：模型从处理较短的文本序列开始，逐步增加处理的序列长度。这种渐进式增长使模型能够适应在每个步骤中的学习挑战，从而逐步提高处理更长序列的能力。

优势：这种方法有助于避免在初期阶段由于序列长度过大而导致的训练困难，保证了训练的稳定性和效率。

2.使用 RingAttention 和 EasyContext Blockwise

技术细节：为了高效管理长序列的计算负担，采用 RingAttention 库优化注意力机制的计算，使其能够扩展到非常长的序列。同时，EasyContext Blockwise 技术被用来分块处理长文本，进一步提高处理速度和降低内存需求。

应用效果：这些技术提高了模型在长序列上的训练和推理速度，使得在大规模GPU集群中的部署和执行变得更加高效。

3.NTK-aware 插值和缩放法则

目的：利用神经切线核(NTK)理论优化模型参数的初始化和调整，以适应不同长度的文本处理

实施：通过遵循缩放法则和进行NTK-aware的参数插值，调整模型的RoPE(Rotary Positional Embeddings)theta参数，使模型在不同长度的文本上表现最佳。

训练细节

1.数据处理

数据集：使用了大规模图像-文本配对数据集和纯文本数据集，这些数据集被用来交错训练模型以平衡视觉和文本信息的处理能力。

数据增强：采用数据增强策略来丰富训练数据，提高模型对不同类型文本的适应性和鲁棒性

2.硬件配置

部署环境：模型在Crusoe Energy的高性能L40S集群上进行训练，这些集群配备了先进的GPU和高速网络连接，以支持大规模并行处理。

项目地址：https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

AGI｜智能体总忘事？Letta框架如何让AI告别"金鱼记忆"？

2025-04-28

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB