我要投稿

如何在 4 GB 显卡上运行 LLAMA3 70B？

发布日期：2024-05-27 17:51:34 浏览次数： 2343

作者：慢慢学 AIGC

微信搜一搜，关注“慢慢学 AIGC”

引言

最强大的开源大型语言模型 LLaMA 3 已经发布，一些关注者问 AirLLM 是否可以在仅有 4 GB 显存的情况下在本地运行 700 亿参数的 LLaMA 3。答案是肯定的。接下来让我们看看如何做到这一点。

此外，LLaMA 3 的性能如何与 GPT-4 相比? LLaMA 3 使用了哪些尖端技术从而变得如此强大? LLaMA 3 的突破是否意味着开源模型正式开始超越闭源模型?今天我们也会就此发表解读。

如何在单个 4 GB 显存 GPU 上运行 LLaMA 3 70B

LLaMA 3 的模型架构并未改变，因此 AirLLM 实际上已经可以自然而然完美运行 LLaMA 3 70B 了！甚至可以在 MacBook 上运行。

首先，安装 AirLLM：

pip install airllm

然后只需几行代码:

from airllm import AutoModelMAX_LENGTH = 128model = AutoModel.from_pretrained("v2ray/Llama-3-70B") input_text = ['美国的首都是哪里?']input_tokens = model.tokenizer(input_text,return_tensors="pt",return_attention_mask=False,truncation=True, max_length=MAX_LENGTH,padding=False)

generation_output = model.generate(input_tokens['input_ids'].cuda(),max_new_tokens=20,use_cache=True,return_dict_in_generate=True)

output = model.tokenizer.decode(generation_output.sequences[0])print(output)

更多细节请查看我们的 GitHub 仓库（https://github.com/lyogavin/Anima/tree/main/air_llm）。

请注意：它不是为实时交互场景如聊天而设计的，更适合数据处理和其他离线异步场景。

与 GPT-4 相比性能如何?

根据官方评估数据和最新的 lmsys 排行榜，LLaMA 3 70B 非常接近 GPT4 和 Claude3 Opus。

官方评估结果:

撰写本文时的 lmsys 排行榜结果:

当然，将 400 亿参数的模型与 GPT-4 和 Claude3 Opus 进行比较会更加合理:

LLaMA 3 400B 已经非常接近 GPT-4 和 Claude3 最强版本，而且仍在继续训练。

Llama3的核心改进是什么?

LLaMA 3 的架构没有变化，主要是在训练方法上有一些技术改进，比如基于 DPO 的模型对齐训练。

DPO 基本上已经成为所有排名靠前的大型模型在各个排行榜上的标准训练方法——它简单有效！我们之前写过详细介绍 DPO 的文章，所有代码都在这里（https://github.com/lyogavin/Anima/tree/main/rlhf）开源。

当然，LLaMA 3 的主要秘诀在于其训练数据的大幅增加和质量提高。从LLaMA 2 的 2T 增加到了 15T！人工智能归根结底就是数据!

数据的改进不仅在于数量，还有质量。Meta 做了大量的数据质量过滤、去重等工作，其中很多是基于使用 LLaMA 2 等大型模型来过滤和选择数据。

请注意：这 15T 是经过严格过滤和清理后的数据。过滤前可能超过 100T。

训练人工智能模型的核心是数据。要训练出好的人工智能模型，并不在于拥有很多花哨的训练技术，而在于扎扎实实、一丝不苟地完成基础工作。尤其是那些不太耀眼、肮脏、单调乏味的数据质量工作，这实际上至关重要。

我一直评价 Meta 人工智能的能力很高。从早期的基于 Transformer 的判别式人工智能开始，Meta 人工智能就以其坚实的数据处理基础而闻名，制造出许多长期占据技术领先地位的经典模型，比如 Roberta 和 Roberta XLM，这些都是我们长期使用的基准模型。

LLaMA 3 的成功是否预示着开源模型的崛起??

开源与闭源之争可能还远未结束，前面还有很多戏码。

无论开源与否，训练大型模型已经变成一场烧钱的游戏。那 15T 的数据和 400 亿参数的模型，并非小玩家可以承受。我估计未来 6 个月内，许多从事大型模型的小公司将会消失。

在这场烧钱比拼中，真正的决胜点在于长期内将投资货币化的能力和效率。事实上，直至今日，人工智能大型语言模型依然很少有真正的货币化应用。很难说谁能够持续投资，以及如何持续。

从纯技术角度来看，我们一直认为开放的文化对于人工智能至关重要。近年来人工智能的飞速发展离不开人工智能界开放共享的文化。即便是在一家公司内部，能否保持开放共享的环境，持续进行透明开放的思想交流，也是该公司人工智能发展的关键。一家对外界封闭的公司，内部通常也缺乏开放透明，这迟早会阻碍其人工智能技术的快速发展，也难以真正建立一流的团队。

我们将继续跟踪最新最酷的人工智能技术，并继续分享开源工作。欢迎继续关注我们，保持同步!

作者介绍

Gavin Li，Animaai.cloud 和 aiwrite.ai 的创始人兼 CEO，前 Airbnb 和阿里巴巴 AI 高级领导。