我要投稿

lama 3 instruction-tuned 模型针对对话/聊天场景进行了微调和优化，在通用基准测试上优于许多开源聊天模型

发布日期：2024-05-03 08:21:19 浏览次数： 2373

作者：AIGC小白入门记

微信搜一搜，关注“AIGC小白入门记”

作者：lucas大叔原文地址：https://zhuanlan.zhihu.com/p/693407124

当地时间4月18日，Meta在官网上公布了旗下最新大模型Llama 3。目前，Llama 3已经开放了 8B和 70B 两个小参数版本，上下文窗口为8k。Meta表示，通过使用更高质量的训练数据和指令微调，Llama 3比Llama 2有了“显著提升”。

Llama 3 instruction-tuned 模型针对对话/聊天场景进行了微调和优化，在通用基准测试上优于许多开源聊天模型。

开源社区对此反应迅速，ollama和LlamaIndex第一时间宣称完成了对Llama 3的支持，langchain也宣称可在LangSmith Playground中试用最新的Llama 3 8B 和 70B模型。下面我们展示如何在ollama和LlamaIndex中使用Llama 3模型。

Ollama使用指南

CLI

打开终端执行 ollama run llama3 即可

API

curl使用示例:

curl -X POST http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt":"Why is the sky blue?"
 }'

其他接口示例参见 API 文档。

Model variants

Instruct 是针对聊天/对话场景微调的版本

Example: ollama run llama3 ollama run llama3:70b

Pre-trained 是基础模型

Example: ollama run llama3:text ollama run llama3:70b-text

LlamaIndex使用指南

本指南以Llama-3-8B-Instruct为例，说明如何基于llamaindex使用Llama3。

安装包

!pip install llama-index
!pip install llama-index-llms-huggingface
!pip install llama-index-embeddings-huggingface

为了使用官方仓库的llama3，你需要授权你的huggingface账号并使用你的huggingface token。

hf_token = "hf_..."

设置 Tokenizer 和 Stopping ids

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(
"meta-llama/Meta-Llama-3-8B-Instruct",
token=hf_token,
)

stopping_ids = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>"),
]

用`HuggingFaceLLM`设置LLM

可选择加载全精度或4bit量化版本。

# generate_kwargs parameters are taken from https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct

import torch
from llama_index.llms.huggingface import HuggingFaceLLM

# Optional quantization to 4bit
# import torch
# from transformers import BitsAndBytesConfig

# quantization_config = BitsAndBytesConfig(
# load_in_4bit=True,
# bnb_4bit_compute_dtype=torch.float16,
# bnb_4bit_quant_type="nf4",
# bnb_4bit_use_double_quant=True,
# )

llm = HuggingFaceLLM(
model_name="meta-llama/Meta-Llama-3-8B-Instruct",
model_kwargs={
"token": hf_token,
"torch_dtype": torch.bfloat16,# comment this line and uncomment below to use 4bit
# "quantization_config": quantization_config
},
generate_kwargs={
"do_sample": True,
"temperature": 0.6,
"top_p": 0.9,
},
tokenizer_name="meta-llama/Meta-Llama-3-8B-Instruct",
tokenizer_kwargs={"token": hf_token},
stopping_ids=stopping_ids,
)

## You can deploy the model on HF Inference Endpoint and use it

# from llama_index.llms.huggingface import HuggingFaceInferenceAPI

# llm = HuggingFaceInferenceAPI(
# model_name="",
# token=''
# )

用prompt调用complete

response = llm.complete("Who is Paul Graham?")

print(response)

用messages列表调用chat

from llama_index.core.llms import ChatMessage

messages = [
ChatMessage(role="system", content="You are CEO of MetaAI"),
ChatMessage(role="user", content="Introduce Llama3 to the world."),
]
response = llm.chat(messages)
print(response)

用Llama3创建RAG pipeline

下载数据

!wget "https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt" "paul_graham_essay.txt"

加载数据

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader(
input_files=["paul_graham_essay.txt"]
).load_data()

配置embedding模型

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")

设置默认LLM和embedding模型

from llama_index.core import Settings

# bge embedding model
Settings.embed_model = embed_model

# Llama-3-8B-Instruct model
Settings.llm = llm

创建索引

index = VectorStoreIndex.from_documents(
documents,
)

创建查询引擎

query_engine = index.as_query_engine(similarity_top_k=3)

查询

response = query_engine.query("What did paul graham do growing up?")

参考文献

llama3 https://ollama.com/library/llama3

https://docs.llamaindex.ai/en/latest/examples/cookbooks/llama3_cookbook/

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

2025-04-06

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

大家都在问

OpenAI首席研究官没有博士学位，你的985还有用吗？

2025-07-03

AI 商业化，Salesforce 做对了什么？

2025-07-03

AI 编程如何在团队中真正落地？

2025-07-02

AI 如何成为认知导航仪？

2025-07-02

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

巨头混战Agent，押注背后是真未来还是新泡沫？

2025-07-01

什么才是AI时代最大的创业机会？

2025-07-01

从碎片到图谱：Graph RAG如何用知识网络颠覆传统搜索？

2025-07-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

lama 3 instruction-tuned 模型针对对话/聊天场景进行了微调和优化，在通用基准测试上优于许多开源聊天模型

作者：lucas大叔原文地址：https://zhuanlan.zhihu.com/p/693407124

Ollama使用指南

CLI

API

Model variants

LlamaIndex使用指南

安装包

设置 Tokenizer 和 Stopping ids

用HuggingFaceLLM设置LLM

用prompt调用complete

用messages列表调用chat

用Llama3创建RAG pipeline

参考文献

用`HuggingFaceLLM`设置LLM