微信扫码
与创始人交个朋友
我要投稿
背景
当前大部分NLP任务都被大语言模型完成的非常好,但是在实际生产中在线使用大模型依然有阻碍,例如机器资源要求高、耗时不稳定等。而在实际业务中总有一些场景,使用LLM+prompt的方式觉得大材小用,但LLM又的确是效果最好的。
举一个简单的例子,情感分析是NLP领域的经典问题之一,假设你之前没有专门研究过这个问题,但懂如何使用大模型,这个任务直接写prompt然后指定输出格式就可以解决。但如果从服务角度来看,要提供对外的接口的话,本质就变成一个Completion的请求服务,当前如果没有很丰富的机器资源,是实现不了的。
而解决这个问题传统以BERT为代表的方法,训练比较麻烦,尤其是准备数据集,但计算效率会比较高,情感分析任务里本质只是计算一个概率。
有没有办法结合这两种方法各自的优势呢?
思路
直接说结论:我们完全可以让小模型去定向学习大模型在某个领域的知识。
还是以情感分析为例,假设我们要构建一个每秒几千几万次请求的二元情感判断接口(只判断情感是正向还是负向),如上文所述用大模型一定是有耗时和成本问题的。用BERT为代表的传统模型又非常依赖训练数据集,那核心问题就两个:
问题1:大模型有知识储备,但在线调用成本高
问题2:小模型没有知识储备,但需要很好的训练数据集
那我们直接用大模型去离线构建数据集,然后用数据集去精调小模型是不是可以?
实操:以情感分析为例
LLM和BERT知识对比
我们先看看大模型做情感分析实际什么效果:
from langchain.prompts import ChatPromptTemplate
from langchain.chains import LLMChain
def llm_sentiment(comment_text):
prompt = """
你是一位短文本情绪分析大师,我现在会告诉你一条评论的原文{comment_text},
请告诉我这个文本的情感是正向还是负向的,正向返回1,负向返回0,其中给出好评同时又给出修改意见的,算是正向
注意请回复我单纯的数字,不要有任何多余的信息,现在开始
"""
prompt_template = ChatPromptTemplate.from_template(prompt)
llm = load_llm(
url=llm_config['venus_gpt4']['url'],
api_key=llm_config['venus_gpt4']['api_key'],
model_name="venus_gpt4")
# 3. load chain
chain = LLMChain(llm=llm, prompt=prompt_template)
r = chain.invoke({
'comment_text': comment_text,
})
return r['text']
得到的结果
效果还不错,基本跟一个人类的判断水平差不太多
然后看看BERT-base-Chinese加一个随便的公开数据集的效果
import torch
from transformers import BertTokenizer, BertForSequenceClassification, AdamW
from torch.utils.data import DataLoader, Dataset, random_split
import pandas as pd
from tqdm import tqdm
import random
# 数据集中1为正面,0为反面
class SentimentDataset(Dataset):
def __init__(self, dataframe, tokenizer, max_length=128):
self.dataframe = dataframe
self.tokenizer = tokenizer
self.max_length = max_length
def __len__(self):
return len(self.dataframe)
def __getitem__(self, idx):
text = self.dataframe.iloc[idx]['review']
label = self.dataframe.iloc[idx]['label']
encoding = self.tokenizer(text, padding='max_length', truncation=True, max_length=self.max_length, return_tensors='pt')
return {
'input_ids': encoding['input_ids'].flatten(),
'attention_mask': encoding['attention_mask'].flatten(),
'labels': torch.tensor(label, dtype=torch.long)
}
def prepare_data(tokenizer):
# 创建数据集对象
df = pd.read_csv("ChnSentiCorp_htl_all.csv")# 替换为你的训练数据集路径
# 设置随机种子以确保可重复性
random.seed(42)
# 随机打乱数据行
df = df.sample(frac=1).reset_index(drop=True)
dataset = SentimentDataset(df[:1500], tokenizer)
# 划分训练集和验证集
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_dataset, val_dataset = random_split(dataset, [train_size, val_size])
# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=8, shuffle=False)
return train_loader, val_loader
# 读取训练数据集
# 加载预训练的BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
train_loader, val_loader = prepare_data(tokenizer)
# 设置训练参数
optimizer = AdamW(model.parameters(), lr=5e-5)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
# 训练模型
model.train()
for epoch in range(3):
for batch in tqdm(train_loader, desc="Epoch {}".format(epoch + 1)):
input_ids = batch['input_ids'].to(device)
attention_mask = batch['attention_mask'].to(device)
labels = batch['labels'].to(device)
optimizer.zero_grad()
outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
loss = outputs.loss
loss.backward()
optimizer.step()
evall(model)
这里面的prepare_data就是找了一个常见的几十万条数据集,然后去调整Bert中文版,看看结果,为了方便我把上一轮的llm的数据也放进去了。
直接看吧,还是比较灾难的
把LLM知识传授给BERT
方法就是上面说的,让大模型回答问题,结果按照BERT训练数据集的格式存储。
def llm_sentiment(comment_text):
# ... 同上
return r['text']
if __name__ == '__main__':
input_folder = "comment"
with open('output.csv', 'w', encoding='utf-8', newline='') as csv_file:
csv_writer = csv.writer(csv_file)
csv_writer.writerow(['label', 'review'])
for file_name in sorted(os.listdir(input_folder)):
if file_name.endswith('.jsonl'):
file_path = os.path.join(input_folder, file_name)
print("start reading: ", file_path)
with open(file_path, 'r', encoding='utf-8') as jsonl_file:
with open('output.csv', 'a', encoding='utf-8', newline='') as csv_file:
csv_writer = csv.writer(csv_file)
for line in jsonl_file:
data = json.loads(line)
# comment_id = data['commentId']
comment_info = data['commentInfo']
# bert_label = predict_sentiment(comment_info, tokenizer)
llm_label = llm_sentiment(comment_info)
if llm_label not in (1, 0, "0", "1"):
print("llm_label drop: ", llm_label)
continue
# print("cc: ", bert_label, "ll: ", llm_label, " ", comment_info)
csv_writer.writerow([llm_label, comment_info])
获得的数据集如图所示
我们通过这样的方式制作20000条来自GPT-4的数据(不包含我们做测试的数据),然后使用把上面训练Bert-base-chinese的公开数据集文件改成这个文件。重新训练一波。
LLM教学成果
我们可以看到除了蓝色框框之外,其他问题的答案已经差不多和LLM回答的一样样的了,并且因为我在做结果输出的时候简单的处理<0.5就是0,>0.5就是1,篮框的都是介于比较中间的位置,从我们人类理解的语义上也是
结论
本次实验让GPT4去判断1w个评论的情感,并把结果作为数据集去训练BERT,得到的模型判断能力与大模型非常的接近(并且我使用的是非训练数据集中的数据),就好像GPT4把我这个18年的模型教会了一样,或者说把知识传授过去了一样。
这只是一个非常简单的例子,但足以说明用大模型知识去反哺小模型的思路是可行的,而且实现起来非常简单。我们可以利用这一点把大模型的理解能力和小模型的在线处理性能结合起来。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-08-04
2024-06-13
2024-04-11
2024-07-18
2024-07-01