微信扫码
添加专属顾问
我要投稿
探索AI技术如何实现数字孪生体,通过微调大模型克隆一个你自己。核心内容:1. 微调大语言模型以创建数字孪生体的技术介绍2. 使用Lit-GPT和LoRA适配器微调Falcon-7B模型的实践方法3. 数据收集与准备过程中的挑战和解决方案
本文旨在阐述如何在自定义数据集上高效且经济地微调一个性能卓越的大语言模型。我们将探索如何使用 Lit-GPT,结合 LoRA 适配器来运用 Falcon-7B 模型。
你是否曾想过拥有一个数字孪生体会是什么样的呢?一个能与人交谈、学习,甚至能反映你想法的虚拟的自己?人工智能(AI)领域的最新进展让这个曾经看似只存在于未来的想法变为了现实。
人工智能社区的努力促成了许多高质量开源大语言模型的开发,其中包括但不限于 Open LLaMA、Falcon、StableLM 和 Pythia。你可以在自定义指令数据集上对这些模型进行微调,使其适应特定任务,比如训练一个能回答金融问题的聊天机器人。此外,当数据无法上传至云 API 或与云 API 共享时,这种方式还能在数据隐私方面带来优势。
就我而言,我希望模型通过模仿我,使用我的笑话和填充词,来学会以我的风格进行表达。
在深入探讨细节之前,我想指出,微调类似 GPT 的模型可能相当具有挑战性。尽管如此,我还是决定更进一步,用俄语来训练这个模型:
我选择了wechat,因为它提供了一个方便的数据收集 API。此外,它也是我与朋友们进行大多数交流的主要平台。这个选择提供了一个有价值的数据集,使模型能够更深入地了解我独特的交流风格,并能更有效地模仿我。
根据相关文档,我编写了一个小脚本,用于下载私人聊天中的所有对话内容,并将其保存到一个文件中:
1. 启动 wechat 客户端:
ounter(lineounter(lineounter(lineounter(line
from telethon.sync import WechatClient
client = WechatClient(PHONE_NUMBER, TELEGRAM_APP_ID, TELEGRAM_APP_HASH)
client.start()
2. 通过筛选群组和频道获取对话列表:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
def get_dialogs(limit: int | None = 100) -> list[Dialog]:
"""获取Wechat中的所有对话。"""
dialogs: list[Dialog] = client.get_dialogs(limit=limit)
dialogs = [dialog for dialog in dialogs if dialog.is_user] # 移除群组或频道
logger.info(f"找到 {len(dialogs)} 个对话")
return dialogs
3.下载对话历史记录:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
def parse_messages(dialog: Dialog, limit: int = 1000) -> list[dict]:
"""从对话中获取所有消息。"""
all_messages_list = []
offset_id = 0
while True:
messages: list[Message] = client(
GetHistoryRequest(
peer=dialog,
offset_id=offset_id,
offset_date=None,
add_offset=0,
limit=limit,
max_id=0,
min_id=0,
hash=0,
)
).messages
if not messages:
break
all_messages_list.extend(
{
"date": message.date.isoformat(),
"message": message.message,
"out": message.out,
}
for message in messages
# 筛选音频或视频内容
if message.message and not message.is_bot
)
offset_id = offset_id = messages[-1].id
return all_messages_list
值得一提的是,我有意从数据集中排除了音频和视频消息,只专注于基于文本的内容。因此,对话中的一些信息可能会丢失。从这类数据中提取文本是一个综合性的话题,更适合单独写一篇文章来探讨。
在这个阶段,你必须仔细处理指令中的数据,以便对大语言模型进行微调。
微调通常涉及训练预训练模型以遵循指令或执行另一特定的目标任务(例如,情感分类)。ChatGPT(最初是作为 GPT-3 基础模型的微调版本)就是一个经过微调以遵循指令的典型模型。指令数据集通常有三个关键部分:指令、输入(给定指令的可选上下文)以及大语言模型的预期回复。以下是一个指令数据的示例:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
[
{
"instruction": "猫能交流吗?",
"context": "猫需要通过交流来建立联系,并与彼此相处;它们需要合作、玩耍和共享资源……",
"response": "猫的发声可以根据一系列特征进行分类……",
}
]
重要的是要记住,你可以根据自己的需求修改数据格式。例如,你可以输入一个函数,并要求模型生成文档作为回复。然而,根据我的经验,较小的模型(如 70 亿参数的模型)可能难以处理复杂的提示。
为了克服这一问题,可以尝试简化提示,或将其分解为一系列连续的指令。这样,你可以取得更好的结果,并提高模型的性能。
为了根据我的聊天记录构建指令,我采用了几种方法:
我还清除了聊天记录中的敏感信息,如个人密码或电子邮件。
最终,我得到了 51000 条指令,这与 Databricks 的 Dolly 2.0 指令数据集(约 15000 条指令)和 Alpaca 数据集(约 52000 条指令)相当。
我决定选择 Falcon—— 这是由技术创新研究院发布的最新开源大语言模型。它是一种自回归的仅解码器模型,有两个版本:一个是 70 亿参数的模型,另一个是 400 亿参数的模型。400 亿参数的模型版本在亚马逊网络服务(AWS)上使用 384 个 GPU 训练了两个月。
根据已知的关于该模型的信息,Falcon 架构与 GPT-3 和 LLaMA 非常相似,不同之处在于它使用了多查询注意力机制(出自沙泽尔(Shazeer)2019 年的研究),并使用了精炼网页语料库(RefinedWeb corpus)作为训练数据集(这可能是成功的关键)。
如果我们在考虑提升大语言模型(LLM)的方法,OpenAI 的文章《PALMS:为序列生成预训练自动编码器潜在模型》是一个有价值的参考资源。文章讨论了微调的运用,微调涉及使用与原始训练相同的技术对模型进行重新训练,但学习率较低,约为 0.1。这个过程使我们能够在自己的特定数据上训练模型,从而提高它在我们期望领域的回复能力。
除了微调之外,还有其他方法,比如使用适配器。适配器是指在原始模型的现有层上添加额外的较小层,只训练这些新添加的层。由于涉及的权重相对较小,这种方法能够实现更快的学习。
LoRA(低秩适配器)的概念灵感来源于阿加扬(Aghajanyan)等人(2020 年)的研究中关于矩阵权重在训练过程中如何变化的观察。这些观察表明,矩阵可以在使用低维空间的情况下得到有效近似,同时仍能保留其大部分关键信息和结构。
在训练过程中,每个矩阵 W 被表示为 W + A * B 的和。初始矩阵 W 被冻结,只训练矩阵 A 和 B。因此,更新后的权重为 ΔW = W + A * B。通过确保矩阵 A 和 B 保持较小,学习过程变得更快,且所需资源更少。简而言之,这就是 LoRA 方法,如下图所示。
请注意,在上图中,r 是一个超参数,我们可以用它来指定用于适配的低秩矩阵的秩。r 越小,低秩矩阵就越简单,这意味着在适配过程中需要学习的参数就越少。在 LoRA 中选择较小的 r,需要在模型复杂度、适配能力以及欠拟合或过拟合的风险之间进行权衡。
为了进行我的实验,我使用了 Lit-GPT 库,该库包含一个开源大语言模型的实现,并且由 Lightning Fabric 提供支持。在硬件设置方面,我使用了单个内存容量为 40GB 的 A100 GPU。
要开始实验,第一步是下载模型权重并将其转换为 lit-gpt 格式。这很容易做到:
ounter(lineounter(lineounter(lineounter(lineounter(line
# 下载模型权重:
python scripts/download.py --repo_id tiiuae/falcon-7b
# 将权重转换为标准格式:
python scripts/convert_hf_checkpoint.py --checkpoint_dir checkpoints/tiiuae/falcon-7b
你可以在操作指南部分找到下载其他受支持权重(如 RedPajama)的说明。
微调涉及两个主要步骤:首先,我们将数据集处理成 Lit-Parrot 格式,然后在处理后的数据集上运行微调脚本。
我修改了现有的 Alpaca 脚本,该脚本提供了加载原始指令数据集、创建提示并对其进行标记化处理的准备函数。就我而言,我需要将函数修改为生成提示的函数:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
def generate_prompt(example: dict[str, str]) -> str:
"""生成一个标准化的消息来提示模型"""
return (
"你(我)正在和用户R聊天。请对他的消息写一个回复。\n\n"
f"### 你之前的对话内容:\n{example['context']}\n\n"
f"### 他的新消息:\n{example['instruction']}\n\n"
f"### 你的回复:{example['response']}"
)
修改完成后,你可以开始数据准备过程:
ounter(lineounter(line
python scripts/prepare_dataset_my.py \
--checkpoint_dir checkpoints/tiiuae/falcon-7b/
准备提示不会花费很长时间。就我而言,处理 51000 条指令只花了 2 分钟:
一旦你准备好了数据集,微调模型就相当简单直接了。
为了获得更好的结果,我在微调脚本中更改了一些参数,以下是我使用的超参数设置概述:
然后你需要通过指定数据路径来运行 finetune/lora.py 脚本:
ounter(lineounter(lineounter(lineounter(lineounter(line
python finetune/lora_my.py \
--checkpoint_dir checkpoints/tiiuae/falcon-7b/ \
--data_dir data/falcon/ \
--out_dir out/falcon \
--precision bf16-true
你可以使用 Linux 的 watch 命令,每隔半秒重复运行 nvidia-smi 命令:
ounter(line
watch -n 0.5 nvidia-smi
你可以在 out/falcon 文件夹中找到模型检查点,并使用生成脚本来对模型进行测试。
在单个 A100 GPU 上微调该模型大约需要 10 个小时,占用 30GB 内存。此外,值得注意的是,适配器本身很轻量,只有 40MB。与大小为 16GB 的 Falcon 模型相比,这要小得多。
你可以使用大语言模型的微调检查点来生成文本。Lit-Parrot 提供了生成脚本。对于 GPU 内存较少的设备,它支持 int8 和 int4 量化,你还可以更改精度并使用多个 GPU 设备:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
python generate/lora.py \
--checkpoint_dir checkpoints/tiiuae/falcon-7b \
--lora_path out/falcon/lit_model_lora_finetuned.pth \
--prompt "What happened to you? Tell me" \
--max_new_tokens 300
--precision bf16-true
就我而言,我在 1 个 GPU 设备上运行模型,不进行量化,使用 bfloat16 精度。我还修改了原始的 lora 脚本,并将其分成了两部分:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-15
最新MCP托管平台:让Cursor秒变数据库专家,一键对接Github,开发效率暴增!
2025-03-14
消费级显卡微调工业级大模型!仅需20G显存,QwQ-32B高效微调实战!
2025-03-13
基于 mcphost 的智能体开发实战指南
2025-03-13
谷歌Gemma 3 27b 到底能不能打,写个游戏测试下?
2025-03-13
强化学习(RL)是什么? 它和微调有什么区别?
2025-03-13
一体机,阻碍DeepSeek性能的最大绊脚石!
2025-03-13
大模型参数高效微调(PEFT)技术解析及微调加速实践
2025-03-13
我在县城“驯化”AI:有多少“人工”才有多少“智能”
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01