微信扫码
与创始人交个朋友
我要投稿
之前的文章 LESS:仅选择5%有影响力的数据优于全量数据集进行目标指令微调 中详细讲述了LESS,本文对其进行实践。
文章较长,建议先点赞收藏,后续再慢慢观看。另外,我撰写的大模型相关的博客及配套代码均整理放置在Github:llm-action,有需要的朋友自取。
LESS 核心思想通过仅给出少数体现特定能力的示例,从大量指令数据集中有效地选择5%有影响力的数据用于目标指令微调,结果优于全量数据集进行微调,并且所选子集在不同模型参数规模和不同模型系列中仍然普遍有效。
数据选择流水线:
实验关键结果:
LESS 存在的局限性:
pip3 install torch==2.1.2 torchvision torchaudio
cd LESS
pip install -r requirement.txt
# 以可编辑模式安装 `less` 包,使其可供您的开发环境访问
pip install -e .
按照 open-instruct 库来准备指令调优数据集。这里结合使用了四个训练数据集:Flan v2、COT、Dolly 和 Open Assistant。出于评估目的,还使用了三个额外的数据集:MMLU、Tydiqa 和 BBH。此处提供了这些文件的处理版本。
为了提高数据选择的性能,预热训练步骤至关重要。通过选择整个数据集的一小部分来使用 LoRA 方法进行训练。
热身训练执行脚本:
DATA_DIR=../data
MODEL_PATH=meta-llama/Llama-2-7b-hf
PERCENTAGE=0.05 # percentage of the full data to train, you can specify the training file you want to use in the script
DATA_SEED=3
JOB_NAME=llama2-7b-p${PERCENTAGE}-lora-seed${DATA_SEED}
./less/scripts/train/warmup_lora_train.sh "$DATA_DIR" "$MODEL_PATH" "$PERCENTAGE" "$DATA_SEED" "$JOB_NAME"
初始预热训练阶段完成后,将收集整个训练数据集的梯度。对于每个检查点,我们的目标是获取我们想要选择的所有训练数据的梯度。
执行脚本:
CKPT=105
TRAINING_DATA_NAME=dolly
TRAINING_DATA_FILE=../data/train/processed/dolly/dolly_data.jsonl # when changing data name, change the data path accordingly
GRADIENT_TYPE="adam"
MODEL_PATH=../out/llama2-7b-p0.05-lora-seed3/checkpoint-${CKPT}
OUTPUT_PATH=../grads/llama2-7b-p0.05-lora-seed3/${TRAINING_DATA_NAME}-ckpt${CKPT}-${GRADIENT_TYPE}
DIMS="8192"
./less/scripts/get_info/get_train_lora_grads.sh \
"$TRAINING_DATA_FILE" \
"$MODEL_PATH" \
"$OUTPUT_PATH" \
"$DIMS" \
"$GRADIENT_TYPE"
创建的一个数据存储,包含了您希望从中选择的所有检查点和训练数据的梯度。
要为特定下游任务选择数据,首先使用与训练期间使用的相同的指令调优提示格式准备特定于该任务的数据。
这里为三个评估数据集设置了数据加载模块:BBH、TydiQA 和 MMLU。如果您对其他任务的数据选择感兴趣,可以扩展 less/data_selection/get_validation_dataset.py
脚本以适应这些任务。与获取训练数据的梯度类似,运行以下脚本。主要区别在于,此过程将根据影响力估计的公式生成验证数据的 SGD 梯度。
CKPT=105
TASK=tydiqa
MODEL_PATH=../out/llama2-7b-p0.05-lora-seed3/checkpoint-${CKPT}
OUTPUT_PATH=../grads/llama2-7b-p0.05-lora-seed3/${TASK}-ckpt${CKPT}-sgd # for validation data, we always use sgd
DATA_DIR=../data
DIMS="4096 8192" # We use 8192 as our default projection dimension
./less/scripts/get_info/get_eval_lora_grads.sh "$TASK" "$DATA_DIR" "$MODEL_PATH" $OUTPUT_PATH "$DIMS"
正常情况下,你获得在上一步中用于构建梯度数据存储的所有检查点的验证数据的梯度。
获得验证数据的梯度后,就可以为任务选择数据。以下脚本将计算每个训练数据点的影响力得分,并选择影响力得分最高的前 k 个数据点。
# decide which dimension to use
DIM=8192
# checkpoing index
CKPTS="105 211 317 420"
# average lr of the epoch
CHECKPOINT_WEIGHTS="1.6877e-05 1.2859e-05 7.7030e-06 2.5616e-06"
GRADIENT_PATH=../grads/llama2-7b-p0.05-lora-seed3/{}-ckpt{}-adam/dim${DIM}
TRAIN_FILE_NAMES="flan_v2 cot dolly oasst1"
VALIDATION_GRADIENT_PATH=../grads/llama2-7b-p0.05-lora-seed3/{}-ckpt{}-sgd/dim${DIM}
TARGET_TASK_NAMES="tydiqa"
SELECTED_DATA_OUTPUT_PATH="../selected_data"
./less/scripts/data_selection/matching.sh \
"$GRADIENT_PATH" \
"$TRAIN_FILE_NAMES" \
"$CKPTS" \
"$CHECKPOINT_WEIGHTS" \
"$VALIDATION_GRADIENT_PATH" \
"$TARGET_TASK_NAMES" \
"$SELECTED_DATA_OUTPUT_PATH"
每个训练数据点的影响力得分将保存在 OUTPUT_PATH
目录中。使用以下脚本来选择影响力得分最高的前 k 个数据点。
python3 -m less.data_selection.write_selected_data \
--target_task_names ${TARGET_TASK_NAMES} \
--train_file_names ${TRAIN_FILE_NAMES} \
--train_files ../data/train/processed/dolly/dolly_data.jsonl ../data/train/processed/oasst1/oasst1_data.jsonl \
--output_path $SELECTED_DATA_OUTPUT_PATH \
--percentage 0.05
选择数据后,使用以下脚本使用所选数据训练模型。
TARGET_TASK_NAME="tydiqa"
PERCENTAGE=0.05
TRAIN_FILES=../selected_data/${TARGET_TASK_NAME}/top_p${PERCENTAGE}.jsonl
MODEL_PATH=meta-llama/Llama-2-7b-hf
JOB_NAME=llama2-7b-less-p${PERCENTAGE}-lora
./less/scripts/train/lora_train.sh "$TRAIN_FILES" "$MODEL_PATH" "$JOB_NAME"
注意:这里您也可以通过删除 lora 训练参数来执行全参数微调。
这里使用三个评估数据集(MMLU、Tydiqa 和 BBH)来评估数据选择流水线的性能:。使用评估流水线 open-instruct。按照以下步骤操作评估经过训练的模型,请:
git clone https://github.com/allenai/open-instruct.git
cd open-instruct
pip install -e .
查看 evaluation
目录中的 eval_mmlu.sh
、 eval_tydiqa.sh
和 eval_bbh.sh
脚本。这些脚本包含在相应数据集上评估模型所需的命令。eval_bbh.sh
脚本如下:
source eval.sh
# 主评估函数
eval_bbh() {
cd $n/space10/open-instruct
mdir=$1
type=$2
set_save_dir $mdir bbh
mkdir -p $save_dir
cmd="python -m eval.bbh.run_eval \
--data_dir $DATA_DIR/bbh \
--save_dir $save_dir \
--model $mdir \
--tokenizer $mdir \
--eval_batch_size 10 \
--convert_to_bf16 \
--max_num_examples_per_task 40"
eval "$cmd"
}
# 评估校验集,目前还不支持
valid_bbh() {
cd $n/space10/open-instruct
mdir=$1
type=$2
set_valid_dir $mdir bbh
echo $save_dir
mkdir -p $save_dir
cmd="python -m eval.bbh.run_eval \
--data_dir $DATA_DIR/bbh-valid \
--save_dir $save_dir \
--model $mdir \
--tokenizer $mdir \
--eval_batch_size 10 \
--convert_to_bf16 \
--eval_valid \
--max_num_examples_per_task 3"
}
# 提取结果
extract_bbh() {
mdir=$1
set_save_dir $mdir bbh-nonchat
result=$(jq .average_exact_match $save_dir/metrics.json)
result=$(echo "$result * 100" | bc)
echo $result
}
# 提取验证集的结果
extract_valid_bbh() {
mdir=$1
set_valid_dir $mdir bbh-nonchat
result=$(jq .average_exact_match $save_dir/metrics.json)
result=$(echo "$result * 100" | bc)
echo $result
}
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-03-30
2024-05-28
2024-05-10
2024-04-26
2024-04-25
2024-04-12
2024-07-25
2024-05-06
2024-07-18
2025-01-23
2025-01-22
2025-01-22
2025-01-22
2025-01-22
2025-01-22
2025-01-21
2025-01-21