23 KiB

Raw Blame History

LLaMA Factory: 轻松的大模型训练与评估

👋 加入我们的微信群。

 [English](README.md) | 中文

LLaMA Board: 通过一站式网页界面快速上手 LLaMA Factory

通过 🤗 Spaces 或 ModelScope 预览 LLaMA Board。

使用 CUDA_VISIBLE_DEVICES=0 python src/train_web.py 启动 LLaMA Board。（该模式目前仅支持单卡训练）

下面是使用单张 GPU 在 10 分钟内更改对话式大型语言模型自我认知的示例。

https://github.com/hiyouga/LLaMA-Factory/assets/16256802/6ba60acc-e2e2-4bec-b846-2d88920d5ba1

性能指标

与 ChatGLM 官方的 P-Tuning 微调相比，LLaMA-Factory 的 LoRA 微调提供了 3.7 倍的加速比，同时在广告文案生成任务上取得了更高的 Rouge 分数。结合 4 比特量化技术，LLaMA-Factory 的 QLoRA 微调进一步降低了 GPU 显存消耗。

Training Speed: 训练阶段每秒处理的样本数量。（批处理大小=4，截断长度=1024）
Rouge Score: 广告文案生成任务验证集上的 Rouge-2 分数。（批处理大小=4，截断长度=1024）
GPU Memory: 4 比特量化训练的 GPU 显存峰值。（批处理大小=1，截断长度=1024）
我们在 ChatGLM 的 P-Tuning 中采用 pre_seq_len=128，在 LLaMA-Factory 的 LoRA 微调中采用 lora_rank=32。

更新日志

[23/10/21] 我们支持了 NEFTune 训练技巧。请使用 --neft_alpha 参数启用 NEFTune，例如 --neft_alpha 5。

[23/09/27] 我们针对 LLaMA 模型支持了 LongLoRA 提出的 S^2-Attn。请使用 --shift_attn 参数以启用该功能。

[23/09/23] 我们在项目中集成了 MMLU、C-Eval 和 CMMLU 评估集。使用方法请参阅此示例。

[23/09/10] 我们针对 LLaMA 模型支持了 FlashAttention-2。如果您使用的是 RTX4090、A100 或 H100 GPU，请使用 --flash_attn 参数以启用 FlashAttention-2。

[23/08/12] 我们支持了 RoPE 插值来扩展 LLaMA 模型的上下文长度。请使用 --rope_scaling linear 参数训练模型或使用 --rope_scaling dynamic 参数评估模型。

[23/08/11] 我们支持了指令模型的 DPO 训练。使用方法请参阅此示例。

[23/07/31] 我们支持了数据流式加载。请尝试使用 --streaming 和 --max_steps 10000 参数来流式加载数据集。

[23/07/29] 我们在 Hugging Face 发布了两个 13B 指令微调模型。详细内容请查阅我们的 Hugging Face 项目（LLaMA-2 / Baichuan）。

[23/07/18] 我们开发了支持训练和测试的浏览器一体化界面。请使用 train_web.py 在您的浏览器中微调模型。感谢 @KanadeSiina 和 @codemayq 在该功能开发中付出的努力。

[23/07/09] 我们开源了 FastEdit ⚡🩹，一个简单易用的、能迅速编辑大模型事实记忆的工具包。如果您感兴趣请关注我们的 FastEdit 项目。

[23/06/29] 我们提供了一个可复现的指令模型微调示例，详细内容请查阅 Baichuan-7B-sft。

[23/06/22] 我们对齐了示例 API 与 OpenAI API 的格式，您可以将微调模型接入任意基于 ChatGPT 的应用中。

[23/06/03] 我们实现了 4 比特的 LoRA 训练（也称 QLoRA）。请使用 --quantization_bit 4 参数进行 4 比特量化微调。

模型

模型名	模型大小	默认模块	Template
Baichuan	7B/13B	W_pack	baichuan
Baichuan2	7B/13B	W_pack	baichuan2
BLOOM	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value	-
BLOOMZ	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value	-
ChatGLM3	6B	query_key_value	chatglm3
Falcon	7B/40B/180B	query_key_value	falcon
InternLM	7B/20B	q_proj,v_proj	intern
LLaMA	7B/13B/33B/65B	q_proj,v_proj	-
LLaMA-2	7B/13B/70B	q_proj,v_proj	llama2
Mistral	7B	q_proj,v_proj	mistral
Phi-1.5	1.3B	Wqkv	-
Qwen	1.8B/7B/14B/72B	c_attn	qwen
XVERSE	7B/13B/65B	q_proj,v_proj	xverse

[!NOTE] 默认模块应作为 --lora_target 参数的默认值，可使用 --lora_target all 参数指定全部模块。

对于所有“基座”（Base）模型，--template 参数可以是 default, alpaca, vicuna 等任意值。但“对话”（Chat）模型请务必使用对应的模板。

项目所支持模型的完整列表请参阅 constants.py。

训练方法

方法	全参数训练	部分参数训练	LoRA	QLoRA
预训练	✅	✅	✅	✅
指令监督微调	✅	✅	✅	✅
奖励模型训练	✅	✅	✅	✅
PPO 训练	✅	✅	✅	✅
DPO 训练	✅	✅	✅	✅

[!NOTE] 请使用 --quantization_bit 4/8 参数来启用 QLoRA 训练。

数据集

预训练数据集

指令微调数据集

偏好数据集

使用方法请参考 data/README_zh.md 文件。

部分数据集的使用需要确认，我们推荐使用下述命令登录您的 Hugging Face 账户。

pip install --upgrade huggingface_hub
huggingface-cli login

软硬件依赖

Python 3.8+ 和 PyTorch 1.13.1+
🤗Transformers, Datasets, Accelerate, PEFT 和 TRL
sentencepiece, protobuf 和 tiktoken
jieba, rouge-chinese 和 nltk (用于评估及预测)
gradio 和 matplotlib (用于网页端交互)
uvicorn, fastapi 和 sse-starlette (用于 API)

硬件依赖

训练方法	精度	7B	13B	30B	65B
全参数	16	140GB	240GB	520GB	1200GB
部分参数	16	20GB	40GB	120GB	240GB
LoRA	16	16GB	32GB	80GB	160GB
QLoRA	8	10GB	16GB	40GB	80GB
QLoRA	4	6GB	12GB	24GB	48GB

如何使用

数据准备（可跳过）

关于数据集文件的格式，请参考 data/README_zh.md 的内容。构建自定义数据集时，既可以使用单个 .json 文件，也可以使用一个数据加载脚本和多个文件。

[!NOTE] 使用自定义数据集时，请更新 data/dataset_info.json 文件，该文件的格式请参考 data/README_zh.md。

环境搭建（可跳过）

git clone https://github.com/hiyouga/LLaMA-Factory.git
conda create -n llama_factory python=3.10
conda activate llama_factory
cd LLaMA-Factory
pip install -r requirements.txt

如果要在 Windows 平台上开启量化 LoRA（QLoRA），需要安装预编译的 bitsandbytes 库, 支持 CUDA 11.1 到 12.1.

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

单 GPU 训练

[!IMPORTANT] 如果您使用多张 GPU 训练模型，请移步多 GPU 分布式训练部分。

预训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage pt \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset wiki_demo \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --output_dir path_to_pt_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

指令监督微调

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --output_dir path_to_sft_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

奖励模型训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage rm \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset comparison_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --output_dir path_to_rm_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-6 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

PPO 训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage ppo \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --reward_model path_to_rm_checkpoint \
    --output_dir path_to_ppo_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --top_k 0 \
    --top_p 0.9 \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

[!WARNING] 如果使用 fp16 精度进行 LLaMA-2 模型的 PPO 训练，请使用 --per_device_train_batch_size=1。

DPO 训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage dpo \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset comparison_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --output_dir path_to_dpo_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

多 GPU 分布式训练

使用 Huggingface Accelerate

accelerate config # 首先配置分布式环境
accelerate launch src/train_bash.py # 参数同上

LoRA 训练的 Accelerate 配置示例

compute_environment: LOCAL_MACHINE
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: all
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 4
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

使用 DeepSpeed

deepspeed --num_gpus 8 --master_port=9901 src/train_bash.py \
    --deepspeed ds_config.json \
    ... # 参数同上

使用 DeepSpeed ZeRO-2 进行全参数训练的 DeepSpeed 配置示例

{
  "train_batch_size": "auto",
  "train_micro_batch_size_per_gpu": "auto",
  "gradient_accumulation_steps": "auto",
  "gradient_clipping": "auto",
  "zero_allow_untested_optimizer": true,
  "fp16": {
    "enabled": "auto",
    "loss_scale": 0,
    "initial_scale_power": 16,
    "loss_scale_window": 1000,
    "hysteresis": 2,
    "min_loss_scale": 1
  },  
  "zero_optimization": {
    "stage": 2,
    "allgather_partitions": true,
    "allgather_bucket_size": 5e8,
    "reduce_scatter": true,
    "reduce_bucket_size": 5e8,
    "overlap_comm": false,
    "contiguous_gradients": true
  }
}

合并 LoRA 权重并导出完整模型

python src/export_model.py \
    --model_name_or_path path_to_llama_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --export_dir path_to_export

API 服务

python src/api_demo.py \
    --model_name_or_path path_to_llama_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

[!TIP] 关于 API 文档请见 http://localhost:8000/docs。

命令行测试

python src/cli_demo.py \
    --model_name_or_path path_to_llama_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

浏览器测试

python src/web_demo.py \
    --model_name_or_path path_to_llama_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

模型评估

CUDA_VISIBLE_DEVICES=0 python src/evaluate.py \
    --model_name_or_path path_to_llama_model \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --template vanilla \
    --task ceval \
    --split validation \
    --lang zh \
    --n_shot 5 \
    --batch_size 4

模型预测

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_llama_model \
    --do_predict \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_predict_result \
    --per_device_eval_batch_size 8 \
    --max_samples 100 \
    --predict_with_generate \
    --fp16

[!WARNING] 如果使用 fp16 精度进行 LLaMA-2 模型的预测，请使用 --per_device_eval_batch_size=1。

[!TIP] 我们建议在量化模型的预测中使用 --per_device_eval_batch_size=1 和 --max_target_length 128。

使用了 LLaMA Factory 的项目

StarWhisper: 天文大模型 StarWhisper，基于 ChatGLM2-6B 和 Qwen-14B 在天文数据上微调而得。
DISC-LawLLM: 中文法律领域大模型 DISC-LawLLM，基于 Baichuan-13B 微调而得，具有法律推理和知识检索能力。
Sunsimiao: 孙思邈中文医疗大模型 Sumsimiao，基于 Baichuan-7B 和 ChatGLM-6B 在中文医疗数据上微调而得。
CareGPT: 医疗大模型项目 CareGPT，基于 LLaMA2-7B 和 Baichuan-13B 在中文医疗数据上微调而得。

[!TIP] 如果您有项目希望添加至上述列表，请通过邮件联系或者创建一个 PR。

协议

本仓库的代码依照 Apache-2.0 协议开源。

使用模型权重时，请遵循对应的模型协议：Baichuan / Baichuan2 / BLOOM / ChatGLM3 / Falcon / InternLM / LLaMA / LLaMA-2 / Mistral / Phi-1.5 / Qwen / XVERSE

引用

如果您觉得此项目有帮助，请考虑以下列格式引用

@Misc{llama-factory,
  title = {LLaMA Factory},
  author = {hiyouga},
  howpublished = {\url{https://github.com/hiyouga/LLaMA-Factory}},
  year = {2023}
}

致谢

本项目受益于 PEFT、QLoRA 和 FastChat，感谢以上诸位作者的付出。

23 KiB

Raw Blame History

LLaMA Factory: 轻松的大模型训练与评估

LLaMA Board: 通过一站式网页界面快速上手 LLaMA Factory

目录

性能指标

更新日志

模型

训练方法

数据集

软硬件依赖

硬件依赖

如何使用

数据准备（可跳过）

环境搭建（可跳过）

单 GPU 训练

预训练

指令监督微调

奖励模型训练

PPO 训练

DPO 训练

多 GPU 分布式训练

使用 Huggingface Accelerate

使用 DeepSpeed

合并 LoRA 权重并导出完整模型

API 服务

命令行测试

浏览器测试

模型评估

模型预测

使用了 LLaMA Factory 的项目

协议

引用

致谢

Star History

23 KiB Raw Blame History Unescape Escape

LLaMA Factory: 轻松的大模型训练与评估

LLaMA Board: 通过一站式网页界面快速上手 LLaMA Factory

目录

性能指标

更新日志

模型

训练方法

数据集

软硬件依赖

硬件依赖

如何使用

数据准备（可跳过）

环境搭建（可跳过）

单 GPU 训练

预训练

指令监督微调

奖励模型训练

PPO 训练

DPO 训练

多 GPU 分布式训练

使用 Huggingface Accelerate

使用 DeepSpeed

合并 LoRA 权重并导出完整模型

API 服务

命令行测试

浏览器测试

模型评估

模型预测

使用了 LLaMA Factory 的项目

协议

引用

致谢

Star History

23 KiB

Raw Blame History