Go to file
p83651209 db10b9114b Update README.md 2024-11-12 11:16:38 +08:00
FM_9G fix single dataset error with exhaust with 2b models 2024-08-01 10:37:57 +08:00
quick_start_clean Update README.md 2024-09-14 16:15:16 +08:00
LLaMA-Factory.zip ADD file via upload 2024-11-02 16:52:22 +08:00
README.md Update README.md 2024-11-12 11:16:38 +08:00
inference.py Update inference.py 2024-11-03 20:04:38 +08:00
model_final_url.txt Add model_final_url.txt 2024-11-03 13:30:04 +08:00
test_case.json ADD file via upload 2024-11-02 16:18:55 +08:00
train.sh ADD file via upload 2024-11-02 16:32:04 +08:00

README.md

夸克网盘 docker链接(没有会员请联系我下载)

1.使用llama-factory对九格模型进行全参数微调。数据集见dataset

2.训练和推理都已验证无误在A100*8卡机器上。 docker 启动sudo docker run -it --runtime=nvidia --gpus all --shm-size=256g wjf:train 推理python inference.py 训练: cd training sh training.sh

3.推理使用多checkpoint、多次推理融合。

4.所有资料都已打包进docker只需要docker即可。

5.启动训练时将覆盖提交的checkpoint。

6.docker卡在数据处理可能是机器的问题尝试docker中输入 export NCCL_DEBUG=INFO export NCCL_SHM_DISABLE=1 export NCCL_P2P_DISABLE=1 由于需要保存多个checkpoint请务必保证磁盘空间足够大于500G。

7.提交不易请有问题是及时联系我电话13121813131