From db10b9114b5e845dd83841f005ad3161aff2ceae Mon Sep 17 00:00:00 2001 From: p83651209 Date: Tue, 12 Nov 2024 11:16:38 +0800 Subject: [PATCH] Update README.md --- README.md | 40 +++++++++++++++++++++------------------- 1 file changed, 21 insertions(+), 19 deletions(-) diff --git a/README.md b/README.md index 67ed349..075c019 100644 --- a/README.md +++ b/README.md @@ -1,24 +1,26 @@ -方案: -全参数微调,使用不同数据集训练多个模型和推理时增强进行融合。 +夸克网盘 docker链接:(没有会员请联系我下载) -训练代码: -LLaMA-Factory.zip 解压后使用,可参照https://github.com/hiyouga/LLaMA-Factory配置环境,或将代码映射到docker中使用。 -训练:train.sh。将数据集放到LLaMA-Factory/data文件夹下,将train.sh放到LLaMA-Factory下使用。 -推理: python inference.py(需在inference.py中修改好模型路径。) test_case.json是从题目中提取出来的测试用例。 +1.使用llama-factory对九格模型进行全参数微调。数据集见dataset -百度网盘需要收费,使用阿里云盘 -model_wight:通过百度网盘分享的文件: -链接:https://pan.baidu.com/s/1paYNO7d5OYESuyw3BVo7Ew -提取码:6666 -https://www.alipan.com/s/FTPWUSBuz7s +2.训练和推理都已验证无误,在A100*8卡机器上。 +docker 启动:sudo docker run -it --runtime=nvidia --gpus all --shm-size=256g wjf:train +推理:python inference.py +训练: +cd training +sh training.sh -docker: -链接:https://pan.baidu.com/s/1paYNO7d5OYESuyw3BVo7Ew -提取码:6666 -https://www.alipan.com/s/FTPWUSBuz7s -train_data: -链接:https://pan.baidu.com/s/1paYNO7d5OYESuyw3BVo7Ew -提取码:6666 -https://www.alipan.com/s/FTPWUSBuz7s \ No newline at end of file +3.推理使用多checkpoint、多次推理融合。 + +4.所有资料都已打包进docker,只需要docker即可。 + +5.启动训练时将覆盖提交的checkpoint。 + +6.docker卡在数据处理可能是机器的问题,尝试docker中输入: +export NCCL_DEBUG=INFO +export NCCL_SHM_DISABLE=1 +export NCCL_P2P_DISABLE=1 +由于需要保存多个checkpoint,请务必保证磁盘空间足够,大于500G。 + +7.提交不易,请有问题是及时联系我(电话:13121813131) \ No newline at end of file