CPM-9G-8B/README.md at 1033ad4a7598660fc24a10b24175f9ab6ca5f6a9

884 B

Raw Blame History

夸克网盘 docker链接：https://pan.quark.cn/s/4cda395f13e8
(没有会员请联系我下载)

1.使用llama-factory对九格模型进行全参数微调。数据集见dataset

2.训练和推理都已验证无误，在A100*8卡机器上。 docker 启动：sudo docker run -it --runtime=nvidia --gpus all --shm-size=256g wjf:train 推理：python inference.py 训练： cd training sh training.sh

3.推理使用多checkpoint、多次推理融合。

4.所有资料都已打包进docker，只需要docker即可。

5.启动训练时将覆盖提交的checkpoint。

6.docker卡在数据处理可能是机器的问题，尝试docker中输入： export NCCL_DEBUG=INFO export NCCL_SHM_DISABLE=1 export NCCL_P2P_DISABLE=1 由于需要保存多个checkpoint，请务必保证磁盘空间足够，大于500G。

7.提交不易，请有问题是及时联系我（电话：13121813131）

884 B Raw Blame History Unescape Escape

884 B

Raw Blame History