From db10b9114b5e845dd83841f005ad3161aff2ceae Mon Sep 17 00:00:00 2001
From: p83651209 <p83651209@example.org>
Date: Tue, 12 Nov 2024 11:16:38 +0800
Subject: [PATCH] Update README.md

---
 README.md | 40 +++++++++++++++++++++-------------------
 1 file changed, 21 insertions(+), 19 deletions(-)

diff --git a/README.md b/README.md
index 67ed349..075c019 100644
--- a/README.md
+++ b/README.md
@@ -1,24 +1,26 @@
-方案：
-全参数微调，使用不同数据集训练多个模型和推理时增强进行融合。
+夸克网盘 docker链接：(没有会员请联系我下载)
 
 
-训练代码：
-LLaMA-Factory.zip 解压后使用，可参照https://github.com/hiyouga/LLaMA-Factory配置环境，或将代码映射到docker中使用。
-训练：train.sh。将数据集放到LLaMA-Factory/data文件夹下，将train.sh放到LLaMA-Factory下使用。
-推理： python inference.py(需在inference.py中修改好模型路径。) test_case.json是从题目中提取出来的测试用例。
+1.使用llama-factory对九格模型进行全参数微调。数据集见dataset
 
-百度网盘需要收费，使用阿里云盘
-model_wight:通过百度网盘分享的文件：
-链接：https://pan.baidu.com/s/1paYNO7d5OYESuyw3BVo7Ew 
-提取码：6666
-https://www.alipan.com/s/FTPWUSBuz7s
+2.训练和推理都已验证无误，在A100*8卡机器上。
+docker 启动：sudo docker run -it --runtime=nvidia --gpus all --shm-size=256g wjf:train
+推理：python inference.py
+训练：
+cd training
+sh training.sh
 
-docker:
-链接：https://pan.baidu.com/s/1paYNO7d5OYESuyw3BVo7Ew 
-提取码：6666
-https://www.alipan.com/s/FTPWUSBuz7s
 
-train_data:
-链接：https://pan.baidu.com/s/1paYNO7d5OYESuyw3BVo7Ew 
-提取码：6666
-https://www.alipan.com/s/FTPWUSBuz7s
\ No newline at end of file
+3.推理使用多checkpoint、多次推理融合。
+
+4.所有资料都已打包进docker，只需要docker即可。
+
+5.启动训练时将覆盖提交的checkpoint。
+
+6.docker卡在数据处理可能是机器的问题，尝试docker中输入：
+export NCCL_DEBUG=INFO
+export NCCL_SHM_DISABLE=1
+export NCCL_P2P_DISABLE=1
+由于需要保存多个checkpoint，请务必保证磁盘空间足够，大于500G。
+
+7.提交不易，请有问题是及时联系我（电话：13121813131）
\ No newline at end of file