Update README_ALL.md

2024-04-29 19:40:59 +08:00 · 2024-04-29 19:40:59 +08:00 · d2d9bb89e2
parent c6a5a5c243
commit d2d9bb89e2
1 changed files with 15 additions and 16 deletions
--- a/quick_start_clean/readmes/README_ALL.md
+++ b/quick_start_clean/readmes/README_ALL.md
@ -271,25 +271,24 @@ if __name__ == "__main__":
 1 推荐大家使用docker，避免大家在conda 环境安装时候遇到的问题
 2 pretrain训练的脚本和sft训练的脚本基本类似，在apps/cpm_9g目录下
 3 尽量避免在window机器下修改脚本，window中的编码和格式linux是有差别的，容易在脚本执行中报错
-4 微调训练中，train_iters如何计算？
+4 SFT如何调参训练
  ```
  回答：因为模型上下文是4096的token数目，通常情况存在训练数据不足4096的长度，所以会对多条数据进行merge，送入模型的数据量会少于1000条
  ```
 5 打印出来的Iter信息有缺失
  ```
  回答：debug下看看是否是出现drop_last的情况
  ```
 6 现有代码是否需要验证集合？
  ```
  回答：不需要，参数中出现的val_datasets忽略即可
  ```
 7 SFT如何调参训练
  ```
  回答：如果数据量少于10w条，多训练几个epoch，把学习率调低一些，比如说5e-6等；
       数据量很多呢，训练最多2个epoch足够，注意过拟合的问题
  ```
 5 微调训练中，train_iters如何计算？
  ```
  回答：因为模型上下文是4096的token数目，通常情况存在训练数据不足4096的长度，所以会对多条数据进行merge，送入模型的数据量会少于1000条
  ```
 6 打印出来的Iter信息有缺失
  ```
  回答：debug下看看是否是出现drop_last的情况
  ```
 7 现有代码是否需要验证集合？
  ```
  回答：不需要，参数中出现的val_datasets忽略即可
  ```
 8 Lora 推理：需要进行merge 模型后预测，五一后release该代码
 9 加载模型遇到：invalid header or archive is carrupted，这种一般是模型没有下载完导致的，目前红山上的模型确定是完整的，首先自查自己的模型是否下载成功。
 10 存储模型的时候遇到failed write file data ，一般先检查下文件路径和权限、磁盘空间吧，存储模型基本不会报错
@ -300,8 +299,8 @@ datas = [
    '''<用户>问题1<AI>答案1<用户>问题2<AI>答案2<用户>问题2<AI>'''
    ]
 ```
-2 数据量级别：SFT的指令数据可多可少，
+
 ## TODO
 1 发布最新训练的80B SFT模型
-2 Lora相干的代码更新
+2 Lora相关的代码更新