Update README_ALL.md

This commit is contained in:
p04896573 2024-04-29 19:40:59 +08:00
parent c6a5a5c243
commit d2d9bb89e2
1 changed files with 15 additions and 16 deletions

View File

@ -271,25 +271,24 @@ if __name__ == "__main__":
1 推荐大家使用docker避免大家在conda 环境安装时候遇到的问题
2 pretrain训练的脚本和sft训练的脚本基本类似在apps/cpm_9g目录下
3 尽量避免在window机器下修改脚本window中的编码和格式linux是有差别的容易在脚本执行中报错
4 微调训练中train_iters如何计算
```
回答因为模型上下文是4096的token数目通常情况存在训练数据不足4096的长度所以会对多条数据进行merge送入模型的数据量会少于1000条
```
5 打印出来的Iter信息有缺失
```
回答debug下看看是否是出现drop_last的情况
```
6 现有代码是否需要验证集合?
```
回答不需要参数中出现的val_datasets忽略即可
```
7 SFT如何调参训练
4 SFT如何调参训练
```
回答如果数据量少于10w条多训练几个epoch把学习率调低一些比如说5e-6等
数据量很多呢训练最多2个epoch足够注意过拟合的问题
```
5 微调训练中train_iters如何计算
```
回答因为模型上下文是4096的token数目通常情况存在训练数据不足4096的长度所以会对多条数据进行merge送入模型的数据量会少于1000条
```
6 打印出来的Iter信息有缺失
```
回答debug下看看是否是出现drop_last的情况
```
7 现有代码是否需要验证集合?
```
回答不需要参数中出现的val_datasets忽略即可
```
8 Lora 推理需要进行merge 模型后预测五一后release该代码
9 加载模型遇到invalid header or archive is carrupted这种一般是模型没有下载完导致的目前红山上的模型确定是完整的首先自查自己的模型是否下载成功。
10 存储模型的时候遇到failed write file data ,一般先检查下文件路径和权限、磁盘空间吧,存储模型基本不会报错
@ -300,8 +299,8 @@ datas = [
'''<用户>问题1<AI>答案1<用户>问题2<AI>答案2<用户>问题2<AI>'''
]
```
2 数据量级别SFT的指令数据可多可少
## TODO
1 发布最新训练的80B SFT模型
2 Lora相的代码更新
2 Lora相的代码更新