forked from jiuyuan/CPM-9G-8B
Update README_ALL.md
This commit is contained in:
parent
c6a5a5c243
commit
d2d9bb89e2
|
@ -271,25 +271,24 @@ if __name__ == "__main__":
|
||||||
1 推荐大家使用docker,避免大家在conda 环境安装时候遇到的问题
|
1 推荐大家使用docker,避免大家在conda 环境安装时候遇到的问题
|
||||||
2 pretrain训练的脚本和sft训练的脚本基本类似,在apps/cpm_9g目录下
|
2 pretrain训练的脚本和sft训练的脚本基本类似,在apps/cpm_9g目录下
|
||||||
3 尽量避免在window机器下修改脚本,window中的编码和格式linux是有差别的,容易在脚本执行中报错
|
3 尽量避免在window机器下修改脚本,window中的编码和格式linux是有差别的,容易在脚本执行中报错
|
||||||
4 微调训练中,train_iters如何计算?
|
4 SFT如何调参训练
|
||||||
```
|
|
||||||
回答:因为模型上下文是4096的token数目,通常情况存在训练数据不足4096的长度,所以会对多条数据进行merge,送入模型的数据量会少于1000条
|
|
||||||
```
|
|
||||||
5 打印出来的Iter信息有缺失
|
|
||||||
```
|
|
||||||
回答:debug下看看是否是出现drop_last的情况
|
|
||||||
```
|
|
||||||
6 现有代码是否需要验证集合?
|
|
||||||
```
|
|
||||||
回答:不需要,参数中出现的val_datasets忽略即可
|
|
||||||
```
|
|
||||||
7 SFT如何调参训练
|
|
||||||
```
|
```
|
||||||
回答:如果数据量少于10w条,多训练几个epoch,把学习率调低一些,比如说5e-6等;
|
回答:如果数据量少于10w条,多训练几个epoch,把学习率调低一些,比如说5e-6等;
|
||||||
数据量很多呢,训练最多2个epoch足够,注意过拟合的问题
|
数据量很多呢,训练最多2个epoch足够,注意过拟合的问题
|
||||||
```
|
```
|
||||||
|
5 微调训练中,train_iters如何计算?
|
||||||
|
```
|
||||||
|
回答:因为模型上下文是4096的token数目,通常情况存在训练数据不足4096的长度,所以会对多条数据进行merge,送入模型的数据量会少于1000条
|
||||||
|
```
|
||||||
|
6 打印出来的Iter信息有缺失
|
||||||
|
```
|
||||||
|
回答:debug下看看是否是出现drop_last的情况
|
||||||
|
```
|
||||||
|
7 现有代码是否需要验证集合?
|
||||||
|
```
|
||||||
|
回答:不需要,参数中出现的val_datasets忽略即可
|
||||||
|
```
|
||||||
8 Lora 推理:需要进行merge 模型后预测,五一后release该代码
|
8 Lora 推理:需要进行merge 模型后预测,五一后release该代码
|
||||||
|
|
||||||
9 加载模型遇到:invalid header or archive is carrupted,这种一般是模型没有下载完导致的,目前红山上的模型确定是完整的,首先自查自己的模型是否下载成功。
|
9 加载模型遇到:invalid header or archive is carrupted,这种一般是模型没有下载完导致的,目前红山上的模型确定是完整的,首先自查自己的模型是否下载成功。
|
||||||
10 存储模型的时候遇到failed write file data ,一般先检查下文件路径和权限、磁盘空间吧,存储模型基本不会报错
|
10 存储模型的时候遇到failed write file data ,一般先检查下文件路径和权限、磁盘空间吧,存储模型基本不会报错
|
||||||
|
|
||||||
|
@ -300,8 +299,8 @@ datas = [
|
||||||
'''<用户>问题1<AI>答案1<用户>问题2<AI>答案2<用户>问题2<AI>'''
|
'''<用户>问题1<AI>答案1<用户>问题2<AI>答案2<用户>问题2<AI>'''
|
||||||
]
|
]
|
||||||
```
|
```
|
||||||
2 数据量级别:SFT的指令数据可多可少,
|
|
||||||
|
|
||||||
## TODO
|
## TODO
|
||||||
1 发布最新训练的80B SFT模型
|
1 发布最新训练的80B SFT模型
|
||||||
2 Lora相干的代码更新
|
2 Lora相关的代码更新
|
Loading…
Reference in New Issue