diff --git a/quick_start_clean/readmes/quick_start.md b/quick_start_clean/readmes/quick_start.md index 3d8fc41..4886d62 100644 --- a/quick_start_clean/readmes/quick_start.md +++ b/quick_start_clean/readmes/quick_start.md @@ -125,7 +125,7 @@ pip install tensorboardX 预训练语料为无监督形式,不需要区分问题与答案,但需要将数据转为index后进行模型训练。我们拿到的原始数据可能是两种形式: - 文件格式为.txt的原始文本,处理流程为:数据→jsonl格式的数据→index数据 - 文件格式为.jsonl的文本数据,处理流程为j:数据→index数据 -1. 参考以下脚本,将txt数据处理为jsonl格式: +参考以下脚本,将txt数据处理为jsonl格式: ``` python # convert_txt2jsonl.py import json