修改一些格式问题

This commit is contained in:
chaoyu@qiyuanlab.com 2024-07-16 18:38:28 +08:00
parent 1dc6a17696
commit 20e6d7ce35
1 changed files with 3 additions and 4 deletions

View File

@ -125,12 +125,11 @@ pip install tensorboardX
预训练语料为无监督形式不需要区分问题与答案但需要将数据转为index后进行模型训练。我们拿到的原始数据可能是两种形式 预训练语料为无监督形式不需要区分问题与答案但需要将数据转为index后进行模型训练。我们拿到的原始数据可能是两种形式
- 文件格式为.txt的原始文本处理流程为数据→jsonl格式的数据→index数据 - 文件格式为.txt的原始文本处理流程为数据→jsonl格式的数据→index数据
- 文件格式为.jsonl的文本数据处理流程为j:数据→index数据 - 文件格式为.jsonl的文本数据处理流程为j:数据→index数据
参考以下脚本将txt数据处理为jsonl格式 1. 参考以下脚本将txt数据处理为jsonl格式
``` python ``` python
# convert_txt2jsonl.py # convert_txt2jsonl.py
import json import json
import sys import sys
for line in sys.stdin: for line in sys.stdin:
if line.strip() == "": if line.strip() == "":
continue continue