From 20e6d7ce353c1b2b365012fad6c8d6e715986ba4 Mon Sep 17 00:00:00 2001 From: "chaoyu@qiyuanlab.com" Date: Tue, 16 Jul 2024 18:38:28 +0800 Subject: [PATCH] =?UTF-8?q?=E4=BF=AE=E6=94=B9=E4=B8=80=E4=BA=9B=E6=A0=BC?= =?UTF-8?q?=E5=BC=8F=E9=97=AE=E9=A2=98?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- quick_start_clean/readmes/quick_start.md | 7 +++---- 1 file changed, 3 insertions(+), 4 deletions(-) diff --git a/quick_start_clean/readmes/quick_start.md b/quick_start_clean/readmes/quick_start.md index 4886d62..555d6f6 100644 --- a/quick_start_clean/readmes/quick_start.md +++ b/quick_start_clean/readmes/quick_start.md @@ -121,16 +121,15 @@ pip install tensorboardX [2b—sft-model] # TODO ## 数据处理流程 - ### 单个数据集处理 - 预训练语料为无监督形式,不需要区分问题与答案,但需要将数据转为index后进行模型训练。我们拿到的原始数据可能是两种形式: +### 单个数据集处理 +预训练语料为无监督形式,不需要区分问题与答案,但需要将数据转为index后进行模型训练。我们拿到的原始数据可能是两种形式: - 文件格式为.txt的原始文本,处理流程为:数据→jsonl格式的数据→index数据 - 文件格式为.jsonl的文本数据,处理流程为j:数据→index数据 -参考以下脚本,将txt数据处理为jsonl格式: +1. 参考以下脚本,将txt数据处理为jsonl格式: ``` python # convert_txt2jsonl.py import json import sys - for line in sys.stdin: if line.strip() == "": continue