vc/datasets
p02476819 d84f980d06 modify 2024-11-11 16:41:13 +00:00
..
eval.parquet modify 2024-11-11 16:41:13 +00:00
readme.txt modify 2024-11-11 16:41:13 +00:00
train.parquet modify 2024-11-11 16:41:13 +00:00

readme.txt

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

数据类型:军事理论与思政教育问答对
数据来源zlib平台教材文档
生成工具Python + GPT-4 API

一、数据采集流程
1. 原始数据获取
   - 通过zlib平台API接口下载军事理论教材PDF
   - 下载思想政治教育相关教材文档
   - 使用requests库进行批量文件获取

2. 文本提取
   - 使用pdfplumber库解析PDF文件
   - 采用pypdf2处理加密文档
   - 提取每章节的正文内容
   - 保存为结构化文本格式

二、数据处理步骤
1. 文本预处理
   - 去除特殊字符和冗余空格
   - 清理页眉页脚信息
   - 处理段落分隔符
   - 修正排版导致的断行问题

2. 内容分段
   - 按章节划分内容块
   - 识别段落关键信息
   - 提取重要知识点
   - 生成上下文关联

3. GPT-4调用处理
   - 设计提示词模板
   - 批量调用GPT-4 API
   - 将课本内容转化为问答对
   - 控制问答质量和难度