34 lines
948 B
Plaintext
34 lines
948 B
Plaintext
数据类型:军事理论与思政教育问答对
|
||
数据来源:zlib平台教材文档
|
||
生成工具:Python + GPT-4 API
|
||
|
||
一、数据采集流程
|
||
1. 原始数据获取
|
||
- 通过zlib平台API接口下载军事理论教材PDF
|
||
- 下载思想政治教育相关教材文档
|
||
- 使用requests库进行批量文件获取
|
||
|
||
2. 文本提取
|
||
- 使用pdfplumber库解析PDF文件
|
||
- 采用pypdf2处理加密文档
|
||
- 提取每章节的正文内容
|
||
- 保存为结构化文本格式
|
||
|
||
二、数据处理步骤
|
||
1. 文本预处理
|
||
- 去除特殊字符和冗余空格
|
||
- 清理页眉页脚信息
|
||
- 处理段落分隔符
|
||
- 修正排版导致的断行问题
|
||
|
||
2. 内容分段
|
||
- 按章节划分内容块
|
||
- 识别段落关键信息
|
||
- 提取重要知识点
|
||
- 生成上下文关联
|
||
|
||
3. GPT-4调用处理
|
||
- 设计提示词模板
|
||
- 批量调用GPT-4 API
|
||
- 将课本内容转化为问答对
|
||
- 控制问答质量和难度 |