cc/readme.md

# CPM 训练框架文档

> 本文档介绍基于 PyTorch 的 CPM 大规模语言模型训练系统。训练完成的模型将存储在 `model_final` 目录。

conda在：https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/llm_conda.tar.gz

## 一、环境配置指南

### 硬件配置清单

必要配置：
- GPU：4张 NVIDIA A100（80GB）显卡
- 单卡训练批次：4

软件环境：
- CUDA 版本：12.1
- Python 环境：3.10
- 深度学习框架：PyTorch + accelerate

### 环境部署方案

**选项1：基于容器**
```bash
# Step 1: 获取基础镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

# Step 2: 运行容器实例
docker run --gpus all \
    -v $(pwd):/workspace \
    pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
```

**选项2：基于conda**
```bash
# Step 1: 创建虚拟环境
conda create -n cpm python=3.10

# Step 2: 激活环境
conda activate cpm

# Step 3: 安装依赖包
pip install -r requirements.txt
```
conda env create -f environment.yml
## 二、操作流程详解

### 2.1 前期准备

实验监控配置（可选）：
```bash
# 配置wandb监控
wandb login
```

### 2.2 模型训练步骤

1. 修改训练配置：
```bash
# 编辑训练脚本
vim train.sh  # 设置模型路径等参数
```

2. 执行训练：
```bash
# 进入训练目录并启动
cd training
bash train.sh
```

### 2.3 效果验证

验证指标：
- 验证集损失应当低于0.52
- 推荐保存训练过程中的多个检查点

### 2.4 推理部署

示例代码：
```python
# 核心配置项
inference_config = {
    'model_path': './checkpoints/best_model',  # 模型路径
    'input_path': './data/input.txt',         # 输入文件
    'output_path': './results/output.txt'     # 输出文件
}

# 执行推理
python inference.py
```

## 三、关键注意事项

### 性能调优须知

- 严格遵守GPU数量要求
- 保持默认批处理大小不变
- 不建议修改accelerate默认配置

### 实验记录管理

实验数据查看方式：
- 实时监控：wandb平台
- 本地记录：`training/wandb`目录

## 四、最优实践建议

1. 优先考虑容器化部署
2. 建立完善的检查点备份机制
3. 持续监控训练指标变化
4. 保持训练环境的一致性

## 五、补充说明

系统文件说明：
- 根目录：配置文件
- Docker相关：自定义镜像构建文件
- 监控工具：wandb集成支持

## 六、故障排查指南

常见问题处理：
1. 内存溢出：检查批次大小设置
2. 训练中断：查看显卡状态
3. 性能不佳：确认环境配置

## 七、版本说明

当前版本特性：
- 支持分布式训练
- 提供完整监控方案
- 优化内存使用效率