sugar/README.md

# CPM 模型训练指南

conda在：https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz

## 快速开始

我们的 CPM 训练框架采用 PyTorch 构建，专为大规模语言模型优化。最新训练产物位于 `model_final` 目录。

## 基础设施要求

🖥️ **计算资源配置**
- 4×NVIDIA A100 (80GB版本)
- 单卡批量大小：4

🛠️ **基础软件环境**
- CUDA 12.1
- Python 3.10
- accelerate 框架(预装)

## 部署指南

### 容器化部署
推荐使用官方 Docker 镜像，操作简单快捷：
```bash
# 拉取镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

# 容器启动
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
```

### 本地环境部署
如果偏好传统方式，可通过 Conda 构建：
```bash
conda create -n cpm python=3.10
conda activate cpm
pip install -r requirements.txt
```
conda env create -f environment.yml
## 实验流程

### 训练前准备
可选配置 wandb 实验追踪：
```bash
wandb login  # 登录后可实时监控训练状态
```

### 开始训练
```bash
# 调整训练参数
vim train.sh  # 配置预训练模型位置

# 启动训练任务
cd training && bash train.sh
```

### 效果评估
核心指标：
- 验证集损失值需达到 0.52
- 建议保留多个时间点的模型快照

### 模型应用
调用示例：
```bash
python inference.py
```

关键参数配置：
```python
config = {
    'model_path': '模型存储位置',
    'input_path': '输入文件位置',
    'output_path': '输出文件位置'
}
```

## 重要提示

⚡ **性能优化建议**
- 保持推荐的 GPU 配置
- 不建议调整默认批次大小
- accelerate 配置需保持默认值

📊 **实验数据记录**
- 在线追踪：访问 wandb 平台
- 本地日志：查看 `training/wandb` 目录

## 使用建议

1. 容器化部署是首选方案
2. 定时保存模型检查点
3. 关注训练过程指标
4. 确保环境一致性

## 资源索引
- 配置模板：根目录
- 容器定制：参考 Dockerfile
- 监控方案：集成 wandb 服务

## 常见问题

若遇到问题，请先检查：
1. 环境依赖是否完整
2. GPU 资源是否充足
3. 配置参数是否正确