sugar/README.md

105 lines
2.2 KiB
Markdown
Raw Normal View History

2024-11-12 10:20:46 +08:00
# CPM 模型训练指南
2024-11-14 12:12:51 +08:00
conda在https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/llm_conda.tar.gz
2024-11-12 10:20:46 +08:00
## 快速开始
我们的 CPM 训练框架采用 PyTorch 构建,专为大规模语言模型优化。最新训练产物位于 `model_final` 目录。
## 基础设施要求
🖥️ **计算资源配置**
- 4×NVIDIA A100 (80GB版本)
- 单卡批量大小4
🛠️ **基础软件环境**
- CUDA 12.1
- Python 3.10
- accelerate 框架(预装)
## 部署指南
### 容器化部署
推荐使用官方 Docker 镜像,操作简单快捷:
```bash
# 拉取镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
# 容器启动
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
```
### 本地环境部署
如果偏好传统方式,可通过 Conda 构建:
```bash
conda create -n cpm python=3.10
conda activate cpm
pip install -r requirements.txt
```
conda env create -f environment.yml
## 实验流程
### 训练前准备
可选配置 wandb 实验追踪:
```bash
wandb login # 登录后可实时监控训练状态
```
### 开始训练
```bash
# 调整训练参数
vim train.sh # 配置预训练模型位置
# 启动训练任务
cd training && bash train.sh
```
### 效果评估
核心指标:
- 验证集损失值需达到 0.52
- 建议保留多个时间点的模型快照
### 模型应用
调用示例:
```bash
python inference.py
```
关键参数配置:
```python
config = {
'model_path': '模型存储位置',
'input_path': '输入文件位置',
'output_path': '输出文件位置'
}
```
## 重要提示
**性能优化建议**
- 保持推荐的 GPU 配置
- 不建议调整默认批次大小
- accelerate 配置需保持默认值
📊 **实验数据记录**
- 在线追踪:访问 wandb 平台
- 本地日志:查看 `training/wandb` 目录
## 使用建议
1. 容器化部署是首选方案
2. 定时保存模型检查点
3. 关注训练过程指标
4. 确保环境一致性
## 资源索引
- 配置模板:根目录
- 容器定制:参考 Dockerfile
- 监控方案:集成 wandb 服务
## 常见问题
若遇到问题,请先检查:
1. 环境依赖是否完整
2. GPU 资源是否充足
3. 配置参数是否正确