105 lines
2.2 KiB
Markdown
105 lines
2.2 KiB
Markdown
|
# CPM 模型训练指南
|
|||
|
|
|||
|
conda在:https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz
|
|||
|
|
|||
|
## 快速开始
|
|||
|
|
|||
|
我们的 CPM 训练框架采用 PyTorch 构建,专为大规模语言模型优化。最新训练产物位于 `model_final` 目录。
|
|||
|
|
|||
|
## 基础设施要求
|
|||
|
|
|||
|
🖥️ **计算资源配置**
|
|||
|
- 4×NVIDIA A100 (80GB版本)
|
|||
|
- 单卡批量大小:4
|
|||
|
|
|||
|
🛠️ **基础软件环境**
|
|||
|
- CUDA 12.1
|
|||
|
- Python 3.10
|
|||
|
- accelerate 框架(预装)
|
|||
|
|
|||
|
## 部署指南
|
|||
|
|
|||
|
### 容器化部署
|
|||
|
推荐使用官方 Docker 镜像,操作简单快捷:
|
|||
|
```bash
|
|||
|
# 拉取镜像
|
|||
|
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
|
|||
|
|
|||
|
# 容器启动
|
|||
|
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
|
|||
|
```
|
|||
|
|
|||
|
### 本地环境部署
|
|||
|
如果偏好传统方式,可通过 Conda 构建:
|
|||
|
```bash
|
|||
|
conda create -n cpm python=3.10
|
|||
|
conda activate cpm
|
|||
|
pip install -r requirements.txt
|
|||
|
```
|
|||
|
conda env create -f environment.yml
|
|||
|
## 实验流程
|
|||
|
|
|||
|
### 训练前准备
|
|||
|
可选配置 wandb 实验追踪:
|
|||
|
```bash
|
|||
|
wandb login # 登录后可实时监控训练状态
|
|||
|
```
|
|||
|
|
|||
|
### 开始训练
|
|||
|
```bash
|
|||
|
# 调整训练参数
|
|||
|
vim train.sh # 配置预训练模型位置
|
|||
|
|
|||
|
# 启动训练任务
|
|||
|
cd training && bash train.sh
|
|||
|
```
|
|||
|
|
|||
|
### 效果评估
|
|||
|
核心指标:
|
|||
|
- 验证集损失值需达到 0.52
|
|||
|
- 建议保留多个时间点的模型快照
|
|||
|
|
|||
|
### 模型应用
|
|||
|
调用示例:
|
|||
|
```bash
|
|||
|
python inference.py
|
|||
|
```
|
|||
|
|
|||
|
关键参数配置:
|
|||
|
```python
|
|||
|
config = {
|
|||
|
'model_path': '模型存储位置',
|
|||
|
'input_path': '输入文件位置',
|
|||
|
'output_path': '输出文件位置'
|
|||
|
}
|
|||
|
```
|
|||
|
|
|||
|
## 重要提示
|
|||
|
|
|||
|
⚡ **性能优化建议**
|
|||
|
- 保持推荐的 GPU 配置
|
|||
|
- 不建议调整默认批次大小
|
|||
|
- accelerate 配置需保持默认值
|
|||
|
|
|||
|
📊 **实验数据记录**
|
|||
|
- 在线追踪:访问 wandb 平台
|
|||
|
- 本地日志:查看 `training/wandb` 目录
|
|||
|
|
|||
|
## 使用建议
|
|||
|
|
|||
|
1. 容器化部署是首选方案
|
|||
|
2. 定时保存模型检查点
|
|||
|
3. 关注训练过程指标
|
|||
|
4. 确保环境一致性
|
|||
|
|
|||
|
## 资源索引
|
|||
|
- 配置模板:根目录
|
|||
|
- 容器定制:参考 Dockerfile
|
|||
|
- 监控方案:集成 wandb 服务
|
|||
|
|
|||
|
## 常见问题
|
|||
|
|
|||
|
若遇到问题,请先检查:
|
|||
|
1. 环境依赖是否完整
|
|||
|
2. GPU 资源是否充足
|
|||
|
3. 配置参数是否正确
|