105 lines
2.2 KiB
Markdown
105 lines
2.2 KiB
Markdown
# CPM 模型训练指南
|
||
|
||
conda在:https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/llm_conda.tar.gz
|
||
|
||
## 快速开始
|
||
|
||
我们的 CPM 训练框架采用 PyTorch 构建,专为大规模语言模型优化。最新训练产物位于 `model_final` 目录。
|
||
|
||
## 基础设施要求
|
||
|
||
🖥️ **计算资源配置**
|
||
- 4×NVIDIA A100 (80GB版本)
|
||
- 单卡批量大小:4
|
||
|
||
🛠️ **基础软件环境**
|
||
- CUDA 12.1
|
||
- Python 3.10
|
||
- accelerate 框架(预装)
|
||
|
||
## 部署指南
|
||
|
||
### 容器化部署
|
||
推荐使用官方 Docker 镜像,操作简单快捷:
|
||
```bash
|
||
# 拉取镜像
|
||
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
|
||
|
||
# 容器启动
|
||
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
|
||
```
|
||
|
||
### 本地环境部署
|
||
如果偏好传统方式,可通过 Conda 构建:
|
||
```bash
|
||
conda create -n cpm python=3.10
|
||
conda activate cpm
|
||
pip install -r requirements.txt
|
||
```
|
||
conda env create -f environment.yml
|
||
## 实验流程
|
||
|
||
### 训练前准备
|
||
可选配置 wandb 实验追踪:
|
||
```bash
|
||
wandb login # 登录后可实时监控训练状态
|
||
```
|
||
|
||
### 开始训练
|
||
```bash
|
||
# 调整训练参数
|
||
vim train.sh # 配置预训练模型位置
|
||
|
||
# 启动训练任务
|
||
cd training && bash train.sh
|
||
```
|
||
|
||
### 效果评估
|
||
核心指标:
|
||
- 验证集损失值需达到 0.52
|
||
- 建议保留多个时间点的模型快照
|
||
|
||
### 模型应用
|
||
调用示例:
|
||
```bash
|
||
python inference.py
|
||
```
|
||
|
||
关键参数配置:
|
||
```python
|
||
config = {
|
||
'model_path': '模型存储位置',
|
||
'input_path': '输入文件位置',
|
||
'output_path': '输出文件位置'
|
||
}
|
||
```
|
||
|
||
## 重要提示
|
||
|
||
⚡ **性能优化建议**
|
||
- 保持推荐的 GPU 配置
|
||
- 不建议调整默认批次大小
|
||
- accelerate 配置需保持默认值
|
||
|
||
📊 **实验数据记录**
|
||
- 在线追踪:访问 wandb 平台
|
||
- 本地日志:查看 `training/wandb` 目录
|
||
|
||
## 使用建议
|
||
|
||
1. 容器化部署是首选方案
|
||
2. 定时保存模型检查点
|
||
3. 关注训练过程指标
|
||
4. 确保环境一致性
|
||
|
||
## 资源索引
|
||
- 配置模板:根目录
|
||
- 容器定制:参考 Dockerfile
|
||
- 监控方案:集成 wandb 服务
|
||
|
||
## 常见问题
|
||
|
||
若遇到问题,请先检查:
|
||
1. 环境依赖是否完整
|
||
2. GPU 资源是否充足
|
||
3. 配置参数是否正确 |