p14698207 970caba75f | ||
---|---|---|
datasets | ||
logs | ||
model_final | ||
test_set | ||
training | ||
.gitattributes | ||
.gitignore | ||
dockerfile | ||
environment.yml | ||
inference.py | ||
readme.md | ||
requirements.txt |
readme.md
CPM 训练系统技术文档
conda在:https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz
系统架构
核心组件
- 深度学习引擎: PyTorch
- 训练产物目录:
model_final/
- 分布式方案: accelerate
资源需求
计算集群规格
[Hardware]
GPU_Type = NVIDIA_A100_80GB
GPU_Count = 4
Batch_Per_GPU = 4
[Software]
CUDA = 12.1
Python = 3.10
Framework = PyTorch + accelerate
环境构建
方案A: 容器化环境
# 获取基础环境
$ docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
# 启动训练容器
$ docker run --gpus all \
--mount type=bind,source="$(pwd)",target=/workspace \
pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
方案B: 本地环境
conda env create -f environment.yml
$ conda create -n cpm python=3.10
$ conda activate cpm
$ pip install -r requirements.txt
训练流程
1. 初始化
# 可选:配置实验追踪
$ wandb login
2. 训练执行
# 配置训练参数
$ vim train.sh
# 执行训练任务
$ cd training && ./train.sh
3. 模型评估
评估指标:
验证损失: 接近1.55
检查点策略: 多点保存
4. 推理部署
# inference.py 配置示例
INFERENCE_CONFIG = {
"model": "./checkpoints/model",
"input": "./data/input",
"output": "./results"
}
性能优化指南
关键参数
禁止修改:
- GPU数量配置
- Batch Size设置
- Accelerate默认参数
监控方案
在线监控:
平台: wandb
访问: wandb.ai
离线日志:
位置: training/wandb/
格式: 标准日志
最佳实践
1️⃣ 部署建议
- 优先使用容器方案
- 确保环境一致性
2️⃣ 训练建议
- 定期保存检查点
- 监控训练曲线
3️⃣ 维护建议
- 定期清理日志
- 及时更新依赖
开发资源
配置文件:
位置: ./
用途: 系统参数配置
Docker资源:
文件: Dockerfile
用途: 自定义镜像构建
监控工具:
类型: wandb
集成: 开箱即用
常见问题速查
问题类型 | 排查方向 | 解决方案 |
---|---|---|
OOM错误 | 内存使用 | 检查batch size |
性能下降 | 资源利用 | 验证GPU配置 |
训练异常 | 环境依赖 | 更新CUDA驱动 |
版本说明
当前版本:
特性:
- 分布式训练支持
- 自动化监控集成
- 内存优化方案
限制:
- 固定GPU配置
- 特定CUDA版本
技术支持
- 配置模板:根目录
- 构建脚本:Dockerfile
- 监控平台:wandb