p63895042 e1860f1cf5 | ||
---|---|---|
datasets | ||
logs | ||
model_final | ||
test_set | ||
training | ||
.gitattributes | ||
.gitignore | ||
README.md | ||
dockerfile | ||
environment.yml | ||
inference.py | ||
llm_conda.tar.gz | ||
requirements.txt |
README.md
CPM 模型训练指南
conda在:https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz
快速开始
我们的 CPM 训练框架采用 PyTorch 构建,专为大规模语言模型优化。最新训练产物位于 model_final
目录。
基础设施要求
🖥️ 计算资源配置
- 4×NVIDIA A100 (80GB版本)
- 单卡批量大小:4
🛠️ 基础软件环境
- CUDA 12.1
- Python 3.10
- accelerate 框架(预装)
部署指南
容器化部署
推荐使用官方 Docker 镜像,操作简单快捷:
# 拉取镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
# 容器启动
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
本地环境部署
如果偏好传统方式,可通过 Conda 构建:
conda create -n cpm python=3.10
conda activate cpm
pip install -r requirements.txt
conda env create -f environment.yml
实验流程
训练前准备
可选配置 wandb 实验追踪:
wandb login # 登录后可实时监控训练状态
开始训练
# 调整训练参数
vim train.sh # 配置预训练模型位置
# 启动训练任务
cd training && bash train.sh
效果评估
核心指标:
- 验证集损失值需达到 0.52
- 建议保留多个时间点的模型快照
模型应用
调用示例:
python inference.py
关键参数配置:
config = {
'model_path': '模型存储位置',
'input_path': '输入文件位置',
'output_path': '输出文件位置'
}
重要提示
⚡ 性能优化建议
- 保持推荐的 GPU 配置
- 不建议调整默认批次大小
- accelerate 配置需保持默认值
📊 实验数据记录
- 在线追踪:访问 wandb 平台
- 本地日志:查看
training/wandb
目录
使用建议
- 容器化部署是首选方案
- 定时保存模型检查点
- 关注训练过程指标
- 确保环境一致性
资源索引
- 配置模板:根目录
- 容器定制:参考 Dockerfile
- 监控方案:集成 wandb 服务
常见问题
若遇到问题,请先检查:
- 环境依赖是否完整
- GPU 资源是否充足
- 配置参数是否正确