# CPM 模型训练指南 conda在:https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz ## 快速开始 我们的 CPM 训练框架采用 PyTorch 构建,专为大规模语言模型优化。最新训练产物位于 `model_final` 目录。 ## 基础设施要求 🖥️ **计算资源配置** - 4×NVIDIA A100 (80GB版本) - 单卡批量大小:4 🛠️ **基础软件环境** - CUDA 12.1 - Python 3.10 - accelerate 框架(预装) ## 部署指南 ### 容器化部署 推荐使用官方 Docker 镜像,操作简单快捷: ```bash # 拉取镜像 docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel # 容器启动 docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel ``` ### 本地环境部署 如果偏好传统方式,可通过 Conda 构建: ```bash conda create -n cpm python=3.10 conda activate cpm pip install -r requirements.txt ``` conda env create -f environment.yml ## 实验流程 ### 训练前准备 可选配置 wandb 实验追踪: ```bash wandb login # 登录后可实时监控训练状态 ``` ### 开始训练 ```bash # 调整训练参数 vim train.sh # 配置预训练模型位置 # 启动训练任务 cd training && bash train.sh ``` ### 效果评估 核心指标: - 验证集损失值需达到 0.52 - 建议保留多个时间点的模型快照 ### 模型应用 调用示例: ```bash python inference.py ``` 关键参数配置: ```python config = { 'model_path': '模型存储位置', 'input_path': '输入文件位置', 'output_path': '输出文件位置' } ``` ## 重要提示 ⚡ **性能优化建议** - 保持推荐的 GPU 配置 - 不建议调整默认批次大小 - accelerate 配置需保持默认值 📊 **实验数据记录** - 在线追踪:访问 wandb 平台 - 本地日志:查看 `training/wandb` 目录 ## 使用建议 1. 容器化部署是首选方案 2. 定时保存模型检查点 3. 关注训练过程指标 4. 确保环境一致性 ## 资源索引 - 配置模板:根目录 - 容器定制:参考 Dockerfile - 监控方案:集成 wandb 服务 ## 常见问题 若遇到问题,请先检查: 1. 环境依赖是否完整 2. GPU 资源是否充足 3. 配置参数是否正确