2.2 KiB

Raw Permalink Blame History

CPM 模型训练指南

conda在：https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz

快速开始

我们的 CPM 训练框架采用 PyTorch 构建，专为大规模语言模型优化。最新训练产物位于 model_final 目录。

基础设施要求

🖥️ 计算资源配置

4×NVIDIA A100 (80GB版本)
单卡批量大小：4

🛠️ 基础软件环境

CUDA 12.1
Python 3.10
accelerate 框架(预装)

部署指南

容器化部署

推荐使用官方 Docker 镜像，操作简单快捷：

# 拉取镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

# 容器启动
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

本地环境部署

如果偏好传统方式，可通过 Conda 构建：

conda create -n cpm python=3.10
conda activate cpm
pip install -r requirements.txt

conda env create -f environment.yml

实验流程

训练前准备

可选配置 wandb 实验追踪：

wandb login  # 登录后可实时监控训练状态

开始训练

# 调整训练参数
vim train.sh  # 配置预训练模型位置

# 启动训练任务
cd training && bash train.sh

效果评估

核心指标：

验证集损失值需达到 1.62
建议保留多个时间点的模型快照

模型应用

调用示例：

python inference.py

关键参数配置：

config = {
    'model_path': '模型存储位置',
    'input_path': '输入文件位置',
    'output_path': '输出文件位置'
}

重要提示

⚡ 性能优化建议

保持推荐的 GPU 配置
不建议调整默认批次大小
accelerate 配置需保持默认值

📊 实验数据记录

在线追踪：访问 wandb 平台
本地日志：查看 training/wandb 目录

使用建议

容器化部署是首选方案
定时保存模型检查点
关注训练过程指标
确保环境一致性

资源索引

配置模板：根目录
容器定制：参考 Dockerfile
监控方案：集成 wandb 服务

常见问题

若遇到问题，请先检查：

环境依赖是否完整
GPU 资源是否充足
配置参数是否正确

2.2 KiB Raw Permalink Blame History Unescape Escape