sugar/README.md

2.2 KiB
Raw Blame History

CPM 模型训练指南

conda在https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/llm_conda.tar.gz

快速开始

我们的 CPM 训练框架采用 PyTorch 构建,专为大规模语言模型优化。最新训练产物位于 model_final 目录。

基础设施要求

🖥️ 计算资源配置

  • 4×NVIDIA A100 (80GB版本)
  • 单卡批量大小4

🛠️ 基础软件环境

  • CUDA 12.1
  • Python 3.10
  • accelerate 框架(预装)

部署指南

容器化部署

推荐使用官方 Docker 镜像,操作简单快捷:

# 拉取镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

# 容器启动
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

本地环境部署

如果偏好传统方式,可通过 Conda 构建:

conda create -n cpm python=3.10
conda activate cpm
pip install -r requirements.txt

conda env create -f environment.yml

实验流程

训练前准备

可选配置 wandb 实验追踪:

wandb login  # 登录后可实时监控训练状态

开始训练

# 调整训练参数
vim train.sh  # 配置预训练模型位置

# 启动训练任务
cd training && bash train.sh

效果评估

核心指标:

  • 验证集损失值需达到 0.52
  • 建议保留多个时间点的模型快照

模型应用

调用示例:

python inference.py

关键参数配置:

config = {
    'model_path': '模型存储位置',
    'input_path': '输入文件位置',
    'output_path': '输出文件位置'
}

重要提示

性能优化建议

  • 保持推荐的 GPU 配置
  • 不建议调整默认批次大小
  • accelerate 配置需保持默认值

📊 实验数据记录

  • 在线追踪:访问 wandb 平台
  • 本地日志:查看 training/wandb 目录

使用建议

  1. 容器化部署是首选方案
  2. 定时保存模型检查点
  3. 关注训练过程指标
  4. 确保环境一致性

资源索引

  • 配置模板:根目录
  • 容器定制:参考 Dockerfile
  • 监控方案:集成 wandb 服务

常见问题

若遇到问题,请先检查:

  1. 环境依赖是否完整
  2. GPU 资源是否充足
  3. 配置参数是否正确