Go to file
p14698207 970caba75f modify 2024-11-11 16:45:09 +00:00
datasets modify 2024-11-11 16:45:09 +00:00
logs modify 2024-11-11 16:45:09 +00:00
model_final modify 2024-11-11 16:45:09 +00:00
test_set modify 2024-11-11 16:45:09 +00:00
training modify 2024-11-11 16:45:09 +00:00
.gitattributes modify 2024-11-11 16:45:09 +00:00
.gitignore modify 2024-11-11 16:45:09 +00:00
dockerfile modify 2024-11-11 16:45:09 +00:00
environment.yml modify 2024-11-11 16:45:09 +00:00
inference.py modify 2024-11-11 16:45:09 +00:00
readme.md modify 2024-11-11 16:45:09 +00:00
requirements.txt modify 2024-11-11 16:45:09 +00:00

readme.md

CPM 训练系统技术文档

conda在https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz

系统架构

核心组件

  • 深度学习引擎: PyTorch
  • 训练产物目录: model_final/
  • 分布式方案: accelerate

资源需求

计算集群规格

[Hardware]
GPU_Type = NVIDIA_A100_80GB
GPU_Count = 4
Batch_Per_GPU = 4

[Software]
CUDA = 12.1
Python = 3.10
Framework = PyTorch + accelerate

环境构建

方案A: 容器化环境

# 获取基础环境
$ docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

# 启动训练容器
$ docker run --gpus all \
    --mount type=bind,source="$(pwd)",target=/workspace \
    pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel

方案B: 本地环境

conda env create -f environment.yml

$ conda create -n cpm python=3.10
$ conda activate cpm
$ pip install -r requirements.txt

训练流程

1. 初始化

# 可选:配置实验追踪
$ wandb login

2. 训练执行

# 配置训练参数
$ vim train.sh

# 执行训练任务
$ cd training && ./train.sh

3. 模型评估

评估指标:
  验证损失: 接近1.55
  检查点策略: 多点保存

4. 推理部署

# inference.py 配置示例
INFERENCE_CONFIG = {
    "model": "./checkpoints/model",
    "input": "./data/input",
    "output": "./results"
}

性能优化指南

关键参数

禁止修改:
  - GPU数量配置
  - Batch Size设置
  - Accelerate默认参数

监控方案

在线监控:
  平台: wandb
  访问: wandb.ai

离线日志:
  位置: training/wandb/
  格式: 标准日志

最佳实践

1 部署建议

  • 优先使用容器方案
  • 确保环境一致性

2 训练建议

  • 定期保存检查点
  • 监控训练曲线

3 维护建议

  • 定期清理日志
  • 及时更新依赖

开发资源

配置文件:
  位置: ./
  用途: 系统参数配置

Docker资源:
  文件: Dockerfile
  用途: 自定义镜像构建

监控工具:
  类型: wandb
  集成: 开箱即用

常见问题速查

问题类型 排查方向 解决方案
OOM错误 内存使用 检查batch size
性能下降 资源利用 验证GPU配置
训练异常 环境依赖 更新CUDA驱动

版本说明

当前版本:
  特性:
    - 分布式训练支持
    - 自动化监控集成
    - 内存优化方案
  限制:
    - 固定GPU配置
    - 特定CUDA版本

技术支持

  • 配置模板:根目录
  • 构建脚本Dockerfile
  • 监控平台wandb