2.8 KiB
2.8 KiB
CPM 模型训练实操指南
conda在:https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/code/llm_conda.tar.gz
快速问答
Q1: 如何快速开始?
本框架基于 PyTorch 开发,训练结果将保存在 model_final
目录。开始前请确保满足以下要求:
基础环境要求
[硬件配置]
显卡 = A100_80GB × 4
批次 = 4/卡
[软件配置]
CUDA = 12.1
Python = 3.10
框架 = PyTorch + accelerate
Q2: 如何搭建环境?
conda env create -f environment.yml 提供两种方案,选择其一即可:
方案1:Docker方式
# 第一步:拉取镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
# 第二步:运行环境
docker run --gpus all \
-v ${PWD}:/workspace \
pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
方案2:本地方式
# 第一步:创建环境
conda create -n cpm python=3.10
# 第二步:激活环境
conda activate cpm
# 第三步:安装依赖
pip install -r requirements.txt
Q3: 如何开始训练?
步骤1:准备阶段
# 配置实验监控(建议配置)
wandb login
步骤2:开始训练
# 修改训练配置
vim train.sh
# 启动训练
cd training
bash train.sh
Q4: 如何评估模型?
关注以下指标:
- ✅ 验证集损失需低于1.48
- ✅ 建议保存多个时期的模型
Q5: 如何使用模型?
# 配置示例
inference_settings = {
'model_path': '模型路径',
'input_path': '输入路径',
'output_path': '输出路径'
}
# 执行推理
python inference.py
Q6: 有哪些注意事项?
性能相关
禁止事项:
- 修改GPU数量
- 调整batch size
- 更改accelerate配置
监控相关
数据查看:
在线: wandb平台
离线: training/wandb目录
Q7: 推荐的使用方式?
最佳实践清单
- 使用容器部署
- 定期备份模型
- 持续监控指标
- 保持环境统一
Q8: 遇到问题怎么办?
常见问题处理
现象 | 可能原因 | 解决方案 |
---|---|---|
内存不足 | 批次过大 | 检查内存配置 |
性能低下 | 资源竞争 | 确认GPU独占 |
训练中断 | 环境问题 | 更新系统依赖 |
Q9: 相关资源在哪里?
资源索引
配置文件:
位置: 项目根目录
用途: 系统配置
Docker文件:
位置: ./Dockerfile
用途: 自定义镜像
监控工具:
类型: wandb
状态: 已集成
Q10: 系统限制有哪些?
使用限制
硬件限制:
- 仅支持A100显卡
- 需要4卡配置
软件限制:
- 特定CUDA版本
- Python版本固定
补充说明
版本特性
- 支持分布式训练
- 内置监控功能
- 优化内存使用
更新日志
- 优化训练流程
- 增强稳定性
- 提升性能表现