sugar/README.md

105 lines
2.2 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# CPM 模型训练指南
conda在https://lz-1305252147.cos.ap-guangzhou.myqcloud.com/llm_conda.tar.gz
## 快速开始
我们的 CPM 训练框架采用 PyTorch 构建,专为大规模语言模型优化。最新训练产物位于 `model_final` 目录。
## 基础设施要求
🖥️ **计算资源配置**
- 4×NVIDIA A100 (80GB版本)
- 单卡批量大小4
🛠️ **基础软件环境**
- CUDA 12.1
- Python 3.10
- accelerate 框架(预装)
## 部署指南
### 容器化部署
推荐使用官方 Docker 镜像,操作简单快捷:
```bash
# 拉取镜像
docker pull pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
# 容器启动
docker run --gpus all -v /本地目录:/workspace pytorch/pytorch:2.4.0-cuda12.1-cudnn9-devel
```
### 本地环境部署
如果偏好传统方式,可通过 Conda 构建:
```bash
conda create -n cpm python=3.10
conda activate cpm
pip install -r requirements.txt
```
conda env create -f environment.yml
## 实验流程
### 训练前准备
可选配置 wandb 实验追踪:
```bash
wandb login # 登录后可实时监控训练状态
```
### 开始训练
```bash
# 调整训练参数
vim train.sh # 配置预训练模型位置
# 启动训练任务
cd training && bash train.sh
```
### 效果评估
核心指标:
- 验证集损失值需达到 0.52
- 建议保留多个时间点的模型快照
### 模型应用
调用示例:
```bash
python inference.py
```
关键参数配置:
```python
config = {
'model_path': '模型存储位置',
'input_path': '输入文件位置',
'output_path': '输出文件位置'
}
```
## 重要提示
**性能优化建议**
- 保持推荐的 GPU 配置
- 不建议调整默认批次大小
- accelerate 配置需保持默认值
📊 **实验数据记录**
- 在线追踪:访问 wandb 平台
- 本地日志:查看 `training/wandb` 目录
## 使用建议
1. 容器化部署是首选方案
2. 定时保存模型检查点
3. 关注训练过程指标
4. 确保环境一致性
## 资源索引
- 配置模板:根目录
- 容器定制:参考 Dockerfile
- 监控方案:集成 wandb 服务
## 常见问题
若遇到问题,请先检查:
1. 环境依赖是否完整
2. GPU 资源是否充足
3. 配置参数是否正确