InfiniTensor/examples/distributed
Bolun Zhang fac28c25f6
添加 MLU 平台分布式验收脚本 (#223)
* 添加 MLU 平台分布式验收脚本

* add fp16 test, fix cast

* fix

* add onnxsim for llama

* add matmul tf32 for mlu

* add submodule: onnxsim_large_model

* fix

* modified bang_launch.py, start_single

* add test for albert/opt

* change file path

---------

Co-authored-by: xgqdut2016 <kenan_gewei@163.com>
2024-04-28 11:24:09 +08:00
..
bang 添加 MLU 平台分布式验收脚本 (#223) 2024-04-28 11:24:09 +08:00
cuda Kunlun dist op (#225) 2024-04-23 15:46:25 +08:00
kunlun Kunlun dist op (#225) 2024-04-23 15:46:25 +08:00
onnxsim_large_model@cbcf3fbf98 添加 MLU 平台分布式验收脚本 (#223) 2024-04-28 11:24:09 +08:00
README.md 添加 MLU 平台分布式验收脚本 (#223) 2024-04-28 11:24:09 +08:00
__init__.py Kunlun dist op (#225) 2024-04-23 15:46:25 +08:00
parallel.py impl distributed launch with NCCL (#106) 2023-09-05 09:47:35 +08:00
parallel_opt.py Kunlun dist op (#225) 2024-04-23 15:46:25 +08:00
placement.py tensor parallel for transformer (#125) 2023-09-14 14:19:45 +08:00

README.md

分布式脚本

英伟达平台运行方式

1. 运行pytorch模型并生成输入和标准输出可选择导出onnx

使用 --export_onnx 设置导出onnx的目录默认为当前路径 ./不使用这个flag则只进行计算和生成输入输出。

python run_pytorch.py --model gpt2  --batch_size 1  --length 1 --export_onnx ./

会在当前目录下生成输入输出文件test_inputs.npytest_results.npy,目前只支持单一输入输出。

2. 运行InfiniTensor分布式脚本

python cuda_launch.py --model "/XXX/XXX.onnx" --nproc_per_node 4 

寒武纪平台运行方式

将上述运行脚本 run_pytorch.py 以及 cuda_launch.py 针对寒武纪平台做了相应的适配,具体见 run_pytorch_mlu.py 以及 bang_launch.py

1. 运行pytorch模型并生成输入和标准输出可选择导出onnx

使用 --export_onnx 设置导出onnx的目录默认为当前路径 ./不使用这个flag则只进行计算和生成输入输出。

python run_pytorch_mlu.py --model gpt2  --batch_size 1  --length 1 --export_onnx ./

会在当前目录下生成输入输出文件test_inputs.npytest_results.npy,目前只支持单一输入输出。

2. 运行InfiniTensor分布式脚本

python bang_launch.py --model "/XXX/XXX.onnx" --nproc_per_node 4