forked from jiuyuan/InfiniTensor
7f6aec6c17
* fix(dist): 改善分布式脚本,只打印绝对误差 * feat(dist): 增加可导出onnx的pytorch运行脚本 * feat(front): 增加对Y值为-inf的where算子的图优化 * feat(kernel): 对b为常数的pow和div算子进行特判优化 * fix(front): 消除前端对global output形状信息的依赖,分布式脚本删除不必要的shape infer * feat(kernel): 针对matmul中bias为行向量时的expand操作的特化优化 * fix(kernel): 删除div pow const中不必要的同步 * Update expand.cu * fix: fix comments --------- Co-authored-by: Haojie Wang <haojie0429@gmail.com> Co-authored-by: Derui Yang <ydrml@hotmail.com> |
||
---|---|---|
.. | ||
README.md | ||
bang_launch.py | ||
cuda_launch.py | ||
launch_kunlun.py | ||
launch_kvcache.py | ||
parallel.py | ||
parallel_opt.py | ||
placement.py | ||
run_pytorch.py |
README.md
分布式脚本
1. 运行pytorch模型并生成输入和标准输出,可选择导出onnx
使用 --export_onnx
设置导出onnx的目录,默认为当前路径 ./
,不使用这个flag则只进行计算和生成输入输出。
python run_pytorch.py --model gpt2 --batch_size 1 --length 1 --export_onnx ./
会在当前目录下生成输入输出文件test_inputs.npy
和 test_results.npy
,目前只支持单一输入输出。
2. 运行InfiniTensor分布式脚本
python cuda_launch.py --model "/XXX/XXX.onnx" --nproc_per_node 4