Update README_DISTRIBUTED.md

This commit is contained in:
p04896573 2024-05-14 17:57:58 +08:00
parent ca4b5a9067
commit f0d3e87e16
1 changed files with 6 additions and 1 deletions

View File

@ -114,6 +114,11 @@ for i in {1..3};do
done
```
## dockers上的多机提交任务
dockers 容器上的多机任务和在主机上是相同的,只需要再其基础上满足两个要求
- 在每个机器上拉取同样的docker和激活同样的训练环境在docker共享的路径、数据、代码都一致
- 在docker启动的时候保障 --network=host和主机共享网络通信只要机器之间能通信在dockers中也可以通信和训练
#### TODOs
1 完善dockers、K8s集群的分布式多机任务训练
1 完善K8s集群的分布式多机任务训练