分布式TF

TF的分布式

分布式策略

  • 同步
    • 每个worker处理一部分数据,每一步聚集各个梯度
    • 通常通过 all-reduce
  • 异步
    • 每个worker处理所有数据,各自更新梯度和权重
    • 通常通过 parameter server
  • 单机多GPU
  • 多机

多种策略

  • MirroredStrategy
    • 单机多个GPU,同步训练(all-reduce, 默认是NCCL实现)
    • 每个显卡都mirror一份权值
  • CentralStorageStrategy
    • 其中一个GPU当做存储,放权值
  • MultiWorkerMirroredStrategy
  • TPUStrategy
  • ParameterServerStrategy
  • OneDeviceStrategy
    • 单机单卡
    • 适合开发调试

Contents