pytorch里DataParallel 和 DistributedParallel

2021-02-06 18:32:03 阅读：241 来源： 互联网

标签：DistributedParallel -- torch distributed rank DataParallel pytorch num model

http://aiuai.cn/aifarm1340.html

https://yangkky.github.io/2019/07/08/distributed-pytorch-tutorial.html

pytorch里DataParallel 和 DistributedParallel 的使用说明

1 DataParallel模式
以一张卡作为主卡，向其他卡分发数据，汇总loss和梯度的方式来训练，速度有提升
# 参考这个解释： https://blog.csdn.net/weixin_40087578/article/details/87186613
实现方式：
# 数据加载不用改
# 模型部分修改
model=model.cuda()
model=torch.nn.DaraParallel(model)
# 前向和反向也不用改

2 DistributedParallel模式
多张卡独立进程进行加载数据和前方反向传播，分布式传递数据，速度很快，推荐这种
参考这个解释：https://www.cnblogs.com/yh-blog/p/12877922.html
实现方式(只适用于单机多卡)：
# 初始化增加
import torch.distributed as dist
parser = argparse.ArgumentParser()
parser.add_argument('--local_rank', type=int, default=0, help='node rank for distributed parallel')
parser.add_argument('--distributed', type=int, default=0, help='distributed mode')
args = parser.parse_args()
assert torch.distributed.is_nccl_available()
torch.cuda.set_device(args.local_rank)
device_num = torch.cuda.device_count()
distributed_mode = device_num >= 2 and args.distributed
if distributed_mode:
dist.init_process_group('nccl', world_size=device_num, rank=args.local_rank)
rank = dist.get_rank()
num_rep = dist.get_world_size()
print(rank, num_rep)
print('torch distributed work is inited.')
# 数据加载修改，多卡会按照自己的进程id进行分片加载
ds = MyDataset(root, transform)
_sampler = dd.distributed.DistributedSampler(ds,num_replicas=gpu_num)
dl = DataLoader(ds,sampler=_sampler,shuffle=_sampler is None,batch_size=128)

# 模型部分修改
model=model.cuda()
# 注意，BN层一定要转化成SBN，
model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)
model = nn.parallel.DistributedDataParallel(model)
# 使用tensorboard要注意，由于是多个进程一起跑，会出现同时读写writer，会报错，所以只在一个rank上写。其他rank不写日志
if dist.get_rank()==0：
　　写log；保存summary到writer
else：
　　跳过
# 前向和反向也不用改
启动方式：
　　CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nnodes=1 --nproc_per_node=2 --master_port=29501 main.py --distributed=1

标签：DistributedParallel,--,torch,distributed,rank,DataParallel,pytorch,num,model
来源： https://www.cnblogs.com/dxscode/p/13904814.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

pytorch里DataParallel 和 DistributedParallel