AllReduce

利用共享内存实现比NCCL更快的集合通信2021-08-09 11:31:06

作者：曹彬 | 旷视 MegEngine 架构师简介从 2080Ti 这一代显卡开始，所有的民用游戏卡都取消了 P2P copy，导致训练速度显著的变慢。针对这种情况下的单机多卡训练，MegEngine 中实现了更快的集合通信算法，对多个不同的网络训练相对于 NCCL 有 3% 到 10% 的加速效果。 MegEngine v1.5 版
[源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer2021-06-28 08:33:00

[源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer 目录[源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer0x00 摘要0x01 背景概念1.1 深度学习框架1.2 Tensorflow Optimizer0x02 总体架构2.1 总体思路3.2 总体调用关系0x04 Tensor
带你认识大模型训练关键算法：分布式训练Allreduce算法2021-06-02 20:04:42

摘要：现在的模型以及其参数愈加复杂，仅仅一两张的卡已经无法满足现如今训练规模的要求，分布式训练应运而生。本文分享自华为云社区《分布式训练Allreduce算法》，原文作者：我抽签必中。现在的模型以及其参数愈加复杂，仅仅一两张的卡已经无法满足现如今训练规模的要求，分布式训练应运而
[转载]腾讯机智团队分享--AllReduce算法的前世今生2020-12-07 19:03:44

腾讯机智团队分享--AllReduce算法的前世今生 - 兰瑞Frank的文章 - 知乎 https://zhuanlan.zhihu.com/p/79030485 算法比较：以下是从中选取的几张示意图：朴素实现：Reduce and Broadcast 利用树形结构缓解parameter server带宽瓶颈：Recursive halving and doubling 利用好空闲带宽：B
做AllReduce时候.会简单的累积,如果有 context.getNumTask()个task在同时进行2020-09-07 04:00:21

先给出一个上文总体流程图： 1.2 回顾霍夫曼树 1.2.1 变量定义现在定义变量如下： n : 一个词的上下文包含的词数，与n-gram中n的含义相同 m : 词向量的长度，通常在10~100 h : 隐藏层的规模，一般在100量级 N ：词典的规模，通常在1W~10W T : 训练文本中单词个数 1.2.2 为何要引入霍夫曼树
分布式深度学习（Spark MLlib，Parameter Server、Ring-allreduce和Tensorflow ）2019-12-24 18:03:52

Spark MLlib Spark分布式计算原理 Spark（分布式的计算平台），分布式：指计算节点之间不共享内存，需要通过网络通信的方式交换数据。Spark最典型的应用方式是建立在大量廉价计算节点（廉价主机、虚拟的docker container）上；但这种方式区别于CPU+GPU的架构和共享内存多处理器的高性能服务器架构

ICode9

利用共享内存实现比NCCL更快的集合通信2021-08-09 11:31:06

[源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer2021-06-28 08:33:00

带你认识大模型训练关键算法：分布式训练Allreduce算法2021-06-02 20:04:42

[转载]腾讯机智团队分享--AllReduce算法的前世今生2020-12-07 19:03:44

做AllReduce时候.会简单的累积,如果有 context.getNumTask()个task在同时进行2020-09-07 04:00:21

分布式深度学习（Spark MLlib，Parameter Server、Ring-allreduce和Tensorflow ）2019-12-24 18:03:52