QSGD: Communication-Efﬁcient SGD via Gradient Quantization and Encoding

2021-12-10 19:34:41 阅读：305 来源： 互联网

标签：via Encoding Gradient 梯度权衡 QSGD 量化收敛 SGD

随机梯度下降（SGD）的并行实现由于其出色的可扩展性而受到了极大的研究关注。并行SGD时的一个基本障碍是节点之间通信梯度更新的高带宽成本；因此，提出了几种有损压缩启发式算法，其中节点只传递量化梯度。虽然在实践中有效，但这些启发式方法并不总是收敛。
在本文中，我们提出了量化SGD（QSGD），这是一系列具有收敛保证和良好实用性能的压缩方案。QSGD允许用户平滑地权衡通信带宽和收敛时间：节点可以调整每次迭代发送的比特数，但代价可能更高。我们证明了这种权衡是内在的，因为如果将其提高到某个阈值以上，就会违反信息论的下限。QSGD保证了凸目标和非凸目标在异步条件下的收敛性，并且可以推广到随机方差缩减技术。
当应用于图像分类和自动语音识别的深层神经网络训练时，QSGD可显著缩短端到端训练时间。例如，在16GPU上，我们可以在ImageNet上对ResNet-152网络进行全精度训练，速度比全精度变体快1.8倍。

1 Introduction

降低成本的一种流行方法是对梯度进行有损压缩。一个简单的实现是简单地降低表示的精度，这已被证明在凸性和稀疏性假设下收敛[10]。一种更激进的量化技术是1BITSGD[35,37]，它将梯度的每个分量减少到其符号（一位），通过坐标上的平均值进行缩放，从而局部累积误差。1在一定条件下，通过实验观察到BITSGD保持收敛性[35]；由于通信量的减少，它使声学建模的深层神经网络（DNN）具有了最先进的可伸缩性[37]。然而，目前尚不清楚1BITGD是否提供了任何保证，即使是在强有力的假设下，也不清楚是否可以实现更高的压缩。
贡献。我们的重点是理解dataparallel SGD的通信成本与其收敛保证之间的权衡。我们提出了一系列允许对梯度进行有损压缩的算法，称为量化SGD（QSGD），通过该算法，处理器可以权衡每次迭代传输的比特数与过程中增加的方差。
QSGD基于两种算法思想。第一种是直观的随机量化方案：给定处理器上的梯度向量，我们通过随机舍入将每个分量量化为一组离散值，原则上保留原始分量的统计特性。第二步是量化梯度的高效无损编码，利用其统计特性生成高效编码。我们的分析给出了QSGD引起的精度-方差权衡的严格界限。

标签：via,Encoding,Gradient,梯度,权衡,QSGD,量化,收敛,SGD
来源： https://www.cnblogs.com/p2win/p/15673531.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

QSGD: Communication-Efﬁcient SGD via Gradient Quantization and Encoding

1 Introduction