pytorch动手深度学习的笔记[三]

2020-02-26 15:41:42 阅读：266 来源： 互联网

批量归一化（BatchNormalization）
对输入的标准化（浅层模型）：处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近
批量归一化（深度模型）：利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。
1.对全连接层做批量归一化
位置：全连接层中的仿射变换和激活函数之间。
2.对卷积层做批量归⼀化
位置：卷积计算之后、应⽤激活函数之前。如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数。计算：对单通道，batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。
3.预测时的批量归⼀化
训练：以batch为单位,对每个batch计算均值和方差。预测：用移动平均估算整个训练数据集的样本均值和方差。

残差网络（ResNet）
深度学习的问题：深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高，反而会招致网络收敛变得更慢，准确率也变得更差。
残差块（Residual Block）恒等映射：左边：f(x)=x右边：f(x)-x=0 （易于捕捉恒等映射的细微波动）在残差块中，输⼊可通过跨层的数据线路更快地向前传播。

优化与深度学习
尽管优化方法可以最小化深度学习中的损失函数值，但本质上优化方法达到的目标与深度学习的目标并不相同。优化方法目标：训练集损失函数值，深度学习目标：测试集损失函数值（泛化性）
优化在深度学习中的挑战：1.局部最小值，2.鞍点，3.梯度消失

词嵌入基础
使用 one-hot 向量表示单词，虽然它们构造起来很容易，但通常并不是一个好选择。一个主要的原因是，one-hot 词向量无法准确表达不同词之间的相似度，如常常被使用的余弦相似度。
Word2Vec 词嵌入工具的提出正是为了解决上面这个问题，它将每个词表示成一个定长的向量，并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系，以引入一定的语义信息。基于两种概率模型的假设，可以定义两种 Word2Vec 模型：
1.Skip-Gram 跳字模型：假设背景词由中心词生成，即建模 P(wo∣wc)，其中 wc 为中心词，wo为任一背景词；
2.CBOW (continuous bag-of-words) 连续词袋模型：假设中心词由背景词生成

词嵌入进阶
Word2Vec 词嵌虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量，并能一定程度上地保存词与词之间的近似关系，但 Word2Vec 模型仍不是完美的，它还可以被进一步地改进：
1.子词嵌入（subword embedding）：FastText 以固定大小的 n-gram 形式将单词更细致地表示为了子词的集合，而 BPE (byte pair encoding) 算法则能根据语料库的统计信息，自动且动态地生成高频子词的集合；
2.GloVe 全局向量的词嵌入: 通过等价转换 Word2Vec 模型的条件概率公式，我们可以得到一个全局的损失函数表达，并在此基础上进一步优化模型。
实际中，我们常常在大规模的语料上训练这些词嵌入模型，并将预训练得到的词向量应用到下游的自然语言处理任务中。

文本情感分类
文本分类是自然语言处理的一个常见任务，它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题：使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析，并有着广泛的应用。
同搜索近义词和类比词一样，文本分类也属于词嵌入的下游应用。可将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络(textcnn)，来判断一段不定长的文本序列中包含的是正面还是负面的情绪。

TextCNN 模型
TextCNN 模型主要使用了一维卷积层和时序最大池化层。假设输入的文本序列由 n 个词组成，每个词用 d 维的词向量表示。那么输入样本的宽为 n，输入通道数为 d。TextCNN 的计算主要分为以下几步。
1.定义多个一维卷积核，并使用这些卷积核对输入分别做卷积计算。宽度不同的卷积核可能会捕捉到不同个数的相邻词的相关性。
2.对输出的所有通道分别做时序最大池化，再将这些通道的池化输出值连结为向量。
3.通过全连接层将连结后的向量变换为有关各类别的输出，这一步可以使用丢弃层应对过拟合。

参考: https://www.boyuai.com/elites/course/cZu18YmweLv10OeV

无昵称就是我发布了3 篇原创文章 · 获赞 0 · 访问量 53 私信关注

标签：Word2Vec,卷积,模型,笔记,动手,pytorch,深度,文本,向量
来源： https://blog.csdn.net/qq_28757173/article/details/104517649

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

pytorch动手深度学习的笔记[三]