Pytorch学习3--文本分类

2021-07-07 10:02:46 阅读：191 来源： 互联网

文本分类能做什么？
识别垃圾邮件、情感分析、主题分类等

文本分类在文本处理中是很重要的一个模块，它的应用也非常广泛，比如：垃圾过滤，新闻分类，词性标注等等。它和其他的分类没有本质的区别，核心方法为首先提取分类数据的特征，然后选择最优的匹配，从而分类。但是文本也有自己的特点，根据文本的特点，文本分类的一般流程为：预处理；文本表示及特征选择；构造分类器；分类。

分类问题模型： 分类器
分类器是一个函数f，这个函数拿到输入x然后输出类别y。

情感分析

通常来讲，文本分类任务是指在给定的分类体系中，将文本指定分到某个或某几个类别中。被分类的对象有短文本，例如句子、标题、商品评论等等，长文本，如文章等。分类体系一般人工划分，例如：1）政治、体育、军事 2）正能量、负能量 3）好评、中性、差评。因此，对应的分类模式可以分为：二分类与多分类问题。

双向RNN
该结构的目的是输入一个序列，得到其在每个时刻的特征表示，即输出的每个时刻都用定长向量表示到该时刻的上下文语义信息。图中由下至上分别为输入层、前向隐层、后向隐层、输出层

具体来说，该双向循环神经网络分别在时间维以顺序和逆序——即前向（forward）和后向（backward）——依次处理输入序列，并将每个时间步RNN的输出拼接成为最终的输出层。这样每个时间步的输出节点，都包含了输入序列中当前时刻完整的过去和未来的上下文信息。注意，该网络的前向隐层和后向隐层之间没有连接。

在这里插入图片描述

循环神经网络
有时候当信息量太大时，简单RNN隐藏层是不能保证一次性记忆所有信息的，那么为了增加模型的表达能力，在有些循环神经网络隐藏层中会堆叠多个隐藏层，这样的神经网络我们成为深层循环神经网络。
在这里插入图片描述
CNN
能够将局域特征提取出来，是一个很好的特征提取方法。

卷积神经网络是一种多层的监督学习神经网络，隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节，通过频繁的迭代训练提高网络的精度。卷积神经网络的低隐层是由卷积层和最大池采样层交替组成，高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器，可以采用逻辑回归，Softmax回归甚至是支持向量机对输入图像进行分类。
Embedding层：

首先把每个单词都embed成一个向量
一句话中的n个词向量会被结合到一起
卷积层：
卷积层filter会被用作转化h个单词
每一个单词的窗口都会被这个filter转化
Pooling层：
每一个滤波器转化过的向量都会被这个max over time pooling做一次汇总

标签：隐层,--,分类,神经网络,分类器,卷积,Pytorch,文本
来源： https://blog.csdn.net/s11235218/article/details/118539656

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Pytorch学习3--文本分类

情感分析