ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

PyTorch入门学习笔记

2021-07-08 14:01:32  阅读:159  来源: 互联网

标签:入门 特征 分类 笔记 搜索引擎 分类器 PyTorch 文本 向量


第三节 文本分类

1.文本分类

语言模型在上节课中我们已经了解过了,这节课我们开始接触文本分类

文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本也有自己的特点,根据文本的特点,文本分类的流程为:1.预处理;2.文本表示及特征选择;3.构造分类器;4.分类。

大家知道,中文书写时,不像英文,中间用空格隔开,而是字和字连着的,这样的话,第一步就要进行分词,把文本分成词(或字),而且分词的好坏对后续操作影响较大(分词方法有词典法,统计方法等,见我的概率统计模型在搜索引擎中的应用)。紧接着第二步就是要去掉常用且意义不大的词(称之为去停用词),比如:的、是、了等等。这样,我们的预处理阶段就完成了。

目前常用的文本表示是向量空间模型,即把文本分词后的每个词看成一个向量中的一个元素。但是,用什么表示这个元素呢?最先想到的就是词出现的频率,比如:“走进/搜索引擎,学习/搜索引擎”,我们就可以表示成(0,…,2,…,0,1,…,0,1,0…)。为什么向量里面那么多…呢,那是因为我们必须把所有的向量都要统一起来,意思就是说,哪个词在向量的哪个位置上,都必须是确定的。要想确定,那就必须把所有的汉字都按字典序排出来,然后各个词对号入座。假设汉字有10000个,那么我要分类“走进搜索引擎,学习搜索引擎”这个短文本,我至少要给它生成一个10000维的向量,而且这10000维的向量只用到3个位置。但是用频率会出现不公平的现象,比如,“我们”这个词,它出现的频率就比较高,那它的向量就比较大,所以,词频几乎不用做特征,常用的特征有TF/IDF,互信息量,信息增益,χ2统计量等方法。刚才提到我们的向量维数很大,就算去掉停用词也是很大的,既然,维数太大,我们的处理方法一般有两种:特征选择和特征提取,特征选择就是选择一部分具有代表性的特征来表示文本,比如,用TF/IDF时,去掉很大的和一些很小的值,剩下的作为特征。特征提取是从现在的特征重构出来一个新的特征,当然,这个新的特征维数要小于原特征维数,就是降维,最常用的方法就是潜在语义分析,用的是奇异值分解(SVD),我们知道在信号处理中一种常用的处理方法,就是把空间域的信号映射到频率域(比如FFT,wavelet),到了频率域,信号能量更集中,便于处理。它的思想和信号处理其实一样。

接下来的工作就是要构造分类规则,也就是分类器,主要就是对许多数据进行训练,产生一套模型。常用的方法有kNN,朴素贝叶斯,支持向量机,神经网络,决策树,Rocchio,线性最小平方拟合等等。

分类器模型产生后,我们只要来一个文本,往分类器一仍,它就会产生该文本的类别。

分类网络的结构有如下几种:

双向RNN

堆叠循环神经网络

CNN用作文本分类的一具体例子

首先把每个单词都embed成一个向量,一句话中的n个词向量会被结合到一起,卷积层的filter会被用作转化h个单词,每一个h单词的窗口都会被这个filter转化。

每一个Convolutional filter转化过的向量都会被这个max over time pooling做一次汇总,如果有m个filter, 我们会得到

原来的线性层是:

加上Dropout r 之后

是一个随机变量,有p的概率是1,1-p的概率是0。在使用模型做预测的时候,所有的权重都会被乘以p。

标签:入门,特征,分类,笔记,搜索引擎,分类器,PyTorch,文本,向量
来源: https://blog.csdn.net/weixin_51709633/article/details/118571916

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有