ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

英文文本分词之工具NLTK

2021-06-09 23:29:54  阅读:217  来源: 互联网

标签:word words punkt NLTK stopwords 分词 文本 data nltk


英文文本分词之工具NLTK

安装NLTK

pip install nltk

分词需要用到两个包:stopwordspunkt,需要下载:

import nltk

nltk.download('stopwords')
nltk.download('punkt')

如果你能运行成功,那么恭喜,但多半要和我一样,被墙,然后下载失败。于是乎,需要手动下载,这里我已经打包好了,百度提取即可。

链接:https://pan.baidu.com/s/1ddVRG86W-dyk2O6TsIMXAw 
提取码:nltk 

此处也是要感激广大网友的无私分享和帮助!!!

停用词和标点符号包放置

言归正传,下载解压后要注意,stopwords里面还有个stopwords文件,punkt文件里面还有个punkt文件,我们需要的是里面的这两个文件,而不是最外围的同名文件,虽然包含的内容一样,但是python读取的时候路径会出错。将里面stopwordspunkt文件夹分别移动到python安装目录下的两个子路径中,比如我的路径是F:\python38\Lib\nltk_data\corporaF:\python38\Lib\nltk_data\tokenizers。需要说明的是,我的F:\python38\Lib路径下并没有nltk_data这个文件,没有?没有就让他有!新建文件夹,重命名即可。
然后在nltk_data中再新建两个文件夹:corporatokenizers。然后把停用词和标点分别移动到这两个文件里即可,亦即:corpora\stopwordstokenizers\punkt

验证

此处提供一段验证代码,明日开始nltk分词之旅!

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
words = word_tokenize(data)
words = [word for word in words if word not in punctuations]   # 去除标点符号
stopWords = set(stopwords.words('english'))
wordsFiltered = []

for w in words:
    if w not in stopWords:
        wordsFiltered.append(w)

print(wordsFiltered)

完结,可以愉快地听歌了。

标签:word,words,punkt,NLTK,stopwords,分词,文本,data,nltk
来源: https://blog.csdn.net/weixin_43543177/article/details/117756242

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有