标签:tokens 归并 提取 词形 python 3.6 词干 自然语言 nltk
微信公众号:数据运营人
本系列为博主的读书学习笔记,如需转载请注明出处。
第三章 加工原料文本
3.6 规范化文本
词干提取器
所谓的词干提取器就是去除词缀得到词根的过程——得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能导到满意的结果,即使该词干不是词的有效根。例如 “stemmer”、“stemming”和“stemmed”是基于词根“stem”。
import nltk
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
... is no basis for a system of government. Supreme executive power derives from
... a mandate from the masses, not from some farcical aquatic ceremony."""
tokens = nltk.word_tokenize(raw)
# porter和Lancaster词干提取器按照它们自己的规则剥离词缀
porter = nltk.PorterStemmer()
lancaster = nltk.LancasterStemmer()
print([porter.stem(t) for t in tokens])
print([lancaster.stem(t) for t in tokens])
词形归并
WordNet词形归并器删除词缀产生的词都是在它的字典中的词。这个额外的检查过程使词形归并器比刚才提到的词干提取器要慢。 请注意, 它并没有处理“ lying”, 但它将“ women” 转换为“ woman”。
```python
wnl = nltk.WordNetLemmatizer()
print([wnl.lemmatize(t) for t in tokens])
标签:tokens,归并,提取,词形,python,3.6,词干,自然语言,nltk 来源: https://www.cnblogs.com/ly803744/p/10426396.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。