标签:中文 word text jieba token 词云 result 词频 dict
作业来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822
作业要求:
1. 下载一长篇中文小说。
下载了《粤港澳大湾区发展纲要》
2. 从文件读取待分析文本。
text
=
open
(
'artical.txt'
,encoding
=
'utf-8'
).read();
e
=
''',,.。??!!-::《》< >"“”、\n \r \u3000 \ufeff'''
for
i
in
e:
text
=
text.replace(i,"")
3. 安装并使用jieba进行中文分词。
pip install jieba
import jieba
jieba.lcut(text)
4. 更新词库,加入所分析对象的专业词汇。
jieba.add_word('天罡北斗阵') #逐个添加
jieba.load_userdict(word_dict) #词库文本文件
jieba.add_word('大湾')
参考词库下载地址:https://pinyin.sogou.com/dict/
转换代码:scel_to_text
5. 生成词频统计
dict
=
{}
for
i
in
tokens:
if
i
not
in
dict
:
dict
[i]
=
tokens.count(i)
print
(
dict
)
6. 排序
word
=
list
(
dict
.items())
word.sort(key
=
lambda
x: x[
1
], reverse
=
True
)
7. 排除语法型词汇,代词、冠词、连词等停用词。
stops
=
[
'也'
,
'等'
,
'的'
,
'谁'
,
'又'
,
'是'
,
'新'
,
'了'
,
'只'
,
'一'
,
'和'
,
'或'
,
'区'
,
'市'
,
'为'
,
'在'
,
'与'
]
tokens
=
[token
for
token
in
text
if
token
not
in
stops]
stops
tokens=[token for token in wordsls if token not in stops]
8. 输出词频最大TOP20,把结果存放到文件里
result
=
[]
for
i
in
range
(
20
):
result.append(word[i])
pd.DataFrame(data
=
result).to_csv(
'f.csv'
,encoding
=
'utf-8'
)
print
(result)
9. 生成词云。
标签:中文,word,text,jieba,token,词云,result,词频,dict 来源: https://www.cnblogs.com/GMUK/p/10595885.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。