ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python词频统计等

2021-01-27 20:30:26  阅读:184  来源: 互联网

标签:chapter head fdist python len raw 词频 txt 统计


import pandas as pd
raw = pd.read_csv('work/金庸-射雕英雄传txt精校版.txt',names=['txt'],sep="aaa",encoding="GBK")
print(len(raw))
raw

在这里插入图片描述

#章节判断用变量预处理
def m_head(tmpstr):
    return tmpstr[:1]
def m_mid(tmpstr):
    return tmpstr.find("回 ")


raw['head']=raw.txt.apply(m_head)
raw['mid']=raw.txt.apply(m_mid)
raw['len']=raw.txt.apply(len)

raw.head(50)

在这里插入图片描述

#章节判断
chapnum = 0
for i in range(len(raw)):
    if raw['head'][i]=="第" and raw['mid'][i]>0 and raw['len'][i]<30:
        chapnum+=1
    if chapnum>=40 and raw['txt'][i]=="附录一:成吉思汗家族":
        chapnum=0
    raw.loc[i,'chap']=chapnum

# 删除临时变量
del raw['head']
del raw['mid']
del raw['len']
raw.head(50)

在这里插入图片描述

# 提取所需要的章节
raw[raw.chap==1].head()

在这里插入图片描述

%matplotlib inline
raw.txt.agg(len).plot.box()

在这里插入图片描述

rawgrp =raw.groupby('chap')
chapter =rawgrp.agg(sum)  #只有字符串列的情况下,sum函数自动转换为合并字符串
print(chapter)
chapter =chapter[chapter.index !=0]
chapter.txt[1]

在这里插入图片描述

import jieba
word_list=jieba.lcut(chapter.txt[1])
word_list[:10]

在这里插入图片描述

# 使用pandas统计
df =pd.DataFrame(word_list,columns=['word'])
df.head(30)

在这里插入图片描述

result = df.groupby(['word']).size()
print(type(result))
freqlist=result.sort_values(ascending=False)
freqlist[:20]

在这里插入图片描述

fdist=nltk.FreqDist(word_list)
fdist

在这里插入图片描述

#带上某个词,可以看到这个词在整个文章中出现的次数
fdist["颜烈"]

在这里插入图片描述

#列出词频列表
fdist.keys()  

在这里插入图片描述

fdist.tabulate(10)

在这里插入图片描述

fdist.most_common(5)

在这里插入图片描述

标签:chapter,head,fdist,python,len,raw,词频,txt,统计
来源: https://blog.csdn.net/qq_42092076/article/details/113244567

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有