ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

R语言 迪士尼点评文本挖掘

2019-05-10 18:40:21  阅读:262  来源: 互联网

标签:迪士尼 01 word 点评 library uninstallDict stopwords freq 文本


setwd("D:\\迪士尼点评文本挖掘")

#getwd()可查看目前的工作路径

#加载包()

library(DBI)
#library(RMySQL)
library(rJava)
library(openxlsx)
library(stringr)
library(xlsxjars)
library(reshape)
library(readxl)
library(xlsx)
library(sqldf)
library(wordcloud)
library(Rwordseg) #加载分词包
library(tm)
library(tmcn)
library(jiebaRD)
library(jiebaR) #里面的segmentC用于分词
#library(wordcloud2)

###########################读入表格###############################
comment_01 <- read_excel("点评文本挖掘.xlsx",1) #读入原始文本
comment_01 <- comment_01[,'点评内容'] #仅保留文本字段
stopwords_01 <- read_excel("停用词汇总.xlsx",1) # 读入停用词文本

#str函数,即structure,紧凑的显示对象内部结构,即对象里有什么。作用跟head相似
#str(comment_01)

#添加搜狗词汇词典 查看已安装的词典用 :listDict()。卸载词典:uninstallDict()。
installDict(dictpath = '旅游词汇大全【官方推荐】.scel',dictname = 'Vocabulary_books', dicttype = 'scel') #旅游词汇大全
installDict(dictpath = 'disney.scel',dictname = 'disney', dicttype = 'scel') #迪士尼词汇大全
installDict(dictpath = '自定义词典.txt',dictname = 'dictionary_01') #迪士尼词汇大全
#uninstallDict("disney")
#uninstallDict("Vocabulary_books")
#uninstallDict("dictionary_01")
#加词
#uninstallDict(disney)
listDict()
insertWords(c("排队","不满意","非常满意","很好","不方便","非常好","很棒","驴妈妈","不舒服","不值","七个小矮人","飞越地平线","创极速光轮","米奇大街","奇想花园","梦幻世界","探险岛","宝藏湾","明日世界","巴斯光年星际营救","喷气背包飞行器","太空幸会史迪奇","星球大战远征基地","皮克斯玩具总动员","快速通道","加勒比海盗","灯光秀","飞跃地平线"))

#去掉字母和数字
comment_02 <- gsub('[0-9a-zA-Z]','',comment_01)

#分词
segword <- unlist(lapply(X=comment_02,FUN=segmentCN))
#创建停止词
#head(stopwords_01) #查看数据
#class(stopwords_01) #查看变量类型,可知是属于数据框类型

#segword[1:10]

#需要将数据框格式的数据转化为向量格式
stopwords_01<- as.matrix(stopwords_01[,1])
stopwords_01<- as.vector(stopwords_01[,1])

#自定义删除停止词的函数

removeStopWords <- function(x,stopwords) {

temp <- character(0)

index <- 1

xLen <- length(x)

while (index <= xLen) {

if (length(stopwords[stopwords==x[index]]) <1)

temp<- c(temp,x[index])

index <- index +1

}

temp

}

 

#删词


segword3 <-lapply(segword,removeStopWords,stopwords_01)


#绘制文字图
word_freq <- createWordFreq(unlist(segword3)) #createWordFreq函数来自于tmcn包

opar <-par(no.readonly = TRUE)
par(bg = 'black')
#绘制出现频率最高的前100个词
wordcloud(words=word_freq$word,freq=word_freq$freq,max.words=100,random.color=TRUE,colors=rainbow(n=7))

par(opar)

##############################数据输出##############################
result_filename<-paste(Sys.Date(),'数据',".xlsx",sep="")
write.xlsx(word_freq,result_filename,sheetName='明细')

标签:迪士尼,01,word,点评,library,uninstallDict,stopwords,freq,文本
来源: https://www.cnblogs.com/daisy-ma/p/10846086.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有