既然选择的是不重复的元素,那么试图在[1,100]这样的区间里选择500个元素,当然是不可能的,但是机器不知道这事,就一直尝试,没有精力做别的事了。
今天的话题是分词:Python扩展库jieba和snownlp很好地支持了中文分词,可以使用pip命令进行安装。在自然语言处理领域经常需要对文字进行分词,分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。
>>> import jieba #导入jieba模块
>>> x = 分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。
>>> jieba.cut(x) #使用默认词库进行分词
>>> list(_)
[分词, 的, 准确度, 直接, 影响, 了, 后续, 文本处理, 和, 挖掘, 算法, 的, 最终, 效果, 。]
>>> list(jieba.cut(纸杯))
[纸杯]
>>> list(jieba.cut(花纸杯))
[花, 纸杯]
>>> jieba.add_word(花纸杯) #增加新词条
>>> list(jieba.cut(花纸杯)) #使用新题库进行分词
[花纸杯]
>>> import snownlp 导入snownlp模块
>>> snownlp.SnowNLP(学而时习之,不亦说乎).words
[学而, 时习, 之, ,, 不亦, 说乎]
>>> snownlp.SnowNLP(x).words
[分词, 的, 准确度, 直接, 影响, 了, 后续, 文本, 处理, 和, 挖掘, 算法, 的, 最终, 效果, 。]
如果有一本Python书,像下面图中所展示的写作风格,大家会不会很喜欢呢,至少我是会的。
标签:python,数据,编程,编程语言,NumPy,安装 来源:
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。