ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

删除文章中无意义重复的信息

2021-10-15 13:03:11  阅读:94  来源: 互联网

标签:数字 意义 重复 分词 文章 删除 句子


刚入门python,现在跟着老师做项目,决定在这里进行记录。

目的:删除文章中的垃圾信息。

           1、多个无意义词组重复在一个句子里,删除包含该词组的句子。

            2、多个无意义句子重复,删除句子

             3、无意义数字重复,删除包含该无意义数字的句子        

思路:问题1、多个词组重复,词频肯定是最高的。先计算文章词频,然后将文章分句,然后判断该词是否在该句中出现超过10次,若是,则删除。

           问题2:先找出句子中重复的元素,后使用python自带的函数set(),自动去重。去重后,部分包含该无意义信息的句子仍会存在(即该信息与有意义信息的组合,只要不重复就不会被删除)。可以通过判断该重复元素是否在句子中来删除句子。

            问题3:使用结巴分词将文章进行分词,分词后会将多个重复数字分在一起,例如1111111111,默认为一个数。使用isdigit()来判断分出来的词是否为数字,将这些数字放入列表内,后再在列表中取出各个元素,再进行字符串到列表的变换,此时11111111会变为['1','1','1','1','1''1','1','1'],然后判断列表元素是数字的个数是否大于5,若大于,则删除包含该元素的句子。

代码实现: 

问题 1:

essay = '''

标签:数字,意义,重复,分词,文章,删除,句子
来源: https://blog.csdn.net/weixin_44288520/article/details/120776704

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有