如何判断两个Web内容是否相似？

2019-09-02 08:59:06 阅读：194 来源： 互联网

标签：text-mining python machine-learning nlp semantic-analysis

鉴于2个html源代码,我想首先使用类似于this的东西从中提取主要内容.是否有任何other better libraries – 我特意寻找Python / Javascript代码？

一旦我有两个提取的内容,我想要返回0到1之间的分数,表示它们有多相似,例如来自美国有线电视新闻网和英国广播公司的同一主题的新闻文章将具有更高的相似性得分,因为它们与亚马逊网站上同一产品相关的主题或网页相同,而沃尔玛网站也会得到高分.我怎样才能做到这一点？是否有现有的库已经这样做了？我可以使用哪些好的库？基本上我正在寻找automatic summarization,keyword extraction,named-entity recognition和sentiment-analysis的组合.

解决方法:

您的问题中嵌入了许多内容.我将尝试为您提供一个库,否则将建议您可以解决您的任务的算法(您可以谷歌,你将获得许多python实现)

要点1.从html中提取主要内容(http://nltk.googlecode.com/svn/trunk/doc/book/ch03.html)&对于其他NLP相关的东西,你可以查看NLTK.它用Python编写.您还可以查看名为BeautifulSoup的图书馆,它很棒(http://www.crummy.com/software/BeautifulSoup/)

第2点.当你说：

一旦我有两个提取的内容,我想返回0到1之间的分数,表示它们有多相似……

为此,我建议您使用任何无监督学习聚类技术对文档集进行聚类.由于您的问题属于基于距离度量的聚类,因此您应该很容易对类似文档进行聚类,然后根据它们与聚类质心的相似性为它们分配分数.尝试K-Means或自适应共振理论.在后者中,您不需要提前定义簇的数量.或者正如拉斯曼在他的评论中指出的那样,你可以简单地使用TF-IDF(http://www.miislita.com/term-vector/term-vector-3.html)

第3点.当你说：

基本上我正在寻找自动摘要,关键字提取,命名实体识别和情感分析的组合

对于自动摘要,使用非负矩阵分解

对于关键字提取,请使用NLTK

对于命名实体识别,请使用NLTK

对于情感分析,请使用NLTK

标签：text-mining,python,machine-learning,nlp,semantic-analysis
来源： https://codeday.me/bug/20190902/1789871.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

如何判断两个Web内容是否相似？