ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

毕设之路

2022-03-05 20:33:56  阅读:185  来源: 互联网

标签:NLP 毕设 表达 xxx 之路 java 文本 天安门


毕设

选题:

基于大数据的新闻追溯与整合网站:
——先用java做一个新闻网站,除了实现正常的crud之外,还要通过使用爬虫,文本挖掘,自然语言处理等技术对所搜集到的数据进行处理,将一个新闻事件的全貌从头到尾展示出来。

入门nlp:

——说回NLP,早期的时候发展的其实并不好.最早的时候分为两个派别,一派是语法语义分析派,一派是统计学派.
——举个简单的例子,以分析"我爱北京天安门"为例
——前者的思路是分析出"这是一个主谓宾结构,主语是‘我’,谓语是‘爱’,宾语是‘北京天安门’",我知道‘爱’是什么意思,知道‘北京天安门’是个地名.那么这句表达的意思也就知道了.
——后者的思路是从大量的文本中找出相似的句子,比如我事先人工搜集了1000个文本,我们人工分析出“我爱xxx,我喜欢xxx,去北京天安门”等等类似的文本,人工标注这些文本,知道这种句子表达的是一种正面的情绪,表达喜欢某个人/地点/事物等. 那么我通过比较,就知道了“我爱北京天安门”表达的意思大概率也是我喜欢某个地方,这个地方叫天安门.
——随着计算机的发展,数据量的增长,统计学派越来越体现出其优势,这就是我们今天的NLP处理的思路:根据大量的已有的文本(语料库),基于统计学,基于概率,去推测待预测文本的最大可能的含义.
——(截自https://www.cnblogs.com/sdu20112013/p/10162500.html)

第一步:文本获取

怎么拿到一个文本?

Python或java爬虫新闻网站

标签:NLP,毕设,表达,xxx,之路,java,文本,天安门
来源: https://www.cnblogs.com/Sirius1Z/p/15969221.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有