标签:总结 爬取 网页 第一周 学习 文本文件 pdfminer pdf 研一
在本周主要进行两件事情。一是基于pdf文档解析的金融数据采集系统项目,二是自主学习机器学习相关知识。
该项目的技术路线是爬取深圳、上海两个交易所的年度和半年度报告的pdf,然后转为文本文件,关注管理层的讨论与分析章节,发现关注点。我通过查阅相关知识,对爬虫进行初步的了解,然后开始对深交所进行爬取。首先是对网页进行分析,获取下载地址;在这个步骤中,发现和我学习的简单的网页的爬取不一样,通过深交所给出的链接爬取不到网页信息,对这个问题我查阅了一些博客,选取的一种解决办法是通过filter进行抓包,获取到实际链接以及请求头和请求参数。接下来就是将pdf转成文本文件,最开始选取的是pdfminer库,发现效果并不好,转而使用pdfplumber库,但是一直出现调用pdfminer的情况,删除pdfminer后也未能解决。
这周通过课程学习了机器学习的基础知识。现将笔记贴在下面:
标签:总结,爬取,网页,第一周,学习,文本文件,pdfminer,pdf,研一 来源: https://www.cnblogs.com/jilinxiaoqu/p/15368117.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。