标签:mysql database html-parsing
我需要解析this网站的内容并将其存储在MySQL数据库中.我正在创建一个竞争者网站,因为创建者从未完全完成他的,但他有比我更新的游戏数据而且不会发布它,所以我需要手动收集它. Here是我需要解析的特定类型页面的示例.
我之前使用PHP和正则表达式进行了HTML解析,但这很麻烦,我宁愿不再麻烦.由于这个问题,我几个月来一直拖延完成我的数据库.是否有更快和/或更简单的方法来解决这个问题?大多数C风格的语言对我来说都很好(C,C,Perl,PHP,Python等,都很好,但不是C#,Java或Objective-C).
P.S.:我不关心脚本/程序有多脏,或者类似的东西,只要它完成工作.
解决方法:
您提到的任何语言都可以这样做,只要您使用正确的第三方库来帮助您.
您需要抓取网站的内容.实际上,这可能是一个完全不同的程序,只需将.html文件下载到您的计算机上,然后您就可以让解析器运行了.这样的机器人存在,考虑wget或curl – 它们都有蜘蛛选项.
你需要一个网站解析器.不要使用regexp来解析HTML,使用HTML或XML解析器(如Perl的HTML::Parser).然后,您必须将生成的数据结构转换为可用数据(例如,第一个表> tr> td是怪物名称,第二个td是竞赛等.
最后,您需要将这些内容存储到您的数据库中,以便以后可以为您的网站提供服务.
实际上,编写代码并不是最困难的事情,但是“页面上的哪个项目意味着什么,应该存储在哪里以及如何”的映射将是.
标签:mysql,database,html-parsing 来源: https://codeday.me/bug/20190630/1337338.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。