项目实训报告-11 （附加）爬取世界日报网设计

2021-07-25 15:58:39 阅读：145 来源： 互联网

标签：11 __ 爬取 item scrapy tag 实训 div class

基本文件设计

（即除了spider.py以外的文件设计）

除了item.py以外其他的并没有太大改动

item.py的设计如下：

class WorldjournalspiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    n_url = scrapy.Field()
    n_title = scrapy.Field()
    n_scrip = scrapy.Field()
    n_time = scrapy.Field()
    n_tag = scrapy.Field()

Spider.py设计

1.爬取信息的初始化

    name = 'worldjournal'
    allowed_domains = ['www.worldjournal.com']
    keyword = "关键词"
    search =  "https://www.worldjournal.com/search/word/8877/"+ keyword + "?zh-cn"
    start_urls = [search]

最终的爬取url由搜索url加上关键词再加上简体字版后缀组成

2.爬取的信息的路径寻找

        item = WorldjournalspiderItem()
        url = response.xpath('//div[@class="subcate-list__link tag-page"]/a/@href').extract()
        title = response.xpath('//div[@class="subcate-list__link tag-page"]/div/a/h2/text()').extract()
        scription = response.xpath('//div[@class="subcate-list__link tag-page"]/div/a/p/text()').extract()
        time = response.xpath(
            '//div[@class="subcate-list__link tag-page"]/div/div/span[@class="subcate-list__time"]/text()').extract()
        tag = response.xpath('//div[@class="subcate-list__link tag-page"]/div/div/a/text()').extract()

经过网页源代码分析后通过Xpath的寻找可获取各个对应信息

3.信息提交

        for i in range(len(title)):
            item['n_title'] = title[i]
            item['n_url'] = url[i]
            item['n_scrip'] = scription[i]
            item['n_time'] = time[i]
            item['n_tag'] = tag[i]
            yield item

标签：11,__,爬取,item,scrapy,tag,实训,div,class
来源： https://blog.csdn.net/qq_44740561/article/details/119082926

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

项目实训报告-11 （附加）爬取世界日报网设计

基本文件设计

Spider.py设计