ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

scrapy框架全站数据爬取

2022-05-24 21:00:18  阅读:148  来源: 互联网

标签:全站 title url li 爬取 item scrapy div


前言

每个网站都有很多页码,将网站中某板块下的全部页码对应的页面数据进行爬取
实现方式有两种:
1、将所有页面的url添加到start_urls列表(不推荐)
2、自行手动进行请求发送(推荐)yield scrapy.Request(url,callback):callback专门用做于数据解析
下面我们介绍第二种方法

数据解析处理

import scrapy
from scrapyPro.items import ScrapyproItem

class SpidernameSpider(scrapy.Spider):
    #爬虫文件名称:爬虫原文件唯一标识
    name = 'first'
    #允许的域名:用来限定start_urls列表中哪些url可以进行请求发送
    # allowed_domains = ['https://www.taiwu.com/ershoufang/']
    #起始的url列表:该列表中存放的url会被scrapy自动进行请求的发送
    start_urls = ['https://www.taiwu.com/ershoufang/']
    #生成一个通用的url模板
    url = 'https://www.taiwu.com/ershoufang/pg%d'
    page_num = 2

    # 用作于数据解析:response参数表示的就是请求成功后对应的响应对象
    def parse(self, response):
        li_list = response.xpath('//div[@class="er-list"]/div')
        for li in li_list:
            # 局部解析
            # extract可以将Selector对象中data参数存储的字符串提取出来
            # title = li.xpath('./div/div[2]/div/a/text()')[0].extract()
            title = li.xpath('./div/div[2]/div/a/text()').extract_first()
            price = li.xpath('./div/div[4]/div[2]/span[2]/text()').extract_first()

            item = ScrapyproItem()
            item['title'] = title
            item['price'] = price

            yield item  # 将item提交给管道

        if self.page_num <= 11:
            new_url = format(self.url % self.page_num)
            self.page_num += 1

            # 手动请求发送:callback回调函数是专门用作于数据解析
            yield scrapy.Request(url=new_url, callback=self.parse)


标签:全站,title,url,li,爬取,item,scrapy,div
来源: https://www.cnblogs.com/simon1993/p/16307148.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有