ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

scrapy爬虫笔记

2022-03-29 19:31:33  阅读:162  来源: 互联网

标签:www 框架 url 爬虫 笔记 scrapy com


https://www.bilibili.com/video/BV1Yh411o7Sz?p=60&spm_id_from=pageDriver
#scrapy框架
'''
什么是框架?
集成了很多功能并且具有很强通用性的一个项目模板
如何学习框架?
专门学习框架封装的各种功能的详细用法
什么是scrapy?
爬虫中封装好的一个明星框架。功能:高兴能持久化存储,异步数据下载,数据解析,分布式
scrapy框架的基本使用
环境安装:
mac or linux: pip install scrapy
windows;
pip install scrapy
测试:在终端里录入scrapy指令,没有报错即表示安装成功!
创建一个工程:scrapy startproject xxxPro
cd xxxPro
在spiders子目录中创建一个爬虫文件
scrapy genspider spideName www.xxx.com
执行工程:
scrapy crawl spiderName
    scrapy crawl first --nolog #无日志信息
'''
#first文件
import scrapy
class FirstSpider(scrapy.Spider):
#爬虫文件名称:就是爬虫源文件的唯一标识
name = 'first'
#允许的域名:用来限定start_urls中哪些url可以进行请求发送,一般不会用
#allowed_domains = ['www.baidu.com']
#起始的url列表:可以更改,可以有多个url,该列表中存放的url会被scrapy自动进行请求发送
start_urls = ['http://www.baidu.com/','https://www.sougou.com']
#用作数据解析:response参数表示请求成功后对应的相应对象
def parse(self, response):
print(response)

标签:www,框架,url,爬虫,笔记,scrapy,com
来源: https://www.cnblogs.com/wzc6/p/16073465.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有