标签:基本 xxx LOG 管道 py 爬虫 Scrapy 使用 scrapy
一、基本命令
- 创建项目
scrapy startproject xxx
- 创建爬虫
scrapy genspider xxx
- 运行相应爬虫
scrapy crawl xxx
二、相关文件
1、相应的爬虫文件名称为自己创建的的xxx.py
2、爬虫项目的配置文件setting.py
- ROBOTSTXT_OBEY 是否遵循robots.txt协议
- USER_AGENT 爬虫请求时的请求头
- DOWNLOAD_DELAY 爬虫请求的频率
- ITEM_PIPELINES 是否打开管道
- LOG_ENABLED 是否打印日志
- LOG_LEVEL 打印日志的最低标准
...
3、管道,处理爬虫发过来的数据pipelines.py
4、一些中间件设置middlewares.py
5、变量类型(建议直接用字典)items.py
三、其他
- crawlspider自动查找新url地址并下载
- ImagePipeline图片下载保存管道
标签:基本,xxx,LOG,管道,py,爬虫,Scrapy,使用,scrapy 来源: https://www.cnblogs.com/yisicanmeng/p/16441346.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。