ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Scrapyd发布爬虫的工具

2021-05-31 13:55:32  阅读:213  来源: 互联网

标签:127.0 http 爬虫 6800 project json 工具 Scrapyd scrapyd


Scrapyd

 

Scrapyd是部署和运行Scrapy.spider的应用程序。它使您能够使用JSON API部署(上传)您的项目并控制其spider。

 

Scrapyd-client

Scrapyd-client是一个专门用来发布scrapy爬虫的工具,安装该程序之后会自动在python目录\scripts安装一个名为scrapyd-deploy的工具
(其实打开该文件,可以发现它是一个类似setup.py的python脚本,所以可以通过python scrapyd-deploy的方式运行)

 

 

下载安装

 

pip install scrapyd-clientpip install enum-compatpip install w3libpip install scrapyd

安装完成后检查

C:\Program Files\Python36\Scripts>dir sc* 驱动器 C 中的卷是 BOOTCAMP 卷的序列号是 D471-4F4D  C:\Program Files\Python36\Scripts 的目录 2018/05/07  21:20            98,158 scrapy.exe2018/05/25  21:17             9,901 scrapyd-deploy2018/05/25  20:37            98,165 scrapyd.exe               4 个文件        216,128 字节               0 个目录 39,937,785,856 可用字节

 scrapyd-deploy内容

 

运行方法

1.运行scrapyd

C:\>scrapyd2018-05-25T20:38:52+0800 [-] Loading c:\program files\python36\lib\site-packages\scrapyd\txapp.py...2018-05-25T20:38:54+0800 [-] Scrapyd web console available at http://127.0.0.1:6800/2018-05-25T20:38:54+0800 [-] Loaded.2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] twistd 18.4.0(c:\program files\python36\python.exe 3.6.1) starting up.2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] reactor class: twisted.internet.selectreactor.SelectReactor.2018-05-25T20:38:54+0800 [-] Site starting on 68002018-05-25T20:38:54+0800 [twisted.web.server.Site#info] Starting factory <twisted.web.server.Site object at 0x0000000004BB8DA0>2018-05-25T20:38:54+0800 [Launcher] Scrapyd 1.2.0 started: max_proc=32, runner='scrapyd.runner'

2.拷贝scrapyd-deploy工具到爬虫目录下

 C:\chinaarea 的目录2018/05/25  21:19    <DIR>          .2018/05/25  21:19    <DIR>          ..2018/05/24  21:23    <DIR>          .idea2018/05/25  21:19    <DIR>          build2018/05/25  21:16    <DIR>          chinaarea2018/05/25  21:19    <DIR>          project.egg-info2018/05/23  20:38                74 README.md2018/05/25  21:02               264 scrapy.cfg2018/05/25  20:37             9,904 scrapyd-deploy2018/05/25  21:19               266 setup.py               4 个文件         10,508 字节               6 个目录 39,973,642,240 可用字节

3.修改爬虫的scapy.cfg文件

 

首先去掉url前的注释符号,这里url就是你的scrapyd服务器的网址。

其次,deploy:100表示把爬虫发布到名为100的爬虫服务器上。

 

这个名叫target名字可以随意起,一般情况用在需要同时发布爬虫到多个目标服务器时,可以通过指定名字的方式发布到指定服务器。

 

其次,default=ccpmess.settings 中 ccpmess也是可以改的,貌似没啥用,默认还是用工程名字。

 

关键是scrapyd-deploy 所在目录,具体其实可以读下scrapyd-deploy 的代码。

 

# Automatically created by: scrapy startproject## For more information about the [deploy] section see:# https://scrapyd.readthedocs.io/en/latest/deploy.html[settings]default = chinaarea.settings[deploy:100]url = http://localhost:6800/project = chinaarea

4.查看配置

检查scrapy配置是否正确。

$python scrapyd-deploy -l100                  http://localhost:6800/

5.发布爬虫

 

C:\chinaarea>python scrapyd-deploy 100 -p chinaarea --version ver20180525Packing version ver20180525Deploying to project "chinaarea" in http://localhost:6800/addversion.jsonServer response (200):{"node_name": "jingjing-PC", "status": "ok", "project": "chinaarea", "version":"ver20180525", "spiders": 1}

image

6.下载安装curl

下载地址:https://curl.haxx.se/download.html

根据电脑系统下载适合的版本

image

下载完成后会看到curl.exe文件

image

设置环境变量

image

测试配置

 

C:\curl\bin>curl localhost:6800<html><head><title>Scrapyd</title></head><body><h1>Scrapyd</h1><p>Available projects: <b>chinaarea</b></p><ul><li><a href="/jobs">Jobs</a></li><li><a href="/logs/">Logs</a></li>

7.启动scrapyd服务器上myproject工程下的myspider爬虫

C:\curl\bin>curl http://localhost:6800/schedule.json -d project=chinaarea -d spider=airs{"node_name": "jingjing-PC", "status": "ok", "jobid": "5895b858603611e8b3e160f81dad89ef"}

image

image

image

8.删除scrapyd服务器上myproject工程

C:\curl\bin>curl http://127.0.0.1:6800/delproject.json -d project=chinaarea{"node_name": "jingjing-PC", "status": "ok"}

9.其他操作API

# -*- coding: utf-8 -*-import requestsimport jsonbaseUrl ='http://127.0.0.1:6800/'daemUrl ='http://127.0.0.1:6800/daemonstatus.json'listproUrl ='http://127.0.0.1:6800/listprojects.json'listspdUrl ='http://127.0.0.1:6800/listspiders.json?project=%s'listspdvUrl= 'http://127.0.0.1:6800/listversions.json?project=%s'listjobUrl ='http://127.0.0.1:6800/listjobs.json?project=%s'delspdvUrl= 'http://127.0.0.1:6800/delversion.json'#http://127.0.0.1:6800/daemonstatus.json#查看scrapyd服务器运行状态r= requests.get(daemUrl)print '1.stats :\n %s \n\n'  %r.text#http://127.0.0.1:6800/listprojects.json#获取scrapyd服务器上已经发布的工程列表r= requests.get(listproUrl)print '1.1.listprojects : [%s]\n\n'  %r.textif len(json.loads(r.text)["projects"])>0 :    project = json.loads(r.text)["projects"][0]#http://127.0.0.1:6800/listspiders.json?project=myproject#获取scrapyd服务器上名为myproject的工程下的爬虫清单listspd=listspd % projectr= requests.get(listspdUrl)print '2.listspiders : [%s]\n\n'  %r.text if json.loads(r.text).has_key("spiders")>0 :    spider =json.loads(r.text)["spiders"][0]#http://127.0.0.1:6800/listversions.json?project=myproject##获取scrapyd服务器上名为myproject的工程下的各爬虫的版本listspdvUrl=listspdvUrl % projectr = requests.get(listspdvUrl)print '3.listversions : [%s]\n\n'  %rtext if len(json.loads(r.text)["versions"])>0 :    version = json.loads(r.text)["versions"][0]#http://127.0.0.1:6800/listjobs.json?project=myproject#获取scrapyd服务器上的所有任务清单,包括已结束,正在运行的,准备启动的。listjobUrl=listjobUrl % proNamer=requests.get(listjobUrl)print '4.listjobs : [%s]\n\n'  %r.text#schedule.json#http://127.0.0.1:6800/schedule.json -d project=myproject -d spider=myspider#启动scrapyd服务器上myproject工程下的myspider爬虫,使myspider立刻开始运行,注意必须以post方式schUrl = baseurl + 'schedule.json'dictdata ={ "project":project,"spider":spider}r= reqeusts.post(schUrl, json= dictdata)print '5.1.delversion : [%s]\n\n'  %r.text#http://127.0.0.1:6800/delversion.json -d project=myproject -d version=r99'#删除scrapyd服务器上myproject的工程下的版本名为version的爬虫,注意必须以post方式delverUrl = baseurl + 'delversion.json'dictdata={"project":project ,"version": version }r= reqeusts.post(delverUrl, json= dictdata)print '6.1.delversion : [%s]\n\n'  %r.text#http://127.0.0.1:6800/delproject.json -d project=myproject#删除scrapyd服务器上myproject工程,注意该命令会自动删除该工程下所有的spider,注意必须以post方式delProUrl = baseurl + 'delproject.json'dictdata={"project":project  }r= reqeusts.post(delverUrl, json= dictdata)print '6.2.delproject : [%s]\n\n'  %r.text

10.总结

1、获取状态http://127.0.0.1:6800/daemonstatus.json2、获取项目列表http://127.0.0.1:6800/listprojects.json3、获取项目下已发布的爬虫列表http://127.0.0.1:6800/listspiders.json?project=myproject4、获取项目下已发布的爬虫版本列表http://127.0.0.1:6800/listversions.json?project=myproject5、获取爬虫运行状态http://127.0.0.1:6800/listjobs.json?project=myproject6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)http://localhost:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider})7、删除某一版本爬虫http://127.0.0.1:6800/delversion.json (post方式,data={"project":myproject,"version":myversion})8、删除某一工程,包括该工程下的各版本爬虫   http://127.0.0.1:6800/delproject.json(post方式,data={"project":myproject})

scrapyd服务器管理爬虫,至少有以下几个优势:
1、可以避免爬虫源码被看到。
2、有版本控制。
3、可以远程启动、停止、删除,正是因为这一点,所以scrapyd也是分布式爬虫的解决方案之一

 

 

 

 

 

 

欢迎关注公众号:Python爬虫数据分析挖掘,回复【开源源码】免费获取更多开源项目源码

公众号每日更新python知识和【免费】工具

 

标签:127.0,http,爬虫,6800,project,json,工具,Scrapyd,scrapyd
来源: https://blog.51cto.com/u_11949039/2835162

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有