ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

scrapy终端常用命令

2021-01-03 21:58:02  阅读:283  来源: 互联网

标签:py spider myproject 命令 scrapy 终端 常用命令 com


scrapy命令行
一、默认的scrapy项目结构


scrapy.cfg
myproject/
    __init__.py
    items.py
    pipelines.py
    settings.py
    spiders/
        __init__.py
        myspider.py
        ...

scrapy.cfg所在的位置是项目根目录。

二、常用的scrapy命令

2.1 可用scrapy命令
在终端中输入以下命令,查看scrapy有哪些命令语法

scrapy -h

scrapy终端常用命令

scrapy的命令有两种分类-全局命令与项目命令。比如我们在命令行直接输入scrapy startproject myproject这个命令,实际上是在全局环境中使用的。而当我们运行爬虫时候,scrapy crawl myspider时,实际上是在项目环境内运行的。


#全局变量
startproject
runspider
shell
fetch

#项目命令
crawl
parse
genspider

2.1 创建项目
全局命令。使用scrapy第一步是在命令行中,创建爬虫项目。

语法: scrapy startproject <project_name>

在 projectname 文件夹下创建一个名为 projectname 的Scrapy项目。


scrapy startproject myproject

该命令会在myproject文件夹里创建一个名为myproject的scrapy项目。目录结构如下

scrapy.cfg
myproject/
    __init__.py
    items.py
    pipelines.py
    settings.py
    spiders/
        __init__.py
        myspider.py
        ...

创建好项目后,将当前工作目录切换到项目目录中。使用


cd myproject

之后就可以使用scrapy的项目命令操作scrapy项目了。

2.2 生成spider
项目命令。创建spider。一般创建的spider名字是跟域名一样的,比如www.baidu.com,我们穿件的爬虫命令


scrapy genspider baidu baidu.com

一般规律如下


scrapy genspider spidername domain.com

2.3 爬取
项目命令。 语法:scrapy crawl <spider>

2.4 fetch
全局命令。语法:scrapy fetch <url>

使用本语句下载指定的url,并将获取到的内容返回为scrapy中的response对象。

例如


scrapy fetch https://i.meituan.com

scrapy终端常用命令

scrapy终端常用命令

2.5 shell
全局命令。语法:scrapy shell [url]

scrapy终端常用命令

Scrapy shell是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码,用来测试提取数据的代码。该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 免去了每次修改后运行spider的麻烦。

scrapy shell运行后,就会有以下对象,可以进行方便的调试。

scrapy终端常用命令
示例


scrapy shell https://www.baidu.com/

scrapy终端常用命令

scrapy终端常用命令


response.url

scrapy终端常用命令

2.6 parse
项目命令。语法: scrapy parse <url> [options]

获取给定的URL并使用相应的spider分析处理。如果您提供 --callback 选项,则使用spider的该方法处理,否则使用 parse。

--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider
--a NAME=VALUE: 设置spider的参数(可能被重复)
--callback or -c: spider中用于解析返回(response)的回调函数
--pipelines: 在pipeline中处理item
$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items  ------------------------------------------------------------
[{'name': u'Example item',
 'category': u'Furniture',
 'length': u'12 cm'}]

# Requests  -----------------------------------------------------------------
[]


2.7 runspider

全局命令语法:scrapy runspider

在未创建项目的情况下,运行一个编写在python脚本中的spider。

标签:py,spider,myproject,命令,scrapy,终端,常用命令,com
来源: https://blog.51cto.com/15069487/2581421

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有