首页 > 编程语言> 文章详细

Python爬虫--慕课课程列表爬取--scrapy框架（安装以及搭建）

2020-02-02 23:55:09 阅读：105 来源： 互联网

标签：xpath box 慕课 Python 安装爬取 item scrapy extract

一、scrapy的安装

1、确定安装python以及pip

2、由于我是用的是pycharm开发工具编写，所以需要下载这个软件

3、scrapy安装

打开命令行界面输入 pip install scrapy即可安装。

4、验证是否安装成功

输入 scrapy若有如下内容则安装成功

二、scrapy工程的搭建

其后续步骤可参考https://blog.csdn.net/zjiang1994/article/details/52779537

其博文已经解释的十分清楚，十分适合对scrapy框架刚入门的同学学习参考。

本文说一下我在学习中遇到的问题。

1、慕课网的代码已经发生改变，其XPATH部分已经不可用，现将更新后的代码贴出如下

 for box in response.xpath('//div[@class="course-card-container"]/a[@target="_blank"]'):
            item['url']='http://www.imooc.com'+box.xpath('.//@href').extract()[0]
            item['title']=box.xpath('.//h3/text()').extract()[0].strip()
            item['image_url']='http:'+box.xpath('.//@data-original').extract()[0]
            item['student']=box.xpath('.//div[@class="course-card-info"]/span[2]/text()').extract()[0].strip()
            item['introduction'] = box.xpath('.//p[@class="course-card-desc"]/text()').extract()[0].strip()
            #返回信息
            yield item

2、如何在pycharm中运行scrapy工程

我们需要在scrapyTest工程文件夹下加入start.py

其代码为：

from scrapy import cmdline
#scrapy crawl itcast （itcast为爬虫名）
cmdline.execute("sscrapy crawl  MySpider".split())

完成后需要在pycharm中进行设置

将路径改为你刚才创建的start.py即可

3、图片无法下载至指定文件夹中（未解决）

4、其中爬虫用到了xpath的知识，https://www.w3school.com.cn/xpath/xpath_syntax.asp，可以参考本链接

，简单易懂。

标签：xpath,box,慕课,Python,安装,爬取,item,scrapy,extract
来源： https://www.cnblogs.com/1061321925wu/p/12254311.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Python爬虫--慕课课程列表爬取--scrapy框架（安装以及搭建）