原文链接:https://www.cnblogs.com/NFii/p/11576616.html 本次主要爬取Top100电影榜单的电影名、主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢 首先打开要爬取的网址https://maoyan.com/board/4, 在不断点击下一页的过程中, 我们可以发现网址的变化
本次主要爬取Top100电影榜单的电影名、主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢 首先打开要爬取的网址https://maoyan.com/board/4, 在不断点击下一页的过程中, 我们可以发现网址的变化是有规律的 https://maoyan.com/board/4?offset=0 https:
先获取首页的源代码 def get_one_page(url): try: headers={ 'User-Agent':'Mozilla/5.0(Macintosh;intel Mac OS 10_11_4)Applewebkit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36' } re=requests.get
爬取目标:https://maoyan.com/board/4?offset=0 一、爬取首页 1 def get_one_page(url):2 headers = {3 'User - Agent': 'Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 63.0.3239.132Safari / 537.36
代码: 1 import json 2 from multiprocessing import Pool 3 import requests 4 # http://cn.python-requests.org/zh_CN/latest/_modules/requests/exceptions.html#RequestException 5 # RequestException是父类 6 from requests.exceptions import RequestException 7 import
今天是个好天气,培训了一个月了,可以看的懂python代码,一直对爬虫比较感兴趣,今天星期六没上课就看视频,跟着老师敲代码,中间各种错误,到饭点了才弄好,成功爬取!这个时刻也是值得纪念的,心情和天气一样晴朗。感兴趣的朋友也可以照下面的代码自己敲一遍,运行一下看看效果。 import requests