标签:20 请求 python js 爬取 获取 requests 动态数据 page
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据。
以某电影网站为例:我们要获取到电影名称以及对应的评分
首先我们通过开发者模式,找到请求该页面的接口信息
另外,为了能模拟浏览器访问接口信息,我们需要获取到请求头部信息
获取到以上信息,我们就可以通过python的requests库来模拟访问接口啦
1、导入requests库
import requests
2、定义请求参数信息
url = "https://movie.douban.com/j/search_subjects"
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0",
}
param = {"type": "movie", "tag": "最新", "sort": "recommend", "page_limit": "20", "page_start": "0"}
3、获取请求的json对象
ret = requests.get(url, params=param, headers=header)
js = ret.json()
print(js)
4、根据翻页信息,我们知道"page_start"这个参数是每20递增一次的,可以通过定义变量使用for 循环来自动获取下一页信息,我们可以对以上代码进行优化。另外,为了防止请求过快,被当成恶意攻击,我们可以导入time模块,每次请求间隔2-3s
count = 0
for i in range(3):
param = {"type": "movie", "tag": "最新", "sort": "recommend", "page_limit": "20", "page_start": count}
time.sleep(random.uniform(2, 3))
ret = requests.get(url, params=param, headers=header)
js = ret.json()
for info in js["subjects"]:
rate, title = info["rate"], info["title"]
print(f"《{title}》的评分是:{rate}")
count += 20
这样我们就获取到想要的数据,不用挨个copy啦。我们可以把获取的数据写入到文件里永久保存,并进行整理。下次再分享
标签:20,请求,python,js,爬取,获取,requests,动态数据,page 来源: https://www.cnblogs.com/zdf-blog/p/14310486.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。