ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

requests 爬虫基础

2022-09-09 20:33:44  阅读:189  来源: 互联网

标签:gt 请求 url 基础 爬虫 537.36 print requests


import requests
#导入 requests 包
先看请求的方法是什么,比如 get,proct
然后有些内容是通过异步加载的,所有我们要找到异步加载的文件 ,异步加载:执行过程同时加载
查找的方法是 ,检查,找到网络 ,点XHR 就可以看到异步数据,,请求标头有 X-Requested-With: XMLHttpRequest,要用post的里面的headers 一起发出去
'''
# 添加的请求头 #为什么要模拟浏览器的请求 # 防止网站以为这个是爬虫不给网站内容 hreas={ "Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70" #这是edge的用户代理 } zxc={"Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"} #谷歌用户代理 url='https://www.baidu.com/' requests_gt=requests.get(url,headers=hreas) # get请求 'print(requests_gt)' 'print(requests_gt.url)' #查看我要请求的网站 #psot 请求 'nij=requests.post(url)' 'post请求' 'print(nij)' '----------get----' # 返回 http 的状态码 print(requests_gt.status_code) # 返回编码 print(requests_gt.apparent_encoding) # 是否ok响应状态的描述 print(requests_gt.reason) # 返回网页内容 # print(requests_gt.text) # 编码的意思 requests_gt.encoding='utf-8' #响应头 print(requests_gt.headers) # print(requests_gt.content) #获取到的是网页的内容 print(requests_gt.text)

  

import requests
#导入 requests 包



# 添加的请求头
#为什么要模拟浏览器的请求
# 防止网站以为这个是爬虫不给网站内容
hreas={
    "Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70"
     #这是edge的用户代理
}

zxc={"Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}
#谷歌用户代理


url='https://www.baidu.com/'
requests_gt=requests.get(url,headers=hreas)

# get请求
'print(requests_gt)'
'print(requests_gt.url)'
#查看我要请求的网站

#psot 请求
'nij=requests.post(url)'
'post请求'
'print(nij)'

'----------get----'
# 返回 http 的状态码
print(requests_gt.status_code)
# 返回编码
print(requests_gt.apparent_encoding)
# 是否ok响应状态的描述
print(requests_gt.reason)

# 返回网页内容
# print(requests_gt.text)

# 编码的意思
requests_gt.encoding='utf-8'
#响应头
print(requests_gt.headers)

# print(requests_gt.content)
#获取到的是网页的内容
print(requests_gt.text)

 

标签:gt,请求,url,基础,爬虫,537.36,print,requests
来源: https://www.cnblogs.com/xxh12/p/16673873.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有