ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【原创】爬虫反爬基础常见类型总结

2021-05-17 12:03:03  阅读:183  来源: 互联网

标签:总结 cookies 反爬 爬虫 js ip 伪装 格式


 

1.浏览器伪装

格式:

'User-Agent':'自己抓包' 

2.访问地址伪装

格式:

'reffer':'自己抓包'

3.ip地址伪装

格式:

免费版: proxies={'https':'ip:port'}
收费版: proxies={'https':'http:user:password@ip:port'}

4.伪装访问速率

格式:

import time,random
headers={xxx}
for i in range(10):
    response = xxx #模拟请求url
    time.sleep(random.uniform(1.1,5.4)) #重点时间随机

5.伪装用户真实信息

格式:

cookies='自己抓包'

cookies升级:js、js混淆,已经超出普通人能力

6.字体反爬

常见某点评网,只能靠js,同cookies一样困难

7.Selenium防检测

这个需要加类似插件参数

8.网页禁止调试

F12不起作用,或者调试警告弹窗,这种直接不让你看数据

9.Ajax异步加载

selenium可以做,但是效率不高。调试原网页没数据,这种考虑js生成,或者有专门接口

10.其他反爬

动态验证码,封ip,封账号等

 

标签:总结,cookies,反爬,爬虫,js,ip,伪装,格式
来源: https://www.cnblogs.com/hightech/p/14776349.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有