ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python爬虫必备知识点, 代理请求数据

2021-06-12 20:57:39  阅读:174  来源: 互联网

标签:知识点 python ip list 爬虫 代理 proxy print proxies


爬取免费代理,并且解析代理是否可用 网址为:

http://www.ip3366.net/?stype=1&page=1

 

#1.确认爬取的地址
#2.发送地址请求
#3.数据解析
#4.数据保存


import requests
import parsel
import time
def check_ip(proxiles_list):
    """检测代理可用性"""
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
        }

    can_use = []
    for proxies  in proxiles_list:
        try:
            response  = requests.get(url='https://www.baidu.com',headers=headers,
                         proxies=proxies,timeout=2)

            if  response.status_code == 200:
                can_use.append(proxies)
        except:
            print('当前代理:',proxies,'请求超时,代理不可用')
        else:
            print('当前代理:',proxies,'****代理可用****')

    return can_use

proxy_list = []

for page in range(1,11):
    time.sleep(2)
    #1.确认爬取的地址
    url = f"http://www.ip3366.net/?stype=1&page={page}"
    headers =  {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"}

    #2.发送地址请求
    response = requests.get(url=url,headers=headers)
    response.encoding = response.apparent_encoding   #自动识别响应体的编码
    html_data = response.text
    #print(html_data)

    #3.数据解析   xpath   专门用来提取html数据
    selector = parsel.Selector(html_data)   #数据转换
    trs = selector.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')


    for tr in trs:           #二次提取
        ip = tr.xpath('./td[1]/text()').get()   #ip
        port = tr.xpath('./td[2]/text()').get()   #端口
        #print(ip,port)

        ip_proxy = ip + ':' + port
        proxies_dict = {
            "http": "http://" + ip_proxy,
            "https": "https://" + ip_proxy,
        }
        print('保存完成',proxies_dict)
        proxy_list.append(proxies_dict)


    print(proxy_list)
    print('获取到的代理数量:',len(proxy_list))

print('***************************正在检测代理***************************')
can_use = check_ip(proxy_list)
print('可用的代理有:',can_use)
print('可用的代理数量:',len(can_use))

 

标签:知识点,python,ip,list,爬虫,代理,proxy,print,proxies
来源: https://blog.csdn.net/wuzekang9/article/details/117855410

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有