ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

【我的python之路】-记录人生第一只python爬虫-爬图小蜘蛛~

2022-01-13 16:00:56  阅读:186  来源: 互联网

标签:item python get 爬虫 蜘蛛 url imgsrc import requests


import requests
import re
import json
from lxml import etree
listurl=[]
listres=[]
for unum in range(1,3):
    url = f'https://desk.zol.com.cn/pc/{unum}.html'
    listurl.append(url)
    for ur in listurl:
        furl = requests.get(ur)
        ets = etree.HTML(furl.text)
        result = ets.xpath('//ul[@class="pic-list2  clearfix"]/li/a[@class="pic"]/@href')
        for i in result:
            i = 'https://desk.zol.com.cn/' + i
            if i.endswith('.exe'):
                continue
            listres.append(i)
for item in listres:
    url = item
    urlstr = requests.get(url)
    deskPic = re.compile(r'var deskPicArr.*?=(?P<deskPicArr>.*?);', re.S)
    urlstrlist = deskPic.search(urlstr.text)
    liststr = urlstrlist.group('deskPicArr')
    aaa = json.loads(liststr)
    for item in aaa['list']:
        oriSize = item['oriSize']
        imgsrc = item['imgsrc']
        imgsrc = imgsrc.replace('##SIZE##', oriSize)
        name = imgsrc.split('/')[-1] #取图片最后一个/后的名称为图片名,保存到本地地址
        resp_img = requests.get(imgsrc)
        with open(f'C:\\Users\wu\Pictures\Saved Pictures\\{name}', mode='wb') as fa:
            fa.write(resp_img.content)
        break
print('下载完成!')

标签:item,python,get,爬虫,蜘蛛,url,imgsrc,import,requests
来源: https://blog.csdn.net/weixin_40551017/article/details/122475411

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有