ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python爬取美女源码

2021-11-18 16:34:36  阅读:107  来源: 互联网

标签:src name img headers python li 爬取 url 源码


 可以直接使用
1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 #需求:解析下载图片数据 http://pic.netbian.com/4kmeinv/ 4 import requests 5 from lxml import etree 6 import os 7 if __name__ == "__main__": 8 9 url = 'https://pic.netbian.com/4kmeinv/index_%d.html' 10 headers = { 11 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36' 12 } 13 14 for n in range(1,150): 15 new_url = format(url%n) 16 print(new_url) 17 response = requests.get(url=new_url,headers=headers) 18 #手动设定响应数据的编码格式 19 # response.encoding = 'utf-8' 20 page_text = response.text 21 22 #数据解析:src的属性值 alt属性 23 tree = etree.HTML(page_text) 24 li_list = tree.xpath('//div[@class="slist"]/ul/li') 25 26 27 #创建一个文件夹 28 if not os.path.exists('./picLibs'): 29 os.mkdir('./picLibs') 30 31 for li in li_list: 32 img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0] 33 img_name = li.xpath('./a/img/@alt')[0]+'.jpg' 34 #通用处理中文乱码的解决方案 35 img_name = img_name.encode('iso-8859-1').decode('gbk') 36 37 # print(img_name,img_src) 38 #请求图片进行持久化存储 39 img_data = requests.get(url=img_src,headers=headers).content 40 img_path = f'picLibs/{n}'+img_name 41 with open(img_path,'wb') as fp: 42 fp.write(img_data) 43 print(img_name,'下载成功!!!')

 

标签:src,name,img,headers,python,li,爬取,url,源码
来源: https://www.cnblogs.com/wutao1935/p/15572989.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有