ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Python爬虫入门记(5)- 批量下载图片(正则表达式,以百度文库为例)

2021-04-04 14:03:32  阅读:162  来源: 互联网

标签:为例 Python pic 爬虫 re import 源代码 下载 图片


五、批量下载图片

1. 调用库函数

【通过链接下载图片有多种方法,本文采用其中一种】

from builtins import len, hasattr, range  # 提供对Python的“内置”标识符的直接访问
import re  # 正则表达式
import urllib.request, urllib.error  # 提供了一系列用于操作URL的功能
import requests  # Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,用来下载图片
import os  # os模块,里面包含了很多操作文件和目录的函数。

2. 定义主函数和正则表达式

主函数:

def main():
    url = "https://wenku.baidu.com/view/ab00294a2079168884868762caaedd3382c4b57c.html"  # 网页链接
    f = open('data.txt', encoding='utf-8')  # 打开txt文件,以utf-8编码解码,不然会出错
    urls = f.read()  # 读取文件
    num = 1
    os.makedirs('./test1/', exist_ok=True)  # 在目录下新建文件夹
    # 因为图片有两种结构,所以有两个正则表达式
    pic_1 = re.findall(findImg1, urls)  # 使用re库,正则匹配找到图片链接,返回一个列表
    pic_2 = re.findall(findImg2, urls)
    pic_1 = pic_1 + pic_2  # 链接两个列表
    print('找到图片,即将开始下载图片...')
    for each in pic_1:
        print('正在下载第' + str(num) + '张图片,图片地址:' + str(each))
        # 异常处理
        try:
            if each is not None:
                pic = requests.get(each, timeout=7)  # 向服务器发出请求,返回一个包含服务器资源的Response对象,包含从服务器返回的所有的相关资源。
            else:
                continue
        except BaseException:
            print('错误,当前图片无法下载')
            continue
        else:
            # 图片保存路径,同时为每一张图片命名
            string = './test1/' + str(num) + '.jpg'
            fp = open(string, 'wb')
            fp.write(pic.content)
            fp.close()
        num += 1

正则表达式:

findImg1 = re.compile(r'<img src="(.*?)" alt="">')
findImg2 = re.compile(r'img data-src="(.*?)"')

【有个坑目前还没有填上,用爬虫爬取网页源代码时,只有前三张图片的链接,而后面几十张的图片都没有链接,但是直接查看网页源代码时,却可以看到,所以是直接复制的源代码到 txt ,再打开 txt 文件获取的源代码,有能力之后将会填上】

3.运行结果

在这里插入图片描述
在这里插入图片描述

标签:为例,Python,pic,爬虫,re,import,源代码,下载,图片
来源: https://blog.csdn.net/qq_45958577/article/details/115427689

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有