ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

谷歌批量下载图片

2021-08-24 15:01:39  阅读:201  来源: 互联网

标签:原图 批量 url image 谷歌 driver path div 下载


前言
作为一名CVer,数据集获取少不了用到数据、图片爬虫技术,谷歌作为全球最大的数据搜索网站,如何从中快速获取大量有用图片数据尤为重要,但是技术更新,很多代码大多就会失效,爬与反爬永远斗智斗勇...

提示:以下是本篇文章正文内容,下面案例可供参考

一、环境配置
1.安装selenium
selenium是一个自动化测试工具,能够模拟浏览器行为,在爬虫上得到了广泛引用。如果你没有安装,请pip install

pip install selenium
2.使用正确的谷歌浏览器驱动
下载符合你的谷歌浏览器的驱动,chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。

查看自己谷歌浏览器的版本,我这里是92.0.4515.131

找到对应的ChromeDriver版本,然后可以从下面的网站下载。

下载地址:https://npm.taobao.org/mirrors/chromedriver/

完整的代码包以及chromedriver已上传资源:https://download.csdn.net/download/m0_49688739/21005123

二、使用步骤
1.加载chromedriver.exe
修改以下代码中的路径,使用你自己的:

driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)
2.设置是否开启可视化界面
selenium模拟浏览器行为,其实相当于将我们手动搜索,输入,点击等操作用代码完成,这里可以设置是否开启可视化界面。

开启:可以看到浏览器自动打开并输入关键词搜索,滑动页面等过程,可以监测下载过程。

关闭:不开启浏览器界面,后台运行下载。

默认为关闭,如果需要开启请注释掉那两行代码

创建一个参数对象,用来控制chrome是否以无界面模式打开

ch_op = Options()
# 设置谷歌浏览器的页面无可视化,如果需要可视化请注释这两行代码
ch_op.add_argument('--headless')
ch_op.add_argument('--disable-gpu')

3.输入关键词、下载图片数、图片保存路径
这里的图片保存路径需要使用\区分

之后就是获取图片url的过程,由于谷歌图片页面是动态加载的,获取每个图片的原图就需要点开大图,并等它加载一会才能获取到原图的url,如果时间太短,获取到的就会是缩略图,或者出错。

如果你的网络状况不好,请适当延长等待时间time.sleep()。

image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')

此选项为下载缩略图

image_src = image.get_attribute("src")

image.click() # 点开大图
time.sleep(4) # 因为谷歌页面是动态加载的,需要给予页面加载时间,否则无法获取原图url,如果你的网络状况一般请适当延长

获取原图的url

image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
image_url = image_real.get_attribute("src")
三、爬取效果
由于需要等待页面加载,所以爬取时间会比较长,请耐心等待。

下载的基本都是原图,除非获取原图url失败。

四、完整代码
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import time
import os
import urllib.request
import uuid

def download_pic(url, name, path):

if not os.path.exists(path):
    os.makedirs(path)
res = urllib.request.urlopen(url, timeout=3).read()
with open(path + name +'.jpg', 'wb') as file:
    file.write(res)
    file.close()

def get_image_url(num, key_word):

box = driver.find_element_by_xpath('/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input')
box.send_keys(key_word)
box.send_keys(Keys.ENTER)
box = driver.find_element_by_xpath('//*[@id="hdtb-msb"]/div[1]/div/div[2]/a').click()

# 滚动页面
last_height = driver.execute_script('return document.body.scrollHeight')
while True:
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    time.sleep(2)
    new_height = driver.execute_script('return document.body.scrollHeight')
    try:
        driver.find_elements_by_xpath('//*[@id="islmp"]/div/div/div/div/div[5]/input').click()
    except:
        pass
    if new_height == last_height:
        # 点击显示更多结果
        try:
            box = driver.find_element_by_xpath('//*[@id="islmp"]/div/div/div/div[1]/div[2]/div[2]/input').click()
        except:
            break
    last_height = new_height

image_urls = []

for i in range(1, num):
    try:
        image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')
        # 此选项为下载缩略图
        # image_src = image.get_attribute("src")
        image.click() # 点开大图
        time.sleep(4)  # 因为谷歌页面是动态加载的,需要给予页面加载时间,否则无法获取原图url,如果你的网络状况一般请适当延长
        # 获取原图的url
        image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
        image_url = image_real.get_attribute("src")
        image_urls.append(image_url)
        print(str(i) + ': ' + image_url)
    except:
        print(str(i) + ': error')
        pass
return image_urls

if name == 'main':

# 创建一个参数对象,用来控制chrome是否以无界面模式打开
ch_op = Options()
# 设置谷歌浏览器的页面无可视化,如果需要可视化请注释这两行代码
ch_op.add_argument('--headless')
ch_op.add_argument('--disable-gpu')

url = "https://www.google.com/"
driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)
driver.get(url)

key_word = input('请输入关键词:')
num = int(input('请输入需要下载的图片数:'))
_path = input('请输入图片保存路径,例如G:\\\\google\\\\images\\\\ :')

# path = "G:\\google\\images_download\\" + key_word + "\\"  # 图片保存路径改为自己的路径
path = _path + key_word + "\\"
print('正在获取图片url...')
image_urls = get_image_url(num, key_word)
for index, url in enumerate(image_urls):
    try:
        print('第' + str(index) + '张图片开始下载...')
        download_pic(url, str(uuid.uuid1()), path)
    except Exception as e:
        print(e)
        print('第' + str(index) + '张图片下载失败')
        continue
driver.quit()

标签:原图,批量,url,image,谷歌,driver,path,div,下载
来源: https://www.cnblogs.com/lh4217/p/15180338.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有