ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python 下载文件的几种方式

2021-04-04 02:04:46  阅读:155  来源: 互联网

标签:end headers python filename url num import 几种 下载


1 、一般同步下载

示例代码:

import requests
import os

def downlaod(url, file_path):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
    }
    r = requests.get(url=url, headers=headers)
    with open(file_path, "wb") as f:
        f.write(r.content)
        f.flush()

2、 使用流式请求,requests.get方法的stream

默认情况下是stream的值为false,它会立即开始下载文件并存放到内存当中,倘若文件过大就会导致内存不足的情况,程序就会报错。
当把get函数的stream参数设置成True时,它不会立即开始下载,当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载,需要注意一点:文件没有下载之前,它也需要保持连接。

iter_content:一块一块的遍历要下载的内容
iter_lines:一行一行的遍历要下载的内容

使用上面两个函数下载大文件可以防止占用过多的内存,因为每次只下载小部分数据。

示例代码:

3 、异步下载文件

由于request的请求是阻塞式的,所以要用aiohttp模块来发起请求。

示例代码:

import aiohttp
import asyncio
import os


async def handler(url, file_path):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
    }
    async with aiohttp.ClientSession() as session:
        r = await session.get(url=url, headers=headers)
        with open(file_path, "wb") as f:
            f.write(await r.read())
            f.flush()
            os.fsync(f.fileno())


loop = asyncio.get_event_loop()
loop.run_until_complete(handler(url, file_path))

4、 异步拆分下载文件

上面用的是一个协程下载一个文件,下面的方法是将文件分成几部分,每个部分用一个协程下载,最后再写入文件。

下面这个例子用的是流式写入,即把内容写入到磁盘里面。

import aiohttp
import asyncio
import time
import os


async def consumer(queue):
    option = await queue.get()
    start = option["start"]
    end = option["end"]
    url = option["url"]
    filename = option["filename"]
    i = option["i"]

    print(f"第{i}个任务开始运行")
    async with aiohttp.ClientSession() as session:
        headers = {"Range": f"bytes={start}-{end}"}
        r = await session.get(url=url, headers=headers)
        with open(filename, "rb+") as f:
            f.seek(start)
            while True:
                chunk = await r.content.read(end - start)
                if not chunk:
                    break
                f.write(chunk)
                f.flush()
                os.fsync(f.fileno())
                print(f"第{i}个任务正在写入中ing")
        queue.task_done()
        print(f"第{i}个任务写入成功")


async def producer(url, headers, filename, queue, coro_num):
    async with aiohttp.ClientSession() as session:
        resp = await session.head(url=url, headers=headers)
        file_size = int(resp.headers["content-length"])
        # 创建一个文件
        with open(filename, "wb") as f:
            pass
        part = file_size // coro_num
        for i in range(coro_num):
            start = part * i
            if i == coro_num - 1:
                end = file_size
            else:
                end = start + part
            info = {
                "start": start,
                "end": end,
                "url": url,
                "filename": filename,
                "i": i,
            }
            queue.put_nowait(info)


async def main():
    # 需要填的有url,filename,coro_num
    url = ""
    filename = ""
    coro_num = 0
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
    }
    queue = asyncio.Queue(coro_num)
    await producer(url, headers, filename, queue, coro_num)
    task_list = []
    for i in range(coro_num):
        task = asyncio.create_task(consumer(queue))
        task_list.append(task)
    await queue.join()
    for i in task_list:
        i.cancel()
    await asyncio.gather(*task_list)


startt = time.time()
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
end = time.time() - startt
print(f"用了{end}秒")

5、注意

以上的示例都是介绍思路,程序并不健壮,健壮的程序需要加入错误捕获和错误处理。

标签:end,headers,python,filename,url,num,import,几种,下载
来源: https://www.cnblogs.com/NEGAN-H/p/14615505.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有