提取PDF文件中的图片

2022-09-09 00:35:57 阅读：271 来源： 互联网

标签：提取 curr img image file pdf PDF page 图片

# -*- coding: utf-8 -*-
# pip install pyMuPDF 安装pyMuPDF库
import fitz
import io
from PIL import Image


def img():
    pdf_file = fitz.open("file/7_2.pdf")
    for page_no in range(len(pdf_file)):
        curr_page = pdf_file[page_no]
        images = curr_page.geImageList()
        # 迭代处理PDF文档中的图片
        for num, image in enumerate(curr_page.geImageList()):
            # 获取图片的XREF
            xref = image[0]
            # 提取图片的字节
            curr_image = pdf_file.extractImage(xref)
            img_bytes = curr_image['image']
            # 获取图片的扩展名
            img_extension = curr_image['ext']
            image = Image.open(io.BytesIO(img_bytes))
            # 将图片保存在本地
            image.save(open(f"file/第{page_no +1}页-第{num + 1}张图.{img_extension}", "wb"))


img()

标签：提取,curr,img,image,file,pdf,PDF,page,图片
来源： https://www.cnblogs.com/zhaoyiguang/p/16671265.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

提取PDF文件中的图片