ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

使用Python读取pdf文件

2021-10-27 12:32:23  阅读:290  来源: 互联网

标签:return 读取 Python pdfminer str file import pdf


学习python,不用再为pdf无法转换而烦恼~~~

下面我们介绍python读取pdf文件(主要是针对文字部分)

1、打开环境

2、安装pdfminer3k包

可以使用jupyter notebook进行安装,如下图所示:

安装成功,大功告成第一步。

3、导入相关的包:

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import re

如图:

4、定义一个读取pdf文档的函数:

 def read_from_pdf(file_path):
    """
    读取pdf文件
    """
    with open(file_path,'rb') as file:
        resource_manager = PDFResourceManager()
        return_str = StringIO()
        lap_params = LAParams()
        device = TextConverter(resource_manager,return_str,laparams=lap_params)
        process_pdf(resource_manager,device,file)
        device.close()
        content = return_str.getvalue()
        return_str.close()
        return re.sub('\s+','',content) 

 5、使用定义的函数进行测试实验:

read_from_pdf('葡萄酒数据挖掘.pdf')

根据你自己的pdf文件和具体情况进行实验,路径可以是绝对路径和相对路径,任意实验。

实验效果还不错,学习起来吧~~~ 

标签:return,读取,Python,pdfminer,str,file,import,pdf
来源: https://blog.csdn.net/u013236891/article/details/120990346

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有