ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

用 Python 开发了一个 PDF 抽取Excel表格的小工具

2022-07-03 23:36:24  阅读:184  来源: 互联网

标签:抽取 表格 Python Excel huggingface PDF


大家好哇
从 PDF 里 copy 表格时,粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过里,我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用,我把它部到 huggingface 了,同学可以直接去感受一下:

https://huggingface.co/spaces/beihai/PDF-Table-Extractor

使用方法

准备一个PDF(暂不支持扫描版)

1

页面中上传PDF,也不支持过大的200M以上的文件,如果太大,大家可以先去压缩一下,我记得adobe官网有就类似小工具。

3

上传完成后,选择表格所在PDF的页码,等待片刻就会出现“提起完成,点击下载”

4

下载Excel,格式还需要微调,不过比直接复制出来的要好很多了,能节省一些时间。

2

目前这个工具我还在完善,比如直接梭哈,抽取PDF中所有表格,敬请期待。

实现方法之后再公布吧,其实经常看我文章的同学应该都很熟悉了吧。
之前在腾讯的这个算法,我搬到了网上,随便玩!一文中有介绍

本文代码能在huggingface看到,其实也是刚刚调试好,觉得有用,期待三连。

标签:抽取,表格,Python,Excel,huggingface,PDF
来源: https://www.cnblogs.com/jpld/p/16441296.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有