ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

如何在 Python 中验证PDF、Excel 和 MS Word 文档类型

2023-01-18 13:36:59  阅读:37  来源: 互联网

标签:python文件安全性验证 PDF文档验证 Excel文件验证 MSWord


随着互联网的普及,使用互联网进行文档传送、共享已经成为了各行各业的基本操作,随之而来的就是各种文档安全性、完整性问题,今天我们介绍一个能够在python中使用的api,用于很方便的帮助我们在接收文件时进行完整性、安全性、合规性的检测。该api是免费的,大家快跟随icode9小编一起来看看吧
 

文档验证 API

本文的目的是重点介绍三种 API 解决方案,它们可用于验证各种文档处理应用程序中三种独立且极为常见的文档类型:PDF、Excel XLSX 和Microsoft Word DOCX。这些 API 都可以免费使用,需要一个免费的 API 密钥和几行代码(下面以Python 格式提供)为了您的方便)致电他们的服务。虽然验证上面列出的每种文档类型的过程是唯一的,但每个 API 提供的响应主体都是标准化的,这使得识别是否在每种文档类型中发现错误以及如果是,与该错误相关的警告变得高效和直接. 下面,我将快速概述上述每个文档验证 API 响应中提供的一般信息:

  • DocumentIsValid– 此响应包含一个简单的布尔值,指示所讨论的文档是否基于其编码有效。
  • PasswordProtected– 此响应提供一个布尔值,指示所讨论的文档是否包含密码保护(如果意外,则可能表明存在潜在的安全威胁)。
  • ErrorCount– 此响应提供一个整数,反映在相关文档中检测到的错误数量。
  • WarningCount– 此响应指示 API 响应产生的警告数,与错误计数无关。
  • ErrorsAndWarnings– 此响应类别包括有关文档中识别的每个错误的更多详细信息,包括错误描述、错误路径、错误 URI(统一资源标识符,例如 URL 或 URN)和IsError布尔值。

示范

要使用上面提到的三个 API 中的任何一个,第一步是使用pip下面提供的命令安装 Python SDK:

pip install cloudmersive-convert-api-client

安装完成后,我们可以将注意力转向调用每个 API 服务的各个函数。  

要调用 PDF 验证 API,我们可以使用以下代码:

Python
1、 __future__ 导入 print_function
2、导入 时间

3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client休息 导入 ApiException
5、 pprint 导入 pprint
6
7、# 配置API密钥授权:Apikey

8、配置= cloudmersive_convert_api_client配置()
9、配置api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_clientValidateDocumentApicloudmersive_convert_api_client.ApiClient 配置))_

15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16
17、尝试

18、# 验证 PDF 文档文件
19、api_response = api_instancevalidate_document_pdf_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e
22print ( "调用 ValidateDocumentApi->validate_document_pdf_validation 时出现异常: %s\n" % e )

要调用 Microsoft Excel XLSX 验证 API,我们可以改用以下代码:

Python
1、 __future__ 导入 print_function
2、导入 时间
3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client休息 导入 ApiException
5、 pprint 导入 pprint
6、
7、# 配置API密钥授权:Apikey
8、配置= cloudmersive_convert_api_client配置()
9、配置api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_clientValidateDocumentApicloudmersive_convert_api_client.ApiClient 配置))_
15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16
17、尝试
18、# 验证 Excel 文档 (XLSX)
19、api_response = api_instancevalidate_document_xlsx_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e
22
print ( "调用 ValidateDocumentApi->validate_document_xlsx_validation 时出现异常: %s\n" % e )

最后,要调用 Microsoft Word DOCX 验证 API,我们可以使用下面提供的最终代码片段:

Python
1、 __future__ 导入 print_function
2、导入 时间
3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client休息 导入 ApiException
5、 pprint 导入 pprint
6、
7、# 配置API密钥授权:Apikey
8、配置= cloudmersive_convert_api_client配置()
9、配置api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_clientValidateDocumentApicloudmersive_convert_api_client.ApiClient 配置))_
15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16、
17、尝试
18、# 验证 Word 文档 (DOCX)
19、api_response = api_instancevalidate_document_docx_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e
22
print ( "调用 ValidateDocumentApi->validate_document_docx_validation 时出现异常: %s\n" % e )

请注意,虽然这些 API 在其文档验证过程中确实提供了一些基本的安全优势(即识别文件上的意外密码保护,这是通过网络偷偷窃取恶意文件的常用方法- 密码可以提供给毫无戒心的下游用户),它们不构成完整的安全 API,例如那些专门寻找隐藏在文件中的病毒、恶意软件和其他形式的恶意内容的 API。在进入或离开您的文件存储系统之前,应始终通过特定的安全相关服务(即带有病毒和恶意软件签名的服务)对任何文档(尤其是来自内部网络之外的文档)进行彻底审查。

标签:python文件安全性验证,PDF文档验证,Excel文件验证,MSWord
来源:

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有