使用iTextSharp(C#)从PDF中提取嵌入式XML

2019-11-20 20:08:00 阅读：487 来源： 互联网

我需要使用C#提取嵌入在Bankruptcy court files中的XML数据.在PDF Reader中,文件看起来像是典型的法庭文档.在记事本中,XML被埋在文本中.我尝试使用SimpleTextExtractionStrategy提取具有this和another code snippet的文本.第一个输出的文件中没有来自PDF的可识别文本,第二个输出的文件符号.我还尝试将其作为AcroField和Xfaform访问.似乎不是基于“监视”窗口的那些.

单步执行Visual Studio中的代码,XML出现在PDFReader>>下.目录>>键>>原始>>非公众成员>>监视窗口中的字典.我不知道如何到达.因为它在Watch中与其他PDFName一起列出,所以我认为我可以通过PDFReader.Catalog.GetAsDict访问它,但它不会显示为PDFName.这些文件的提供者有一个Java应用程序,似乎只读取文本.不知道我是否需要使用其他提取策略,还是直接访问包含XML的目录项.我从来没有以编程方式使用PDF文件或iTextSharp,所以我很挣扎.有任何代码建议吗？

解决方法:

如果您可以将PDF与嵌入式XML共享,将很有帮助.当我第一次阅读您的问题时,我假设XML将作为文档级附件(存储在EmbeddedFiles中)或作为附件注释(存储在添加到页面字典中的Annot中)添加.

读取uscourts.gov上写的内容后,看起来XML实际上是XMP流.这意味着您可以在目录的“元数据”条目中找到它(或者可以在页面字典中找到它).

如果您无法共享文件,则必须自己做.您可以通过下载iText RUPS来做到这一点.它是一个免费的工具,可用于查看PDF.

浏览树结构,查找元数据,查找EmbeddedFiles,查找Annots.如果您不告诉我们XML的嵌入方式,那么没有人能够为您提供帮助.

有关示例,请参见我对以下问题的回答：How to delete attachment of PDF using itext
(看看我如何使用RUPS查看目录>名称> EmbeddedFiles).

额外说明：到目前为止,您尝试过的代码是有关从页面提取文本的,而不是有关提取嵌入PDF的XML文件的.

更新：

现在,您已经共享了文件,我已经使用RUPS查找XML文件.看一下以下屏幕截图：

你看到这里发生了什么吗？有人在目录中添加了一个名为/ USCTbankruptcynotice的自定义条目,其字符串作为值.太错了：将文件存储在字符串中是一个坏主意.该开发人员为什么不将文件存储为流？对于雇用这样的开发人员的人,我感到很难过.

话虽如此,这是提取XML的方式：

PdfDictionary catalog = reader.Catalog;
PdfName name = new PdfName("USCTbankruptcynotice");
PdfString USCTbankruptcynotice = catalog.GetAsString(key);
string xml = USCTbankruptcynotice.ToString();

这是从内存写入的.如果您需要进行小的更正,请更新我的答案.

标签：pdf,itextsharp,c
来源： https://codeday.me/bug/20191120/2046519.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

使用iTextSharp(C#)从PDF中提取嵌入式XML