使用Python lxml和Iterparse解析大型XML文件

2019-10-09 06:08:34 阅读：401 来源： 互联网

标签：python xml lxml large-files iterparse

我正在尝试使用lxml和iterparse方法编写解析器来逐步执行包含许多项的非常大的xml文件.

我的文件格式为：

<item>
  <title>Item 1</title>
  <desc>Description 1</desc>
  <url>
     <item>http://www.url1.com</item>
  </url>
</item>
<item>
  <title>Item 2</title>
  <desc>Description 2</desc>
  <url>
     <item>http://www.url2.com</item>
  </url>
</item>

到目前为止我的解决方案是：

from lxml import etree

context = etree.iterparse( MYFILE, tag='item' )

for event, elem in context :
      print elem.xpath( 'description/text( )' )
      elem.clear( )
      while elem.getprevious( ) is not None :
            del elem.getparent( )[0]

del context

当我运行它时,我得到类似的东西：

[]
['description1']
[]
['description2']

空白集是因为它还将子项的项标记拉出到url标记,并且它们显然没有用xpath提取的描述字段.我希望逐个解析每个项目,然后根据需要处理子字段.我有点只是学习lxml图书馆,所以我很好奇是否有办法拉出主要项目,如果遇到任何子项目？

解决方法:

无论如何,核心实现都会解析整个xml. etree.iterparse只是生成器样式中的一个视图,它通过标记名称提供简单的过滤(请参阅docstring http://lxml.de/api/lxml.etree.iterparse-class.html).
如果你想要一个复杂的过滤,你应该自己做.

解决方案：注册启动事件：

iterparse(self, source, events=("start", "end",), tag="item")

当你是“item / url / item”时,有一个bool知道你何时在“item”结束.

标签：python,xml,lxml,large-files,iterparse
来源： https://codeday.me/bug/20191009/1877193.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

使用Python lxml和Iterparse解析大型XML文件