ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python – 使用lxml解析奇怪的结构化XML

2019-08-26 19:08:06  阅读:261  来源: 互联网

标签:python xml parsing lxml


我有许多需要解析的XML文件.我写了一些有用的代码,但很难看,我想从比我更有经验的人那里得到一些建议.

首先,我可能在错误的上下文中使用了一些术语,因为我对XML的经验是有限的.按元素,除非另有说明,我的意思是这样的:

 <root>
  <element>
   ...
  </element>
  <element>
   ...
  </element>
 </root>  

无论如何,每个文件都包含许多元素,其中包含许多子元素(显然).让我感到困惑的是,需要以四种不同的方式获取相关的价值观;

1)节点文本:

<tag>value</tag>

2)属性:

<tag attribute="value"></tag>

3)标签内“隐藏”的值(在这种情况下为“true”):

<tag><boolean.true/></tag>

4)同名标签内的值(“tagA”),但具有不同名称的“祖父母”标签(“tag1”和“tag2”),都在同一元素内. “tagA”对我没用,相反我会寻找“tag1”和“tag2”.

<element>
   <tag1><tagA>value</tagA><tag1>
   <tag2><tagA>value</tagA></tag2>
</element>

目前我有一个字典,每个文件都是一个关键字.值是带有“属性”,“节点文本”,“标记”和“父元素”键的字典.

例:

{'file1.xml' : 'attributes' : {'Person': 'Id', 'Car' : 'Color'},
               'node text': ['Name', 'Address'],
}

“Person”和“Car”是标签,“Id”和“Color”是属性名称.

这使得迭代所有元素并检查每个标记变得容易,如果字典中存在匹配(如果dict [‘file1.xml’] [‘attributes’]中的elem.tag),则提取值.

正如我所说,代码有效,但我不喜欢我的解决方案.此外,并非所有元素都具有所有子元素(例如,Person可能没有汽车,那么该标签将完全丢失),我需要将这些值分配给“None”.现在我得到每个文件中每个元素应该存在的所有标记,将它们变成一个集合,然后检查它们与我实际从该元素中提取值的标记集之间的差异.再一次,代码非常难看.

希望这个烂摊子有道理.

编辑:

我使用了J.F.Sebastian建议将xpath存储到字典中的每个值,字段名称为键,xpath为值.

解决方法:

您可以使用相对于元素的xpath表达式而不是复杂的数据结构来简化输入代码,例如,#1-4情况:

>标签/文字()
> tag / @ attribute
> name(DTBoolean / * [1])
>(tag1 | tag2)/ * / text()

要使用哪种输出数据结构取决于您希望以后如何在代码中使用它.您可以从对当前代码最方便的结构开始.当您更好地理解要求时,将其演变为更通用的解决方案.

I output it to csv, where each element is one row in the csv file.

I use a defaultdict to store the elements and then store those in a list before I output them to csv.

你可以使用普通的dict和csv.DictWriter(fieldnames = xpathdict.keys()):

# for each element
row_dict = dict.fromkeys(xpathdict.keys())
...
# for each key 
row_dict[key] = element.xpath(xpathdict[key]) or None
...
dictwriter.writerow(row_dict)

其中xpathdict是字段名称和相应的xpath表达式之间的映射.一般来说,你可以存储函数对象f(元素) – > csv字段而不是/除xpath exprs之外.

标签:python,xml,parsing,lxml
来源: https://codeday.me/bug/20190826/1732876.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有