如何使用python中的elementtree处理xml文件中格式不正确的字符

2019-11-01 05:06:02 阅读：206 来源： 互联网

标签：elementtree xml python xml-parsing

我正在使用ElementTree.parse函数解析用utf-16编码的xml文件.
当文件包含一些格式不正确的字符(例如♀,♂等)时,程序将崩溃.并且发生错误“ xml.parsers.expat.ExpatError：格式不正确(无效的令牌)”.
如何避免此错误并解决此问题？我怎么能忽略这些格式不正确的字符？谢谢！下面是我的代码：

tree = ElementTree()
root = tree.parse(xml_file)

xml_file是以UTF-16格式编码的文件.
该错误将指出格式不正确的字符的行和列号.

解决方法:

由于xml.parsers.expat.ParserCreate仅支持四种编码,因此我将全部尝试.这些编码是：
UTF-8,UTF-16,ISO-8859-1(Latin1)和ASCII.

您现在可以使用以下编码运行ElementTree.parse：

from xml.etree.ElementTree import ElementTree
from xml.parsers import expat
tree = ElementTree()
root = tree.parse(xml_file, parser=expat.ParserCreate('UTF-8') )
root = tree.parse(xml_file, parser=expat.ParserCreate('UTF-16') )
root = tree.parse(xml_file, parser=expat.ParserCreate('ISO-8859-1') )
root = tree.parse(xml_file, parser=expat.ParserCreate('ASCII') )

标签：elementtree,xml,python,xml-parsing
来源： https://codeday.me/bug/20191101/1981389.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

如何使用python中的elementtree处理xml文件中格式不正确的字符