lxml

python-爬虫基础-lxml.etree(3)-Elementtree类2019-08-30 22:39:35

''' Elementtree 主要是一个包装在具有根节点的树周围的文档。它提供了一些用于序列化和一般文档处理的方法。 ''' root = etree.XML('''\ <?xml version="1.0"?> <!DOCTYPE root SYSTEM "test" [ <!ENTITY tasty "parsnips"&
XPath到Python中的命名空间XML？2019-08-30 21:58:35

我正在使用带xpath的lxml来解析epub3,xhtml内容文件. 我想选择属性为epub的所有li节点：type =“footnote” 例如 <li epub:type="footnote" id="fn14"> ... </li> 我找不到合适的xpath表达式. 表达方式 //*[self::li][@id] 选择具有属性id的所有li节点,但是当我尝试时 //*[self
如何使用Python和lxml选择“加载更多结果”按钮2019-08-30 18:55:05

我在抓一个网页.该网页包含50个条目.在50个条目之后它给出了一个加载更多reults按钮.我需要自动选择它.我该怎么做.对于抓取我使用的是Python,Lxml.解决方法:即使JavaScript使用http请求来获取数据,因此一种方法是调查,当用户要求“加载更多结果”并模拟这些请求时,哪些请求提供数
Python XML解析,lxml,urllib.request2019-08-30 05:58:48

我试图解析从url检索到的XML文件有点困难,我的目标是将这个xml文件放到一个结构良好的对象中,以便轻松检索其数据.我当前的代码导致以下错误： >>> tree = etree.parse(data) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "lxml.etree.pyx", l
使用xpath查找包含某些特定文本的xml元素,或使用lxml在python中查找2019-08-30 02:56:10

我试图找到所有具有值abc的书元素,即名称标签值.我用过xpath： val = xml1.xpath(‘// bookstore / book / name [text()=“abc”]’) 但它正在返回无. <bookstore> <book> <name>abc</name> <price>30</price> </book> <book> <name>Learnin
python – 未定义的符号：在ubuntu上使用’lxml’时出现PyFPE_jbuf错误2019-08-29 09:55:08

我试图将’lxml’库导入我的python程序,如下所示. from lxml import etree 但是,我收到的错误是’未定义的符号：PyFPE_jbuf’.这是整个堆栈跟踪 File "xmlExtract.py", line 4, in <module> from lxml import etree ImportError: /usr/local/lib/python3.4/dist-packages/lxml/et
python – 如何获取标记后的文本2019-08-26 20:05:52

如何在找到标记后获取文本例： #!/usr/bin/env python import lxml.html html = """ <b>Point1:</b> Text1 <br> <b>Point2:</b> Text2 <br> ... <b>PointN:</b> TextN <b>PointN+1:</b> TextN+1<br>
python – 使用lxml解析奇怪的结构化XML2019-08-26 19:08:06

我有许多需要解析的XML文件.我写了一些有用的代码,但很难看,我想从比我更有经验的人那里得到一些建议. 首先,我可能在错误的上下文中使用了一些术语,因为我对XML的经验是有限的.按元素,除非另有说明,我的意思是这样的： <root> <element> ... </element> <element> ...
python – lxml classic：获取除嵌套标签之外的文本内容？2019-08-26 18:07:53

这绝对是经典,但我在这里找不到答案.我正在使用lxml cssselect解析以下标记： <li><a href="/stations/1"><span class="num">3</span> Detroit</a></li> 我想获得< li>的内容标签没有< span>的内容标签. 目前我有： stop_list = doc.cssselect('o
jquery – 直接LXML或PyQuery2019-08-26 18:07:33

有没有人有直接lxml与PyQuery刮擦的经验.我刚刚遇到了后者,并对此很感兴趣.我还没有找到很多关于该库的评论,所以我很好奇它是多么强大. 我熟悉lxml,一般都喜欢它.但是,使用jQuery选择器语法会很好. 这个开关值得吗？谢谢！解决方法:只有你能回答它是否值得的问题. 它只取决于你是否想
使用python和lxml从表中提取文本2019-08-26 17:09:55

我最近看到另一位用户提出了一个关于从网络表Extracting information from a webpage with python中提取信息的问题.来自ekhumoro的答案在其他用户询问的页面上运行得很好.见下文. from urllib2 import urlopen from lxml import etree url = 'http://www.uscho.com/standings/di
爬取个人随笔内容——练手，待补充2019-08-26 17:03:23

import requests,lxmlfrom bs4 import BeautifulSoupurl='https://www.cnblogs.com/wjlv/default.html?page=2' # 打开网页html_index = requests.get(url).text # 获取请求内容soap = BeautifulSoup(html_index,"lxml")a_list = soap.find_all('a',{&q
python – 获取lxml中特定名称的所有节点？2019-08-26 10:06:31

我发现lxml的初始学习曲线有点陡峭 – 只是常见的任务,比如按名称,属性抓取节点,并获取其内容.这是一个非常简单的问题. 我有一个XML文件.我想找到所有名为< Review>的XML节点.如何使用lxml最有效地完成此操作？ f = open('./test.xml') xml = f.read() tree = etree.parse(StringIO
如何使用Python在多行文本中搜索XPath中的内容？2019-08-26 09:05:53

当我使用contains搜索元素的text()中数据的存在时,它适用于普通数据,但是当元素内容中有回车符,新行/标记时则不行.如何使// td [contains(text(),“”)]在这种情况下工作？谢谢！ XML： <table> <tr> <td> Hello world <i> how are you? </i> Have a wonderful day.
如何使用lxml objectify获取xmlns属性？2019-08-26 02:57:47

我有几个xml文件正在处理.他们有不同的根元素.这里是其中的一些. <rss xmlns:npr="http://www.npr.org/rss/" xmlns:nprml="http://api.npr.org/nprml" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:content="http://purl.org/rss/1.0/modul
python – 解析lxml中的html主体片段2019-08-25 18:56:37

我正在尝试解析html的片段： <body><h1>title</h1><img src=""></body> 我使用lxml.html.fromstring.它让我疯狂,因为它不断剥离< body>我的片段的标签： > lxml.html.fromstring('<html><h1>a</h1></html>').tag
python中的beautifulsoup和xpath有什么异同点2019-08-20 17:37:12

python中的beautifulsoup和xpath有什么异同点 Xpath 必然是要比 BeautifulSoup 在时间和空间上都要性能更好一些。其中理由有很多，其中一个很明显的是 BeautifulSoup 在构建一个对象的时候需要传入一个参数以指定解析器，而在它支持的众多的解析器中，lxml 是性能最佳的，那么
python爬虫网页解析之lxml模块2019-08-06 19:01:57

08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装：方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl #文件所在的路径 linux下安
lxml库2019-08-06 17:53:26

lxml 介绍 lxml 是一个 HTML/XML 的解析器，主要的功能是如何解析和提取 HTML/XML 数据 lxml 和正则一样，用 C 语言实现的，是一款高性能的 Python HTML/XML 解析器，可以利用 XPath 语法，快速定位元素以及节点的信息 lxml Python 官方文档：https://lxml.de/index.html 安装命令：pip install
python – lxml更改Unicode字符2019-07-30 15:55:57

我正在使用lxml来读取xml文件并更改一些细节.但是,在运行它时,我发现即使我只是使用lxml读取文件然后再将其写出来,如下所示： fil='iTunes Music Library.XML' tre=etree.parse(fil) tre.write('temp.xml') 我发现Queensrÿche转换为Queensrÿ che.有人知道怎么修这个东西吗？解
Python：将HTML片段分隔为段落2019-07-30 14:58:21

我有一段包含段落的HTML代码. (我的意思是p标签.)我想把字符串分成不同的段落.例如： ''' <p class="my_class">Hello!</p> <p>What's up?</p> <p style="whatever: whatever;">Goodbye!</p> ''' 应该成为： ['&
在Windows上安装python mechanize lxml2019-07-29 16:55:57

在Windows上安装python 2 plus lxml plus mechanize的最简单方法是什么？我正在寻找一个易于遵循的解决方案,并且还可以在将来轻松安装其他库(鸡蛋？). 编辑我希望能够安装需要编译器的库. Ruby for windows有一个开发工具包,可以让你轻松安装需要编译器的宝石.我正在寻找类似的Python
CentOS 6.3上的Python lxml etree2019-07-29 07:56:05

我的服务器上有Centos 6,我一直在尝试为它安装一些软件包(模块).我只是把我的窗口上的那些带到了/usr/lib/python2.6/site-packages中的ftp客户端,但当我运行我的脚本时,其中一个–lxml给了我一个错误： File "plugins/util/http.py", line 12, in <module> from lxml import et
使用lxml刮取动态html字段2019-07-27 16:56:58

我一直在尝试使用lxml抓取HTML页面的动态字段代码非常简单,如下所示： from lxml import html import requests page = requests.get('http://www.airmilescalculator.com/distance/blr-to-cdg/') tree = html.fromstring(page.content) miles = tree.xpath('//input[@class="dista
python – 在不使用DOM方法的情况下迭代解析大型XML文件2019-07-26 02:06:40

我有一个xml文件 <temp> <email id="1" Body="abc"/> <email id="2" Body="fre"/> . . <email id="998349883487454359203" Body="hi"/> </temp> 我想阅读每个电子邮件标签的xml文件.也就是说,

首页 < 5 6 7 8 > 尾页

ICode9

python-爬虫基础-lxml.etree(3)-Elementtree类2019-08-30 22:39:35

XPath到Python中的命名空间XML？2019-08-30 21:58:35

如何使用Python和lxml选择“加载更多结果”按钮2019-08-30 18:55:05

Python XML解析,lxml,urllib.request2019-08-30 05:58:48

使用xpath查找包含某些特定文本的xml元素,或使用lxml在python中查找2019-08-30 02:56:10

python – 未定义的符号：在ubuntu上使用’lxml’时出现PyFPE_jbuf错误2019-08-29 09:55:08

python – 如何获取标记后的文本2019-08-26 20:05:52

python – 使用lxml解析奇怪的结构化XML2019-08-26 19:08:06

python – lxml classic：获取除嵌套标签之外的文本内容？2019-08-26 18:07:53

jquery – 直接LXML或PyQuery2019-08-26 18:07:33

使用python和lxml从表中提取文本2019-08-26 17:09:55

爬取个人随笔内容——练手，待补充2019-08-26 17:03:23

python – 获取lxml中特定名称的所有节点？2019-08-26 10:06:31

如何使用Python在多行文本中搜索XPath中的内容？2019-08-26 09:05:53

如何使用lxml objectify获取xmlns属性？2019-08-26 02:57:47

python – 解析lxml中的html主体片段2019-08-25 18:56:37

python中的beautifulsoup和xpath有什么异同点2019-08-20 17:37:12

python爬虫网页解析之lxml模块2019-08-06 19:01:57

lxml库2019-08-06 17:53:26

python – lxml更改Unicode字符2019-07-30 15:55:57

Python：将HTML片段分隔为段落2019-07-30 14:58:21

在Windows上安装python mechanize lxml2019-07-29 16:55:57

CentOS 6.3上的Python lxml etree2019-07-29 07:56:05

使用lxml刮取动态html字段2019-07-27 16:56:58

python – 在不使用DOM方法的情况下迭代解析大型XML文件2019-07-26 02:06:40