ICode9

精准搜索请尝试: 精确搜索
  • python-爬虫基础-lxml.etree(3)-Elementtree类2019-08-30 22:39:35

    ''' Elementtree 主要是一个包装在具有根节点的树周围的文档。 它提供了一些用于序列化和一般文档处理的方法。 ''' root = etree.XML('''\ <?xml version="1.0"?> <!DOCTYPE root SYSTEM "test" [ <!ENTITY tasty "parsnips"&

  • XPath到Python中的命名空间XML?2019-08-30 21:58:35

    我正在使用带xpath的lxml来解析epub3,xhtml内容文件. 我想选择属性为epub的所有li节点:type =“footnote” 例如 <li epub:type="footnote" id="fn14"> ... </li> 我找不到合适的xpath表达式. 表达方式 //*[self::li][@id] 选择具有属性id的所有li节点,但是当我尝试时 //*[self

  • 如何使用Python和lxml选择“加载更多结果”按钮2019-08-30 18:55:05

    我在抓一个网页.该网页包含50个条目.在50个条目之后它给出了一个 加载更多reults按钮.我需要自动选择它.我该怎么做.对于抓取我使用的是Python,Lxml.解决方法:即使JavaScript使用http请求来获取数据,因此一种方法是调查,当用户要求“加载更多结果”并模拟这些请求时,哪些请求提供数

  • Python XML解析,lxml,urllib.request2019-08-30 05:58:48

    我试图解析从url检索到的XML文件有点困难,我的目标是将这个xml文件放到一个结构良好的对象中,以便轻松检索其数据.我当前的代码导致以下错误: >>> tree = etree.parse(data) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "lxml.etree.pyx", l

  • 使用xpath查找包含某些特定文本的xml元素,或使用lxml在python中查找2019-08-30 02:56:10

    我试图找到所有具有值abc的书元素,即名称标签值.我用过xpath: val = xml1.xpath(‘// bookstore / book / name [text()=“abc”]’) 但它正在返回无. <bookstore> <book> <name>abc</name> <price>30</price> </book> <book> <name>Learnin

  • python – 未定义的符号:在ubuntu上使用’lxml’时出现PyFPE_jbuf错误2019-08-29 09:55:08

    我试图将’lxml’库导入我的python程序,如下所示. from lxml import etree 但是,我收到的错误是’未定义的符号:PyFPE_jbuf’.这是整个堆栈跟踪 File "xmlExtract.py", line 4, in <module> from lxml import etree ImportError: /usr/local/lib/python3.4/dist-packages/lxml/et

  • python – 如何获取标记后的文本2019-08-26 20:05:52

    如何在找到标记后获取文本 例: #!/usr/bin/env python import lxml.html html = """ <b>Point1:</b> Text1 <br> <b>Point2:</b> Text2 <br> ... <b>PointN:</b> TextN <b>PointN+1:</b> TextN+1<br>

  • python – 使用lxml解析奇怪的结构化XML2019-08-26 19:08:06

    我有许多需要解析的XML文件.我写了一些有用的代码,但很难看,我想从比我更有经验的人那里得到一些建议. 首先,我可能在错误的上下文中使用了一些术语,因为我对XML的经验是有限的.按元素,除非另有说明,我的意思是这样的: <root> <element> ... </element> <element> ...

  • python – lxml classic:获取除嵌套标签之外的文本内容?2019-08-26 18:07:53

    这绝对是经典,但我在这里找不到答案.我正在使用lxml cssselect解析以下标记: <li><a href="/stations/1"><span class="num">3</span> Detroit</a></li> 我想获得< li>的内容标签没有< span>的内容标签. 目前我有: stop_list = doc.cssselect('o

  • jquery – 直接LXML或PyQuery2019-08-26 18:07:33

    有没有人有直接lxml与PyQuery刮擦的经验.我刚刚遇到了后者,并对此很感兴趣.我还没有找到很多关于该库的评论,所以我很好奇它是多么强大. 我熟悉lxml,一般都喜欢它.但是,使用jQuery选择器语法会很好. 这个开关值得吗? 谢谢!解决方法:只有你能回答它是否值得的问题. 它只取决于你是否想

  • 使用python和lxml从表中提取文本2019-08-26 17:09:55

    我最近看到另一位用户提出了一个关于从网络表Extracting information from a webpage with python中提取信息的问题.来自ekhumoro的答案在其他用户询问的页面上运行得很好.见下文. from urllib2 import urlopen from lxml import etree url = 'http://www.uscho.com/standings/di

  • 爬取个人随笔内容——练手,待补充2019-08-26 17:03:23

    import requests,lxmlfrom bs4 import BeautifulSoupurl='https://www.cnblogs.com/wjlv/default.html?page=2' # 打开网页html_index = requests.get(url).text # 获取请求内容soap = BeautifulSoup(html_index,"lxml")a_list = soap.find_all('a',{&q

  • python – 获取lxml中特定名称的所有节点?2019-08-26 10:06:31

    我发现lxml的初始学习曲线有点陡峭 – 只是常见的任务,比如按名称,属性抓取节点,并获取其内容.这是一个非常简单的问题. 我有一个XML文件.我想找到所有名为< Review>的XML节点.如何使用lxml最有效地完成此操作? f = open('./test.xml') xml = f.read() tree = etree.parse(StringIO

  • 如何使用Python在多行文本中搜索XPath中的内容?2019-08-26 09:05:53

    当我使用contains搜索元素的text()中数据的存在时,它适用于普通数据,但是当元素内容中有回车符,新行/标记时则不行.如何使// td [contains(text(),“”)]在这种情况下工作?谢谢! XML: <table> <tr> <td> Hello world <i> how are you? </i> Have a wonderful day.

  • 如何使用lxml objectify获取xmlns属性?2019-08-26 02:57:47

    我有几个xml文件正在处理.他们有不同的根元素.这里是其中的一些. <rss xmlns:npr="http://www.npr.org/rss/" xmlns:nprml="http://api.npr.org/nprml" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:content="http://purl.org/rss/1.0/modul

  • python – 解析lxml中的html主体片段2019-08-25 18:56:37

    我正在尝试解析html的片段: <body><h1>title</h1><img src=""></body> 我使用lxml.html.fromstring.它让我疯狂,因为它不断剥离< body>我的片段的标签: > lxml.html.fromstring('<html><h1>a</h1></html>').tag 

  • python中的beautifulsoup和xpath有什么异同点2019-08-20 17:37:12

    python中的beautifulsoup和xpath有什么异同点 Xpath 必然 是要比 BeautifulSoup 在时间和空间上都要性能更好一些。 其中理由有很多,其中一个很明显的是 BeautifulSoup 在构建一个对象的时候需要 传入一个参数以指定解析器,而在它支持的众多的解析器中,lxml 是性能最佳的 ,那么

  • python爬虫网页解析之lxml模块2019-08-06 19:01:57

    08.06自我总结 python爬虫网页解析之lxml模块 一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl #文件所在的路径 linux下安

  • lxml库2019-08-06 17:53:26

    lxml 介绍 lxml 是一个 HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数据 lxml 和正则一样,用 C 语言实现的,是一款高性能的 Python HTML/XML 解析器,可以利用 XPath 语法,快速定位元素以及节点的信息 lxml Python 官方文档:https://lxml.de/index.html 安装命令:pip install

  • python – lxml更改Unicode字符2019-07-30 15:55:57

    我正在使用lxml来读取xml文件并更改一些细节.但是,在运行它时,我发现即使我只是使用lxml读取文件然后再将其写出来,如下所示: fil='iTunes Music Library.XML' tre=etree.parse(fil) tre.write('temp.xml') 我发现Queensrÿche转换为Queensr&#255; che.有人知道怎么修这个东西吗?解

  • Python:将HTML片段分隔为段落2019-07-30 14:58:21

    我有一段包含段落的HTML代码. (我的意思是p标签.)我想把字符串分成不同的段落.例如: ''' <p class="my_class">Hello!</p> <p>What's up?</p> <p style="whatever: whatever;">Goodbye!</p> ''' 应该成为: ['&

  • 在Windows上安装python mechanize lxml2019-07-29 16:55:57

    在Windows上安装python 2 plus lxml plus mechanize的最简单方法是什么?我正在寻找一个易于遵循的解决方案,并且还可以在将来轻松安装其他库(鸡蛋?). 编辑 我希望能够安装需要编译器的库. Ruby for windows有一个开发工具包,可以让你轻松安装需要编译器的宝石.我正在寻找类似的Python

  • CentOS 6.3上的Python lxml etree2019-07-29 07:56:05

    我的服务器上有Centos 6,我一直在尝试为它安装一些软件包(模块).我只是把我的窗口上的那些带到了/usr/lib/python2.6/site-packages中的ftp客户端,但当我运行我的脚本时,其中一个–lxml给了我一个错误: File "plugins/util/http.py", line 12, in <module> from lxml import et

  • 使用lxml刮取动态html字段2019-07-27 16:56:58

    我一直在尝试使用lxml抓取HTML页面的动态字段 代码非常简单,如下所示: from lxml import html import requests page = requests.get('http://www.airmilescalculator.com/distance/blr-to-cdg/') tree = html.fromstring(page.content) miles = tree.xpath('//input[@class="dista

  • python – 在不使用DOM方法的情况下迭代解析大型XML文件2019-07-26 02:06:40

    我有一个xml文件 <temp> <email id="1" Body="abc"/> <email id="2" Body="fre"/> . . <email id="998349883487454359203" Body="hi"/> </temp> 我想阅读每个电子邮件标签的xml文件.也就是说,

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有