ICode9

精准搜索请尝试: 精确搜索
  • python-文档内模式声明和lxml2019-12-10 01:55:23

    根据lxml的官方文档,如果要针对xml模式文档验证xml文档,则必须 >构造XMLSchema对象(基本上,解析模式文档) >构造XMLParser,将XMLSchema对象作为其模式参数传递>使用构造的解析器解析实际的xml文档(实例文档) 可能会有变化,但是无论您如何操作,其本质都差不多,-模式是“外部”指定的

  • python-lxml,序列化时缺少doctype2019-12-09 03:58:16

    In [1]: from lxml import etree 我有一个HTML文档: In [2]: root = etree.fromstring(u'''<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">\n<HTML></HTML>''', etree.HTMLParser()) 正确解析了其doctype: In [3]: root

  • python-使用XPath 1.0提取文本与正则表达式匹配的URL2019-12-08 08:06:14

    我想使用Scrapy中的XPath提取这种类型的URL(链接文本是具有任意数字位数的数字,href是随机文本). >< a href =“ http://www.example.com/link_to_some_page.html\u0026gt;3\u0026lt;/a\u0026gt; >< a href =“ http://www.example.com/another_link-abcd.html\u0026gt;45\u0026lt;

  • python-使用xpath获取部分字符串匹配的html标签2019-12-02 00:57:50

    html代码是盲目的,并且在html中包含字符串“ PRICE”.该部分字符串必须与html文本匹配.如果文本使用xpath匹配(部分匹配),则应返回特定的html标签路径. 注意:我需要针对多个站点自动执行此逻辑,我必须使用通用规则 (用于定位“价格”,获取父标签) 这是示例: html="""<div id = "pric

  • python-如何在从lxml.ElementBase继承的对象中自定义名称空间前缀2019-12-01 19:57:37

    从lxml文档中,我了解到自定义XML元素应继承自ElementBase. 例如,我可以创建 class FactVariable(etree.ElementBase): ''' Class that represents a XBRL fact variable.''' TAG = '{http://xbrl.org/2008/variable}factVariable' @property

  • Python BeautifulSoup错误2019-12-01 10:56:11

    我有这个脚本: import urllib2 from BeautifulSoup import BeautifulSoup import html5lib import lxml soup = BeautifulSoup(urllib2.urlopen("http://www.hitmeister.de").read()) 但这给了我以下错误: Traceback (most recent call last): File "akaConnection.py&q

  • python-lxml etree.parse MemoryAllocation错误2019-12-01 08:57:12

    我正在使用lxml etree.parse解析一个巨大的XML文件(大约65MB-300MB).    当我运行包含以下功能的独立python脚本时,出现内存分配失败: Error: Memory allocation failed : xmlSAX2Characters, line 5350155, column 16 部分功能代码: def getID(): try:

  • python lxml查找标签2019-12-01 06:58:14

    我正在使用lxml解析具有facebook注释标签的html,如下所示: <fb:comments id="fb_comments" href="http://example.com" num_posts="5" width="600"></fb:comments> 我试图选择它以获取href值,但是当我执行cssselect(‘fb:comments’)时,出现以下错误: The pseudo

  • Python,LXML-访问文本2019-12-01 02:09:29

    我目前有点想法,我真的希望您能给我一个提示: 最好用一小段示例代码来解释我的问题: from lxml import etree from io import StringIO testStr = "<b>text0<i>text1</i><ul><li>item1</li><li>item2</li></ul>text2<b/><b>sib</b>

  • 如何使用Python LXML Objectify创建3次相同的XML元素2019-11-27 15:56:02

    几周前,我问了一个关于添加multiple elements的问题,现在我遇到了类似的问题.我必须创建一些XML,其中包含以下内容: <embossed> <line>Test Line</line> <line>Test Line 2</line> <line>Test Line 3</line> </embossed> 我无法弄清楚如何使用LXML objectify.Element(

  • python-lxml element.clear()和访问子元素2019-11-23 08:09:42

    我正在使用lxml.iterparse来解析一个相当大的xml文件.在某个时刻会引发内存不足异常.我知道类似的问题,并且有一棵树,当您不再使用它时,通常应使用element.clear()清除它. 我的代码如下所示(缩短): for event,element in context : if element.tag == xmlns + 'initialized':

  • Python-lxml /获取xpath的全部内容2019-11-22 23:10:05

    仅以Twitter为例,此代码从Twitter页面上抓取了第五条推文.该页面包含一个链接,但是当我尝试使用lxml和xpath将其拉起时,该页面仅显示将链接结尾的文本. 脚本: import urllib2 from lxml import etree xpathselector = "/html/body/div/div[2]/div/div[5]/div[2]/div/ol/li[5]/div/

  • python-从lxml.objectify.IntElement获取str或int2019-11-21 14:07:27

    嗨,我在objectify-element中有一个不同类型值的字典,我想从这些值中获取python类型. 例如 print type(deal['id']) 将打印出来 <type 'lxml.objectify.IntElement'> 但我想要这样的价值 <type 'int'> 非常感谢您的帮助!解决方法:实际上,只需处理deal [‘id’].pytype. 由于我

  • 找出CDATA在lxml元素中的位置?2019-11-21 11:05:43

    我需要解析并重建解析器使用的文件格式,解析器使用一种只能慈善地描述为XML的语言.我意识到符合标准的XML并不关心CDATA或空白,但是不幸的是,此应用程序要求我同时关心这两个… 我使用的是lxml.etree,因为它非常擅长保存CDATA. 例如: s = ''' <root> <item> <![CDATA[whatev

  • python-使用lxml处理请求中的html. TypeError:无法腌制_ElementUnicodeResult对象2019-11-21 05:59:01

    我正在尝试在页面上的特定xpath上找到数据.我可以通过请求到达页面.通过使用r.text将源代码打印到屏幕上,并将显示的文本与我要查找的文本进行比较,我已经验证我处于正确的页面. r.text返回的字符串很难提取我想要的信息.我被告知lxml是通过xpath搜索信息的一种方式.不幸的是,我收

  • 类属性被认为是python 2.7中的抽象方法-abc模块2019-11-20 23:59:21

    我试图用一个抽象方法(addfeature)来实现一个抽象超类(Base),Child类将覆盖它. from lxml.builder import ElementMaker from abc import ABCMeta, abstractmethod class Base(object): __metaclass__ = ABCMeta ns = "http://www.foo.com/bar" em = ElementMaker(n

  • python-lxml和in2019-11-19 19:55:37

    我在lxml中遇到了一个奇怪的错误: >>> s = '<html><head><noscript></noscript><script></script><meta></head></html>' >>> root = lxml.html.fromstring(s) >>> root.xpath('/html/

  • python-从lxml导入etree的“未定义符号:__xmlStructuredErrorContext”2019-11-19 15:56:32

    >>> import lxml >>> from lxml import etree Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: /usr/local/lib/python3.4/site-packages/lxml/etree.cpython-34m.so: undefined symbol: __

  • 用Python解析HTML-有些页面可以工作,有些不能…?2019-11-19 03:56:17

    使用以下脚本: from lxml import html import requests gameUrl = 'http://store.401games.ca/catalog/2415520/caylus' page = requests.get(gameUrl) tree = html.fromstring(page.content) stock = tree.xpath('//*[@id="stock"]/span[1]/div/*/text

  • python-Pip无法安装Dryscrape2019-11-18 12:59:10

    我正在尝试使用pip在Windows 10 Labtop上安装dryscrape,并且安装了python 3.5. 我从…开始 C:\Users\Nick L>pip install dryscrape Collecting dryscrape Collecting webkit-server>=1.0 (from dryscrape) Using cached webkit-server-1.0.tar.gz Requirement already satisfie

  • 如何通过网络抓取NBA的首发阵容?2019-11-08 12:56:47

    我是网络爬虫的新手,可以使用一些帮助.我想使用Xpath抓取NBA的首发阵容,球队和球员的位置.我只是从名字开始,因为我遇到了问题. 到目前为止,这是我的代码: from urllib.request import urlopen from lxml.html import fromstring url = "https://www.lineups.com/nba/lineups"

  • 使用DTD验证XML无法使用lxml导入实体2019-11-05 20:05:43

    我有一个生成NewsML类型XML文件的工具,我想在生成文件后对其进行验证. 我收到一个错误: 尝试加载网络实体http://www.w3.org/TR/ruby/xhtml-ruby-1.mod python调用是: parser = etree.XMLParser(load_dtd=True, dtd_validation=True) treeObject = etree.parse(f, parser) 首先,我

  • 像使用C#读取python的lxml一样读取XML文件吗?2019-11-05 19:07:16

    <Connections> <Connection ID = "1" Source="1:0" Sink="4:0"/> <Connection ID = "2" Source="2:0" Sink="4:1"/> <Connection ID = "3" Source="2:0&q

  • python-lxml.etree和xml.etree.ElementTree添加不带前缀的名称空间(ns0,ns1等)2019-11-05 17:09:24

    有没有解决方案可以添加不带前缀的命名空间(我的意思是这些ns0,ns1),它们可以在所有etree实现上使用,或者每个解决方案都可以使用? 目前,我有以下解决方案: > lxml-元素的nsmap参数 >(c)ElementTree(python 2.6)-使用空字符串作为前缀注册名称空间方法 问题是(c)python 2.5中的Elemen

  • 用Python的方式有条件地遍历列表中的项目2019-11-03 00:55:19

    一般来说,这是编程的新手,所以我可能会以错误的方式进行操作.我正在编写一个lxml解析器,在这里我想省略解析器输出中没有内容的HTML表行.这就是我得到的: for row in doc.cssselect('tr'): for cell in row.cssselect('td'): sys.stdout.write(cell.text_content() + '

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有