python爬虫PyQuery库的使用技巧以及案例

2023-03-27 16:26:23 阅读：204 来源： 互联网

标签：

python爬虫PyQuery库的使用技巧以及案例

PyQuery是一个用于解析HTML文档的Python库，类似于jQuery。下面是一些PyQuery使用技巧和案例：

使用PyQuery解析HTML文档

使用PyQuery解析HTML文档非常简单，只需要将HTML文档作为参数传递给PyQuery对象即可：

php
Copy code
from pyquery import PyQuery as pq

html = '''
<html>
<head>
<title>PyQuery Example</title>
</head>
<body>
<div id="content">
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</div>
</body>
</html>
'''

doc = pq(html)

这样就可以得到一个PyQuery对象，可以使用它来查询和操作HTML文档。

使用CSS选择器查询元素

PyQuery支持使用CSS选择器来查询元素，使用方法类似于jQuery：

scss
Copy code
items = doc('#content ul li')
print(items.text())

这里使用了CSS选择器#content ul li，它表示查询<div id="content">元素下的所有<li>元素。

获取元素属性和文本内容

PyQuery提供了一些方法来获取元素的属性和文本内容，例如：

bash
Copy code
title = doc('title')
print(title.text()) # 获取元素文本内容
print(title.attr('class')) # 获取元素class属性值

遍历元素列表

如果查询结果是一个元素列表，可以使用items()方法来遍历元素列表：

css
Copy code
lis = doc('ul li').items()
for li in lis:
print(li.text())

PyQuery实现实时热点新闻爬取

以下是一个使用PyQuery实现的简单实时热点新闻爬取示例，用于获取搜狐新闻首页上的实时热点新闻标题：

ini
Copy code
import requests
from pyquery import PyQuery as pq

url = 'https://www.sohu.com/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
res = requests.get(url, headers=headers)
html = res.text
doc = pq(html)
news = doc('.area-list1 .list16 .item .title a')
for item in news:
print(item.text)

这个例子首先使用requests库获取搜狐新闻首页的HTML文档，然后使用PyQuery解析HTML文档，并查询实时热点新闻标题所在的元素，最后输出新闻标题。

标签：
来源：

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python爬虫PyQuery库的使用技巧以及案例