12-爬取小说网实战

2021-12-11 22:01:31 阅读：163 来源： 互联网

标签：--- 12 group re resp 爬取 item nbsp 小说网

我们把小说名、是否完结、男主名字、女主名字都给爬取下来

import requests
import re

url = "http://m.pinsuu.com/paihang/nanpindushi/"

headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Mobile Safari/537.36 Edg/96.0.1054.43"
}

resp = requests.get(url, headers=headers)
resp.encoding = 'gb2312'
html = resp.text  # 获取页面源代码


obj = re.compile(r'.*?<span class="nm">(?P<name>.*?)&nbsp;&nbsp;&nbsp;<font size="0.5rem" color="#999999">(?P<status>.*?)</font></span>.*?<span><font color="#3ca5f6">(?P<nanzhu>.*?)</font></span>.*?<span><font color="#FF00D2">(?P<nvzhu>.*?)</font></span>', re.S)

result = obj.finditer(html)

for item in result:
    print(item.group("name") + "---" + item.group("status") + "---" + item.group("nanzhu") + "---" + item.group("nvzhu"))

resp.close()

/
/
/
/
我们可以通过csv将我们爬取的数据进行保存，方便日后进行分析

标签：---,12,group,re,resp,爬取,item,nbsp,小说网
来源： https://www.cnblogs.com/morehair/p/15677307.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

12-爬取小说网实战