ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

【python爬虫实战】爬取小说,lxml报错

2022-01-17 19:02:59  阅读:204  来源: 互联网

标签:lxml headers python text BeautifulSoup url html 报错


lxml报错

前言

爬虫小白,因为第三方库lxml焦头烂额了一个下午,开始时pip版本报错,setting中安装失败,后来在terminal中安装成功,把安装包人工转移到site-packages,还是报错``
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml.

解决方法:将BeautifulSoup(html,‘lxml’)改为BeautifulSoup(html,‘lxml’)BeautifulSoup(html,‘html_parser’)

代码:

# 实战:爬取小说

main_url = 'https://www.pilibook.com/book/1922.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Mobile Safari/537.36'
}
page_text = requests.get(url=main_url, headers=headers).text
fp = open('./《兼职无常后我红了》.txt', 'w', encoding='utf-8')
soup = BeautifulSoup(page_text, 'html.parser')
a_list = soup.select('.list_xm > ul > li > a')

for a in a_list:
    title = a.text
    detail_url = a['href']

    page_text_detail = requests.get(url=detail_url, headers=headers).text
    soup = BeautifulSoup(page_text_detail, 'html.parser')
    div_tag = soup.find('div', class_="content_novel")
    content = div_tag.text
    fp.write(title + ':' + content + '\n')
    print(title, '保存成功!!!')
fp.close()

运行结果:
在这里插入图片描述

标签:lxml,headers,python,text,BeautifulSoup,url,html,报错
来源: https://blog.csdn.net/haomingzhuo/article/details/122545485

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有