标签:唯美 img python resp bs4 href child page 页面
文章目录
前言
本篇文章主要介绍使用bs4解析来爬取某网站上的唯美高清大图,涉及到的零碎知识较多,详细易懂,适合新手小白爬虫入门。
思路如下:
①拿到主页面的源代码,然后提取到子页面的链接地址href;
②通过href进入子页面,从子页面源代码中找到图片的下载地址,img ->src;
③下载图片;
下面通过代码讲解具体做法:
import requests
from bs4 import BeautifulSoup
import time
url="https://www.umei.cc/bizhitupian/weimeibizhi/"
resp=requests.get(url)
resp.encoding='utf-8' #处理中文乱码。这里的内容需要与源代码中charset的值保持一致。
#把源码交给bs解析
main_page=BeautifulSoup(resp.text,"html.parser") #指定html解析器
#使用find()在源代码中找到div,其属性为class且其属性值为TypeList的代码段,返回一个列表;
#在这个列表中找所有的a标签
alist=main_page.find("div",class_="TypeList").find_all("a")
#print(alist) #拿到定位到此区域下面的所有内容
for a in alist:
href=a.get("href") #直接通过get就可以拿到属性的值
#print(href) #拿到每个子页面后面一截链接
child_href="https://www.umei.cc"+href #通过字符串拼接,得到子页面链接
print(child_href)
#拿到子页面的源码
child_page_resp=requests.get(child_href)
child_page_resp.encoding='utf-8'
child_page_text=child_page_resp.text
#从子页面中拿到图片的下载路径
child_page=BeautifulSoup(child_page_text,"html.parser")
p=child_page.find("p",align="center")
img=p.find("img")
#下载图片
src=img.get("src")
img_resp=requests.get(src)
#img_resp.content #这里拿到的是字节
img_name=src.split("/")[-1] #拿到url中的最后一个/以后的内容
with open(img_name,"wb") as f:
f.write(img_resp.content) #将图片内容写入文件
print("over!!",img_name)
time.sleep(1)
print("all over!!!")
官网首页
右键,拿到源页面代码,找到<div class="TypeList"的位置,下方即为我们要找的每个子页面的链接地址,这个地址即为a标签中href的值(后期需要拼接)
进入其中任意一个子页面,如姜子牙
相同方式打开此页面的源代码,可以利用选中的这部分文字定位图片的链接(举的栗子是姜子牙,其他同理)
注意:find()找到一个就返回,而findall()是找所有。
得到的列表利用循环对其中的每一个子部分进行相同的操作,然后输出。
得到的链接并不是子页面的链接地址,还需要进行字符串的拼接,拼接成真正的子页面的链接。
标签:唯美,img,python,resp,bs4,href,child,page,页面 来源: https://blog.csdn.net/m0_52423924/article/details/122591070
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。