ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Beautiful Soup知道这些就够了

2021-07-10 16:57:51  阅读:268  来源: 互联网

标签:Beautiful 定位 img soup url BeautifulSoup 就够 Soup print


简介

        在日程爬虫中我们需要使用许多方法来获取HTML或XML标签中的内容,例如正则表达式、xpath语法,除了上述方法,还有一种更加方便、强大的工具叫Beautiful Soup,通过使用它我们同样也可以提取出 HTML 或 XML 标签中的内容。

使用方法

        在使用BeautifulSoup时,我们首先创建一个BeautifulSoup对象,将对象进行实例化,实例化的方法有2种,一种是直接将我们通过request请求返回的html进行实例化,另一种是可以用本地存储的 HTML 文件来创建对象。

Beautifulsoup对象的实例化:
    —— BeautifulSoup(fp,'lxml'):用来将本地存储的html文档中的数据进行解析
    —— BeautifulSoup(page_text,'lxml'):用来将互联网请求到的页面源码数据进行解析

soup = BeautifulSoup(open('index.html')) #将本地 index.html 文件打开,用它来创建 soup 对象

        实例化BeautifulSoup之后,我们需要掌握BeautiSoup的获取html元素的方法,常用的标签定位方法有以下几种方式:

soup.tagName:只可以定位到第一次出现的tagName标签
soup.find('tagName',attrName='value'):属性定位
soup.findAll:跟find一样用作属性定位,只不过findAll返回的是列表
soup.select('选择器'):选择器定位

        元素定位成功后,通过.text()或者.string方法获取文本内容。

实战

        下面通过一个实战来具体看一下BeautifulSoup的使用方法,我们以爬取校花网为例,把网页中的图片爬取下来并保存到本地。

 代码如下:


import requests
from bs4 import BeautifulSoup
import lxml
import os


dirname = 'F:\\xunlei02'
if not os.path.exists(dirname):
    os.mkdir(dirname)
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }

def get_url():
    url = 'http://www.521609.com/qingchunmeinv/'

    response = requests.get(url,headers = headers).text.encode('iso-8859-1').decode('GBK')
    #print(response)
    soup = BeautifulSoup(response,'lxml')
    #print(soup)
    #print(soup.li)   #定位获取到第一个li标签

    #print(soup.find('img',alt="师大清纯美女"))  #根据标签进行定位和属性值进行定位
    #print(soup.findAll('img',alt="师大清纯美女"))  #和soup.find用法一致,返回形式是list列表

    #获取属性值,这里是获取href
    # context = soup.findAll('a',class_ = 'title')
    # for i in context:
    #     print(i['href'])

    img_list = soup.findAll('img')
    for img in img_list[1:]:
        url_img =  'http://www.521609.com/'+ img['src']
        print(url_img)
        downimage(url_img)



def downimage(url):

    img_name = dirname + '\\' + url.split('/')[-1]
    #print(img_name)
    response = requests.get(url,headers = headers).content
    with open(img_name,'ab') as f:
        f.write(response)


if __name__ == '__main__':
    get_url()

可以看到,通过使用BeautifulSoup方法我们成功获取到了图片链接地址,并将图片成功保存到本地电脑中。

 

 

标签:Beautiful,定位,img,soup,url,BeautifulSoup,就够,Soup,print
来源: https://blog.csdn.net/sl01224318/article/details/118636558

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有