ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Python第十四次知识点学习---爬网页

2021-05-16 13:32:56  阅读:186  来源: 互联网

标签:知识点 搜狗 Python resp BeautifulSoup href --- 源码 首页


目录

一、爬搜狗首页的源码

爬搜狗首页的源码

import requests
from bs4 import BeautifulSoup

resp = requests.get('https://123.sogou.com/')#请求搜狗首页
header = {"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0"}
print(resp)#打印请求结果的状态码
print(resp.content)#打印请求到的网页源码
bsobj = BeautifulSoup(resp.content,'lxml')#将网页源码构造成BeautifulSoup对象,方便操作
a_list = bsobj.find_all('a')#获取网页中所有a标签对象
for a in a_list:
    print(a.get('href'))#获取a标签对象的href属性,那这个对象指向的链接地址

二、简单保存搜狗首页数据

简单保存搜狗首页数据

import requests
from bs4 import BeautifulSoup

resp = requests.get('https://123.sogou.com/')#请求搜狗首页
header = {"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0"}
print(resp)#打印请求结果的状态码
print(resp.content)#打印请求到的网页源码

bsobj = BeautifulSoup(resp.content,'lxml')#将网页源码构造成BeautifulSoup对象,方便操作
a_list = bsobj.find_all('a')#获取网页中所有a标签对象
text = ' '#创建一个空字符串
for a in a_list:
    href = a.get('href')#获取a标签对象的href属性,那这个对象指向的链接地址
    text += href+'\n'#加入到字符串中,并换行
with open('url.txt','w') as f:#在当前路径下,以写的方式打开一个名为‘url.txt’,如果不存在则创建
    f.write(text)#将text里的数据写入文本中

运行后会出现一个url.txt文件,数据就在里面。

标签:知识点,搜狗,Python,resp,BeautifulSoup,href,---,源码,首页
来源: https://blog.csdn.net/m0_46303002/article/details/116889231

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有