标签:center soup url list scrape content ssr1 theme score
场景
最近在学习爬虫,实践使用的是https://scrape.center/网站的环境
第一关没有任何限制,结果爬取的是所有的电影地址,标题,主题,分数,剧情简介
技术
主要使用的是request库和BeautifulSoup,最后导出一个csv文档
代码
import pandas as pd
import urllib3
from bs4 import BeautifulSoup
import requests
urllib3.disable_warnings() #去除因为网页没有ssl证书出现的警告
url,title,theme,score,content = [],[],[],[],[]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/87.0.4280.141 Safari/537.36'}
global url_list,title_list,theme_list,score_list,content_list
for i in range(1,11):
the_url = 'https://ssr1.scrape.center/page/' + str(i)
html = requests.get(the_url,headers=headers,verify=False)
soup = BeautifulSoup(html.content,'lxml')
url_list = soup.find_all(class_='name')
for x in url_list :
url.append('https://ssr1.scrape.center'+x['href'])
for a in url :
html = requests.get(a,headers=headers,verify=False)
soup = BeautifulSoup(html.content, 'lxml')
title_list = soup.find_all(class_='m-b-sm')
theme_list = soup.find_all(class_='categories')
score_list = soup.find_all(class_='score m-t-md m-b-n-sm')
content_list = soup.find_all("div",class_='drama')
for y,z,i,x in zip(title_list,theme_list,score_list,content_list):
title.append(y.text)
theme.append(z.text.replace('\n','').replace('\r',''))
score.append(i.text.strip())
content.append(x.text.replace('剧情简介','').replace('\n','').replace('\r','').strip())
bt = {
'链接':url,
'标题':title,
'主题':theme,
'评分':score,
'剧情简介':content
}
work = pd.DataFrame(bt)
work.to_csv('work.csv')
标签:center,soup,url,list,scrape,content,ssr1,theme,score 来源: https://blog.csdn.net/Destiny_one/article/details/121094219
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。