标签:__ douban 电影 爬虫 dic re 豆瓣 import csv
# -*- coding:utf-8 -*-
# Filename:test_豆瓣250.py
import requests
import re
import csv
def douban_film():
header = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/101.0.4951.64 Safari/537.36 "
}
f = open("data.csv", mode="w")
for i in range(0, 200, 25):
url = "https://movie.douban.com/top250?start=" + str(i) + "&filter="
csvwriter = csv.writer(f)
res = requests.get(url, headers=header)
# 页面元素
page_content = res.text
# 预加载
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<filmname>.*?)'
r'</span>.*?<p class="">.*?<br>(?P<year>.*?) '
r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'
r'.*?<span>(?P<num>.*?)人评价</span>', re.S)
result = obj.finditer(page_content)
for it in result:
dic = it.groupdict()
dic['year'] = dic['year'].strip()
csvwriter.writerow(dic.values())
f.close()
print("over!")
if __name__ == '__main__':
douban_film()
标签:__,douban,电影,爬虫,dic,re,豆瓣,import,csv 来源: https://www.cnblogs.com/hanyr/p/16325180.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。