标签:原图 get pic list up 爬取 item content page
爬取B站up主相册原图
从 Network 选项中找到 api 链接。
从 Preview 选项中一层一层地剥,直到找到真实的图片链接地址。
下载的图片可以达到 12MB,下载的是原图。
源码:
# -*- coding: utf-8 -*-
# @Time : 2020/6/17 20:54
# @Author : banshaohuan
# @Site :
# @File : album_bilibili.py
# @Software: PyCharm
import os
import requests
import json
import time
from fake_useragent import UserAgent
def get_fake_agent():
headers = {"User-Agent": UserAgent().random}
return headers
# 获取图片链接
def get_urls(uid, page=0):
# 存放图片链接
pic_list = []
while True:
url = f"https://api.vc.bilibili.com/link_draw/v1/doc/doc_list?uid={uid}&page_num={page}&page_size=30&biz=all"
content = requests.get(url, headers=get_fake_agent(), verify=False).content
time.sleep(2)
dic = json.loads(content)
if len(dic.get("data").get("items")) == 0:
break
# 返回的数据字典中图片信息在items中
item_list = dic.get("data").get("items")
for item in item_list:
# item是图片链接
item = item.get("pictures")[0].get("img_src")
pic_list.append(item)
page += 1
return pic_list
# 保存图片到本地
def save_pic(pic_list, file_path="D:/Images"):
if not os.path.exists(file_path):
os.mkdir(file_path)
for i in range(len(pic_list)):
content = requests.get(
pic_list[i], headers=get_fake_agent(), verify=False
).content
time.sleep(2)
with open(f"{file_path}/{i+1}.{pic_list[i][-3:]}", "wb") as f:
f.write(content)
print(f"{i+1}.{pic_list[i][-3:]} is downloaded")
def main():
# 不显示警告信息
requests.packages.urllib3.disable_warnings()
uid = 999999999 # 用户id,up主空间url中的最后一串数字
pic_list = get_urls(uid)
save_pic(pic_list)
if __name__ == "__main__":
main()
我在源码中增加了睡眠和获取随机 headers,这些都可以根据个人爱好更改。
标签:原图,get,pic,list,up,爬取,item,content,page 来源: https://www.cnblogs.com/banshaohuan/p/13154937.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。