ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

爬虫方案设计(二)

2021-06-03 05:01:21  阅读:209  来源: 互联网

标签:方案设计 uid no -- visit 爬虫 yes 等待


爬虫方案设计(二)

仅供个人交流学习使用,禁止转载,严禁商用!!!任何商业用途与本人无关!

根据上一篇博客的分析,围绕着三要素来设计程序。

本篇的任务是爬取创作者上传的视频信息。

爬取策略:

  1. 第一种:遍历创作者id的合理范围(目前只实现了);
  2. 第二种:广度遍历有人气的创作者或者每个视频主题的代表创作者,包括他们关注的创作者,不过接口只提供了创作者前5页他关注的列表;(基于人际关系网,相似的创作者发生一个聚类,爬取的数据会更具代表性)
  3. 不考虑冷数据,但会爬取近期的冷数据

一般出现的错误:

  1. 412代码,拒绝访问,出现次数多,需要挂代理,一般等待久一点再访问就行
  2. 网络连接失败,网络异常

第一种:

graph TD start(开始) --> uids[设置遍历id的范围.e.g.1-100000] --> pool[设置进程池] --> uid[取用户uid, 默认page_index=1] --> j1{判断uid是否在范围之内} --no--> e(结束) j1 --yes--> task[分派任务给空闲的进程, 若无, 则死循环等待空闲的进程] --> visit[等待: 访问用户上传视频查询接口] --success--> j2{视频数目>=总数?} --no--> delay[等待10s, page_index += 1] --> visit j2 --yes--> save[保存数据到db.videos] --> delay1[等待10s] --> uid visit --error--> j3{第3次错误?} j3 --no--> delay2[等待10分钟] --> visit j3 --yes--> log[记录错误信息和用户uid在日志数据库] --> uid

第二种,广度优先搜索:

graph TD start(开始) --> uids[初始化用户数据库] --> pool[设置进程池] --> uid[从用户数据库查询用户uid] --> j1{查询出来是否为空?} --yes--> e(结束) j1 --no--> task[分派任务给空闲的进程, 若无, 则死循环等待空闲的进程] task --> visit1[等待: 访问用户关注列表] visit1 --success--> j4{page_index+=1 > all_page?} --yes--> save1[保存数据到db.users] -->delay3 j4 --no --> delay4[等待3s] --> visit1 delay3 --> visit[等待: 访问用户上传视频查询接口] --success--> j2{视频数目>=总数?} --no--> delay[等待10s, page_index += 1] --> visit j2 --yes--> save[保存数据到db.videos] --> delay1[等待10s] --> uid visit --error--> j3{第3次错误?} j3 --no--> delay2[等待10分钟] --> visit j3 --yes--> log[记录错误信息和用户uid在日志数据库] --> uid visit1 --error--> log1[记录错误信息和用户uid在日志数据库] log1 --> delay3[等待30s]

标签:方案设计,uid,no,--,visit,爬虫,yes,等待
来源: https://www.cnblogs.com/lfywork/p/14843583.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有