标签:10 哪些 爬虫 冲刺 爬取 任务 Alpha 数据 页面
一、基本情况
- 队名:要有格局才对
- 组长博客:本博客即组长博客
- 小组人数:10
二、冲刺概况汇报
根据拟定的团队分工
- 在充分尊重大家意愿的前提下、团队分工如下(用名字唯一标识符标识):
- 前端组:萍、翁
- 后端组:石、林
- 数据组:硕、源、松、熙
- 管理组:苏、唐
- alpha_1汇总:
组名 | 第一阶段分工 | 第二阶段 | 第三阶段 | alpha_1阶段 | 主任务 |
---|---|---|---|---|---|
前端组 | 原型设计、视频 | 接口调试 | 原型实现、UI优化 | 前端相关 | 前端相关 |
数据组 | 爬取可行性分析测试 | 数据收集 | 数据分析 | 数据相关 | 数据相关 |
后端组 | 数据库搭建 | 后端构建、接口文档说明 | 后端完善 | 后端相关 | 后端相关 |
管理组(含测试组) | 博客撰写、规划 | 各组协调 | 测试优化、部署 | 测试、端茶倒水 | 测试管理相关 |
姓名:苏伟煌(组长)
- 过去两天完成了哪些任务:
- 文字描述:
- 1.基本分工部署
- 2.GitHub部署
- 3.缓解组员紧张情绪
- 4.帮组测试组解决药监局爬取攻坚
- 展示GitHub当日代码/文档签入记录:
- 接下来的计划
- main:大家都有考试、成绩很重要、暂不作过多计划分工
- 继续爬取
- 前端初步
- 还剩下哪些任务
- 同上
- 说点实际的:微机接口考试、图形学考试、面向对象考试、人工智能。
- 燃尽图
- 遇到了哪些困难
- 药监局攻坚爬取、最后用抓包手段解决
- 有哪些收获和疑问
- 收获:知道了用抓包的手段也可以在手机这种平台爬取数据、很冷门的技巧,算是作为组长为数不多的小贡献
- 疑问:药监局这种官方网站也会百疏一漏吗
姓名:翁敏(前端组)
过去两天完成了哪些任务:
- 文字描述:
- 1.动手实战了用网页三件套(html,css,js)制作页面,主要收获了样式布置的相对位置和绝对位置,js语言相对容易上手,setinterval延时功能让我明白可以用js代码控制页面的更新。
- 2.学习了vue框架的大致使用,学习了一些组件(比如v-on,v-if,v-show,这些组件比传统的js代码设计页面来的省时省力
- 3.通过和同学的交谈,收获了很多优秀的第三方插件或者框架的使用方法,使自己更容易使用搜索引擎寻找网络上的资源
- 4.对本次软工课设前端页面的布局有了新的设计思路,主要布局有了大致的设计想法。
- 展示GitHub当日代码/文档签入记录:
接下来的计划
- 1.学习vue框架
- 2.学习一些更前言的网页设计方法
- 3.学习一些数据存储方法,特别是跨页面存储,之前用export模块存储,但是浏览器会报错,这个问题待解决。
还剩下哪些任务
- 1.因为我是担任前端任务,所以我对自己设定的主要任务是学习使用vue框架设计页面
- 2.学习页面如何调用后台数据库
燃尽图
遇到了哪些困难
- 1.在数据存储这块自己掌握的仍然不清晰,不知道页面的存储信息模式是怎么样的,设置成全局变量再页面更新的时候就初始化掉,export模块也会报错
- 2.对一些好用适用的框架了解太少了,vue知识也欠缺,以至于动手写代码时候相关的知识不够用,需要自己重新造轮子
有哪些收获和疑问
- 1.(疑问上面已经描述了,这里不早赘述)收获了一些新的页面设计思路,以前自己只会用网页三件套设计页面,但是那样太繁杂了,而且都是重复造轮子。
- 2.学习了解了一些新的框架的使用,vue真是太方便了,当然肯定还有许多更好用的框架和组件等待着我去发现。
姓名:陈本源(数据组)
- 过去两天完成了哪些任务:
- 文字描述:
- 1.爬虫爬取淘宝(几十万条数据)
- 2.爬虫爬取比价网(几十万条数据)
- 3.数据发送至后端
- 展示GitHub当日代码/文档签入记录:
- 接下来的计划
- 1.进行数据清洗
- 2.开始学习PyEcharts,对爬取到的数据,进行数据分析
- 还剩下哪些任务
- 1.对数据进行处理与分析
- 2.生成可视化图
- 燃尽图
- (不用做)
- 遇到了哪些困难
- 1.再爬取淘宝的过程中,由于网站的反爬机制,设置了cookies,成功爬取到页面的相关信息,但是由于本次任务爬取的数据量实在太过庞大,频繁的访问淘宝的url,导致连接多次被主动中断,甚至出现ip被封,针对此问题本来打算使用selenium,通过动态模拟用户点击行为,对页面进行渲染,从而绕过反爬机制,实现爬取,但是该方法耗时长,对于本次任务需要爬取的巨大数据量显然不适合。后又发现设置time.sleep设置url访问间隔,但也同样浪费时间,最后采用python自带的fake_useragent库,通过设置随机头对url进行访问,大大降低了服务器对机器爬虫的认定概率,从而实现爬取53w条
- 2.爬取比价网的过程中,同样也是遇到了ip访问限制,使用download_delay解决。
- 有哪些收获和疑问
- 1.随机头方法在scrapy爬虫框架中,似乎起不到什么作用,导致爬取比价网的过程很煎熬,
- 2.了解了ip限制的解决方法。
姓名:石致彬
- 过去两天完成了哪些任务:
- 文字描述:
- 1.学习数据库的相关操作
- 2.学习用jdbc连接数据库
- 3.初步设计了所需要的表
- 4.初步建立了数据库
- 展示GitHub当日代码/文档签入记录:无
- (图片直接发给我)
- 接下来的计划
- 1.学习Web方面的知识
- 2.编写接口供数据组使用向数据库中添加数据
- 3.编写接口供数据查询使用
- 还剩下哪些任务
- 1.学习web知识
- 2.编写接口
- 3.学习云服务器的使用
- 4.配置云服务器的环境
- 5.部署到云服务器
- 燃尽图
- (不用做)
- 遇到了哪些困难
- 1.时间不够考试太多
- 2.服务器太贵了
- 有哪些收获和疑问
- 1.学习了数据库的相关知识
- 2.学习了用Java操作数据库
- 3.疑问:我们真的做得完吗
姓名:林志煌
- 过去两天完成了哪些任务:
- 文字描述:
- 1.复习了前端三要素
- 2.写了简单的登录界面
- 展示GitHub当日代码/文档签入记录:
- 接下来的计划
- 1.继续完善界面
- 2.增加其他功能
- 还剩下哪些任务
- 1.完善
- 2.增加功能
- 燃尽图
- 遇到了哪些困难
- 1.知识点大多都忘了,只能边查边做
- 2.模板几乎都是要收费的
- 有哪些收获和疑问
- 1.收获:复习了以前的知识,算是小巩固
- 2.疑问:暂时没啥疑问
姓名:陈硕
- 过去两天完成了哪些任务:
- 文字描述:
- 1.爬虫爬取淘宝(几十万条数据)
- 2.爬虫爬取药房网
- 3.数据发送至后端
- 展示GitHub当日代码/文档签入记录:
- 接下来的计划
- 1.进行数据清洗
- 2.开始学习PyEcharts,对爬取到的数据,进行数据分析
- 还剩下哪些任务
- 1.对数据进行处理与分析
- 2.生成可视化图
- 燃尽图
- (不用做)
- 遇到了哪些困难
- 1.爬虫团队在爬取淘宝的过程中,由于网站的反爬机制,设置了cookies,成功爬取到页面的相关信息,但是由于本次任务爬取的数据量实在太过庞大,频繁的访问淘宝的url,导致连接多次被主动中断,甚至出现ip被封,针对此问题本来打算使用selenium,通过动态模拟用户点击行为,对页面进行渲染,从而绕过反爬机制,实现爬取,但是该方法耗时长,对于本次任务需要爬取的巨大数据量显然不适合。后又发现设置time.sleep设置url访问间隔,但也同样浪费时间,最后采用python自带的fake_useragent库,通过设置随机头对url进行访问,大大降低了服务器对机器爬虫的认定概率,从而实现爬取53w条
- 2.爬取比价网的过程中,同样也是遇到了ip访问限制,使用download_delay解决。
- 有哪些收获和疑问
- 1.随机头方法在scrapy爬虫框架中,似乎起不到什么作用,导致爬取比价网的过程很煎熬,
- 2.了解了ip限制的解决方法。
姓名:林泽熙
- 过去两天完成了哪些任务:
- 文字描述:
- 1.爬虫爬取淘宝(几十万条数据)
- 2.数据发送至后端
- 展示GitHub当日代码/文档签入记录:
- 接下来的计划
- 1.进行数据清洗
- 2.开始学习Pyecharts
- 还剩下哪些任务
- 1.数据处理与分析
- 2.数据可视化
- 燃尽图
- (不用做)
- 遇到了哪些困难
- 1.爬虫团队在爬取淘宝的过程中,由于网站的反爬机制,设置了cookies,成功爬取到页面的相关信息,但是由于本次任务爬取的数据量实在太过庞大,频繁的访问淘宝的url,导致连接多次被主动中断,甚至出现ip被封,针对此问题本来打算使用selenium,通过动态模拟用户点击行为,对页面进行渲染,从而绕过反爬机制,实现爬取,但是该方法耗时长,对于本次任务需要爬取的巨大数据量显然不适合。后又发现设置time.sleep设置url访问间隔,但也同样浪费时间,最后采用python自带的fake_useragent库,通过设置随机头对url进行访问,大大降低了服务器对机器爬虫的认定概率,从而实现爬取53w条
- 2.github使用不熟悉
- 3.复现了组长的抓包爬取药监局手段,完善了json字段
- 有哪些收获和疑问
- 1.了解了ip限制的解决方法。
- 2.python第三方库功能强大,需要自己多多了解和使用
PSP & 学习进度条(学习进度条每周追加)
PSP
PSP | Personal Software Process Stages | 预估耗时(分钟 | 实际耗时(分钟) |
---|---|---|---|
Planning | 计划 | 30 | 72 |
· Estimate | · 估计这个任务需要多少时间 | 1200 | 1600 |
Development | 开发 | 700 | 700 |
· Analysis | · 需求分析 (包括学习新技术) | 5 | 55 |
· Design Spec | · 生成设计文档 | 5 | 55 |
· Design Review | · 设计复审 | 5 | 55 |
· Coding Standard | · 代码规范 (为目前的开发制定合适的规范) | 430 | 55 |
· Design | · 具体设计 | 120 | 120 |
· Coding | · 具体编码 | 360 | 720 |
· Code Review | · 代码复审 | 50 | 50 |
· Test | · 测试(自我测试,修改代码,提交修改) | 30 | 50 |
Reporting | 报告 | 90 | 180 |
· Test Repor | · 测试报告 | 30 | 60 |
· Size Measurement | · 计算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事后总结, 并提出过程改进计划 | 10 | 100 |
· 合计 | 1200 | 1800 |
学习进度条
-
组内最新成果展示
- 药监局数据展示(这不是代码、看清了):
-
站立会议合照
-
会议耗时记录(每次追加记录)
|第N次会议| 耗时(分钟)|
| -- | -- |
|4|8|
|5| |
|6| |
|7| |
|8| |
标签:10,哪些,爬虫,冲刺,爬取,任务,Alpha,数据,页面 来源: https://www.cnblogs.com/Jimase/p/15525613.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。