ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

山东大学项目实训第一周03

2021-07-02 16:58:16  阅读:139  来源: 互联网

标签:03 csv 方差 数据 次数 实训 服务器 价格 山东大学


上面提到我已经获取了1个G的数据文件,下面的工作就是如何应对这个庞然大物,从其中分析出价格变化最大的服务器。我的想法是把所有数据导入数据库,用强大的检索查找能力来完成这项工作。

我将csv文件按照每1000000条数据为单位划分成若干个csv文件,共计15个(采用python完成),速度非常可观。接着我对每个csv文件进行去重操作,总计还剩700多万条数据。

用Navicat将所有csv文件导入数据库

起初我想计算每个服务器所有时刻的价格均值,然后计算出服务器的价格方差,利用方差来衡量服务器价格波动的剧烈程度。然而由于数据量的庞大,sql语句计算方差耗时巨大,我被迫放弃了这种方案。

随后我想到了另一种方案,计算出每个服务器在一个月内价格变化的次数,利用变化次数的多少来衡量价格波动情况。这种方案的sql语句运行较快,只用了100多秒就成功得到结果。

我将结果保存为res表,其中存放了10000多个服务器的地区,实例类型,IO优化情况,网络类型,一个月内采样均价,一个月内价格变化次数。

将数据按照价格变化次数排序,取出排名靠前数据的详细信息,再到包含所有数据的表中查询,仅用时五秒即可获得该服务器每次采样的具体价格(SpotPrice)。

标签:03,csv,方差,数据,次数,实训,服务器,价格,山东大学
来源: https://blog.csdn.net/qq_44933906/article/details/118418898

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有