ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

“一图胜千言”,数据清洗的5个基本流程

2022-01-07 15:02:11  阅读:182  来源: 互联网

标签:数据分析 填充 一图 千言 清洗 数据 缺失 进行


​如今,越来越多企业都开展了数据分析工作,因此不管从事什么行业、什么岗位,拥有一定的数据分析能力在职场中都是“香饽饽”一样的存在。现在有很多人都有想要学习数据分析知识的心,但还没有找到数据分析的“路”,不知道应该从何学起。今天小编就带大家来了解一个很基础但也比较冷门的知识点——数据清洗

 

虽然数据清洗被提及的频率不如数据分析、数据挖掘、数据可视化等词高,但并不代表它就不重要喔,数据清洗也是整个数据分析过程中不可或缺的一环。提到数据清洗,你最先想到什么问题?“数据清洗是什么”、“数据清洗想要洗掉什么”、“数据清洗的基本流程”……接下来小编会围绕这3个问题开始今天的话题。

 

1.1话题.png 

一、数据清洗是什么

 

数据清洗,顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。

 

二、数据清洗想要洗掉什么

 

从上面数据清洗的概念就可以大概知道数据清洗是在清洗什么了,洗掉的就是数据库中的“脏”数据。“脏数据”,即数据库中残缺、错误、重复的数据。数据清洗,旨在提高数据的质量、缩小数据统计过程中的误差值。

 

三、数据清洗的基本流程

 

“一图胜千言”,直接上一张数据清洗的路径图,是不是一目了然啦!

 1.3一目了然.png 

 

1、对缺失值进行清洗

 

数据清洗第一步,对缺失值进行清洗。缺失值是非常常见的数据问题,它的处理方法也很多。下面分享一种很常用的方法,首先是明确缺失值的范围:对每个字段进行计算其缺失值比例,并按照缺失比例和字段重要性,分别制定策略。

 

2、去除不需要的字段

 

这个步骤非常简单,直接删掉即可。这里有一个点注意,就是记得先对数据进行备份,或者先进行小规模的数据实验,确定无误后在应用到大量的数据上。这样做是为了避免“一误删成千古恨”。

 

3、填充缺失内容

 

填充缺失数据有3种方法,分别是以业务知识/经验推测进行填充、以同一个指标计算的结果进行填充、以不同的指标计算的结果进行填充。

 

4、重新取数

 

重新取数是针对那些指标重要但缺失率又较高的数据,这需要向取数人员或是业务人员进行资讯,或者从其他渠道取到相关数据。

 

5、关联性验证

 

如果数据的来源较多,就有必要进行关联性验证。

 

数据清洗可以借助专业的BI工具来进行,思迈特软件Smartbi就很值得推荐。思迈特软件Smartbi采用的是分布式的计算架构,单节点支持多线程,处理海量数据没有压力,能有效提高数据处理的性能。强大的数据处理功能不仅支持异构数据,还内置排序、去重、映射、行列合并、行列转换聚合、去空值等等数据预处理功能。

 

1.3处理功能.png 

 

相信大家现在对数据清洗已经有了一定的了解了,感兴趣的小伙伴可以去找些BI工具来试验一下,去真实的感受一番喔~

 

标签:数据分析,填充,一图,千言,清洗,数据,缺失,进行
来源: https://www.cnblogs.com/mingyueshuoshuju/p/15775071.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有