ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

2021-09-10

2021-09-10 20:32:50  阅读:216  来源: 互联网

标签:1.4 10 策略 数据源 09 2021 清洗 数据 质量


数据清洗学习笔记

第一章数据清洗概述

数据清洗第一章笔记
1.1 数据清洗的背景
当今时代,企业信息化的要求越来越迫切。由于海量数据的来源是广泛的,数据中会夹杂着不完整、重复以及错误的数据,因此对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
1.1.1数据质量的概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景需求的程度。数据质量是一个相对的概念(与决策有关)。不同的决策者对数据的质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。
1.1.2数据质量的评价指标:准确性,完整性,简洁性和适应性(核心准则)。

1.1.3数据的质量问题而分类

数据质量的问题分为数据源的“脏”数据和清洗方式的“脏”数据

1.基于数据源的“脏”数据
单数据源:
数据质量主要取决与它的模式对数据完整性约束的控制程度
多数据源
多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。
2.基于清洗方式的“脏”数据
独立型“脏”数据
独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。
依赖型“脏”数据
依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。
(1)缺失数据包括空值(缺失值和空值)和数据异常
(2)重复数据是指一个现实实体在数据集合中以多个不完全相同的记录表示。

1.2数据清洗的定义

数据清洗技术是提高数据质量的有效方法。在不同的领域有不同的方法,所以对于数据清洗没有一个公认统一的定义。但是我们只要明确数据清洗的目的以及目前主要应用的领域即可。

1.3数据清洗的原理

“脏”数据-------数据的清洗策略、规则---------满足数据质量要求的数据

我们数据清洗的主要目的就是解决“脏”数据问题。

1.4数据清洗的基本流程

  1.4.1 数据分析:数据清洗的前提和基础,通过人工检测或者计算机分析程序对原始数据进行检测分析,得出原始数据中存在的问题。

  1.4.2 定义数据清洗的规则和策略

  1.4.3 搜寻并确定错误实例

  1.4.4 纠正发现的错误:属性分离,确认并改正,标准化

  1.4.5 干净数据回流

1.5数据清洗的策略
1.一般的数据清洗策略
1.手工清洗策略
2.自动清洗策略
3.特定应用领域的清洗策略
4.特定应用领域无关的清晰策略
2.混合的数据清洗策略
混合的数据清洗策略主要以自动清洗为主。
1.6常见的数据清洗方法
缺失值的清洗 忽略缺失值和填充缺失值数据
重复值的清洗 相似度计算,基于基本近邻排序算法
错误值的清洗 统计分析

标签:1.4,10,策略,数据源,09,2021,清洗,数据,质量
来源: https://blog.csdn.net/laic_/article/details/120229009

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有