ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【数据科学原理与实践】数据准备

2022-05-06 23:02:42  阅读:156  来源: 互联网

标签:采样 方法 实践 step 可视化 原理 数据 缺失


知识点来源课程PPT

数据准备

加载数据

step 1:导入数据,使用 read.table() 方法。

d<-read.table(paste('http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data',sep=''),stringsAsFactors = F,header=F)

step 2:根据说明文档,设置列名

colnames(d)<-c('Status.of.existing.checking.account','Duration.in.month','Credit.history', 'Purpose','Credit.amount','savings account/bonds','Present.employment.since','Instal1ment.rate.in.percentage.of.disposab1e.income','Persona1.status.and.sex','other.debtors/guarantors','Present.residence.since','Property','Age.in.years','other.instal1ment.plans','Housing' ,'Number.of.existing.credits.at.this.bank', 'Job','Number.of.people.being.liable.to.provide.maintenance.for','Telephone','foreign.worker','Good.Loan' )

探索数据

现实世界中的数据通常是脏的:

  1. 数据存在错误和不一致
  2. 数据存在缺失
  3. 名称/属性存在二义性

数据探索的方法:

  1. 处理缺失值、无效值以及离群值
  2. 概要统计方法:均值和中位数、方差和计数
  3. 可视化方法:数据的图示
  4. 数据概要和可视化的组合方法

缺失值:本身就是有信息量的。处理方法:删除或替换为其他值
无效值:可能是坏数据输入,也可能是某种表示“未知”的标志值。处理方法:删除或转换为有用值。
离群值:脱离了期望的数据范围。处理方法:删除或转化为有用值或保留

概要统计方法

summary()可以得到最小值、最大值、平均值、中位数等信息

可视化:

单个变量的分布:

直方图:ggplot()+geom_histogram()
密度图:ggplot()+geom_denisty()。当数据以百分数方式变化或以数量级方式变化比按绝对单位变化更重要时,应该使用对数刻度。scale_x_log10()
柱状图:ggplot()+geom_bar()

两个变量分布:

线条图、散点图、六角箱图(高密度图)、两个类别的柱状图

总结

概要统计发现有关数据范围、度量单位、数据类型和缺失值或无效值的问题。可视化更进一步了解数据分布和变量之间的关系。

管理数据

清洗数据

  1. 处理缺失值(忽略还是补全?)
  • 删除整行记录或忽略整个属性
  • 人工填充
    • 使用一个全局值代替
    • 使用平均数或中位数等代替(值随机性缺失)
    • 用最大可能值推理(eg. 找最相似的点推理或使用贝叶斯或决策树推理)

step 1:通过数据探索,检测出缺失数据的位置
step 2:对缺失变量进行处理

  1. 转换数据
    目的:使数据更容易建模且更容易理解
    转换方法:
  • 连续数据离散化(一些连续变量是否落入某个范围比确切值更重要)
  • 规范化(当相对值比绝对值更有意义)
  • 对数变换(针对倾斜分布和宽分布)

采样数据

用来选择一个样本总体的子集来代表全部数据的处理过程。采样的要点:采样的数据要能够准确代表全部数据
必要性:

  • 在开发和精炼一个模型的过程中,在全集上训练模型之前可以很容易在小的采样子集进行测试和调试代码
  • 减少数据量
  • 更容易可视化,处理更快,模式更清晰,提高探索式分析的效率
  • 用于划分测试集和训练集

随机采样:每个成员都有平等被选择的机会
系统采样:以固定间隔选择个体
分层采样:确保样本每个亚组都有适当的代表性
整群采样:每个亚组都具有和整个样本相似的特征,然后随机选择整个子组

训练集:为模型构建算法的提供数据,以便这些算法能够设置正确的参数来预测结果变量
测试集:为完成的结果模型提供数据,用来验证该模型的预测是否准确

标签:采样,方法,实践,step,可视化,原理,数据,缺失
来源: https://www.cnblogs.com/ting65536/p/16237142.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有