ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据科学实战(一):统计推断、探索性数据分析和数据科学工作流程

2020-04-08 22:58:01  阅读:364  来源: 互联网

标签:数据分析 探索性 模型 建模 科学 数据 流程


1.前言

在你打算成为一名数据科学家时,以下技能是必须首先具备的:统计学、线性代数和一些编程技能。

同时你还需要发展以下技能:数据预处理、数据再加工、数据建模、编码、可视化和有效沟通,这些技能往往是相辅相成的

1.1 统计推断

从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。

更准确地说,统计推断这门学科主要关注如何从随机过程产生的数据中提取信息,它是流程、方法和理论的统一。

1.2 总体和样本

在统计推断中,总体并不特指人口,它指的是一组特定的对象或单位

如果我们可以度量和提取这些对象的某些特征,就称为对总体的一组观察数据,习惯上,使用 N 表示对总体的观察次数。

所谓样本,是指在总体中选取的一个子集,用 n 来表示

1.3 大数据的总体和样本

1.4 大数据意味着大胆的假设

忽视因果关系是大数据法则的一种缺陷,而不是特征。忽视因果关系的模型无助于解决现存问题,而只会增加更多问题

数据也不会自己说话,它只能够以一种量化的、无力的方式去描述、再现我们身边的社会事件。
1.5 建模
模型是人工设计的,用于将无关紧要的细节排除或抽象化。在进行模型分析时,研究者必须关注这些被省略的细节。
统计建模:

建模的流程:先干什么?谁受谁的影响?什么是因,什么是果?检验结果如何?

用数学去描述这种关系。通用的数学公式里面必须包括参数,但是参数的值是未知的。
画图。他们先画一张数据流的图,很可能带有箭头,用来描述事物之间是怎么相互影响的,或者在一段时间内发生了些什么。在选择公式表达这种关系之前,这种关系图可以给他们一个大概的描述。

构建模型:

模型的选择是建模过程中的一环,你需要对底层结构做出大量假设,应该有一个标准来规范如何选择模型和解释这样选择的理由。但是我们还没有统一的规范,所以只能摸着石头过河,
希望经过深思熟虑,能制定这样一套规范。

探索性数据分析(EDA)是一个好的开始

最好是从易到难,先做看起来最傻的事,事后看,或许没有你想象得那么傻

记着,从简单处着手永远是个好办法,建模时在简单和准确之间有一个权衡。简单的模型易于理解,很多时候,原始简单的模型帮你完成了 90% 的任务,

而且构建该模型只需要几个小时,采用复杂的模型或许会花上几个月,而且只将这个数值提到了 92%。

在构建模型时会用到很多模块,其中一种就是概率分布。

概率分布:

概率分布是统计模型的基础

概率分布可以理解为对于可能结果的子集指定一个概率,概率分布用与其对应的函数来表示

拟合模型:

拟合模型是指用观察数据估计模型参数的过程

拟合模型经常要引入各种优化方法和算法,例如最大似然估计等,来确定参数

拟合模型的过程就是开始编写代码的过程:代码将会读入数据,将写在纸上的公式翻译成代码,然后使用 R 或者 Python 中内建的优化方法,根据数据,求出尽可能精确的参数值。

等你变得越来越老练,或者这本身就是你的强项时,你可能会去研究这些优化方法。首先得知道这些优化方法的存在,

然后弄明白它们是怎么工作的,但是你不必亲自去编写代码实现这些方法,R 和 Python 已经帮你实现好了,直接调用就行。

过拟合:

过拟合是指使用数据去估计模型的参数时,得到的模型并不能模拟现实情况,在样本以外的数据上效果不好。

2 探索性数据分析

探索性数据分析是数据科学中的重要一环,同时代表了来自贝尔实验室的一批统计学家在从事数据科学工作时所采用的方法和观点。

探索性数据分析的基本工具是图、表和汇总统计量。一般来说,探索性数据分析是一种系统性分析数据的方法,它展示了所有变量的分布情况(利用盒形图)、时间序列数据和变
换变量,利用散点矩阵图展示了变量两两之间的关系,并且得到了所有的汇总统计量。换句话说,就是要计算均值、最小值、最大值、上下四分位数和确定异常值。

探索性数据分析不仅是一组工具,更是一种思维方式:要怎么看待和数据之间的关系。你想理解数据,了解数据的形状,获得对数据的直观感受,想将数据和你对产生数据的过程
的理解关联起来。探索性数据分析是你和数据之间的桥梁,它不向任何人证明什么。

 

2.1 探索性数据分析的哲学

使用探索性数据分析有很多重要的原因。包括获取对数据的直觉、比较变量的分布、对数据进行检查(确保数据的规模在你预期范围内,数据的格式是你想要的等)、发现数据中
的缺失值和异常值、对数据进行总结。

对于在日志中生成的数据,探索性数据分析可以用于调试记录日志的流程

最后,探索性数据分析确保了产品的性能符合预期。

探索性数据分析是数据分析的开端,而数据可视化是在数据分析的最后一个环节,用于呈现数据分析的结论。在探索性数据分析中,图形只是帮
助你理解数据。

在探索性数据分析中,可以根据对数据的理解优化算法。比如,你正在开发一种排名算法,该算法对你推荐给用户的内容进行排名。为此,你可能需要定义什么是“流行度”。

2.2 练习:探索性数据分析

3 数据科学的工作流程

具体来说,以原始数据为起点,诸如日志、奥运会纪录、安然公司员工的电子邮件、遗传物质记录(需要注意的是,在我们拿到这些原始数据时,这项活动中某些方面的信息已经
缺失了)。我们需要处理这些原始数据,使得其便于分析。因此我们创建出管道对数据进行再加工:联合、拼凑、清理,随便你叫它们什么好了,就是要对数据进行再加工。我们
可以使用 Python、shell 脚本、R、SQL 完成这件任务。

最终得到格式化好的数据,像下面这种由列构成的数据:
姓名 | 事件 | 年份 | 性别 | 时间

在拿到这份干净的数据后,我们应该先做一些探索性数据分析。在这个过程中,我们或许会发现数据并不是那么干净,数据可能含有重复值、缺失值或者荒谬的异常值,有些数据

未被记录或被错误地记录。在发现上述现象时,我们不得不回过头采集更多的数据,或者花更多的时间清理数据。

然后,我们使用一些算法,比如 k 近邻、线性回归、朴素贝叶斯等设计模型。选取何种模型取决于要解决的问题,这可能是一个分类问题、一个预测问题,或者只是一个基本的描
述问题。

这时就可以解释、勾勒、报告或者交流得到的结果。可以将结果报告给老板或同事,或者在学术期刊上发表文章,或者走出去参加一些学术会议,阐述我们的研究成果。

在做任何分析时,都要将这种反馈考虑在内,以此对模型产生的偏差进行调整。模型不仅预测未来,它还在影响未来。

数据科学家在数据科学工作流程中的角色

 

数据科学工作流程和其他科学方法的关系

一般步骤为:

• 提出问题;
• 做一些背景研究;
• 构想假设;

• 实验验证构想的假设;
• 分析数据并得出结论;
• 把你的结果分享给其他人。

在数据科学工作流程和其他科学方法中,不是每个研究问题都需要按部就班地解决,大多数问题都不用严格走完每一步,几个步骤的组合就可能解决问题。比如,如果
你的目标是对数据进行可视化(这本身也可以看成是一个数据产品),很可能你不会使用任何机器学习或统计模型,你只需要想方设法得到干净的数据,做一些探索性
数据分析,将结果用图表的形式展示出来即可。

4 思维实验:如何模拟混沌

大多数问题一开始都面临一堆脏乱无序的数据,或者问题本身并未得到明确定义,或者问题迫切待解。

作为数据科学家的我们,从某种程度上说,肩负着从混沌中恢复秩序的责任

5 案例学习:RealDirect

标签:数据分析,探索性,模型,建模,科学,数据,流程
来源: https://www.cnblogs.com/qiu-hua/p/12663583.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有