ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据科学中的第一原理思维。

2022-09-16 13:01:08  阅读:212  来源: 互联网

标签:思维 www 平均值 模型 均值 参数 科学 序列 原理


数据科学中的第一原理思维。

Image source Wikipedia

第一原理思维被定义为“将问题归结为最基本的真理”。

那么当谈到数据科学时,首要原则是什么?

在我看来,它们是:

  • 集中趋势的度量 — 平均值、中位数、众数。
  • 分散测量 — 方差、标准偏差、四分位距。

数据科学中的大多数主题都以某种方式归结为集中趋势或分散。让我通过一些例子来解释:

  1. 线性回归
    通常,One 模拟预期值(平均值)而不是因变量的原始值。
    请注意,可以对线性回归中的任何分位数进行建模。
  2. 概率分布
    著名的正态分布以位置参数(均值)和尺度参数(标准差)为特征。
    类似地,其他分布也以位置和尺度参数为特征。
  3. 机器学习
    模型漂移:当我们说模型漂移时,实际上是指现有模型在位置或尺度参数或两者方面与真实模型发生了漂移。
  4. 准确度指标 :像 F1 这样的准确度指标只不过是调和平均值。
  5. 异常值检测或异常检测 :如果某个数据点是 2SD 或 3SD 甚至 6SD,我们会将某些东西分类为异常值。
  6. 时间序列预测
    时间序列预测的关键概念之一是平稳性。平稳时间序列是其属性(如均值、方差和自相关结构)随时间保持不变的序列。平稳性很重要,因为它更容易和更准确地估计属性不随时间变化的系列的参数。如果序列的均值和方差随时间不断变化,则估计的准确性将随时间而变化。
  7. 假设检验
    我们对均值和均值差异进行假设检验。例如 t 检验和方差分析。
  8. 信息论
    许多算法(如决策树)、模型比较技术(如 AIC)都以信息论为核心。甚至概率分布比较技术 KL Divergence 使用信息论概念,如熵、信息增益等。熵再次是变量自信息的期望值(平均值)
    或者
    熵是从源发送到目的地的消息的无损编码的最小可能平均大小。

用于数据科学咨询和解决方案;

通过以下方式与我们联系:

网站: https://www.arymalabs.com/

领英 http://www.linkedin.com/in/venkat-raman-Analytics

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/37012/53281612

标签:思维,www,平均值,模型,均值,参数,科学,序列,原理
来源: https://www.cnblogs.com/amboke/p/16699491.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有