ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据分析-导论

2021-04-05 19:32:58  阅读:195  来源: 互联网

标签:数据分析 分析 数据 模型 导论 指标 异常


1 如何理解数据分析师?

  1. 数据:科学实验、检验、统计、观测等所获得的和用于科学研究、技术设计、查证、决策等的数值。
  2. 数据分析师:在互联网、金融、电信、医疗、旅游、零售等多个行业专门从事数据采集、清洗/处理、分析,能够利用统计数据、定量分析和信息建模等技术制作业务报告、进行行业研究、评估和预测,从而为企业或所在部门提供业务决策的新型数据分析人才。
    (1)数据抓取/采集:埋点(针对特定用户行为或事件进行捕获、处理和发送的相关技术及实施过程。如:点击/交互事件 、曝光事件、页面停留时间)、爬虫、API获取
    【注】 如何规划数据埋点?
    ① 业务需求拆解,转化为数据需求 ;
    ② 定义数据口径和指标统计方式 :
    a. 各类事件的分类和聚合(事件类型,页面位置…)
    b. 确定指标的数值类型、计数方式和记录规则
    c. 4W1H (who what when where how) 模型来选择数据
    (2)数据清洗/处理:唯一性、一致性(字段格式等)、完整性(无缺失值)、准确性(无异常值)
    (3)数据分析:描述性分析、诊断性分析、预测性分析、规范性分析
  3. 数据分析在互联网应用:精准营销 、精细化运营 、产品设计。

2 数据分析一般思路

  1. 分析问题黄金法则
    ① SCQA结构:情境Situation、冲突Conflict、问题Question、答案Answer。
    ② 金字塔模型:中心论点-分论点-论据。
  2. 数据分析师三板斧
    ① 找出问题:描述性分析;着眼变化(同比、环比、增长率),找出异常值。
    ② 分析问题:多维度分析(细分指标,如:用户指标、产品指标、运营指标、营销指标);交叉分析;相关性分析;预测性分析。
    ③ 解决问题:积极沟通促进业务落地。

【例】收入指标异常分析思路:
① 确定数据源是否异常,如服务器异常(跑数据挂了)、底层数据逻辑关联重复(join匹配值不唯一)、计算逻辑错误(分摊逻辑);
② 可视化初步定位问题:分维度考察,时间周期(活动促销)、商品品类(高价值产品)、用户分布(刷单欺诈风险)等。
③ 指标拆解分析具体问题:公式拆解法(如,收入=销售单价*数量 ),业务流程指标拆解法(如,收入=流量*转化率*转换频次*客单价)。

【拓展】
1)定位异常方法:a. 单变量–中心标准化值、对称分布的经验法则、平均值法/切比雪夫不等式(均值3倍标准差外(1-89%))、箱型图/四分位数法(距离上、下四分位点 1.5 倍四分位距IQR外); b. 多变量–快速聚类、折线图/散点图;
2)处理异常值方法-盖帽法/天花板/地板法**:距离均值大于三倍标准差的值使用三倍标准差的值替代,超出1.5倍IQR的值使用1.5倍IQR的值替代。

  1. 数据分析多元思维模型
    ① 数据分析:技术水平、逻辑性、价值体现
    ② 链接业务:有效沟通能力、业务理解能力、思维快速发散收敛能力
    ③ 宏观把握:高维视角、解决问题能力

3 不同业务场景的数据分析技术

  1. 统计学模型:统计学模型旨在挖掘变量之间的联系,因此具有很高的可解释性,但是预测的精准度往往不如使用机器学习算法做出的分析。
  2. 机器学习算法:机器学习算法牺牲了模型的可解释性,提高的预测的精准度。

标签:数据分析,分析,数据,模型,导论,指标,异常
来源: https://blog.csdn.net/csdnbt/article/details/115446497

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有