标签:数据分析 抽样 xi frac 探索 重复 sum 衡量 因子
集中趋势:数据聚拢的一种衡量
- 均值:衡量分布规律的连续值
- 中位数:衡量异常值情况
- 众数:衡量离散值
- 分位数:与上诉三类共同作用
离中趋势:数据离散程度衡量
- 标准差: σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2} σ=N1∑i=1N(xi−μ)2
- 方差: σ 2 \sigma^2 σ2
数据分布:正态分布、卡方分布、F分布、t分布等
- 偏态系数:数据平均值偏离状态的一种衡量
S = 1 n ∑ i = 1 n ( x i − x ‾ ) 3 ( 1 n ∑ i = 1 n ( x i − x ‾ ) 2 ) 3 2 S=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3}{(\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2)^{\frac{3}{2}}} S=(n1∑i=1n(xi−x)2)23n1∑i=1n(xi−x)3 - 峰态系数:数据分布集中强度分衡量
K = 1 n ∑ i = 1 n ( x i − x ‾ ) 4 ( 1 n ∑ i = 1 n ( x i − x ‾ ) 2 ) 2 K=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^4}{(\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2)^2} K=(n1∑i=1n(xi−x)2)2n1∑i=1n(xi−x)4
抽样误差
- 抽样平均误差公式如下:
重 复 抽 样 : μ x = σ 2 n 重复抽样:\mu_x=\sqrt{\frac{\sigma^2}{n}} 重复抽样:μx=nσ2
不 重 复 抽 样 : μ x = σ 2 n ( N − n N − 1 ) 不重复抽样:\mu_x=\sqrt{\frac{\sigma^2}{n}(\frac{N-n}{N-1})} 不重复抽样:μx=nσ2(N−1N−n)
其中 N N N 为总体数量, n n n 为抽样数量。 - 估计总体时抽样数目的确定如下:
重 复 抽 样 : n = Z α / 2 δ 2 Δ 2 重复抽样:n=\frac{Z_{\alpha/2}\delta^2}{\Delta^2} 重复抽样:n=Δ2Zα/2δ2
不 重 复 抽 样 : n = N Z α / 2 δ 2 N Δ 2 + Z α / 2 δ 2 不重复抽样:n=\frac{NZ_{\alpha/2}\delta^2}{N\Delta^2+Z_{\alpha/2}\delta^2} 不重复抽样:n=NΔ2+Zα/2δ2NZα/2δ2
其中 Δ 2 \Delta^2 Δ2 为抽样方差, δ 2 \delta^2 δ2 为总体方差。
数据分类
- 定类(类别):根据事物离散、无差别属性进行分类。
- 定序(顺序):可以界定数据的大小,但不能测定差值。
- 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点。
- 定比(比率):可以界定数据大小,可测定差值,有绝对零点。
单属性分析
- 异常值分析:连续异常值、离散异常值、知识异常值
- 对比分析:包括绝对数比较、相对数比较。常见的比较的角度有时间维度、空间维度、计算与经验维度进行对比等。
- 结构分析:部分/总体、静态结构分析、动态结构分析。
- 分布分析:极大似然、直接获得概率分布、是否正态分布。
标签:数据分析,抽样,xi,frac,探索,重复,sum,衡量,因子 来源: https://blog.csdn.net/by6671715/article/details/122664666
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。