ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

多元高斯分布(Multivariate Gaussian Distribution)

2019-01-30 16:38:48  阅读:434  来源: 互联网

标签:Multivariate 特征 矩阵 多元 协方差 相关性 Distribution 高斯分布


from:https://www.jianshu.com/p/d6c8ca915f69

还是对计算机的监测,我们发现CPU负载和占用内存之间,存在正相关关系。

CPU负负载增加的时候占用内存也会增加:

   

假如我们有一个数据,x1的值是在 0.4 和 0.6 之间,x2的值是在 1.6 和 1.8 之间,就是下图中的绿点:

   

它明显偏离了正常的范围,所以是一个异常的数据。

但如果单独从CPU负载和占用内存的角度来看,该数据却是混杂正常数据之中,处于正常的范围:

       

这个异常的数据会被认为是正常的,因为我们得到模型的轮廓图是这样的:

   

为了改良这样的情况,我们需要把特征之间的相关性考虑进来。

第一种方式我们在上一篇笔记中有提到,就是增加一个新的特征 x3,把两者的相关性考虑进去:

   

 

另一种方式:多元高斯分布(Multivariate Gaussian Distribution),自动捕捉特征之间的相关性,公式如下:

 

其中 μ 为特征的均值,是一个 n*1 的向量:

 

Σ 为 特征的协方差,是一个 n*n 的矩阵:

 

假设我们的均值与协方差的初始值和对应的三维图形与轮廓图如下:

 

μ 决定的是中心的位置,改变 μ 的值意味着中心的移动

 

协方差矩阵控制的是对概率密度的敏感度。

例如某个方向的协方差越小,那么随着在该方向上的水平位移,高度的变化就越大。

首先我们看看各个特征不相关(正交)的情况:

 

 

 

我们再看一下考虑特征相关性的情况,下面两个图片分别到正相关和负相关的变化:

 

 

你看之前的模型 p(x) 会把异常数据认定为正常,而到了多元高斯分布的模型中,就得到了很好的解决:

 

之前的模型:

 

 

其实是多元高斯分布的一种特例,就是协方差矩阵 Σ 为对角矩阵的情况:

 

进行一个简单的推演你就明白了。

假设我们只有两个特征:

 

那么均值和协方差矩阵分别是:

 

把它们代入到多元高斯分布的公式中,可以推演得到:

 

二元高斯分布的密度函数,其实就是两个独立的高斯分部密度的乘积,特征更多的情况也是类似的。

需要注意的是,这里的推导不是证明的过程,仅仅是为了让你更好地理解两者的关系。

我们知道有这么两种方式可以处理特征之间的相关关系,那么应该如何选择呢?

这个需要根据具体的现实条件进行选择。

下表是两者的对比:

 

标签:Multivariate,特征,矩阵,多元,协方差,相关性,Distribution,高斯分布
来源: https://www.cnblogs.com/newbyang/p/10338697.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有