ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

时间序列聚类方法的研究

2021-07-06 17:58:07  阅读:139  来源: 互联网

标签:降维 时序 维度 聚类 序列 PCA 方法


为了保证系统、服务的可靠性和稳定性,监控系统日渐成为每个公司、企业的一个必不可少的系统。随着服务、机器等数量越来越多,如何分析海量时间序列KPI成为我们在智能运维领域首先需要解决的问题。

在众多的时间序列中,有一些序列存在相关性,如果我们能将时序数据进行快速准确地聚类,只对不同类别的数据进行分析,这样就能大大降低后续数据分析与挖掘工作的开销。

 

背景

由于时间序列的维度一般都比较高,高则上千维、上万维,所以在聚类之前,我们需要使用合理的方法去降低时间序列的维度。时间序列的随机扰动和噪声比较多,如何分析序列的相似度变得相当困难。许多聚类算法,如k-means的效果和参数的选取有密切关系。面对大规模的时序数据,难以人工选取合适的参数,因此我们需要设计更智能的参数选择方法。

 

本文提出一种基于PCA降维的聚类方法,能够很好地解决上面的问题。

方法研究

该章节一共分为两部分:降维和聚类,接下来我们将详细介绍。

 

1

降维

大规模的时序数据集中通常含有数以万计的时序数据实例,每个实例上含有大量的数据点,直接对整个数据集进行聚类将带来巨大的计算开销。因此,本文通过随机采样和维度缩减的手段降低需要考察的实例数目和维度,将采样后的数据集作为聚类模块的输入,降低计算开销。

 

下面介绍降维的方法。PCA是选择特征,降低特征维度比较常用的方法。python中有现成的算法包,可以将维度降低到自己指定的维度上来。

from sklearn.decomposition import PCA

#维度

d=** 

pca=PCA(n_components=d) 

newdata = pca.fit_transform(data)

 

PCA原理就不说明,百度上有一大堆。通过上面的方法就可以将维度降低到自己想要的维度上来。

 

除了PCA可以实现降维,微软提出了随机分段平均也可以实现时间序列降维的方法,具体详见参考文章一。

 

2

聚类

时序数据中的数据曲线模式多种多样,每个类别中含有的曲线数量也有较大差异。面对这种情况,基于密度的聚类方法是一种很好的选择。基于密度的聚类算法正是根据这一思想将相似曲线逐步加入同一聚类簇中,从而能够找出任意形状的聚类簇。特别地,真实的时序数据模式较为复杂,在一个数据集中可能存在多种密度的聚类簇。因此本文中将基于密度的DBSCAN算法改提升聚类准确性。

 

y_pred = DBSCAN().fit_predict(data)

效果展示

我们对一个机器的五个监控项进行分析,这五个监控项分别为:'cpu.idle', 'load.1min', 'mem.memused.percent', 'df.statistics.used.percent', 'agent.alive',他们的时序图如下:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

 

对这五个监控项进行PCA降维,从1440维降到3维:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

可以看到通过降维以后,有两个点在相近的区域内,我们通过DBSCAN聚类后,效果如下:

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

结果符合我们的预期。

 

3

总结

本文介绍了一种时间序列聚类的方法,当然还有很多类似的算法去实现,需要不断尝试,找到符合自己场景的组合算法。

 

参考文献:

1.Yading: Fast Clustering of Large-Scale Time Series Data

标签:降维,时序,维度,聚类,序列,PCA,方法
来源: https://blog.51cto.com/u_15293891/2993741

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有