首页 > 其他分享> 文章详细

拓端tecdat|R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

2022-02-05 18:03:58 阅读：302 来源： 互联网

标签：plot 层次 means 微阵列聚类数据链接聚类分析

原文链接：http://tecdat.cn/?p=25196

原文出处：拓端数据部落公众号

目标

对“NCI60”（癌细胞系微阵列）数据使用聚类方法，目的是找出观察结果是否聚类为不同类型的癌症。K_means 和层次聚类的比较。

#数据信息
dim(nata)

nci.labs[1:4]

table(ncibs)

ncbs

scale # 标准化变量（均值零和标准差一）。

全链接、平均链接和单链接之间的比较。

plot(hclust,ylab = "",cex=".5",col="blue") #使用全链接对观察结果进行层次聚类。

plot(hclust,cex=".5",col="blue") #使用平均链接对观察进行层次聚类。

par(mfrow=c(1,1))
plot(hclust,col="blue") #使用单链接对观察进行层次聚类。

观察结果

单链接聚类倾向于产生拖尾的聚类：非常大的聚类，单个观测值一个接一个地附在其中。

另一方面，全链接和平均链接往往会产生更加平衡和有吸引力的聚类。

由于这个原因，全链接和平均链接比单链接层次聚类更受欢迎。单一癌症类型中的细胞系确实倾向于聚在一起，尽管聚类并不完美。

table(hrs,ncbs)

我们可以看到一个清晰的模式，即所有白血病细胞系都属于聚类 3，其中乳腺癌细胞分布在三个不同的聚类中。

plot(hcu)
abline

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。

kout=kmea
table

我们看到，获得层次聚类和 K-means 聚类的四个聚类产生了不同的结果。K-means 聚类中的簇 2 与层次聚类中的簇 3 相同。另一方面，其他集群不同。

结论

层次聚类在 NCI60 数据集中能比 K-means聚类得到更好的聚类。

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言中不同类型的聚类方法比较

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.用于NLP的Python：使用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集分析探索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类

标签：plot,层次,means,微阵列,聚类,数据,链接,聚类分析
来源： https://www.cnblogs.com/tecdat/p/15864503.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

拓端tecdat|R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

原文链接：http://tecdat.cn/?p=25196

原文出处：拓端数据部落公众号

目标

观察结果

结论