我有两个二维的数据集:(X1,Y1)和(X2,Y2).
我希望能够计算KS测试统计量,以确定这两个数据集中的值是来自相同还是不同的分布.我之前使用过scipy.stats.ks_2samp,但这是比较一维中的两个数据集或两个样本的概率分布.但是,在这种情况下,我不拘泥于概率分布,而是两个样本的离散x和y值.在这种情况下,我如何继续在python中获取ks测试值?对于每个参数X1,Y1,X2和Y2,我都有单独的numpy数组.
谢谢!
解决方法:
This Notebook提供了2个示例的2D K-S测试的Python实现.该.py文件可以下载here.该代码似乎是C代码的译文,如果样本量很大,效率可能会成为问题.
更多信息
该算法首先在两篇论文中开发
> Peacock, J.A. 1983, Two-Dimensional Goodness-of-Fit Testing in Astronomy
> Fasano, G. and Franceschini, A. 1987, A Multidimensional Version of the Kolmogorov-Smirnov Test.
一个很好的介绍和C实现可以在下面找到
> Press, W.H. et al. 1992, Numerical Recipes in C,第14.7节,第645页.
您可以在本书的其他版本中找到C / Fortran实现.
这里的标题为Beware the Kolmogorov-Smirnov test的帖子也与此主题相关,您可能需要看看.
更新资料
我还编写了一个使用numpy的python实现,它应该具有更好的性能.您可以找到代码here.
最好与原始论文/书核对代码(无论是哪一种). 2d KS测试的python实现要比numpy / scipy中的实现少得多.
标签:scipy,statistics,python 来源: https://codeday.me/bug/20191120/2044486.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。