ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【机器学习实战】计算两个矩阵的成对距离(pair-wise distances)

2019-12-11 18:52:33  阅读:2979  来源: 互联网

标签:distances wise distance scipy pairwise pair CPU sklearn


矩阵中每一行是一个样本,计算两个矩阵样本之间的距离,即成对距离(pair-wise distances),可以采用 sklearn 或 scipy 中的函数,方便计算。

sklearn: sklearn.metrics.pairwise_distances

scipy: scipy.spatial.distance_matrix(用于 p-norm) 或 scipy.spatial.distance.cdist(所有常用距离 metrics)

比较两者的运行时间:

import numpy as np
from sklearn.metrics import pairwise_distances
from scipy.spatial import distance_matrix

x = np.random.rand(400000).reshape((-1, 10))
y = np.random.rand(450).reshape((-1, 10))

def option1():
    dists = pairwise_distances(x, y)

def option2():
    dists = distance_matrix(x, y)

使用 pycharm 在 console 里用 timeit option1() timeit option2() 查看运行时间,可以发现 sklearn 里面的函数运行时间更短。

但是有个问题,sklearn 在运行时,pairwise_distances 会占用大量 CPU 资源,在 linux 服务器上跑,32 个 CPU 核会都占满,这是由于 pairwise_distances 并行造成的,生成的大量子进程会占满所有 CPU 资源,即使设置 n_jobs = 1,也会有 31 个子进程生成。可能的原因是并行的最大进程数自动设置成了 max(cpu_count() // effective_n_jobs, 1),详情请看 sklearn.utils.parallel_backend — scikit-learn 0.22

而对于 scipy,则不会并行计算,利用的 CPU 资源也有限,就一个主进程在跑,就是慢点。

References

sklearn.metrics.pairwise_distances -- scikit-learn
sklearn.utils.parallel_backend — scikit-learn 0.22
scipy.spatial.distance_matrix -- SciPy

标签:distances,wise,distance,scipy,pairwise,pair,CPU,sklearn
来源: https://www.cnblogs.com/wuliytTaotao/p/12024380.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有