首页 > 其他分享> 文章详细

Scikit-learn---5.聚类模型

2019-12-27 19:54:42 阅读：266 来源： 互联网

标签：样本 weight 一个 Scikit sample 代表 learn array 聚类

（一）通用方法、参数

1.通用方法

get_params([deep])：返回模型的参数。
- deep：如果为True，则可以返回模型参数的子对象。
set_params(**params)：设置模型的参数。
- params：待设置的关键字参数。
fit(X[, y, sample_weight]) ：训练模型。
- X ：样本集合。通常是一个numpy array，每行代表一个样本，每列代表一个特征。
- y ：样本的标签集合。它与X 的每一行相对应。
- sample_weight：样本的权重。其形状为 [n_samples,]，每个元素代表一个样本的权重。
predict(X, sample_weight)：返回每个样本所属的簇标记。
- X ：样本集合。通常是一个numpy array，每行代表一个样本，每列代表一个特征。
- sample_weight：样本的权重。其形状为 [n_samples,]，每个元素代表一个样本的权重。
fit_predict(X[, y, sample_weight]) ：训练模型并执行聚类，返回每个样本所属的簇标记。
- X ：样本集合。通常是一个numpy array，每行代表一个样本，每列代表一个特征。
- y ：样本的标签集合。它与X 的每一行相对应。
- sample_weight：样本的权重。其形状为 [n_samples,]，每个元素代表一个样本的权重。
transform(X)：将数据集 X 转换到cluster center space 。

在cluster center space 中，样本的维度就是它距离各个聚类中心的距离。
- X ：样本集合。通常是一个numpy array，每行代表一个样本，每列代表一个特征。
fit_transform(X[, y, sample_weight])：训练模型并执行聚类，将数据集 X 转换到cluster center space 。
- X ：样本集合。通常是一个numpy array，每行代表一个样本，每列代表一个特征。
- y ：样本的标签集合。它与X 的每一行相对应。
- sample_weight：样本的权重。其形状为 [n_samples,]，每个元素代表一个样本的权重。

`2.通用参数`

n_jobs：一个正数，指定任务并形时指定的 CPU数量。

如果为 -1 则使用所有可用的 CPU。
verbose：一个正数。用于开启/关闭迭代中间输出日志功能。
- 数值越大，则日志越详细。
- 数值为0或者None，表示关闭日志输出。
max_iter ：一个整数，指定最大迭代次数。

如果为None则为默认值（不同solver的默认值不同）。
tol：一个浮点数，指定了算法收敛的阈值。
random_state：一个整数或者一个RandomState实例，或者None。
- 如果为整数，则它指定了随机数生成器的种子。
- 如果为RandomState实例，则指定了随机数生成器。
- 如果为None，则使用默认的随机数生成器。

一、KMeans

二、DBSCAN

三、MeanShift

四、AgglomerativeClustering

五、BIRCH

六、GaussianMixture

七、SpectralClustering

标签：样本,weight,一个,Scikit,sample,代表,learn,array,聚类
来源： https://www.cnblogs.com/nxf-rabbit75/p/12109346.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9