sklearn

机器学习sklearn（十七）：特征工程（八）特征选择（三）卡方选择（二）卡方检验2021-06-19 19:04:31

Python有包可以直接实现特征选择，也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。 1. 首先import包和实验数据： from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 from sklearn.datasets import l
机器学习sklearn（十五）：特征工程（六）特征选择（一）主成分分析PCA2021-06-19 18:34:25

1. 准确的PCA和概率解释（Exact PCA and probabilistic interpretation） PCA 用于对具有一组连续正交分量(Orthogonal component 译注: 或译为正交成分,下出现成分和分量是同意词)的多变量数据集进行方差最大化的分解。在 scikit-learn 中， PCA 被实现为一个变换器对象，通过
机器学习sklearn（十二）：特征工程（三）特征组合与交叉（一）多项式特征2021-06-19 17:35:47

在机器学习中，通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。一个简单通用的办法是使用多项式特征，这可以获得特征的更高维度和互相间关系的项。这在 PolynomialFeatures 中实现: >>> import numpy as np >>> from sklearn.preprocessing import PolynomialF
【kaggle】中分预测2021-06-18 21:30:41

文章目录学习资料一、导包二、数据探索三、数据可视化四、其他属性与中分关系可视化五、数据预处理六、缺失值处理七、模型预测完整代码学习资料 kaggle 数据集、源文件等一、导包 # -*- coding: utf-8 -* import numpy as np import pandas as pd import sklearn as
机器学习sklearn（五）：数据处理（二）缺失值处理2021-06-16 23:34:37

来源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 单变量缺失 import numpy as np from sklearn.impute import SimpleImputer help(SimpleImputer): class SimpleImputer(_BaseImputer):Imputation transformer for completing missing values. Paramete
成功解决ModuleNotFoundError: No module named ‘sklearn.learning_curve‘2021-06-16 22:07:25

成功解决ModuleNotFoundError: No module named 'sklearn.learning_curve' 目录解决问题解决思路解决方法解决问题 from sklearn.learning_curve import validation_curve ModuleNotFoundError: No module named 'sklearn.learning_curve'
成功解决ImportError: cannot import name ‘Imputer‘2021-06-16 22:03:36

成功解决ImportError: cannot import name 'Imputer' 目录解决问题解决思路解决方法解决问题 ImportError: cannot import name 'Imputer' 解决思路导入错误:无法导入名称“Imputer” 解决方法 Imputer函数在最新版本
DL：基于sklearn的加利福尼亚房价数据集实现GD算法2021-06-15 21:06:16

DL：基于sklearn的加利福尼亚房价数据集实现GD算法目录输出结果代码设计输出结果该数据包含9个变量的20640个观测值，该数据集包含平均房屋价值作为目标变量和以下输入变量（特征）：平均收入、房屋平均年龄、平均房间、平均卧室、人口、平均占用、纬度和经度。
(八)sklearn中计算准确率、召回率、精确度、F1值2021-06-15 10:05:19

介绍准确率、召回率、精确度和F1分数是用来评估模型性能的指标。尽管这些术语听起来很复杂，但它们的基本概念非常简单。它们基于简单的公式，很容易计算。这篇文章将解释以下每个术语：为什么用它公式不用sklearn来计算使用sklearn进行计算在本教程结束时，我们将复习混淆矩阵以
机器学习sklearn2021-06-14 17:04:44

1.机器学习概述 1.1人工智能概述 1.1.1机器学习与人工智能、深度学习的关系机器学习是人工智能的实现途径深度学习是机器学习的一个方法发展而来的 1.1.2 机器学习深度学习的应用场景传统预测图像识别自然语言处理 1.2什么是机器学习 1.2.1 定义机器学习是从数据中自动分
机器学习sklearn（三）：加载数据集2021-06-14 11:34:47

1 Loading an example dataset scikit-learn comes with a few standard datasets, for instance the iris and digits datasets for classification and the diabetes dataset for regression. In the following, we start a Python interpreter from our shell and then
机器学习sklearn（二）：SKLEARN快速开始2021-06-14 11:01:25

来源：https://www.cnblogs.com/lianyingteng/p/7811126.html 0 简介　　传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。本文我们将依据传统机器学习的流程，看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样
随机森林分类器学习2021-06-13 22:05:12

转自：https://blog.csdn.net/gracejpw/article/details/102593225 1.sklearn建立随机森林分类器 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import Ra
sklearn中的tf-idf计算公式详解2021-06-11 22:01:23

TF-IDF Vectorizer 学习深入理解tf-idf矢量化算法 TF-IDF是Term Frequency Inverse Document Frequency的缩写，是一个将文本转换为数字表示的常用算法，是词袋法的典型代表，常用于信息检索和文本挖掘，反映了一个字词对于一个语料库中的一份文件的重要程度。简单来说，一个词在一篇文章
Sklearn2021-06-04 12:57:39

Sklearn 导入KNeighborsClassifier类型属性数据集处理导入函数说明from sklearn.neighbors import KNeighborsClassifier导入KNN分类器from sklearn.datasets import load_breast_cancer导入Sklearn案例数据from sklearn.model_selection import train_test_split划分
sklearn计算准确率、精确率、召回率、F1 score（宏平均微平均）2021-05-31 12:31:07

混淆矩阵混淆矩阵见：我的博客准确率 import numpy as np from sklearn.metrics import accuracy_score y_pred = [0, 2, 1, 3] y_true = [0, 1, 2, 3] print(accuracy_score(y_true, y_pred)) print(accuracy_score(y_true, y_pred, normalize=False)) # 在具有二元
应用sklearn实现SVM和数据预处理2021-05-22 21:59:35

1. SVM算法支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）。 SVM使用铰链损失函数（hinge loss）计算
TPOT: 自动化的sklearn2021-05-18 09:01:17

TPOT主页 https://epistasislab.github.io/tpot/ 注意TPOT和sklearn的天然亲缘关系。主页提供了许多常用数据集的示例：选择超参数的问题在于，没有放之四海而皆准的超参数。因此，对于每个新数据集，我们必须找到最佳设置。这可能是一个耗时的过程，但幸运的是，在Scikit-Learn中执行
sklearn.preprocessing.OneHotEncoder2021-05-17 18:03:00

1.概要 sklearn中的OneHotEncoder函数，可以将分类特征的每个元素转换为一个可以用来计算的值。 2. 解析函数sklearn.preprocessing.OneHotEncoder，格式为： OneHotEncoder(n_values=’auto’, categorical_features=’all’, dtype=<class ‘numpy.float64’>, sparse=True
20210515 波士顿房价数据集的处理2021-05-15 15:01:19

1-1 # 波士顿房价数据集的处理 import pandas as pd import numpy as np from sklearn.datasets import load_boston boston = load_boston() boston.data.shape boston.data 1-2-1 import pandas as pd import numpy as np from sklearn.datasets import load_boston boston = l
机器学习入门基础（一）2021-05-11 22:06:26

机器学习简介祖师爷图灵，人工智能之父，最大成就图灵测试，就是一个机器和一个人跟你聊天，你不知道对方是人还是机器，如果经过聊天后，你分辨不出谁是人谁是机器说明这个机器通过了图灵测试。人工智能和机器学习的区别？机器学习就是实现人工智能的一种手段什么是机器学习？机器学习
集成学习下之Blending集成学习2021-05-11 22:02:51

Blending集成学习作为stack集成学习的简化版，可以看成是一个两层的集成，第一层有多个分类器，分类的结果输出到第二层，而第二层通常是一个逻辑回归的模型，把第一层的分类结果作为特征输入到逻辑回归的模型。 Blending集成学习主要步骤分为以下五步： (1) 将数据划
K-近邻算法2021-05-11 18:33:02

一、K-近邻算法介绍 1.1定义 K Nearest Neighbor算法又叫KNN算法，定义为：如果一个样本在特征空间中的K个最相似（即特征空间中最近邻）的样本中的大多数属于某一个类别，则该样本也属于这个类别。定义不是太好理解，可以参考下图，假设你刚到北京，你下火车后你不知道你在那个区，但是你知道你4个
Python手写字母识别2021-05-09 18:59:58

目录 Python手写字母识别准备数据下载数据预处理训练 Python手写字母识别准备 #设置镜像 pip install pip -U pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple #安装 pip install numpy pip install pandas pip install scipy pip install
Python数模笔记-Sklearn（1）介绍2021-05-09 16:04:43

1、SKlearn 是什么　　Sklearn（全称 SciKit-Learn），是基于 Python 语言的机器学习工具包。　　Sklearn 主要用Python编写，建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上，也用 Cython编写了一些核心算法来提高性能。　　Sklearn 包括六大功能模块：分类（Classification）：识别样

首页 < 6 7 8

ICode9

机器学习sklearn（十七）： 特征工程（八）特征选择（三）卡方选择（二）卡方检验2021-06-19 19:04:31

机器学习sklearn（十五）： 特征工程（六）特征选择（一）主成分分析PCA2021-06-19 18:34:25

机器学习sklearn（十二）： 特征工程（三）特征组合与交叉（一）多项式特征2021-06-19 17:35:47

【kaggle】中分预测2021-06-18 21:30:41

机器学习sklearn（五）： 数据处理（二）缺失值处理2021-06-16 23:34:37

成功解决ModuleNotFoundError: No module named ‘sklearn.learning_curve‘2021-06-16 22:07:25

成功解决ImportError: cannot import name ‘Imputer‘2021-06-16 22:03:36

DL：基于sklearn的加利福尼亚房价数据集实现GD算法2021-06-15 21:06:16

(八)sklearn中计算准确率、召回率、精确度、F1值2021-06-15 10:05:19

机器学习sklearn2021-06-14 17:04:44

机器学习sklearn（三）：加载数据集2021-06-14 11:34:47

机器学习sklearn（二）：SKLEARN快速开始2021-06-14 11:01:25

随机森林分类器学习2021-06-13 22:05:12

sklearn中的tf-idf计算公式详解2021-06-11 22:01:23

Sklearn2021-06-04 12:57:39

sklearn计算准确率、精确率、召回率、F1 score（宏平均 微平均）2021-05-31 12:31:07

应用sklearn实现SVM和数据预处理2021-05-22 21:59:35

TPOT: 自动化的sklearn2021-05-18 09:01:17

sklearn.preprocessing.OneHotEncoder2021-05-17 18:03:00

20210515 波士顿房价数据集的处理2021-05-15 15:01:19

机器学习入门基础（一）2021-05-11 22:06:26

集成学习下之Blending集成学习2021-05-11 22:02:51

K-近邻算法2021-05-11 18:33:02

Python手写字母识别2021-05-09 18:59:58

Python数模笔记-Sklearn（1） 介绍2021-05-09 16:04:43

机器学习sklearn（十七）：特征工程（八）特征选择（三）卡方选择（二）卡方检验2021-06-19 19:04:31

机器学习sklearn（十五）：特征工程（六）特征选择（一）主成分分析PCA2021-06-19 18:34:25

机器学习sklearn（十二）：特征工程（三）特征组合与交叉（一）多项式特征2021-06-19 17:35:47

机器学习sklearn（五）：数据处理（二）缺失值处理2021-06-16 23:34:37

sklearn计算准确率、精确率、召回率、F1 score（宏平均微平均）2021-05-31 12:31:07

Python数模笔记-Sklearn（1）介绍2021-05-09 16:04:43