分箱

【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程2022-09-06 03:00:59

特征处理编码：数据类型：数值字符是否有顺序类别数量：高低基数1、独热编码针对无序低基数类离散特征，使之变为哑特征不适合高基数的特征2、标签编码：针对无序低基数类型的离散特征形式简单且对于低基数特征有效3、woe编码：代表特征对于y标签的预测能力，常用于描述区分好坏客户的衡量标
关于信贷评分卡模型，看这篇就够了！2022-08-11 16:00:09

风险并不是所有人都能轻松看到，信贷公司同样如此。 8月4日下午15：00，顶象研发总监就评分卡模型展开分享，详细介绍了评分卡模型的原理、评分卡模型的构建过程、评分卡模型的开发投产以及顶象的评分卡模型实践。评分卡模型原理通常来说，我们把贷款分为抵押贷款和信用贷款。抵押贷款顾名
pandas：聚合统计、数据分箱、分组可视化2022-05-21 18:02:59

1、聚合统计 1.1描述统计 #df.describe(),对数据的总体特征进行描述 df.groupby('team').describe() df.groupby('team').describe().T #列数太多，进行转置 1.2统计函数 #对分组对象直接使用统计函数，分组内数据进行计算，返回df形式的数据 #计算平均数 df.groupby('
Pandas 对数值进行分箱操作的4种方法总结对比2022-05-03 11:00:49

分箱是一种常见的数据预处理技术有时也被称为分桶或离散化，他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中，我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。我们创建以下合成数据用于演示 import pandas as pd # version 1.3.5 import numpy as np def
scorecardpy 介绍2022-04-24 12:01:08

前语：平时计算变量Iv值时也有调用过scorecardpy库，不过总体来说使用次数不多，对此功能也不是很熟悉，一般都是使用自己内部的库，但是涉及到去其他公司建模，或者是一个封闭的环境时，常常不能使用自己的东西，这就得使用toad或者scorecardpy，下面简单介绍一下，不过着重点还是一下三点：（1）计算出了i
如何理解WOE2022-04-20 16:35:04

WOE = ln (第i个分箱的坏人数 / 总坏人数) - ln (第i个分箱的好人数 / 总好人数) 　为帮助大家理解，现以具体数据介绍WOE和IV的计算步骤，如图1所示。 step 1. 对于连续型变量，进行分箱（binning），可以选择等频、等距，或者自定义间隔；对于离散型变量，如果分箱太多，则进行
特征处理之数值型特征2022-02-01 11:00:17

特征类别常见的特征类型有：数值特征、类别特征、序列特征、k-v特征、embedding特征、交叉特征等。 1. 数值特征数值特征最为常见，如一些统计类特征：ctr、click_num等，不同的业务场景，数值特征量不同，数值特征从特征获得方式上面又可以分成两类：一类是基础的统计特征一类是根据业
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱2022-01-26 23:00:05

目录分箱分箱的概念卡方分箱及代码实现自定义分箱代码实现变量分箱对模型的好处 KS分箱最优IV分箱基于树的最优分箱方法每文一语分箱分箱的概念什么是分箱？如果你初入机器学习的道路，你可能比较的懵逼，为什么要分箱？数据分箱指的是将连续数据离散化；离散化对异常值具有
python评分卡模型2022-01-18 09:58:11

信用风险计量模型可以包括跟个人信用评级，企业信用评级和国家信用评级。人信用评级有一系列评级模型组成，常见是A卡（申请评分卡）、B卡（行为模型）、C卡（催收模型）和F卡（反欺诈模型）。今天我们展示的是个人信用评级模型的开发过程，数据采用kaggle上知名的give me some credit数据集。一
数据挖掘中的常见数据预处理方法总结2022-01-05 14:00:54

一.基本概念为什么需要数据预处理：现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术数据：数据对象及其属性的集合属性值是分配给属性的数字或符号属性和属性值的区别 – 相同的属性可以映射
【转】对数据集进行最优分箱和WOE转换2021-12-06 23:02:53

对数据集进行最优分箱和WOE转换 - Reynold.C - 博客园对数据集分箱的方式三种，等宽等频最优，下面介绍对数据集进行最优分箱，分箱的其他介绍可以查看其他的博文，具体在这就不细说了：大体步骤： woe.py conf.py woe_executor.py thttps://www.cnblogs.com/leixingzhi7/p/9366908.html
Python实现对相同数据分箱小技巧2021-12-05 09:05:41

目录
宏基因组分箱软件metaWRAP报错记录2021-11-28 18:35:08

最近学习微生物宏基因组分箱（binning），按官方文档安装metaWRAP，踩了一堆坑，记录一下报错及解决方法： 1. metaWRAP安装安装教程及下载地址：GitHub - bxlab/metaWRAP: MetaWRAP - a flexible pipeline for genome-resolved metagenomic data analysis 作者推荐使用Conda/Mamba安装，不推
使用pd.cut进行分箱操作2021-11-17 12:02:32

1.表格 2.需求对表格中，a列下所有的数据进行分箱处理，使得每个箱子中出现的a的数值个数是一样的 3.代码如下 def test(): df = pd.DataFrame({'a':[1.0,1.29,1.59,1.9,2.2,2.5,2.7,3.4,4.0],'b':[11,12,13,14,15,16,17,18,19]}) label = ['潜在客户', '一般发展客户'
缺失值处理2021-11-12 13:34:39

缺失值处理是一个数据分析工作者永远避不开的话题，如何认识与理解缺失值，运用合适的方式处理缺失值，对模型的结果有很大的影响。 1. 缺失值分析 1.1. 缺失值类型随机丢失（MAR，Missing at Random）指数据丢失的概率与丢失的数据本身无关，而仅与部分已观测到的数据有关。完全随机丢失（MC
Python实现贷款用户的信用评分卡2021-11-11 21:30:37

在公众号「python风控模型」里回复关键字：学习资料信用风险计量模型可以包括跟个人信用评级，企业信用评级和国家信用评级。人信用评级有一系列评级模型组成，常见是A卡（申请评分卡）、B卡（行为模型）、C卡（催收模型）和F卡（反欺诈模型）。今天我们展示的是个人信用评级模型的开发过程，数据采
8.WOE&IV编码&分箱2021-09-06 15:32:32

不会直接把200个特征直接放到模型中去进行训练，而是会用一些方法，从这200个特征中挑选一些出来，放进模型，形成训练集数据。 1、分箱所谓分箱，就是通过某些分类标准，将数据集进行某维度若干数据的合并，比如身高范围可以是150~180，若分组是厘米，则有30组。若才用距离为5的分箱，150 ~ 155为
1评分卡模型相关~知识点已更完~代码待更2021-07-13 09:02:37

训练阶段：对数据的训练，创建一个预测模型并对其进行微调。模型生成：预测模型可以从这些数据背后找到答案，帮我们解决问题预测阶段：通过测试集完成模型评估，从而了解模型在测试集中的有效性。收集数据->准备数据：数据预处理->选择模型->训练->评估->超参数调整->预测基础强化
《机器学习Python实现_10_14_集成学习_xgboost_优化介绍》2021-07-04 20:00:30

样本采样与特征采样类似于randomforest，xgboost也可进行bootstrap的样本采样，和随机列采样，以增强模型的泛化能力，避免过拟合稀疏/缺失值处理 xgboost会为稀疏/缺失值选择一个默认方向，如果训练集中有稀疏/缺失值，通过计算其增益来选择往左还是往右作为默认方向，如果训练集中没有，则选择
python分箱+XGboost预测完整版2021-06-21 11:59:08

import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt from sklearn.preprocessing import MinMaxScaler from sklearn.model_selection import train_test_split from sklearn.feature_selection import VarianceThreshold mo
ALINK(二十二)：特征离散化简介2021-06-17 23:04:17

来源：https://blog.csdn.net/weixin_39552874/article/details/112325629 1 特征离散化方法和实现特征离散化指的是将连续特征划分离散的过程：将原始定量特征的一个区间一一映射到单一的值。在下文中，我们也将离散化过程表述为分箱(Binning) 的过程。特征离散化常应用于逻辑回归
评分卡模型2021-05-16 22:57:30

一、评分卡模型： 1、评分卡模型是常用的金融风控手段之一风控，就是风险控制，我们采取各种措施和方法，减少风险发生的可能性，或风险发生时造成的损失 2、根据客户的各种属性和行为数据，利用信用评分模型，对客户的信用进行评分，从而决定是否给予授信，授信的额度和利率，减少在金融交易中存在
数据科学猫：数据预处理之数据分箱(Binning)2021-05-07 11:31:01

进击的橘子猫正式改名上线啦！我的CSDN主页：https://blog.csdn.net/Orange_Spotty_Cat 也欢迎大家搜索微信公众号“进击的橘子猫”，我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧！简介本篇主要介绍机器学习建模中数据预处理步骤的
mysql 按某字段分组分箱聚合查询2021-05-07 08:01:14

SELECT cidnum1,count(*) as num from ( SELECT DISTINCT id,cidnum, (CASE WHEN 0<cidnum and cidnum<=1 THEN '1个公司' WHEN 1<cidnum and cidnum<=5 THEN '2-5个公司' WHEN 5<cidnum and cidnum<=10 THEN
挖掘2021-04-01 11:33:28

一、考试题型 1.填空：5-10分 2.选择：25单选，5多选 3.判断：10个，每个1分 4.图形题：图形补全。 5.计算题：5-6个 6.综合题：自己去论述，做数据分析与挖掘，几个步骤。怎么考虑。每个步骤使用什么技术。给个案例，你来完成整个过程。二、第5章聚类：聚类：算法：基于划分、基于层次、基于密度、基于网

1 2 > 尾页

ICode9

【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程2022-09-06 03:00:59

关于信贷评分卡模型，看这篇就够了！2022-08-11 16:00:09

pandas：聚合统计、数据分箱、分组可视化2022-05-21 18:02:59

Pandas 对数值进行分箱操作的4种方法总结对比2022-05-03 11:00:49

scorecardpy 介绍2022-04-24 12:01:08

如何理解WOE2022-04-20 16:35:04

特征处理之数值型特征2022-02-01 11:00:17

卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱2022-01-26 23:00:05

python评分卡模型2022-01-18 09:58:11

数据挖掘中的常见数据预处理方法总结2022-01-05 14:00:54

【转】对数据集进行最优分箱和WOE转换2021-12-06 23:02:53

Python实现对相同数据分箱小技巧2021-12-05 09:05:41

宏基因组分箱软件metaWRAP报错记录2021-11-28 18:35:08

使用pd.cut进行分箱操作2021-11-17 12:02:32

缺失值处理2021-11-12 13:34:39

Python实现贷款用户的信用评分卡2021-11-11 21:30:37

8.WOE&IV编码&分箱2021-09-06 15:32:32

1评分卡模型相关~知识点已更完~代码待更2021-07-13 09:02:37

《机器学习Python实现_10_14_集成学习_xgboost_优化介绍》2021-07-04 20:00:30

python分箱+XGboost预测完整版2021-06-21 11:59:08

ALINK(二十二)：特征离散化简介2021-06-17 23:04:17

评分卡模型2021-05-16 22:57:30

数据科学猫：数据预处理 之 数据分箱(Binning)2021-05-07 11:31:01

mysql 按某字段分组分箱聚合查询2021-05-07 08:01:14

挖掘2021-04-01 11:33:28

数据科学猫：数据预处理之数据分箱(Binning)2021-05-07 11:31:01