ICode9

精准搜索请尝试: 精确搜索
  • pandas-数据离散化2021-03-19 20:30:15

    #!/usr/bin/env python # coding: utf-8 # # 第三课 Pandas类别型数据分析 # ## 第一节 数据的离散化及分箱操作 # In[1]: import pandas as pd # * pandas.cut() # In[2]: # 创建数据 df = pd.DataFrame({'Name':['George','Andrea','micheal','maggie&

  • 《Python金融大数据风控建模实战》 第6章 变量分箱方法2021-02-11 17:31:00

    《Python金融大数据风控建模实战》 第6章 变量分箱方法 本章引言Python代码实现及注释 本章引言 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量,对于变量取值较稀疏的离散变量也应该进行分箱处理。 变量分箱对模型的好处:

  • 特征工程之分箱2021-02-08 16:01:40

    最近比赛数据进入到特征组合的阶段,在进行特征组合前,要分箱处理,等深等距之类的方法太没有道理了,加上测试集的深度广度也不同。 所以尝试了一种woe编码分箱的方法 import woe.feature_process as fp import woe.eval as eval dataset_train=pd.read_csv('E:/比赛/公积金逾期预测-

  • 风控项目04---特征构造2020-12-17 12:01:21

    目录 一:数据准备:1.1: 数据的内在联系:1.2: 样本设计和特征框架: 二:特征构造:2.1: 静态信息特征和时间截面特征:2.2: 时间序列特征:2.3: 时间衍生序列案例:2.4:特征交叉(特征组合):2.5:特征变换:2.6:卡方分箱案例:2.7:编码方案:2.8:使用toad计算woe:2.9: 时间序列缺失值处理:2.10: 时间序列处理未来信

  • Python 7种超实用的数据清洗方法,这你一定要掌握2020-12-16 19:35:49

    数据清洗是数据分析的必备环节,在进行分析过程中,会有很多不符合分析要求的数据,例如重复、错误、缺失、异常类数据。 一、 重复值处理 数据录入过程、数据整合过程都可能会产生重复数据,直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_dupli

  • 信用评分系统运行原理上篇2020-12-07 18:57:20

    源码 https://gitee.com/pingfanrenbiji/Credit-Card-Score 在jupyter中打开该项目 导入代码库 # Numpy是以矩阵为基础的数学计算模块,纯数学import numpy as np# pandas是提供高性能易用数据类型和分析工具的第三方库import pandas as pd# 绘制图形import mat

  • 数据的区间量化2020-09-11 19:32:43

      1. 2.分位数分箱 固定宽度的分箱容易计算,但是如果计数值中有比较大的缺口,就会产生很多没有任何数据的空箱子。根据数据的分布特点,进行自适应的箱体定位,就可以解决这个问题。这种方法可以使用数据分布的分位数来实现。 分位数:分位数是将数据划分为相等的若干分数的值。例如,中位

  • Python评分卡建模—卡方分箱2020-09-06 09:01:13

    python金融风控评分卡模型和数据分析微专业课:http://dwz.date/b9vv 今天主要给大家讲讲卡方分箱算法ChiMerge。先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。 一、卡方分布 卡方分布(chi-square distribution, χ2-distribution)是概率统计里常用的一种概率分布,也是

  • 机器学习第三周-数据预处理(I)2020-03-15 16:06:17

        特征预处理是特征工程的一部分,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程在机器学习中占有相当重要的地位,在实际应用中,特征工程是机器学习成功的关键。特征工程是利用数据领域的相关只是来创建能够使机器学习算法达到最佳性能的过程。特征

  • 风控建模中的单变量分析2020-03-13 17:53:03

    目录 第2节 单变量分析 2.1 征信矢量 2.2 信息熵 2.3 分箱 2.4 思考 第2节 单变量分析 2.1 征信矢量 不管是一代还是二代征信报告,其包含的信息都是繁多且复杂的,并且无法直接使用原始数据进行CA分析和建模,为了快速、准确、全面地获取征信信息,需要对征信进行矢量提取,得到征

  • 数据离散化-分箱2020-02-20 23:03:58

      变量的延申和筛选-连续变量离散化-特征筛选    WOE编码(最优分箱)     WOE一般在0.1~3之间波动,IV值做得特征筛选的操作 一般保留>0.03的特征 IV值体现的时X和Y之间的显著性进行筛选 1.逐列分箱并获得IV值 # 运行自定义函数所在文件 对自定义分箱文件要自己理解 %run

  • 卡方分布2019-09-22 09:01:23

      卡方检验主要用于分类变量之间的独立性检验   基本思想:卡方表示观察值与理论值之间的偏离程度。   设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差,卡方值计算公式:             Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平

  • 卡方分箱中卡方值的计算2019-08-23 17:07:19

    关于卡方分箱,网上有很多文章,但几乎没有文章介绍分箱时相邻区间卡方值计算的方法,而本文在介绍卡方分箱的同时,重点介绍了相邻区间卡方值的计算方法。通过本文,希望大家能对卡方分箱有清楚透彻的认识。 分箱是什么 分箱是将连续的变量离散化,将多状态的离散变量合并成少状态。这里要

  • spss的数理应用2019-08-14 19:03:53

    1,回归模型 2.逻辑回归 3.分箱操作 4,聚类回归 总结,建立了良好的数理统计以后,用模型缩减数据并进行回归的分析处理。

  • 金融信贷风控中的机器学习2019-04-18 23:57:33

    金融信贷风控中的机器学习 推荐学习地址:https://pan.baidu.com/s/1AeYKXniWfE4va_9EAKseyg 提取码: 5w6e 如何搭建金融信贷风控中的机器学习模型推荐学习链接: https://pan.baidu.com/s/16YXyWmSssmcdwVFV9-gs0g 提取码: 4eh9 在金融贷款机构中,风控部门是核心部门之一。风控体系的

  • 特征工程:特征抽象、特征衍生2019-02-22 19:44:14

    特征工程:特征抽象、特征衍生 特征抽象 这一步是针对有序和无序的文本分类型特征,采用不同的方法进行处理,将其类别属性数值化。 多值有序特征的属性数值映射,这步也包含了降维处理(对于高维类别变量),把类别抽象成模型可以识别的特征值。有序特征的映射,使用的方法是先构建一个映射字典map

  • 机器学习2019-02-17 20:50:38

    scorecardpy的使用总结 常用函数及参数 woebin()中最常用的是breaks_list,表示人工分箱,应用场景是当最优分箱达不到我们的要求时利用人工分箱进行调节,主要使target_index单调,用法如下: breaks_adj = { 'final_score': [-np.inf,400, 450, 500,550,600,np.inf] } bins_adj = sc

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有