标签:145 变量 Club Lending 建模 days Late 删去 loan
0. 数据准备
- 原始数据来源:https://www.kaggle.com/wendykan/lending-club-loan-data/kernels
- 原始时间跨度:2007-2015
- 原始数据维度:226万 * 145
- 本项违约定义:违约16天及其以上 (d_loan = [ "Late (16-30 days)" , "Late (31-120 days)","Charged Off" , "Default", "Does not meet the credit policy. Status:Charged Off"])
- 模型时间窗口:由于数据量较大,时间跨度过长,故选择2016、2017 两年的数据进行后续建模(数据877986*145)。
1. 数据清洗
1.1 删除变量
- 删去缺失率大于 25% 变量 (44个变量)
- 删去取值只有一个的变量,同一性很大的变量 (17个变量)
- 删去一些无用变量,例如一些贷后数据,如下图
标签:145,变量,Club,Lending,建模,days,Late,删去,loan 来源: https://www.cnblogs.com/Ray-0808/p/12958258.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。