租金预测案例学习:
数据来源:
上海在租房源信息
时间节点:2019年7月17日
数据集包括在线租房源信息及其基本情况
属性信息:楼盘名称;租赁方式;面积;朝向;房租;城市;区域;街道或片区;地址;公交站等
学习目标:
1)探索查看真实房源数据,找一找数据存在哪些问题?
要求:
① 读取一个真实房源的数据表
② 查看已有的数据存在哪些问题,确认数据应该如何清洗
2)针对数据存在的问题,应该采取怎么样的数据清洗策略?
要求:
① 根据上一节发现的数据问题,编写数据清洗函数,并测试清洗函数
② 使用数据清洗函数对所有真实房源数据表进行处理并合并
③ 输出清洗合并后的数据表
3)如何根据房源地理位置信息关联更多空间特征来提高租金模型的泛化能力?
要求:
① 利用已有的数据获取有效的样本地址信息
② 根据地址信息关联更多的空间特征
③ 输出关联了地理特征的完整模型数据表
4)如何进行模型数据预处理?
要求:
① 以平米租金(单位:元/月/每平米)为应变量
② 处理模型数据中存在的缺失值、异常值问题
③ 输出最终的建模数据表
5)选取不同的模型进行模型训练并对比模型效果、优化模型效果,确定最终预测模型
要求:
① 使用留一法进行数据集划分,验证集比例:30%
② 训练至少两个不同类型的模型进行租金模型训练,并对比模型效果
③ 优化模型效果,确定最佳模型,并保存模型文件
建议工作流程:
1. 数据探索
2. 数据清洗
3. 特征补充
4. 数据预处理
5. 训练并优化模型
6. 模型保存
原始数据链接: https://pan.baidu.com/s/1bgakkH6Gq6sq2Ahuyirjqg
代码链接: 待审核
脑图链接: 待审核
标签:住宅,租金,房源,数据表,出租,清洗,数据,模型 来源: https://blog.csdn.net/weixin_42568012/article/details/103985667
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。