Titanic - （XGBoost，RF随机森林，Fastai-tabular_learner）总结

2021-07-17 14:02:01 阅读：224 来源： 互联网

标签：训练 XGBoost learner 算法 Fastai RF 数据量数据

数据处理

从高分code学到很多表格数据处理的方法，主要是以下几种：

fillna Nan值得填充确实会对准确率有小幅度的提升
数据增强使用原始数据为基础生成额外的维度
连续数据转换将连续数据分段转换成分类数据
one-hot独热编码通过pandas.get_dummies()可以轻松实现分类数据的独热编码

算法

表格数据集在小数据量的情况下，决策树家族更有竞争力。采取了一些算法的对比使用，放在Titanic-M.ipynb中，代码地址https://github.com/AshenWithoutFire/Kaggle-FastAI.git 。

性能比较
算法	KaggleScore	优缺点
XGBClassifier（Sklearn版本）	0.76555	调参中等，训练集准确率95%，训练无显示，速度快
XGBoost	0.74880	调参多难以调到最优，训练显示，速度中等
RF（随机森林，Sklearn版本）	0.78229	调参少，训练无显示，速度快
Fastai-tabular_learner	0.75119	调参少，训练显示带图形，速度慢，无需实验α

综合来说：

RF算法在相同的数据下有更好的性能，因为需要调的参数少，也有更大的优化空间，寻找最优超参数的可能性比较大。唯一缺点是没有训练loss显示，Kaggle也不提供测试集的真实样本标签，所以一天也就十次测试机会。
XGBoost算法在小规模数据集上过拟合严重，而控制过拟合的参数众多会有互相影响。且例如gamma之类的参数增大之后，过拟合是减轻了但是收敛速度慢了很多甚至停在局部最优实际效果有时还不如不调参。这种情况在Sklearn版本未知，因为同样没有loss显示。盲猜数据量过小不能体现性能。一些文章有提到xgb在高维大数据量的情况下性能良好。
Fastai-tabular_learner 表现中规中矩，与决策树系的方法差距可以接受。能够自动寻找学习率，盲猜数据量过小不能体现性能。

标签：训练,XGBoost,learner,算法,Fastai,RF,数据量,数据
来源： https://blog.csdn.net/demonhunter8023/article/details/118855384

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Titanic - （XGBoost，RF随机森林，Fastai-tabular_learner）总结

数据处理

算法