标签:机器 复习 训练 -- 样本 贝叶斯 期末 拟合 集合
机器学习
- 1.机器学习与传统技术有什么区别
- 2.交叉验证
- 3.贝叶斯分类有哪几种分别适用哪种场合
- 4.贝叶斯如何实现垃圾邮件分类
- 5.KNN
- 6.KNN 贝叶斯 贝叶斯的异同
- 7.集成学习的主要目的,bagging和Boosting区别
- 8.支持向量机
- 8.聚类
1.机器学习与传统技术有什么区别
数学->物理 求解方程【分析系统状态】
根据定理列方程-->物理问题的数学模型-->求解方程(位移,电压)-->得到结果(状态值)
优化算法(配置系统)
如何配置参数使得系统运行最优
机器学习(数据映射关系)-->函数、规律
针对数据(实验数据或者用户数据)选择合适的机器学习模型、调节超参数让机器学习模型从数据中找到某种规律、进行预测
深度学习只是机器学习的一种神经网络
2.交叉验证
评价模型的策略-->交叉验证
评价分类模型的标准-->准确率、精准率、召回率
通过调参{
1.拟合程度
2.模型复杂程度
3.分界线拟合
4.泛化能力
}
1 2 3 -->交叉验证策略-->4(目的:更好的评价模型,为了找到更好的你和程度)
-->用准确率、召回率、指标-->评价模型
调参-->拟合程度-->分界线的拟合效果
评价分类模型-->拟合程度-->模型的复杂程度
简单训练集和测试集的切分 | 标准K折交叉验证 | 分层K折价差验证 | 留一法价差验证 | 随机排列交叉验证 | |
---|---|---|---|---|---|
方法 | 直接按比例划分 | 将数据平均分成n段,训练K次,每次训练取一段数据作为测试集,n-1段作为训练集 | 将数据分成K段,训练K次,每次训练取一段作为测试集,K-1段作为训练集 | 测试集只有一个,其余作为训练集 | 随机划分多次 |
结果 | 测试集可能会出现训练集没有的情况造成结果不准确 | 测试集全覆盖,但仍然受到取样的影响 | 每段里的数据分布与整体分布比例一样,受取样的影响较小 | 最大减少取样不均导致的偏差,但是样本数过度 | 随机划分,减少取样带来的偏差 |
3.贝叶斯分类有哪几种分别适用哪种场合
GaussianNB | MultinomialNB | BernoulliNB | |
---|---|---|---|
特征 | 数据满足高斯分布(2种特征,数据分布大部分是连续值) | 数据满足多项式分布(2个以上特征,数据分布大多数是多元离散值) | 数据满足二项分布(伯努利分布)(数据分布是二元离散或者很稀疏的多元离散值)(2个以上特征,呈高斯分布) |
4.贝叶斯如何实现垃圾邮件分类
设1000封邮件
先算概率表(条件概率):正常邮件中每个词出现的概率.P(词|正)和垃圾邮件中每个 词出现的概率P(词|垃)。
然后贝叶斯推理(一封新邮件识别,拆分为词的集合):
P(垃|一封新邮件)
=P(垃|词集合)
=P(垃词集合)/P(词集合)
=P(垃)*P(词集合|垃)/P(词集合(正+垃))
=P(垃)*P(词集合|垃)/(P(词集合正)+P(词集合垃))
=P(垃)*P(词集合|垃)/(P(正)P(词集合|正)+P(垃)P(词的集合|垃))
=P(词集合|垃)/(P(词集合|垃)+P(词集合|正))
=(P(词1|垃)+P(词2|垃)…P(词n|垃))/(P(词1|垃)+P(词2|垃)…P(词n| 垃)+P(词1|正)+P(词2|正)…P(词n|正)
5.KNN
1.KNN算法的原理、具体的步骤
原理:物以类聚,人以群分
(1)训练数据归一化
(2)算新样本与训练样本之间的距离
(3)根据距离排序,取距离新样本最近的前k个
(4)对前k个样本进行统计哪一类数量最多
(5)选取数量最多的那一类作为新样本的类别
2.KNN中是否存在超参数,超参数对KNN分类产生什么影响
K:距离最近邻居数 P:计算距离的次数 p=1 |x1-x2| p=2|根号下x1方-x2方|
K:小 欠拟合
大 过拟合
P:(影响)拟合程度
(1)算距离
(2)距离加权,和k一起起作用
6.KNN 贝叶斯 贝叶斯的异同
设特征数为d(连续),样本总数为n,种类数为m
KNN | 贝叶斯 | 贝叶斯 | |
---|---|---|---|
训练 | 不需要训练 ( 模型即为训练的数据)时间复杂度:O(1) | 需要(用于计算分布参数)时间复杂度O(n*d) | 需要 (用于生成决策树)时间复杂度O(dnlog2n) |
预测 | 需要(用于计算新样本与训练集中的每一个样本的距离) 时间复杂度:O(d*n) | 需要(根据贝叶斯公式反推后面的条件概率) 时间复杂度:O(m*d) | 需要 (根据分支去算) 时间复杂度:(log2n) |
拟合 | 拟合度可以调节 | 容易欠拟合 | 容易过拟合 |
超参数 | K,P | 无 | 剪枝参数 |
优点 | 训练快(实际上根本不用训练) | 不过拟合(结果由概率决定) | 预测快(预测时相当于if-else) |
缺点 | 预测慢(要比较所有的数据) | 易欠拟合 | 易过拟合 |
7.集成学习的主要目的,bagging和Boosting区别
目的1:综合不同模型的学习能力,产生更强的模型
目的2:将原有模型中的欠拟合和过拟合弱化对模型的影响
Bagging(随机数森林)放回取样,用不同的样本或特征对不同的模型进行训练,然后集成
Boosting:递进增强,每次训练模型都是基于上一模型训练出错的样本,让后逐步递进训练集成。
8.支持向量机
(1)二分类线性支持向量机的原理
1.分界线距离两个类别样本尽可能远
2.距离分界线最近的两个类别的样本点,构成平行线之间的距离margin最大
3.平行线上最近的点到分界线的距离d最大
4.找到分界线的参数w使d最大的同时所有样本点不在平行线之间
(2)高斯核、svm、C、gamma分别起什么作用
c设置惩罚度,对误差的容忍度
c越小,容忍度越强
c越大,容忍度越弱 过拟合
gamma设置高斯核的幅度
gamma 小 误差大 幅度宽 影响范围大
gamma 大 误差小 幅度窄 影响范围小
8.聚类
(1)k均值聚类
1.随机生成K个中心点(随即分类)
2.所有的样本点计算与中心点的距离
3.样本点距离哪个中心最近就是哪一类
4.对新分布好的样本点重新计算中心点
5.重复2–4知道最大迭代次数或中心点不动
(2)混合高斯聚类
1.随机分布为k个类别
2.算每个类别分布参数(w,阿拉法方)
3.根据每个类的分布参数对每个样本重新分类
4.重复2,3知道最大迭代次数或者分布参数不变
椭圆形数据聚类 K均值不行
协方差矩阵 主成分分析
梯度上升法 主成分分析
标签:机器,复习,训练,--,样本,贝叶斯,期末,拟合,集合 来源: https://blog.csdn.net/Acticfing/article/details/121684845
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。