[机器学习]贝叶斯分类器I

2021-11-13 21:59:30 阅读：121 来源： 互联网

贝叶斯分类器I

贝叶斯决策论

贝叶斯决策论实在概率框架下实施决策得基本方法。

对分类任务来说，在所有相关概率都已知得理想情况下，贝叶斯决策论考虑如何基于这些概率和误判损失选择最优得类别标记。

问题：

假设有 N N N种可能得类别标记，即 y = { c 1 , c 2 , ⋯ , c N } y=\left \{ c_1,c_2,\cdots,c_N \right \} y={c1,c2,⋯,cN}， λ i j \lambda_{ij} λij为将一个真实标记为 c i c_i ci的样本误标记为 c j c_j cj所产生的损失.

条件风险： R ( c i ∣ x ) = ∑ N j = 1 λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{N}^{j=1}\lambda_{ij}P(c_j|x) R(ci∣x)=∑Nj=1λijP(cj∣x)
目标：于是我们的任务便是寻找一个判定准则 h : x ⟶ y h:x \longrightarrow y h:x⟶y 以最小化总体风险： R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=E_x\left [ R(h(x)|x) \right ] R(h)=Ex[R(h(x)∣x)]
结果： h ∗ ( x ) = a r g m i n c ∈ y R ( c ∣ x ) h^*(x)={argmin}_{c\in y }R(c|x) h∗(x)=argminc∈yR(c∣x)， h ∗ ( x ) h^*(x) h∗(x)称为贝叶斯最优分类器。

若记 λ i j = { 0 , i = j 1 , i ≠ j \lambda_{ij}=\left\{\begin{matrix} 0,i=j \\ 1,i\ne j \end{matrix}\right. λij={0,i=j1,i=j，则条件风险 R ( c ∣ x ) = 1 − P ( c ∣ x ) R(c|x)=1-P(c|x) R(c∣x)=1−P(c∣x)，贝叶斯最优分类器为 h ∗ ( x ) = a r g m a x c ∈ y P ( c ∣ x ) h^*(x)={argmax}_{c\in y }P(c|x) h∗(x)=argmaxc∈yP(c∣x)。

于是问题转化为估计 P ( c ∣ x ) P(c|x) P(c∣x)，由贝叶斯定理 P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c|x)=\frac{P(c)P(x|c)}{P(x)} P(c∣x)=P(x)P(c)P(x∣c)。
在这里插入图片描述

朴素贝叶斯分类器

朴素贝叶斯分类器(naive Bayes classifier)采用了“属性条件独立性假设”：对已知类别，假设所有属性相互独立。

目标函数

P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) h n b ( x ) = a r g m a x c ∈ y P ( c ) ∏ i = 1 d P ( x i ∣ c ) \begin{matrix} P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c) \\ \\ h_{nb}(x)={argmax}_{{c\in y }}P(c)\prod_{i=1}^{d}P(x_i|c) \end{matrix} P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)∏i=1dP(xi∣c)hnb(x)=argmaxc∈yP(c)∏i=1dP(xi∣c)

求解

先验概率： P ( c ) = ∣ D c ∣ ∣ D ∣ P(c)=\frac{\left | D_c \right | }{\left | D \right | } P(c)=∣D∣∣Dc∣
条件概率：

离散属性：令 D c , x i D_{c,x_i} Dc,xi表示 D c D_c Dc中在第 i i i个属性上取值为 x i x_i xi的样本组成的集合，则： P ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D c ∣ P(x_i|c)=\frac{\left | D_{c,x_i} \right | }{\left | D_c \right | } P(xi∣c)=∣Dc∣∣Dc,xi∣
连续属性：考虑概率密度函数，假定 p ( x i ∣ c ) ∼ N ( μ c , i , σ c , i 2 ) p(x_i|c)\sim N(\mu_{c,i},\sigma_{c,i}^2) p(xi∣c)∼N(μc,i,σc,i2)，则： P ( x i ∣ c ) = 1 2 π σ c , i e x p ( − ( x i − μ c , i ) 2 2 σ c , i 2 ) P(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2} ) P(xi∣c)=2π σc,i1exp(−2σc,i2(xi−μc,i)2)

补充

为避免其他属性携带信息被训练集中未出现的属性值抹去，在估计概率时通常要进行平滑，常用拉普拉斯修正：
P ^ ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N P ^ ( x i ∣ c ) = ∣ D c , x i ∣ + 1 ∣ D c ∣ + N i \begin{matrix} \hat{P}(c)=\frac{\left | D_c \right |+1 }{\left | D \right |+N } \\ \\ \hat{P}(x_i|c)= \frac{\left | D_{c,x_i} \right |+1 }{\left | D_c \right |+N_i } \end{matrix} P^(c)=∣D∣+N∣Dc∣+1P^(xi∣c)=∣Dc∣+Ni∣Dc,xi∣+1

半朴素贝叶斯分类器

半朴素贝叶斯分类器适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

独依赖估计（ODE）

假设每个属性在类别之外最多依赖于一个其他属性，即 P ( c ∣ x ) ∝ P ( c ) ∏ i = 1 d P ( x i ∣ c , p a i ) P(c|x)\propto P(c)\prod_{i=1}^{d}P(x_i|c,pa_i) P(c∣x)∝P(c)∏i=1dP(xi∣c,pai)

根据属性与其父节点的连接关系，有以下几种分类：

SPODE
TAN
AODE

标签：xi,机器,贝叶斯,分类器,right,frac,left
来源： https://blog.csdn.net/m0_45164809/article/details/121309843

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9