ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

支持向量机学习笔记

2022-04-11 01:05:47  阅读:199  来源: 互联网

标签:frac Tx min na 笔记 学习 超平面 Sigma 向量


支持向量机

\(R^n\)空间中的点\(x\in R^n\),超平面\(f(x)=w^Tx+b=0,w\in R^n,b\in R\)。 整个n维空间被分成两部分。\(w\)就是这个超平面的法向量。\(w\)指向的那个方向就是\(f(x)\)为正的那一部分。

点到超平面距离:\(\frac{|ax_0+by_0+c|}{\sqrt{a^2+b^2}}\)。为了想让距离体现出点在超平面的哪一侧,通常不加这个绝对值符号:\(\frac{ax_0+by_0+c}{\sqrt{a^2+b^2}}\)。

对于高维超平面,给出点\(x_0\in R^n\),\(w\)为法向量,从\(x_0\)引垂线到\(x_1\),则\(x_0-x_1=l\frac{w}{|w|}\),故\(|l|=|x_0-x_1|\),且\(x_1\)在超平面上。\(x_1=x_0-\frac{lw}{|w|},f(x_1)=w^Tx_1+b=(w,x_1)+b=(w,x_0)-l|w|+b=0\),最终得到:\(l=\frac{(w,x_0)+b}{|w|}=\frac{w^Tx_0+b}{|w|}=\frac{f(x_0)}{|w|}\)

现在平面上有若干个两种颜色的点,尝试将其二分类。使用感知机模型很容易找到一个超平面将其区分,但这样的效果好吗?支持向量机希望找到的超平面是尽可能好的,希望不同分类的点中到超平面的最短垂直距离尽可能大。直观来看,如果两个分类的点到超平面的最短距离一样大,那么这个超平面既不能往上移动,也不能往下移动。

形式化来说,对于\((x_1,y_1)...(x_n,y_n),x_i\in R^k,y_i\in \{0,1\}\),给出\(w\in R^k,b\in R\),分类平面\(f(x)=w^Tx+b=0\)。带符号距离:\(\frac{w^Tx_i+b}{|w|}\)。我们希望的是\(y_i(\frac{w^Tx_i+b}{|w|})>0\),表示确实分开了,希望\(max_{w,b}(min_i \frac{y_i(w^Tx_i+b)}{|w|})\)

优化问题:\(max_{w\in R^k,b\in R}(min_{i}\frac{y_i(w^Tx_i+b)}{w})\),约束条件为\(y_i(w^Tx_i+b)>0\)。

极小化风险?极大化收益?把\(y_i(w^Tx_i+b)\)看作收益,\(|w|\)看作风险,则优化问题1:\(max_{w,b}(min_i(y_iw^Tx_i+b))\),约束条件为\(||w||=1\)(风险固定)。优化问题2:\(min||w||\),约束条件为\(min_i(y_i(w^Tx_i+b))\geq 1\),这等价于\(min||w||^2\),约束条件为\(\forall i\in[1,n],y_i(w^Tx_i+b))\geq 1\)。

求解这个问题可以引入二次规划,通常形式为:

截屏2022-04-10 11.06.54

有现成的包可以对其进行求解。

如果不使用二次规划的话,那么就可以从对偶问题的角度出发,受拉格朗日乘子法的启发:

\(max_{a_i\geq 0}(||w||^2+\Sigma_{i=1}^n a_i(1-y_i(w^Tx_i+b)))\)

如果约束条件都满足,即\(1-y_i(w^Tx_i+b)\leq0\),因为\(a_i\geq0\),因此求和号里是恒小于等于0的。因此只有ai等于0的时候才能得到极大,此时要极大化的就是\(||w||^2\)。 而如果\(1-y_i(w^Tx_i+b)>0\),那么极大化的结果是正无穷。

求极小的时候,\(min_{b,w}(max_{a_i\geq 0}(||w||^2+\Sigma_{i=1}^n a_i(1-y_i(w^Tx_i+b))))\)等于求\(min\ ||w||^2\)且满足约束条件\(1-y_i(w^Tx_i+b)\leq0\)

现在就把一个二次规划问题转换为带有拉格朗日乘子法性质的问题。\(a_i\)必须是正的!

现在把min和max交换一下位置,问题等价于\(max_{a_i\geq 0}(min_{b,w}(||w||^2+\Sigma_{i=1}^n a_i(1-y_i(w^Tx_i+b))))\)。为什么对于这个问题可以交换呢?因为里面的这部分是关于\(w\)的凸函数,通常这种情况下是可以交换的。此时\(a_i\)固定,可以对\(w,b\)求梯度:\(2w=\Sigma_{i=1}^na_iy_ix_i,\Sigma_{i=1}^na_iy_i=0\)。可以得到\(w=\frac{1}{2}\Sigma_{i=1}^na_iy_ix_i\),将其回代,得到:\(max_{a_i\geq0}(-\frac{1}{4}\Sigma_{i,j=1}^na_ia_jy_iy_jx_i^Tx_j+\Sigma_{i=1}^na_i)\),且\(\Sigma_{i=1}^na_iy_i=0\)。眼前的这个优化问题中,\(y_i\)都是给定的,\(x_i\)也都是给定的。因此这个问题就变成了针对于\(a_i\)的一个问题。其中\(a_i\)都是一次的和二次的,针对\(a_i\)的约束也都是一次的和二次的。可以发现这是一个对于\(a_i\)的二次规划问题。把对于\(w\)的二次规划问题转换为对于\(a_i\)的二次规划问题后究竟得到了什么信息呢?主要体现:对于\(a_i\)的二次规划问题中,\(x_i^Tx_j=(x_i,x_j)\),如果这个内积是另外一种形式,这丝毫不影响二次规划的结果。分析如下:对于\(\Phi:R^k\to R^m(k<m)\),经过非线性变换:\(x\to\Phi(x)\),这个变换过程可能是非线性的,当然也可能就是简单的升维。\((x_1,y_1)...(x_n,y_n)\to(\Phi(x_1),y1)...(\Phi(x_n),y_n)\)。对于低维空间线性不可分的点,升维变换后可能就线性可分了。问题变为:\(max_{a_i\geq0}(-\frac{1}{4}\Sigma_{i,j=1}^na_ia_jy_iy_j(\Phi(x_i),\Phi(x_j))+\Sigma_{i=1}^na_i),\Sigma_{i=1}^na_iy_i=0,a_i\geq 0\)。如果解出了所有的a,那么应该怎么区分原来的点呢?此时\(w=\Sigma_{i=1}^na_iy_i\Phi(x_i)\),超平面\(R^m:(w,x)+b=0\)等价于\((\Sigma_{i=1}^na_iy_i\Phi(x_i),\Phi(X))+b=0\)。其放到低维空间是超曲面。

更一般的内积:\(K(x_i,x_j)=(\Phi(x_i),\Phi(x_j))\),也可以是这样的:\(K(x_i,x_j)=(a+b(x_i,x_j))^m\)。条件是,不论什么样的内积,其构成的二维矩阵必须是正定的。满足这样的条件的函数\(K\):核函数。其可以对应到\(\Phi:R^k\to R^m\)。这里的m可以小于等于正无穷。

二次规划:\(max_{a_i\geq0}(-\frac{1}{4}\Sigma_{i,j=1}^na_ia_jy_iy_jK(x_i,x_j)+\Sigma_{i=1}^na_i)\),且要满足约束条件。\(f(x)=\Sigma_{i=1}^na_iy_iK(x_i,X)+b\),分类问题就变成\(f(x)>0\ or \ <0\)。最后可能绝大部分\(a_i=0\),不等于0的\(a_i\)对应的点就构成了支持向量。

标签:frac,Tx,min,na,笔记,学习,超平面,Sigma,向量
来源: https://www.cnblogs.com/lipoicyclic/p/16128320.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有