首页 > 其他分享> 文章详细

【论文笔记】Sparse filtering

2019-05-17 13:54:21 阅读：313 来源： 互联网

标签：filtering 函数特征笔记满足 L2 Sparse

论文来源：NIPS2011

相比于其它的无监督学习算法，Sparse filtering并不是去学习数据的分布，它是去分析特征的分布，良好的特征分布满足一定的特性，有了这个思想，只需要优化简单的目标函数，下面介绍。Sparse filtering可以有效地学习高维输入的特征，当进行分层训练时，Sparse filtering可以运用贪婪的思想进行训练，比如先进行第一层的训练，再进行第二层的训练，每一层都有自己的目标函数。
Sparse filtering还有个优点是需要调的参数只有特征的维度。
这篇论文其实主要就包括两个部分，一是什么样的特征是好的特征，二是如何利用这个思想构造目标函数。

什么样的特征是好的特征

满足三个特性的特征是好特征，下面介绍。

Population Sparsity

sparse features per example，每个样本应该只被少数的特征激活。sparse filtering的结果如下图。

类似于一层的神经网络，但是不同的是没有偏置项。我们的输出矩阵\(f_j^i\)表示第i个样本在第j个特征处的激活值，那么由Population Sparsity的思路我们希望，第i列就尽可能多的零值，只有少部分特征被激活。

Lifetime Sparsity

特征应该是具有分辨能力的，因此每个特征应该只被部分样本激活。这意味着，特征矩阵的每一行拥有尽可能多的零值。

High Dispersal

直观上理解，每个特征都不应该比其它特征拥有更多的激活值。即特征的地位是均等的。这些思想来源于神经科学。

如何设计目标函数

如上便是目标函数。其中

首先对特征进行给规范化，使用L2范数，其次对每个样本进行规范化，仍然使用L2范数。结果用L1范数进行约束。对所有的样本进行求和，即得到的目标函数。下面解释这样的目标函数满足特征的三个特性。

目标函数满足特征三要素

满足polulation sparsity

观察目标函数，对每个样本先L2规范化，再L1规范化，L2使得某个特征值增大，其余均减小，某个特征值减小，其余均增大。L1的最小化，要求特征值绝大多数的值尽可能接近于0。结合L1和L2的特点，使得特征值在大多数维度为0，在某些不为0的维度尽可能的大。满足了popylation sparsity条件。

满足high dispersal

对每个维度特征的L2规范化，使得每个特征的平方期望都为1，这样实现了每个特征被同等地激活。

满足lifetime sparsity

满足population sparstity说明每个样本中的大部分特征为0，满足high dispersal说明这些0被均等地分布在各个特征中。于是对于每个特征中激活或者未激活的个数基本是均等的，这就满足了lifetime sparsity。

Matlab代码如下：

标签：filtering,函数,特征,笔记,满足,L2,Sparse
来源： https://www.cnblogs.com/zuotongbin/p/10880855.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9