ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【笔记】数据标准化

2021-02-03 09:33:35  阅读:124  来源: 互联网

标签:纲化 frac 映射 处理 标准化 笔记 数据


基本上是指把数据缩放……
其中有一类叫做归一化就是指缩放到 [0,1] 。
一般来说可以提升模型的收敛速度(避免比如说 x[0,1e8] y[0,1e-8] 导致梯度下降巨慢);
提升模型的精度(比如说需要计算距离的时候,标准化之后或可让不同的数据按某种更合理的方式产生贡献)。

数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。
数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。
数据无量纲化处理主要解决数据的可比性。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。


Min-Max Normalization

\[x'=\frac{x-\min}{\max-\min} \]

上面这个映射到 \([0,1]\)
根据需要映射到哪个区间也可以自己调整一下。
比较大的缺点就是不好支持数据的添加。


log变换

\[x'=\frac{\log_{10}x}{\log_{10}\max} \]

需要 \(x\ge1\) 或者自己加上1 或者加上min
映射到 \([0,1]\)


atan变换

\[x'=\frac{2\operatorname{atan}(x)}{\pi} \]

映射到 \([-1,1]\)


z-score

zero-mean
spss默认的,标准差标准化
经过处理的数据符合标准正态分布,即均值为0,标准差为1。

\[x'=x-\mu\cdot\sigma \]

\(\mu\) 是均值,\(\sigma\) 是标准差


小数定标

Demical Scaling

\[x'=10^{-c}\cdot x \]

c 自己取。


Logistic/Softmax变换

前者家喻户晓
Softmax咋做呢

\[\forall j\in[1,n],\quad S_j=\frac{e^{x_j}}{\sum\limits_{i=1}^n e^{x_i}} \]



Python实现例

https://blog.csdn.net/pipisorry/article/details/52247679

标签:纲化,frac,映射,处理,标准化,笔记,数据
来源: https://www.cnblogs.com/ccryolitecc/p/14365293.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有