logits

2021-07-17 13:03:36 阅读：196 来源： 互联网

标签：logit 概率函数 softmax logistic logits

作者：王峰
链接：https://www.zhihu.com/question/60751553/answer/1986650670
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

logit原本是一个函数，它是sigmoid函数（也叫标准logistic函数） $p (x) = \frac{1}{1+e^{-x}}$ 的反函数： $logit(p) = \log\left(\frac{p}{1-p}\right)$ 。logit这个名字的来源即为logistic unit。

但在深度学习中，logits就是最终的全连接层的输出，而非其本意。通常神经网络中都是先有logits，而后通过sigmoid函数或者softmax函数得到概率 $p$ 的，所以大部分情况下都无需用到logit函数的表达式。

什么时候我们会真的需要用到logit函数呢？考虑这样一个问题：如果我们拿到了一个黑盒模型的概率输出，想要用这个模型生成一批数据来distill我们自己的模型，但distill过程往往又需要调节温度项来重新计算概率（大概是这么个形式： $p(x) = \frac{1}{1+e^{-x/T}}$ ），此时我们就需要从概率值反推logits了，而反推的过程就如上边的公式所述： $logit(p) = \log\left(\frac{p}{1-p}\right)$ 。所以对于logistic regression来说，logit恰好是输出概率经过logit函数的结果，因此即使我们并没有真正地用到logit函数，也不妨将其称作logit。

但是，目前大家用得更多的是多分类的softmax函数，而它的反函数其实并不是logit函数，而是log函数 $\log(p)$ ，这样再次经过softmax函数： $\hat{p}_i =\frac{e^{\log p_i}}{\sum_j e^{\log p_j}} = \frac{p_i}{\sum_j p_j} = p_i$ ，就得到了原来的概率。这里需要注意的是：所有logits共同减去一个数字，其得到的softmax结果是不变的，所以得到的logits并不一定与原始logits一模一样，而是会相差一个常数。

由此可见，使用logit一词来表示网络最后一层的输出，实际上只适用于logistic regression。而对于现在更多使用的多分类器softmax来说，其反函数应该是log函数，而非logit，继续用logit一词实际上是不恰当的。我个人倾向于使用“分数”或者直接说是最后一个全连接层的输出，这样比较形象，也不至于让初学者摸不到头脑。

标签：logit,概率,函数,softmax,logistic,logits
来源： https://www.cnblogs.com/yibeimingyue/p/15023171.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

logits