ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

推荐系统评价指标:AUC和GAUC

2020-01-21 21:42:46  阅读:1602  来源: 互联网

标签:正例 AUC frac 模型 样本 评价 GAUC


AUC是推荐系统中最常用的模型评价指标。基础概念要常看常新,最近复习了一遍AUC的概念,在此做个笔记。本文力求简洁系统地理解AUC的概念和计算方法,AUC在推荐/广告领域的局限性以及解决这一问题的另一个指标:Group AUC(GAUC)

1. 分类任务与混淆矩阵

认识auc的第一步,是看懂混淆矩阵:

预测\真实 1 0
1 TP FP
0 FN TN
  • True/False代表预测的正确/错误; Positive/Negative代表预测值为1/0.
  • TP是真1;FP是假1;FN是假0; TN是真0。
  • 真阳率:TPR=TPTP+FNTPR = \frac{TP}{TP+FN}TPR=TP+FNTP​,正样本被预测为1的概率;
  • 假阳率:FPR=FPFP+TNFPR = \frac{FP}{FP+TN}FPR=FP+TNFP​,负样本被预测为1的概率;

2. ROC曲线与AUC

  • 以x轴为FPR, y轴为TPR,做出图称为ROC曲线

  • AUC的定义:Area Under ROC Curve,即ROC曲线下的面积

  • AUC的意义:随机抽取一对正负样本,AUC是把正样本预测为1的概率大于把负样本预测为1的概率的概率。这句话有点拗口,用公式写就是:
    AUC=P(P>P)(1) AUC = P(P_{正}>P_{负})\tag1 AUC=P(P正​>P负​)(1)
    其中PP_正P正​指将该正样本预测为1的概率;PP_负P负​指将该负样本预测为1的概率;

  • 当auc=0.5时,模型没有分类能力,完全是随机猜测;auc>0.5时,把1预测为1的概率,比把0预测为1的概率大,说明模型有一定的分类能力。当auc<0.5时,把模型的预测类别取反,即可得到auc>0.5的结果。

  • auc的最大值为1,此时TPR恒等于1,即正样本永远会被预测正确

  • 关于ROC曲线如何作图,请参考这篇文章

  • AUC的优势:能够综合考虑到正例和负例,因此可以应对样本不均衡的情况。

  • 如何求解AUC:两种求解公式

    • AUC=MNI(P,P)MN,I(P,P)={1,P>P0.5,P=P0,P<P(2) AUC=\frac{\sum_{M*N} I(P_{正},P_{负})}{M*N}, 其中I(P_{正},P_{负})=\left\{\begin{aligned}1, & P_{正}>P_{负} \\0.5, & P_{正}=P_{负}\\0, & P_{正}<P_{负}\end{aligned}\right.\tag2 AUC=M∗N∑M∗N​I(P正​,P负​)​,其中I(P正​,P负​)=⎩⎪⎨⎪⎧​1,0.5,0,​P正​>P负​P正​=P负​P正​<P负​​(2)

      其中M、N分别为正、负样本数。(2)式中的求和是在M+N个总样本中,取出M*N个正负样本对,然后计算I(P,P)I(P_{正},P_{负})I(P正​,P负​)

    • AUC=insirankinsiM(M+1)2MN(3) AUC=\frac{\sum_{ins_i \in 正例} rank_{ins_i}-\frac{M*(M+1)}{2}}{M*N}\tag3 AUC=M∗N∑insi​∈正例​rankinsi​​−2M∗(M+1)​​(3)

      其中M、N分别为正、负样本数。rankinsirank_{ins_i}rankinsi​​是第iii条样本insiins_iinsi​的序号(概率得分从小到大排序,排在第rankrankrank个位置),insiins_i \in 正例insi​∈正例 表示只把正样本的序号加起来。

3. GAUC:Group AUC

  • 为什么要引入GAUC:因为AUC有时候不能满足推荐/广告系统中用户个性化的需求

    举个栗子:(引用自https://blog.csdn.net/hnu2012/article/details/87892368)

    假设现有两个用户甲和乙,一共有5个样本其中+表示正样本,-表示负样本。现有两个模型A和B,对5个样本的predict score按从小到大排序如下:

    模型A 甲- 甲+ 乙- 甲+ 乙+
    模型B 甲- 甲+ 甲+ 乙- 乙+

    从以上模型预测结果可以看出,对于用户甲的样本,模型A和B对甲的正样本打分都比其负样本高;对于用户乙的样本也是如此,因此分别对于用户甲和乙来说,这两个模型的效果是一样好的。

    但这两个模型的AUC如何呢?根据公式(3)计算,AUCA=0.833,AUCB=0.667AUC_A = 0.833, AUC_B = 0.667AUCA​=0.833,AUCB​=0.667. 我们发现AUC在这个场景下不准了。这是因为,AUC是对于全体样本排序后计算的一个值,反映了模型对于整体样本的排序能力。但用户推荐是一个个性化的场景,不同用户之间的商品排序不好放在一起比较。因此阿里妈妈团队使用了Group AUC来作为另一个评价指标。GAUC即先计算各个用户自己的AUC,然后加权平均,公式如下:
    GAUC=uiwuiAUCuiwui(4) GAUC = \frac {\sum_{u_i} w_{u_i}*AUC_{u_i}}{\sum w_{u_i}}\tag4 GAUC=∑wui​​∑ui​​wui​​∗AUCui​​​(4)

    实际计算时,权重可以设为每个用户view或click的次数,并且会滤掉单个用户全是正样本或全是负样本的情况。

参考文献

  1. https://www.zhihu.com/question/39840928?from=profile_question_card
  2. https://blog.csdn.net/hnu2012/article/details/87892368
  3. https://blog.csdn.net/qq_22238533/article/details/78666436
小新0077 发布了7 篇原创文章 · 获赞 0 · 访问量 143 私信 关注

标签:正例,AUC,frac,模型,样本,评价,GAUC
来源: https://blog.csdn.net/weixin_39548654/article/details/104065925

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有