ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Addressing Unmeasured Confounder for Recommendation with Sensitivity Analysis

2022-08-19 21:30:08  阅读:129  来源: 互联网

标签:mathbb phi frac Sensitivity Unmeasured Addressing tilde mathcal hat


目录

Ding S., Wu P., Feng F., Wang Y., He X., Liao Y. and Zhang Y. Addressing unmeasured confounder for recommendation with sensitivity analysis. In ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), 2022

以往的鲁棒的 estimator 在存在 unmeasured confounder 的时候会导致 counfounding bias, 本文通过给定 bound 下的对抗训练来解决这一问题.

符号说明

  • \(\mathcal{U}\), users;
  • \(\mathcal{I}\), items;
  • \(\mathcal{D} = \mathcal{U} \times \mathcal{I}\), user-item pairs;
  • \(x_{u,i}\), user-item feature;
  • \(o_{u,i} \in \{0, 1\}\), 1 表示 \(i\) 曝光给 \(u\);
  • \(r_{u, i}\), rating;
  • \(\mathcal{O} = \{(u, i)| (u, i) \in \mathcal{D}, o_{u, i} = 1\}\);

问题

  • 假设 \(o, x, y, h\) 满足上面的因果图, 其中 \(h\) 是一些无法观测的变量;

  • 设想, 我们希望通过一个模型 \(f_{\phi}(\cdot)\) 来估计 \(r\). 我们模拟的是这样的一个流程:

    1. 将 item \(i\) 曝光给 user \(u\), 即 \(do(o_{u,i} = 1)\);
    2. 获得一个指标 \(r_{u,i}(1) := r_{u,i}| do(o_{u,i} = 1\);
  • 那么自然地, 我们希望 \(\hat{r}_{u,i}(1) = f_{\phi}(x_{u,i})\) 能够逼近真实地 \(r_{u,i}(1)\):

    \[\min_{\phi} \quad \mathcal{L}_{ideal}(\phi) = \frac{1}{|\mathcal{D}|} \sum_{(u, i) \in \mathcal{D}} e_{u, i}, \]

    其中

    \[e_{u, i} := (\hat{r}_{u, i}(1) - r_{u, i}(1))^2; \]

  • 但是, 由于只有部分 \(\mathcal{O}\) 曝光, 故实际上我们只能优化:

    \[\mathcal{L}_{real}(\phi) = \frac{1}{|\mathcal{O}|} \sum_{(u, i) \in \mathcal{O}} e_{u, i}; \]

  • 倘若, 我们能够知道确切的 propensity score:

    \[\tilde{p}_{u, i} = \mathbb{P}(o_{u,i} = 1| x_{u, i}, h_{u,i}), \]

    则可以通过

    \[\mathcal{L}_{IPS}(\phi) = \frac{1}{|\mathcal{D}|} \sum_{(u, i) \in \mathcal{D}} \frac{o_{u,i} e_{u,i}}{\tilde{p}_{u,i}} \]

    来优化, 注意到该式关于 \(o\) 的期望:

    \[\begin{array}{ll} \mathbb{E}[\mathcal{L}_{IPS}] &=\mathbb{E}_{x, h} \frac{\mathbb{E}_{o, r(1)} [o_{u,i} e_{u,i}] }{\tilde{p}_{u,i}} \\ &=\mathbb{E}_{x, h} \frac{\mathbb{E}_{o} [o_{u,i}] \mathbb{E}_{r(1)}[e_{u,i}] }{\tilde{p}_{u,i}} \leftarrow r(1) \perp \!\!\! \perp o | x, h \\ &=\mathbb{E}_{x, h} \frac{\tilde{p}_{u,i} \mathbb{E}_{r(1)}[e_{u,i}] }{\tilde{p}_{u,i}} \\ &=\mathbb{E}_{x, h, r(1)} [e_{u,i}] = \mathbb{E}[\mathcal{L}_{ideal}]. \end{array} \]

    故这说明该估计量是无偏的.

  • 但是由于 \(h\) 是不可观测的, 故 \(\tilde{p}_{u, i}\) 也是难以估计的; 而之前的方法, 多半假设因果图中不存在无法观测的变量, 并用

    \[\hat{p}_{u, i} = \mathbb{P}(o_{u,i} = 1| x_{u, i}), \]

    来替代 \(\tilde{p}_{u, i}\). 虽然颇有成效, 但在理论上, 该估计量是有偏的, 因为

    \[r(1) \not \! \perp \!\!\! \perp o | x, \]

    故之前的推导就失效了.

本文方法

  1. 假设我们用逻辑斯蒂回归去拟合 \(\hat{p}\), 即

    \[\hat{p}_{u, i} = \mathbb{P}(o_{u, i} = 1| x_{u, i}) = \frac{\exp(m(x_{u,i}))}{1 + \exp(m(x_{u,i}))}, \]

    其中 \(m(\cdot)\) 是任意的函数;

  2. 类似地, 用加性模型

    \[\tilde{p}_{u, i} = \mathbb{P}(o_{u, i} = 1| x_{u, i}, h_{u,i}) = \frac{\exp(m(x_{u,i}) + \varphi(h_{u, i}))}{1 + \exp(m(x_{u,i}) + \varphi(h_{u,i}))}, \]

    拟合真实的 propensity score;

  3. \(|m(x) + \varphi(h)|\) 的大小和能量有关, 作者假设没观测到 confounders 的能量是有限的, 被控制在 \(|\varphi (h)| \le \log \Gamma, \Gamma \ge 1\), 若 \(\Gamma = 1\), 这意味着不辞你在 confounders;

  4. 此时

    \[\frac{1}{\Gamma} \le \frac{(1 - \hat{p})\tilde{p}}{\hat{p} (1 - \tilde{p})} = \exp(\varphi(h)) \le \Gamma, \]

    于是

    \[a_{u,i} \le \tilde{w}_{u,i} := \frac{1}{\tilde{p}_{u, i}} \le b_{u,i}, \\ a_{u, i} = 1 + (1 / \hat{p}_{u,i} - 1) / \Gamma, b_{u,i} = 1 + (1 / \hat{p}_{u,i} - 1) \Gamma \]

  5. 到此, 我们知道到了 \(\tilde{w}_{u, i}\) 的和 \(\tilde{p}_{u, i}\) 无关的一个上下界, 我们可以从上下界范围内采样合适的点来帮助训练, 作者采取的是对抗训练的思路, 每次采样最恶劣的点:

    \[\tag{12} \min_{\phi} \: \mathcal{L}_{RD-IPS}(\phi) = \max_{W \in \mathcal{W}} \frac{1}{|\mathcal{D}|} \sum_{(u, i) \in \mathcal{D}} o_{u, i} e_{u, i} w_{u, i}, \]

    其中

    \[\mathcal{W} := \{W \in \mathbb{R}_+^{|\mathcal{D}|}: a_{u, i} \le w_{u,i} \le b_{u, i} \} \\ \]

    \(w_{u,i}\) 为 \(W\) 的元素;

  6. 可以期待, 这种方式使得训练更加鲁棒.

Q: 似乎 (12) 中仅仅取到了上界 ?

注: 作者还提出了一个 BRD (Benchmarked RD Framework) 的版本:
$$
\mathcal{L}{BRD-IPS}(\phi) = \max{W \in \mathcal{W}} \frac{1}{|\mathcal{D}|} \sum_{u, i} o_{u, i} (e_{u, i}(\phi) - e_{u, i}(\hat{\phi}^{(0)})) w_{u,i},
$$
其中 \(e_{u, i}(\hat{\phi}^{(0)})\) 是已有的一个方法的估计结果. 其实细想, 注意到
$$
e_{u,i}(\phi) > e_{u,i}(\hat{\phi})
$$
的时候, \(w_{u, i}\) 取 \(b_{u,i}\), 即因为这部分和 baseline 的结果差的还比较远, 所以加强了权重, 而当
$$
e_{u,i}(\phi) < e_{u,i}(\hat{\phi})
$$
之后, \(w_{u, i}\) 取了 \(a_{u,i}\), 即因为在 \(u, i\) pair 上的表现已经比 baseline 更好了, 所以继续好下去可能反而容易造成过拟合之类的, 所以就加了一个小的权重. 话说这个技术应该有别的论文给出吧.

注: 与其它方法的结合这里就不提了.

代码

[official]

标签:mathbb,phi,frac,Sensitivity,Unmeasured,Addressing,tilde,mathcal,hat
来源: https://www.cnblogs.com/MTandHJ/p/16603361.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有