首页 > 其他分享> 文章详细

【paper笔记】ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail

2021-01-17 11:59:50 阅读：303 来源： 互联网

标签：长尾 Domain Discriminative 项目 Items 模型显示 DA ESAM

ESAM: Discriminative Domain Adaptation with Non-Displayed
Items to Improve Long-Tail Performance

阿里解决长尾问题的方法，迁移学习

文章基本信息

**ESAM** =
阿里发表于SIGIR 2020

域自适应Domain Adaptation 是将在一个或多个“源域”中训练的算法应用于不同（但相关的）“目标域”的能力。
域适应是迁移学习的一个子范畴。

在域自适应中，源域和目标域具有相同的特征空间（但分布不同）

论文地址:ESAM

ABSTRACT

大多数排名模型仅使用显示的项目（大多数是热门项目）进行训练，但是它们被用来在整个空间中检索由显示的和未显示的项目组成的项目（大多数是长尾项目）。
由于样本选择偏差，长尾物品缺乏足够的记录来学习良好的特征表示，即数据稀疏性和冷启动问题。所显示和未显示项目之间的最终分布差异将导致较差的长尾性能。为此，我们提出了一个完整的空间适应模型（ESAM）从域适应（DA）的角度解决此问题。

ESAM将已显示和未显示的项目分别视为源域和目标域。具体来说，我们设计属性相关性对齐方式，该属性考虑项目的高级属性之间的相关性以实现分布对齐方式。此外，我们介绍了两种有效的正则化策略，即中心聚类和自训练以改善DA过程。 ESAM不需要任何辅助信息和辅助域，就可以将知识从显示的项目转移到非显示的项目，以缓解分配不一致的情况。从淘宝网收集的两个公共数据集和大规模工业数据集上的实验表明，ESAM具有最先进的性能，尤其是在长尾空间。此外，我们将ESAM部署到淘宝搜索引擎，从而大大改善了在线性能。该代码位于https://github.com/A-bone1/ESAM.git

1 INTRODUCTION

排名模型的典型公式是提供给定查询的项目的排名列表。它具有广泛的应用程序，包括推荐系统[，搜索系统等。排名模型可以表示为：q → D ^ q \hat D_q D^q ，其中q是查询，例如，推荐系统中的用户配置文件和用户行为历史，以及个性化搜索系统中的用户配置文件和关键字，具体取决于特定的排名应用程序。 D ^ q \hat D_q D^q表示基于q检索的相关项目（例如，文本文档，信息项目，答案）的等级列表，R = { r i } i = 1 n d \{r_i\}^{nd}_{i = 1} {ri}i=1nd包括q与每个项目在整个项目空间 n d n_d nd 中的相关性得分项目总数。简而言之，排名模型旨在选择与查询相关性最高的前K个项目作为最终排名结果。

当前，基于深度学习的方法已广泛用于排名模型中。例如，在推荐系统的应用中为[11、25、42、47]，在搜索系统的应用中为[3、19]，在文本检索的应用中为[35]。这些方法显示出比传统算法更好的排名性能[34，36]。
但是，这些模型主要仅使用所显示项目的隐式反馈（例如，点击和购买）来训练，但是在提供服务时被用来在包括显示和未显示项目的整个项目空间中检索项目。根据显示频率，我们将整个商品空间分为热门商品和长尾商品。通过分析两个公共数据集（MovieLens和CIKM Cup 2016数据集），我们发现82％的展示商品是热门商品，而85％的未展示商品是长尾商品。因此，如图1a所示，样本选择偏差sample selection bias（SSB）[43]的存在会导致模型过度拟合显示的项目（大多数是热项目），并且无法准确地预测长尾项目（图1b）。更糟糕的是，这种训练策略使模型偏向于流行商品[23]，这意味着这些模型通常会检索热门商品，而忽略那些更合适的长尾商品，尤其是那些新来的商品。这种现象称为“马修效应” [29]。
我们认为，造成这种现象的原因是SSB导致缺少长尾物品的记录（即反馈）以获取良好的特征表示，因此，与热门物品相比，长尾物品的特征分布不一致记录充足的项目。如图2a所示，域移位[5]的存在意味着这些排序模型很难检索长尾项目，因为它们总是过度拟合热门项目。为了提高排序模型的长尾性能，并增加检索结果的多样性，现有方法利用了不易访问的辅助信息[43、44]或辅助域[15、30]。例如，[15，21]使用两个样本空间（例如MovieLens和Netflix）来实现通过共享项的知识转移，[43]使用随机显示的无偏数据集来微调模型。考虑到模型架构和应用程序的多样性[18，27]，架构解决方案可能无法很好地推广。通过跟踪一些过去的作品[24]，我们强调了学习非显示项目的良好特征表示的重要性。为实现此目的，通过考虑由于显示和未显示项之间的域转换以及未显示项是未标记实例的事实而导致的长尾性能不佳，我们采用无监督域自适应（domain adaptation，DA）技术，该技术将显示和未显示的项目分别作为源域和目标域。 DA方法允许将经过标记的源域训练的模型应用于具有有限或缺失标签的目标域。

为了提高排序模型的长尾性能，并增加检索结果的多样性，现有方法利用了不易访问的辅助信息[43、44]或辅助域[15、30]。例如，[15，21]使用两个样本空间（例如MovieLens和Netflix）来实现通过共享项的知识转移，[43]使用随机显示的无偏数据集来微调模型。考虑到模型架构和应用程序的多样性[18，27]，架构解决方案可能无法很好地推广。通过跟踪一些过去的作品[24]，我们强调了学习非显示项目的良好特征表示的重要性。为实现此目的，通过考虑由于显示和未显示项之间的域转换以及未显示项是未标记实例的事实而导致的长尾性能不佳，我们采用无监督域自适应（DA）技术，该技术将显示和未显示的项目分别作为源域和目标域。 DA方法允许将经过标记的源域训练的模型应用于具有有限或缺失标签的目标域。

以前基于DA的工作通过最小化一些分布度量（例如最大平均差异（MMD）[38]或对抗训练[23]）来减少域偏移。对于排名任务，我们提出了一种新颖的DA方法，称为属性相关对齐（ACA）。无论是否显示项目，其属性之间的关联都遵循相同的规则（知识）。例如，在电子商务中，商品的品牌越豪华，价格就越高（品牌和价格是商品的属性）。对于显示和未显示的项目，此规则相同。在排序模型中，每个项目将通过特征提取器表示为特征表示，并且特征的每个维度都可以视为该项目的高级属性。因此，我们认为高级属性之间的相关性在显示和未显示的空间中应遵循相同的规则。然而，由于缺少标签，该模型无法很好地获得非显示项目的特征，这导致显示和非显示项目特征分布之间的不一致，并使上述范例难以成立。因此，我们设计属性相关一致性（A2C），以利用高级属性之间的成对相关性作为分布。

在这里插入图片描述
尽管前面提到的ACA可以解决分布不一致的问题，但存在两个关键限制：
（1）使用点向交叉熵学习会忽略空间结构信息，从而导致特征空间中的**邻居关系较差[**47]（图2b）;
（2）未显示项目的目标标签不可用，当盲目对齐分布时，很容易导致负向转移[32]（图2c）。

负转移是转移模型比非适应模型更差的困境[32]。为了解决这两个障碍，我们提出了两种新颖的正则化策略，即中心聚类和自训练，以增强DA过程。我们观察到，对于一个查询，具有相同反馈的项目是相似的，而具有不同反馈的项目则是不同的。例如，在电子商务中，当向用户显示各种移动电话时，用户可以单击所有iPhone，而忽略其他iPhone。因此，对于每个查询，我们都可以按反馈类型对显示的项目进行分类。提出的中心式聚类设计用于使相似的项目紧密结合在一起，而相异的项目则彼此分开。该约束可以为域适应提供进一步的指导，从而获得更好的排名性能。对于目标标签的缺失，我们给目标物品分配了高置信度的伪标签，并通过自我训练使模型适合这些物品。此外，当在执行对齐时考虑这些伪标签时，该模型可以逐渐正确地预测更复杂的项目。

总而言之，这项工作的贡献可以列举如下：
（1）我们提出了一种用于排序模型的通用整体空间适应模型（ESAM），该模型利用具有属性相关性对齐的域适应来改善长尾性能。 ESAM可以轻松地集成到大多数现有的排名框架中；
（2）引入了两种新颖而有效的正则化策略，以优化邻域关系并处理用于区分域自适应的目标标签缺失；
（3）我们在两种典型的排名应用中实现ESAM：项目推荐和个性化搜索系统。在两个公共数据集和从淘宝网收集的工业数据集上的结果证明了ESAM的有效性。此外，我们将ESAM部署到淘宝搜索引擎，该引擎还通过在线A / B测试获得了更好的性能。
在这里插入图片描述

2 PROPOSED METHOD

在本节中，我们首先简要介绍名为BaseModel的基本排名框架。然后，将包含建议的A2C和两种正则化策略的ESAM集成到BaseModel中，以便在整个空间中更好地学习项目特征表示。图3显示了ESAM的总体框架。我们将没有未标记的未显示项目输入流（图3中的红色流）的ESAM视为BaseModel。

2.1 Preliminaries

在本文中，源域（显示项目）表示为 D s D^s Ds，目标域（未显示项目）表示为 D t D^t Dt，整个项目空间表示为D = D s ∪ D t D^s∪D^t Ds∪Dt。这里，源域和目标域共享相同的查询集Q。
从查询到项目的反馈集表示为 O = { q ， d ， y } O = \{q，d，y\} O={q，d，y}，其中q是特定查询（例如，关键字，用户个人资料，问题，取决于具体的排名应用)
d是一项（例如文本文档，信息项，答案），而y是隐式反馈。
对于每个q，我们分配一个带标签的源项目集 D q s = { （ d j s ， y j s ） } j = 1 n D^s_q = \{（d^s_j，y^s_j）\} ^n _{j = 1} Dqs={（djs，yjs）}j=1n谁有反馈，并且从未显示的项目中随机选择一个未标记的目标项目 D ^ q t = { d j t } j = 1 n \hat D^t_q = \{ d^t_j \} ^n _{j = 1} D^qt={djt}j=1n。排名模型的目标是从D检索排名项目集 D ^ q \hat D^q D^q，以最大程度地提高查询的满意度。

2.2 BaseModel

如图3所示，排序模型主要由查询方 f q f_q fq 和项目方 f d f_d fd 组成。核心任务是通过 f q f_q fq和 f d f_d fd分别将查询q和项映射到查询特征 v q ∈ R 1 × L v_q∈R^{1×L} vq∈R1×L 和项特征 v d ∈ R 1 × L v_d∈R^{1×L} vd∈R1×L ，可以表示为：
在这里插入图片描述
当提取查询和项目特征时，利用评分函数 f s f_s fs 计算查询和项目的相关性得分，可以将其表达为：

然后，在训练阶段，可以通过 L s L_s Ls（例如，点式目标函数[26、31]，成对式目标函数[3]，列表式目标函数[4、6]）对排序模型进行训练使用反馈。在服务阶段，可以将相关性得分最高的前K个项目的排名列表用作检索结果。请注意，隐式反馈仅在大多数实际应用中可用。因此，逐点反对损失（the point-wise objection loss）被广泛用于模型训练。

最近，许多作品设计新颖的 f q f_q fq和 f d f_d fd 来提取更好的功能。例如，神经矩阵分解（NeuralMF）[19]采用MLP作为 f q f_q fq和 f d f_d fd 分别提取查询和项目特征，深度兴趣演化网络（DIN）[46]引入了 f q f_q fq和 f d f_d fd 之间的注意力机制，以及行为序列变换器（BST）[ [8]在fq中使用转换器模块来捕获查询的短期兴趣。但是，大多数方法会忽略未显示项目的处理，并且这些体系结构解决方案可能无法很好地推广。

2.3 Entire Space Adaptation Model (ESAM)

为了通过抑制显示和未显示项目之间不一致的分配来改善长尾性能，ESAM利用区分区域适应与未显示项目来在整个空间中提取更好的项目特征。我们主要关注项目方面 f d f_d fd的改进。具体来说，如图3所示，ESAM还引入了对 BaseMode 的 f d f_d fd 具有三个约束的未标记的非显示项输入流。
在这里插入图片描述

• Domain Adaptation with Attribute Correlation Alignment.

由于存在在显示项目和未显示项目之间的域转移。因此，我们利用DA技术来提高整个空间的检索质量。令 D s = [ v d 1 s ; v d 2 s ; . . . ; v d n s ] ∈ R n × L D^s = [v_{d^s_1}; v_{d^s_2}; ...; v_{d^s_n}]∈R^{n×L} Ds=[vd1s;vd2s;...;vdns]∈Rn×L 代表 D q s D^s_q Dqs 的源项目特征矩阵 D t = [ v d 1 t ; v d 2 t ; . . . ; v d n t ] ∈ R n × L D^t = [v_{d^t_1}; v_{d^t_2}; ...; v_{d^t_n}]∈R^{n×L} Dt=[vd1t;vd2t;...;vdnt]∈Rn×L代表目标项目 D q t D^t_q Dqt 的特征矩阵，其中 v d i s ∈ R 1 × L v_{d^s_i}∈R^{1×L} vdis∈R1×L 和 v d i t ∈ R 1 × L v_{d^t_i}∈R^{1×L} vdit∈R1×L分别是源项目特征和目标项目特征,由项目侧 f d f_d fd 生产。从另一个角度来看，这两个矩阵也可以看作是源高级属性矩阵 D s = [ h 1 s ; h 2 s ; . . . ; h n s ] ∈ R n × L D^s = [h^s_1; h^s_2; ...; h^s_n]∈R^{n×L} Ds=[h1s;h2s;...;hns]∈Rn×L，而目标高级属性矩阵 D t = [ h 1 t ; h 2 t ; . . . ; h n t ] ∈ R n × L D^t = [h^t_1; h^t_2; ...; h^t_n]∈R^{n×L} Dt=[h1t;h2t;...;hnt]∈Rn×L，其中L是项目特征的维数， h j s ∈ R n × 1 h^s_j∈R^{n×1} hjs∈Rn×1和 h j t ∈ R n × 1 h^t_j∈R^{n×1} hjt∈Rn×1代表源项目中的第j个高级属性向量矩阵和目标项目矩阵。

我们认为，显示商品的低级属性（例如价格，品牌）之间的相关性与非显示商品是一致的，例如，如图4所示，在电子商务中，品牌属性具有较高的相关性价格属性，而品牌属性和物料属性之间的相关性较低。这些知识在源域和目标域中是一致的。因此，我们建议高级属性还应具有与低级属性相同的相关一致性。因此，我们将项目矩阵中高级属性向量之间的相关矩阵定义为分布。具体来说，我们提出属性相关一致性（A2C）作为分布度量，并减小分布之间的距离，以确保高级属性之间的相关在源域和目标域中保持一致。正式的A2C公式如下：
在这里插入图片描述
其中 ∥ ⋅ ∥ F 2 ∥·∥^2_F ∥⋅∥F2 表示平方矩阵Frobenius范数. C o v （ D s ） ∈ R L × L 以及 C o v （ D t ） ∈ R L × L Cov（D^s）∈R^{L×L}以及Cov（D^t）∈R^{L×L} Cov（Ds）∈RL×L以及Cov（Dt）∈RL×L表示高级商品属性的协方差矩阵，可以将其计算为 C o v （ D s ） = D s ⊤ D s Cov（D^s）= D^{s⊤}D^s Cov（Ds）=Ds⊤Ds，并且 C o v （ D t ） = D t ⊤ D t Cov（D^t）= D^{t⊤}D^t Cov（Dt）=Dt⊤Dt。协方差矩阵中条目（ j ， k ）（j，k）（j，k）的值表示图4中所示的 h j h_j hj以及 h k h_k hk之间的相关性 h j T h k h_j^Th_k hjThk

我们从源域中抽取两批样本，从目标域中抽取两批样本，并计算BaseModel提取的每两个协方差矩阵之间的 L D A L_{DA} LDA。如表1所示，源域和目标域之间的 L D A L_{DA} LDA比相同域之间的 L D A L_{DA} LDA大得多，这表明确实存在分布偏移。
在这里插入图片描述

• Center-Wise Clustering for Source Clustering.

大多数BaseModel只优化 L s L_s Ls， L s L_s Ls对特征空间中的空间结构不敏感[47]，并使模型无法学习判别特征。在我们的初步研究中，我们观察到对于一个查询，具有相同反馈的项目是相似的，而具有不同反馈的项目是不相似的。受[7]的启发，我们提出了一个中心聚类法，以鼓励具有相同反馈的项目的特征彼此靠近，而具有不同反馈的项目的特征彼此远离。每个查询 q 的基于铰链的中心聚类可以表示为：
在这里插入图片描述
其中 n y n_y ny 表示反馈类型的数量（例如，非点击，点击，购买等）， y j s y_j^s yjs 表示 d j s d_j^s djs的反馈类型。 c q k c^k_q cqk 要求要素的项中心具有相同的通过q的反馈 Y k Y_k Yk 。 m 1 m_1 m1和 m 2 m_2 m2是两个距离约束边距。如果满足条件，则 δ （ c o n d i t i o n ） = 1 δ（condition）= 1 δ（condition）=1。

在等式5的右边中，第一个术语增强了类内（具有相同反馈的项目）的紧凑性，而第二个则增强了等式。等式5加强了类间（具有不同反馈的项目）的可分离性。由于 L D A L_{DA} LDA的存在，源域和目标域是高度相关的。因此，合理地使源项目特征空间更具区分性，以便目标项目特征空间也将通过优化方程式4而变得具有区别性。从这个意义上说，排名模型可以提取更好的项目特征以改善域适应性，从而带来更好的长尾性能。

• Self-Training for Target Clustering.

对于查询，我们可以为每个未显示的项目分配目标伪标签（即，正样本或负样本）。目前，ESAM可被视为与类无关的DA方法，该方法在对齐时会忽略目标标签信息，并且可能会将目标项目映射到错误的位置（例如，将目标阳性样本匹配到源阴性样本）。带有伪标签的目标样本在比对时将为模型提供目标区分信息。因此，我们使用带有伪标签的样本进行自我培训，以增加未显示项目的记录数量并减轻负向转移。

具体来说，最小化熵正则化 − p l o g p -p logp −plogp 有利于类之间的低密度分离并增加目标判别性[16]。我们将查询和未显示项目之间的相关性得分计算为等式。 3并将其转换为[0,1]（例如S型运算）。该分数可以视为目标项目是此查询的阳性样本的概率。对于点击反馈，分数表示查询点击项目的概率。
如图5所示，通过梯度下降优化熵正则化会强制分数小于0.4逐渐接近0（负样本），大于0.4的分数逐渐接近1（正样本）。

在这里插入图片描述
因此，这种正则化可以看作是一种自我训练的方法，可以增加未显示项目之间的判别能力。但是，当直接使用正则化时，由于在早期训练中显示和未显示项目之间存在较大的域偏移，因此排名模型无法正确预测未显示项目，尤其是对于得分在[0.4,0.6]中的项目。因此，目标样本很容易分配错误的标签，并陷入错误的反馈中。为此，我们采用带有约束的熵正则化来选择可靠的目标样本进行自我训练：
在这里插入图片描述
其中 p 1 p1 p1 和 p 2 p2 p2 是两个置信度阈值，用于选择具有高置信度伪标记的可靠样本。 S c q ， d t j S_{c_q，d^j_t} Scq，dtj 是 q 和 d t j d^j_t dtj 之间的相关性得分，其计算公式为等式3并转换为[0，1]。
如果满足条件a或b，则 δ （ a ∣ b ） = 1 δ（a | b）= 1 δ（a∣b）=1。通过优化方程如图7所示，该模型是使用 S c q ， d t j S_{c_q，d^j_t} Scq，dtj值小于 p 1 p1 p1 的负目标项目和 S c q ， d t j S_{c_q，d^j_t} Scq，dtj 值大于 p 2 p2 p2 的正目标项目进行自我训练的。

这种带有约束的熵正则化保证了目标标签的正确性，从而避免了负迁移。此外，基于课程学习[1]，该模型可以从可靠样本中学习目标区别信息，从而将更多样本转换为可靠样本。

2.4 Optimization

总而言之，ESAM的总损失可以表示为：
在这里插入图片描述
其中λ1，λ2和λ3是超参数，它们控制相应项的影响。我们将 Θ Θ Θ 定义为ESAM的可学习权重，可以通过反向传播来端到端更新它们：

其中η是学习率。

3 APPLICATIONS

在本节中，我们将ESAM应用于两个特定的排名方案：
（i）项目推荐
（ii）个性化搜索系统

3.1 Item Recommendation

项目推荐是一个典型的排名问题。推荐系统中最重要的方法之一是协作过滤，它探讨了潜在的用户项目相似性[22]。推荐器系统主要包括四个组成部分，包括特征组成（q和d），特征提取器（ f q 和 f d f_q和f_d fq和fd），评分函数（ f s f_s fs）和损失函数（ L s L_s Ls）。

Feature Composition特征组成。
我们在商品推荐中主要采用三个功能组：用户个人资料，用户的行为和商品个人资料。每个组由一些稀疏特征组成：用户配置文件包含用户ID，年龄，性别等；用户的行为包含用户最近互动的商品ID；项目配置文件包含项目ID，品牌，类别等。模型使用哪些特征组和稀疏特征取决于特征提取器的设计。

Feature Extractor. 特征提取器。
基于神经网络的推荐系统的基本特征提取器是MLP [19]。当前，设计了各种新颖的模块来增强特征提取，例如注意机制[46]，转换器模块[8]。在我们的实验中，我们将ESAM集成到多个提取器中，以证明它是提高长尾性能的通用框架。

Scoring Function.计分功能
我们将评分函数定义为[41]：
在这里插入图片描述
其中 y q ， d i y_q，d_i yq，di 是一个二进制变量，指示查询是否单击了项目 d i d_i di（如果查询q单击了项目di，则 y q ， d i = 1 y_{q，d_i} = 1 yq，di=1，否则， y q ， d i = 0 y_{q，d_i} = 0 yq，di=0），n是查询q的显示项目数。

仅使用 L s L_s Ls 训练上述模型，仅考虑显示的项目。如第二节所示。如图2和图3所示，为了减轻域偏移以提高模型的性能，我们在每个训练时期将未显示的项目随机分配给每个查询，并通过在项目侧 f d f_d fd 引入三个约束的附加非显示项目输入流，将ESAM集成到模型中。

3.2 Personalized Search System

在这项工作中研究的个性化搜索系统是根据用户发布的关键字来识别用户可能感兴趣的所有可能项目。因此，ESAM，特征提取器和损失函数的集成与项目推荐相同，仅特征组成和评分函数不同。对于功能组成，个性化搜索系统引入了一个附加的关键字功能组。通过对关键字的词向量求平均，将关键字转换为向量。对于评分函数，我们将余弦相似度定义为评分函数[41]：
在这里插入图片描述

4 EXPERIMENTS

在本部分中，我们进行了与上述ESAM的两个实际应用相对应的实验，即项目推荐和个性化搜索系统。

4.1 Datasets

• Item Recommendation.

M o v i e L e n s − 1 M {MovieLens-1M} MovieLens−1M：数据集包含数以千计的电影和用户的100万个电影评级记录。我们首先对评分进行二值化以模拟CTR预测任务，即评分大于3的显示为正样本，其余的显示为负样本，这是此问题设置所共有的[40]。我们使用的功能是用户ID，年龄，性别，用户职业，查询侧的用户行为，以及电影ID，发行年份，项目侧的电影流派。在每个训练时期，我们随机添加10部与显示的电影类似的未显示的电影（即n = 10）。相似电影是其类型与显示电影相同的非显示电影。我们按8：1：1的比例将数据随机分为训练，验证和测试集.

• Personalized Search System

CIKM Cup 2016 Personalized E-Commerce Search个性化电子商务搜索：个性化电子商务搜索挑战赛发布了DIGINETICA提供的数据集。每个项目都包含项目ID，类别ID，标题和描述，每个查询都由用户ID，用户的性别，年龄，历史行为和用户发布的关键字ID（由单词列表转换）组成，并且每个记录都包含一个查询，此查询显示10个项目以及该查询单击的项目。此外，我们采用与 M o v i e L e n s − 1 M MovieLens-1M MovieLens−1M相同的策略为每条记录分配未显示的项目。对于训练，验证和测试集构建，我们应用8：1：1随机分割。

Industrial Dataset of Taobao: 我们于2019年6月收集了一周的淘宝日志。在此数据集中，所有使用的功能，获取未显示项目的方式以及记录的组织方式均与CIKM Cup 2016数据集相同。在实验中，我们将数据集分为三个部分：训练集（从第一天到第五天的记录），验证集（从第六天起的记录）和测试集（从第七天起的记录）。表2报告了这三个数据集的基本统计信息。

在这里插入图片描述

4.2 Baselines and Evaluation Metrics

为了验证ESAM是一个通用框架，我们将其集成到基于神经网络的一些单域排名方法中。请注意，特征提取器（ f q 和 f d f_q 和 f_d fq和fd）在个性化搜索和推荐应用程序中是一致的，只有特征组成（q和d）和评分功能（fs）取决于应用程序。具体的区别可以在第二节中看到。 3.我们还比较了一些基于DA的排名模型和“不失随机”方法，以显示我们提出的ESAM的优越性。

具体而言，单域方法是：NeuralMF [19]，RALM [29]，YoutubeNet [12]，BST [8]。基于DA的方法有：DARec [44]，DA学习排名框架（DALRF）[38]。一种“不失随机”的方法是：无偏归因模型（UIM）[43]。对于基于DA的改善长尾性能的方法（例如DALRF，DARec），我们仅将原始DA约束替换为ESAM，并保持其他模块不变以进行比较。请注意，“不随机丢失”方法需要无偏数据集。在这里，无偏数据集是通过对一小部分在线流量部署统一策略而收集的。为了公平比较，我们仅将使用无偏数据集的约束替换为ESAM。性能比较使用了三个标准评估指标NDCG（归一化贴现累积增益），召回率和MAP（平均平均精度）。

4.3 Implementation Details

所有方法均由TensorFlow实施并由Adam优化器进行培训。对所有方法进行了五次培训，并报告了平均结果。对于超参数λ1，λ2和λ3，我们从{0.01,0.1,0.3,0.5,0.7,1,10}搜索最佳参数，并设置 λ 1 = 0.7 ， λ 2 = 0.3 和 λ 3 = 0.5 λ1= 0.7，λ2= 0.3 和 λ3= 0.5 λ1=0.7，λ2=0.3和λ3=0.5。对于其他超参数，我们设置学习率 η = 1 e − 4 η= 1e-4 η=1e−4批大小为256，特征尺寸L = 128，距离约束m1 = 0.2和m2 = 0.7，以及置信度阈值p1 = 0.2和p2 = 0.8。对于比较方法的超参数，我们使用基于验证集性能的网格搜索。
注意，我们为每个查询分配10个源项目 D q s D^s_q Dqs和10个目标项目 D q t D^t_q Dqt（即n = 10）。

4.4 Performance Comparison

根据显示频率，我们将整个商品空间分为热点商品和长尾商品。通过图1b所示的拐点，我们将前20％的商品定义为热门商品，其余的定义为长尾商品。

公开数据集：表3和表4分别显示了Movielens-1M数据集和CIKM Cup 2016数据集在不使用ESAM和使用ESAM的情况下的基准性能。我们从结果中得出以下结论。
（1）每种模型对热物料的性能总是比长尾物料的性能高得多，这表明热物料和长尾物料的分布不一致。
（2）具有ESAM的单域基线优于没有ESAM的单域基线。对于个性化搜索应用程序，使用ESAM的基准在热空间中的平均绝对NDCG @ 20 / Recall @ 20 / MAP增益为1.4％/ 2.1％/ 1.5％，长期为3.3％/ 3.4％/ 2.5％尾部空间和整个空间的2.3％/ 2.8％/2.3%；对于项目推荐应用程序，使用ESAM的基准在热空间中的平均绝对NDCG @ 20 / Recall @ 20 / MAP增益为1.3％/ 1.4％/ 1.2％，长期为2.7％/ 2.0％/ 2.2％尾部空间和整个空间的1.8％/ 1.9％/ 1.7％。长尾空间的显着改善证明，所提出的ESAM可以有效缓解长尾项的域移动问题，使基线可以针对不同的数据集和应用在整个空间中学习更好的特征。
（3）我们发现ESAM优于其他DA方法（即DALRF，DARec）。结果证实，我们设计的判别域适应考虑了高级属性之间的相关性，并采用中心聚类和自我训练来改善源判别和目标判别，可以有效地转移更多判别知识。

在这里插入图片描述
冷启动性能：
我们从测试集中随机选择20％的记录，并从训练集中删除其显示项目包含这些选定测试记录的所有记录。我们使用BST [8]作为BaseModel，因为它在公共数据集上具有最佳性能。如表5所示，由于显示空间中缺少这些项目，因此我们发现BST难以解决冷启动问题。由于ESAM引入了包含冷启动项的未显示项，因此可以极大地改善冷启动性能，从而增强了功能学习。
在这里插入图片描述
淘宝工业数据集：
由于淘宝工业数据集非常大，我们采用Recall @ 1k和Recall @ 3k作为度量标准，并使用在公共数据集上具有最佳性能的BST [8]作为消融研究的基础模型。根据表6可以得出一些观察结果。
（1）比较不带LDA的方法和不带LDA的方法（例如BM和BM + LDA或不带LDA和ESAM的ESAM），我们发现A2C可以大大改善模型在长尾空间中的性能（例如，平均增益为+ 2.73％或+ 3.05％），这证明可以通过调整源域和目标域的分布来解决较差的长尾性能。
（2）与不带 L D C c L^c_{DC} LDCc 的模型（例如BM + L D A L_{DA} LDA 或不带 L D C c L^c_{DC} LDCc 的ESAM）相比，带不带 L D C c L^c_{DC} LDCc 的模型（例如不带 L D C p L^p_{DC} LDCp 或ESAM的ESAM）的性能尤为突出通过采用 L D C c L^c_{DC} LDCc 来优化源空间结构，从而在热空间中获得最佳增益（例如，平均增益为+ 0.6％或+ 0.7％）。此外， L D C c L^c_{DC} LDCc 使目标空间结构具有更好的类内紧凑性和类间可分离性，从而提高了尾部性能（例如，平均增益为+ 0.5％或+ 1.8％）。
（3）这三个约束条件（即ESAM）的组合产生了最佳性能，这表明我们设计了三个正则化项的必要性。
（4）ESAM的性能优于UIM，这说明ESAM可以抑制“马修效应”以改善长尾性能。

4.5 Feature Distribution Visualization

为了说明域移位的存在和所提出的ESAM的有效性，我们随机选择了2,000个项，并通过融合t-SNE [13]可视化了输出的特征。如图6所示，我们可以进行直观的观察。
（1）如图6a所示，源特征和目标特征的分布之间存在域间隙。此间隙使适合源项目的模型无法应用于具有大量未显示项目的整个空间。
（2）我们发现， L D A L_{DA} LDA 的集成可以显着减小分布之间的差异（图6b），这证明项目高级属性之间的相关性可以很好地反映域的分布。
（3）通过使用判别聚类，特征空间将具有更好的流形结构。 L D C c L^c_{DC} LDCc 以更好的类内紧凑性和类间可分离性增强了共享特征空间（图6c）。另外， L D C c L^c_{DC} LDCc 鼓励进一步区别对待。与图6c相比， L D C p L^p_{DC} LDCp 将横坐标扩展为[-60,80]，将纵坐标扩展为[-80,80]（图6d）。

简而言之，ESAM通过区分域自适应提取了领域不变和区分特征，这使得该模型对长尾物品具有鲁棒性，并且可以为用户检索更多个性化和多样化的物品。

4.6 Score Distribution

为了进一步说明ESAM可以有效地优化长尾性能。我们分别从源域和目标域中随机选择500个组合（ v q ， v d v_q，v_d vq，vd），以可视化分数分布。
如图7所示，横坐标是可以计算为等式的分数。 12和纵坐标是分数落在区间内的组合的数量。
如图7a所示，该模型倾向于为未显示的项目提供极低的分数，从而使这些项目难以检索，而 L D A L_{DA} LDA 鼓励源域和目标域具有相同的分数分布，从而增加了暴露的可能性长尾物品。但是，对齐的分数分布过于集中（图7b），这可能会导致检索不相关的项目。为了解决这个问题，提出的判别聚类鼓励分数分布具有更好的判别能力（图7c和图7d）。
如图7c所示，目标图存在异常尖峰（在得分附近= 0.15），我们认为这是由于在对齐过程中忽略目标标签而导致的负转移（正样本与负样本对齐）。不出所料，使用目标可靠的伪标签进行自我训练可以在一定程度上解决此问题。

在这里插入图片描述

4.7 Similarity Matrix

为了证明ESAM可以学习更好的项目特征表示。我们在工业数据集的整个项目空间中，从每个类别（服装，电话，鞋子和计算机）中随机选择了1,000个项目。我们通过平均划分每个类别的项目样本（即500个）来构建两组项目。对于每个组，我们将其类别中心计算为项目特征表示的平均值。然后，我们可以通过每个中心对的余弦相似度获得相似度矩阵。如图8所示，与BaseModel相比，ESAM具有更大的类内相似度和更小的类间相似度，这表明ESAM具有更具判别性的邻域关系。此外，ESAM提取的相似度矩阵可以更好地反映实际情况，即衣服与鞋子之间的相似度高于衣服与手机之间的相似度，无法在BaseModel中显示出来。

在这里插入图片描述

4.8 Parameter Sensitivity

为了研究 L D C c L^c_{DC} LDCc的距离约束 m 1 m_1 m1和 m 2 m_2 m2的影响，我们将其值更改为 m 1 ∈ { 0 , 0.05 , 0.1 , 0.15 , 0.2 , 0.25 , 0.3 , 0.5 , 1 , 2 } m1∈\{0,0.05,0.1,0.15,0.2,0.25,0.3,0.5,1,2\} m1∈{0,0.05,0.1,0.15,0.2,0.25,0.3,0.5,1,2}和 m 2 ∈ { 0.5 , 0.6 , 0.65 ， 0.7 , 0.75 , 0.8 , 0.9 , 1 , 1.5 , 2 } m2∈\{0.5,0.6,0.65， 0.7,0.75,0.8,0.9,1,1.5,2\} m2∈{0.5,0.6,0.65，0.7,0.75,0.8,0.9,1,1.5,2}。
图9a显示了钟形曲线，它表明适当的类内和类间距离约束可以有效地优化邻域关系以提高检索性能。如图9b所示，对于Lp DC的置信度阈值sp1和p2，我们发现将伪标签分配给具有低置信度的样本（p1太大或p2太小）以进行自训练会导致模型崩溃。标签数量为假标签。虽然增加置信度阈值可以改善模型的性能，但这表明具有适当约束的熵正则化可以有效地选择可靠的目标样本，以实现更好的域自适应和最终性能。

4.9 Online Experiments

我们将提出的方法部署到淘宝搜索引擎进行个性化搜索，并进行在线A / B测试实验。为了进行公平的比较，除了模型是否与ESAM集成外，其他变量都是一致的，包括用户池，项目池，功能组成等。与BaseModel相比，ESAM的CTR为0.85％，收集率为0.63％，0.24％在7天内，CVR和GMV增加了0.4％。 “集合”表示将商品添加到购物车的行为。请注意，由于淘宝中的搜索引擎为数十亿用户提供服务，每天产生超过一千万个GMV，因此性能改进对于我们的业务而言已足够显着。我们将其归因于通过引入未标记的未显示输入流来减少已显示和未显示项目之间的分配差异，从而改进了长尾项目的搜索能力。简而言之，在线实验证明ESAM可以大大提高整个搜索引擎的效率。

在这里插入图片描述

5 RELATED WORK

5.1 Neural Network-Based Ranking Model

近来，已经进行了许多工作以将深度神经网络用于许多基于排名的应用程序。排名模型的一个重要发展是深度学习排名（LTR）[3，11，19，25，35，47]。为了解决这个问题，一些方法利用了DA技术，例如最大平均差异（MMD）[38]，对抗训练[23]，来缓解源域和目标域中的不一致分布。而且，一些方法[2，43]引入了由无偏系统获得的无偏数据集（即，从整个项目池中随机选择项目到查询中）来训练无偏模型。另外，一些方法引入辅助信息[43、44]或辅助域[15、30]以获得更多的长尾信息。与以前的方法不同，ESAM在没有任何辅助信息和辅助域的情况下，将域自适应和非显示项结合在一起以提高长尾性能。此外，我们设计了一种新的DA技术，称为属性相关性对齐，该技术将项目高级属性之间的相关性视为要转让的知识。

5.2 Discriminative Domain Adaption

最近已经广泛研究了域自适应，该域自适应将知识从大量标记的源样本转移到具有缺失或有限标记的目标样本，以提高目标性能。这些DA方法通过嵌入用于矩量匹配的适配层来学习域不变特征，例如最大平均差异（MMD）[10]，相关比对（CORAL）[9，37]和中心矩差异（CMD）[45]。，或集成域区分器进行对抗性训练，例如域对抗神经网络（DANN）[14]和对抗性区分域自适应（ADDA）[39]。以前的一些工作付出了很多努力来学习更多的区分特征以提高性能，例如，对比损失[17]和中心损失[28]。这些方法已经在许多应用中被采用，例如人脸识别和人的重新识别等。受这些方法的启发，我们建议对整个空间中具有更好判别力的精益项目特征执行域自适应。

6 CONCLUSION

在本文中，我们提出了ESAM，通过引入非显示项来通过区分域自适应来改善长尾性能。据我们所知，这是将领域匹配与非重复项目用于排名模型的第一项工作。值得一提的是，ESAM是一个通用框架，可以轻松地集成到许多现有的排名模型中。在两个公共数据集和一个淘宝工业数据集上的离线实验证明，ESAM可以集成到现有的SOTA基准中以提高检索性能，尤其是在长尾空间中。在线实验进一步证明了ESAM在淘宝搜索引擎上的优越性。此外，我们还通过消融研究验证了每个约束的必要性。

ACKNOWLEDGMENTS

这项工作得到了阿里巴巴集团通过阿里巴巴创新研究计划和国家自然科学基金（No. 61872278）的支持。李晨亮是通讯作者。

标签：长尾,Domain,Discriminative,项目,Items,模型,显示,DA,ESAM
来源： https://blog.csdn.net/qq_41101762/article/details/112668855

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

【paper笔记】ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail

文章基本信息

ABSTRACT

1 INTRODUCTION

2 PROPOSED METHOD

2.1 Preliminaries

2.2 BaseModel

2.3 Entire Space Adaptation Model (ESAM)

• Domain Adaptation with Attribute Correlation Alignment.

• Center-Wise Clustering for Source Clustering.

• Self-Training for Target Clustering.

2.4 Optimization

3 APPLICATIONS

3.1 Item Recommendation

3.2 Personalized Search System

4 EXPERIMENTS

4.1 Datasets

• Item Recommendation.

• Personalized Search System

4.2 Baselines and Evaluation Metrics

4.3 Implementation Details

4.4 Performance Comparison

4.5 Feature Distribution Visualization

4.6 Score Distribution

4.7 Similarity Matrix

4.8 Parameter Sensitivity

4.9 Online Experiments

5 RELATED WORK

5.1 Neural Network-Based Ranking Model

5.2 Discriminative Domain Adaption

6 CONCLUSION

ACKNOWLEDGMENTS