ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

多目标优化(三)recsys2020最佳长论文奖Progressive Layered Extraction (PLE)

2020-12-10 08:01:34  阅读:612  来源: 互联网

标签:loss 每个 Progressive 任务 网络 Extraction PLE 样本空间 网络结构


论文:Progressive Layered Extraction (PLE): A Novel Multi-TaskLearning (MTL) Model for Personalized Recommendations 会议:RecSys2020最佳长论文奖        这篇文章其实就是MMOE的改进版。解决了一个问题,做了两件事情。
       一个问题:任务不相关时,多个专家网络联结在一起容易导致多个任务此消彼长现象(Seesaw Phenomenon),例如优化CTR和GMV两个任务,结果GMV涨了,CTR跌了。MMOE对不相关任务的优化效果比ESSM强不少,但还是不够强,PLE就让他更强了。多个目标可以同时增长。比帕累托最优化这种方法训练model方便多了。这个我觉得是得最佳论文奖的主要看点。       两件事情:一个是提出了一个改进的网络结构版本,一个是提出了一种多loss融合训练的方法。后面细讲。
 一、motivation 我们来看MMOE的网络结构。 

 

 

 A任务和B任务两个loss相加,是总的loss。如果A任务的loss是B任务的2倍,则三个专家网络的参数会往A任务loss梯度下降的方向优化,这样学会的专家网络A任务的提升较高(从而总loss降低),但B任务由于在总loss中占比较低,提升有限,甚至会降低B任务的精度。 

 

 

     作者做了实验,在VTR和CVR两个任务中,MMOE比单任务模型(single-Task)只在VTR任务上有较大提升,在VCR任务上只提升了0.0001。其他多任务学习模型基本上都是此消彼长类型,而PLE在两个坐标轴上都有较大幅度提升。  很自然的就会有这样的想法:一,如果解耦这些专家网络。二、如何优化loss的融合逻辑。让每个任务的loss都能下降,每个任务的业务目标都能得到优化。这就是本论文的精髓。 二、网络结构:     文章中有两个网络结构,一个是单层多任务网络结构(CGC),一个是多层多任务网络结构(PLE)。
     单层的多任务网络结构中,每个任务有一个独立的专家网络,然后每个任务也都从共享专家网络里面提取特征信号,这样保证了单任务有两个特征信号来源:独有信号和糅合共享信号。这样做到了专家网络解耦,同时能利用多任务辅助训练单任务。 

 

 

 

       多层多任务网络结构中,底层特征抽取结构中,给上层A任务提供的独有专家网络的信号来自于A专家网络和共享网络,但给上层结构提供共享专家网络的信号来源于A+B+共享网络。然后最后一层连接多塔的结构跟CGC是一样的。  

 

 

三、LOSS函数优化 1、训练集归一化。每个任务的样本空间是不一样的。如果样本空间一样,即:    Key:features:label统一的样本对,key可以是userID+videoId,每个任务有每个任务的label,那么直接把各任务的Loss相加即可。      事实上,这些多个任务的样本空间是不一样的,主要是特征features不一样。例如:视频的评论CMR任务,视频可以有被评论次数这个特征,但如果这个特征拿去做CTR任务,那只要这个特征有值就百分之百是有点击的,因而每个任务的样本空间是不一样的。 

 

 

 
       图中展示了各个任务的样本空间的包含关系。那么这些任务的不同样本空间和不同特征空间的联合训练,文章采取的方法是逐个样本计算loss:      

 

 

 
       i代表的是每个样本,k代表的是任务K,δik代表的是第i个样本属于第K个任务的关系,属于则为1,不是则为0,对i进行求和就是整个样本空间中K任务的样本数对应的loss值。        2、让每个任务loss权重动态变化。这个方法其实比较浅逻辑。就是设定一个任务的初始权重值,然后让这个权重值随着训练的epoch数不断变化,这样可以尝试很多组权重,可以找到最优的范式。也算是一种解法,因而每个任务的loss是相差比较大的,例如回归任务的loss一般比二分类的loss大不少。需要平衡这两者。  四、总结     文章通过构建一个解耦的MMOE网络,加上loss权重的动态变化,成功的让多任务模型可以在每个任务上都有最优表现。非常不错的做法,比帕累托这种action非常繁琐的做法好了不少。比较接地气,容易action。确实是一篇佳作。 

 

标签:loss,每个,Progressive,任务,网络,Extraction,PLE,样本空间,网络结构
来源: https://www.cnblogs.com/whu-zeng/p/14111886.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有