[论文][人脸算法]Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher

2022-02-27 21:32:17 阅读：155 来源： 互联网

标签：Progressive Semi 老师模型网络损失学生 Facial 数据

Motivation

在表情识别中，标注质量高的数据集数据量小，容易造成过拟合；数据量大的数据集标注质量不佳，含噪声，不利于模型的学习。如下图，为表情识别中最大的数据集之一AffectNet中错误标签。我们提出Progressive Teacher 用于同时解决缺少高质量标注数据和大数据集标注含噪声两个问题。

网络架构

Progressive Teacher是一个典型的老师-学生网络，即学生网络在老师网络的指导下逐步提升。一般而言，在训练过程中，老师网络的权重是学生网络的参数变化的平均，并且有着更好的表现，我们希望学生网络的分类误差尽可能小（对于有标签的数据，通过和标签对比计算损失）并且老师模型的输出的结果一致（无标签和有标签的数据都可以通过这个方式来约束）。

Progressive Teacher模型相比传统的老师-学生模型，不仅可以提供更好的结果并引导学生网络产生相同的结果（是一种半监督的典型方法，可以解决标注数据少的问题），还可以为学生模型选择潜在的干净样本学习（可以解决标注数据含噪声的问题）。

具体方法：

我们使用了两组学生老师模型。两组模型的结构相同，但参数的初始化不同。在两组模型中，学生和老师网络使用不同的数据增强方法，同时，学生网络通过SGD优化器进行优化，老师网络的权重是学生权重的指数平均移动。
由于不同的初始化，在训练的早期阶段，它们会给对方不同的samples（所学内容有区别？），老师网络则将这些区别积累放大。同时，老师网络会选择分类交叉熵损失更小的样本作为干净样本（具体的选择比例由R(t)表示，且该比例随着训练的过程变化），给学生网络学习。
两组模型采用交叉训练机制，例如：第一组老师网络会把筛选出的干净样本传递给第二组学生网络，第二组学生网络则会计算出监督的分类损失（交叉熵损失）和非监督的一致性损失（MSE损失）。
监督损失：

非监督损失：

总损失：

其中 w(t)是一个ramp-up函数，确保在训练的初始阶段，由于老师模型的引导能力有限，所以给非监督损失的权重较小。
在权重更新的过程中，老师网络的参数随着学生网络的参数按照如下方式变化：

实验

使用RAF-DB数据集作为高质量标准的数据集，使用AffectNet作为补充的无标签数据

标签：Progressive,Semi,老师,模型,网络,损失,学生,Facial,数据
来源： https://www.cnblogs.com/qiqiblogs/p/15943473.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

[论文][人脸算法]Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher

Motivation

网络架构

实验