META: Metadata-Empowered Weak Supervision for Text Classification，EMNLP2020

2022-02-01 18:01:38 阅读：171 来源： 互联网

标签：... motif Classification Text Empowered 实例文档种子标签

在这里插入图片描述
本文考虑在弱监督文本分类情境下使用元数据（metadata），利用元数据作为一个额外的薄弱监督的来源。具体来说，本文将文本数据和元数据组织到一个文本丰富的网络中，并采用motif来捕获元数据的适当组合，并在迭代过程中对motif实例以及种子词进行排序，选择重要的motfi作为种子motif。

Introduction

除了文本信息之外，元数据信息(例如，作者、出版年份)在各个领域(例如，新闻文章、社交媒体帖子和科学论文)都可以广泛获得，它可以作为一个强大的、互补的弱监督来源。
在这里插入图片描述
元数据通常是多类型的，每种类型和类型组合可能具有非常不同的语义，可能并不同等重要。而且，即使是单一元数据类型中的实体也可能是嘈杂的。图1(a)中的例子指出，在进行单纯的文本分类时，年份没有作者那么有用，因为一个作者和可能专注于一个领域，其领域对分类的结果具有明显的正向作用。
但是，如果将作者与year进行关联，它具有更准确的语义，我们可能会发现J. Dean近年来对机器学习更感兴趣，所以年份越近的文章更可能被分配到机器学习的标签。
这种元数据的组合pattern被称为motif，其实本质上是一个子图，代表着不同节点的一种聚合形式。比如图1©的motif就代表了一种合著关系。
因此，本文主要的贡献如下：

探索将元数据信息与种子词一起作为文本分类的弱监督的额外来源。
提出了一个新的META框架，捕获不同类型元数据之间的高阶组合，并对标签指示motif实例和单词进行统一排序和选择。

Preliminaries

给定一组文档 D = { D 1 , . . . D n } D=\{D_1,...D_n\} D={D1,...Dn}，以及相应的元数据，本文为其构建一个text-rich network，如图1(b)所示。text-rich network是一种异构网络。

Seed Words and Motif Patterns

为了在弱监督的情境下判断文档的类别，用户需要为每一个class给定一组种子词 S = { S 1 w , . . . S l w } S=\{S_1^w,...S_l^w\} S={S1w,...Slw}，以及 k k k个motif patterns M = { M 1 , . . . , M k } M=\{M_1, ... ,M_k\} M={M1,...,Mk}，motif能够捕获语义和节点之间的高阶关联。同种子词一样，每一个类别需要给定种子motif { S 1 m , . . . S l m } \{S_1^m,...S_l^m\} {S1m,...Slm}。
考虑到文本丰富的网络和用户提供的种子词和motif模式作为输入，本文的目标是构建一个高质量的文档分类器，将一个类标签 C j C_j Cj分配给每个文档 D i D_i Di。

Our META Framework

在这里插入图片描述
一般弱监督方法都是一个迭代的过程，本文提出的框架如图所示。一次迭代包含如下三个步骤：

通过种子生成伪标签。
使用伪标签训练一个分类器。
排列和选择单词和motif实例来扩展种子，

本文中迭代次数 T T T是唯一的超参数。

Pseudo Labels and Text Classifier

基于种子词、种子motif实例以及它们各自对每个类的排名分数，我们为未标记的文本文档生成伪标签，并基于这些伪标签训练分类器。在第一次迭代中，没有种子motif实例，所有种子词的排名分数都是1。
Pseudo-Label Generation。给定文档 D i D_i Di，它属于类l的概率与其各自种子词和种子motif实例的综合排名分数成正比：
在这里插入图片描述
其中 f D i , w f_{D_i,w} fDi,w表示单词 w w w在文档 D i D_i Di中的词频，然后伪标签是概率最高的 P P P对应的类别：
在这里插入图片描述
Document Classifier。至于分类，则使用了HAN作为分类器，因为是长文本所以Bert表现不佳。HAN的结果如下所示，便不赘述了：

Unified Seed Ranking and Expansion

在经过一次预测之后，将每个类的单词和motif实例排列在一起。然后，通过添加排名靠前的单词和motif实例来扩展种子集。这提高了迭代中的弱监督的质量，从而改进了文本分类器。
Ranking Score Design。一个特定类的理想种子词或motif实例应该与这个类高度相关并高度排外。给定 k k k个用户提供的motif种子，每个种子都先构建一个对应的二部图 G 1 B , . . . G k B G_1^B,...G_k^B G1B,...GkB，如图4所示：
在这里插入图片描述
二部图的节点由motif pattern对应的实例以及文档构成。假如某个motif是对应文档的元数据的子集，那么说明该motif实例应该有边与文档相连。类似的，文档-词之间也存在类似的二部图关系。
对于每一个motif M M M，每一个标签都需要获取一个二部图 G B G^B GB的personalized
random walk。具体来说，将二部图 G B G^B GB的邻接矩阵的每一列按其各自节点的度进行归一化，得到过渡矩阵 W W W。 p l , u p_{l,u} pl,u表示每个节点 u u u对每个标签 l l l的个性化PageRank (PPR)得分。在初始化时，文档节点设置为 Y ^ i , l \hat Y_{i,l} Y^i,l，motif则设置为0。这个初始化确保了随机遍历从一个文档节点开始，并且由于 G B G^B GB是二部的，所以它在一个motif实例节点结束。游走的过程如下所示：
在这里插入图片描述
最终，PPR scores得分的大小表现了不同motif对相应文档标签的亲和力，将这些PPR得分归一化，得到motif的排序得分：

此评分基础上，也对词-文档的二部图进行排序，并对种子词集和种子母题集进行扩展。
Expansion。给定每个标签的所有单词和主题实例的排名分数，同时为所有标签扩展种子单词和种子motif。直观来说，一个主题种子词或是motif应该仅仅属于一个类，为了避免产生歧义。当任何motif实例被扩展为多个类的种子集时，我们将停止相应motif模式的motif实例的扩展。

Experiments

在这里插入图片描述
对于两个不同的数据集需要采用不一样的motif，因为motif都是人为定义的。

而种子词根据5个专家判定，每个类5个种子词，并基于多数投票(> 3推荐)选择最终的种子词。
实验结果：

迭代次数与种子数量对结果的影响：
在这里插入图片描述
种子词数量随着迭代次数增加的变化：

标签：...,motif,Classification,Text,Empowered,实例,文档,种子,标签
来源： https://blog.csdn.net/qq_36618444/article/details/122762997

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9