ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Raki的读paper小记:Unified Named Entity Recognition as Word-Word Relation Classification

2022-03-19 13:02:25  阅读:292  来源: 互联网

标签:关系 Unified Named Word THW token word NER


Abstract & Introduction & Related Work

  • 研究任务
    • NER同一建模模型(flat,nested,discontinuous)
  • 已有方法和相关工作
    • 序列标注
    • 基于超图的方法
    • seq2seq方法
    • 基于span的方法
    • 现有方法focus如何准确识别实体边界
  • 面临挑战
    • 在推理过程中同时存在假结构和结构模糊的问题
    • 解码效率
    • 曝光偏差
    • 基于span的方法受限于最大span长度,模型复杂度
  • 创新思路
    • 提出了一种基于word-word关系分类的统一NER建模模型,称之为 W 2 N E R W^2NER W2NER
    • 该架构通过对实体词之间的相邻关系进行有效建模,用Next-Neighboring-Word(NNW)和Tail-Head-Word-(THW-)关系来解决统一NER的内核瓶颈问题
  • 实验结论
    • 在14个数据集上sota

嵌套NER和不连续NER的示意图,比flat更加的复杂
在这里插入图片描述
W 2 N E R W^2NER W2NER 模型总览图,可以看到整个模型是比较复杂的
在这里插入图片描述

NER as Word-Word Relation Classification

在所有token对中,存在以下三种关系
在这里插入图片描述
word-word矩阵,表示token对之间的关系,非对称,表示第行个token和第列个token之间的关系
在这里插入图片描述

Unified NER Framework

  • Encoder:用BERT和LSTM来从输入句子中得到上下文词表示
  • 卷积层:用来建立和精炼词对矩阵,用于后续的word-word关系分类
  • 最后一个双线性层和多层感知机共同用于推理token对的关系

Encoder Layer

BERT得到word embedding之后送入LSTM得到上下文表示,没什么好说的
在这里插入图片描述

Convolution Layer

CNN层有三个不同的模组
在这里插入图片描述

Conditional Layer Normalization

V i j \mathbf{V}_{ij} Vij​ 表示词对之间的的表示,使用条件层归一化来计算

γ \gamma γ 和 λ \lambda λ 通过对隐状态投影得到
在这里插入图片描述

BERT-Style Grid Representation Build-Up

V \mathbf{V} V 代表词信息
E d \mathbf{E}^d Ed 代表token对的相对位置信息
E t \mathbf{E}^t Et 代表代表区域信息,用于区分矩阵中的下三角和上三角区域

最后拼接起来经过一个线性层

在这里插入图片描述

Multi-Granularity Dilated Convolution

对 C \mathbf{C} C 使用三个空洞卷积,并拼接起来得到 Q \mathbf{Q} Q
在这里插入图片描述

Co-Predictor Layer

在这里插入图片描述

Biaffine Predictor

利用了之前LSTM得到的上下文表示
在这里插入图片描述

MLP Predictor

把Q投影,再跟双线性层的输出一起输入softmax层进行得到每一类的概率
在这里插入图片描述

Decoding

我们模型的预测是单词和它们之间的关系,这可以被视为一个方向性的单词图。解码的目的是利用NNW关系找到图中从一个词到另一个词的某些路径。每条路径都对应于一个实体提及。除了用于NER的类型和边界识别,THW关系也可以作为消歧义的辅助信息。图4说明了四种从易到难的解码情况
在这里插入图片描述

  • (a)中,两条路径 "A→B "和 "D→E "对应于平面实体,THW关系表示它们的边界和类型
  • (b)中,如果没有THW关系,我们只能找到一条路径,因此 "BC "就不见了。相反,在THW关系的帮助下,我们很容易发现 "BC "被嵌套在 "ABC "中,这表明了THW关系的必要性
  • (c)显示了如何识别不连续的实体。可以找到两条路径 "A→B→C "和 “A→B→D”,而NNW关系有助于连接不连续的跨度 "AB "和 “D”
  • 考虑到一个复杂而罕见的情况(d),不可能解码出正确的实体 "ACD "和 “BCE”,因为在这个模糊的情况下,我们只用NNW关系就能找到4条路径。相反,只使用THW关系会识别出连续实体(如 “ABCD”),而不是正确的不连续实体(如 “ACD”)。因此,我们可以通过协作使用两种关系来获得正确的答案

Learning

优化以下损失函数
在这里插入图片描述

Experimental Results

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

在本文中,我们提出了一个新的基于词-词关系分类的统一NER框架,以解决统一NER的并发问题。词对之间的关系被预先定义为下一个邻接词关系和尾部词头关系。我们发现,我们的框架对各种NER相当有效,在14个广泛使用的基准数据集上达到了SoTA的性能。此外,我们提出了一个新的骨干模型,包括一个BERT-BiLSTM编码器层,一个用于建立和完善词对网格表示的卷积层,以及一个用于联合推理关系的协同预测层。通过消融研究,我们发现我们的以卷积为中心的模型表现良好,几个提议的模块,如联合预测器和网格表示丰富化也很有效。我们的框架和模型易于操作,这将促进NER研究的发展

Remark

虽然模型有一点点复杂,组件比较多,但是效果牛逼,那只能说 好!

标签:关系,Unified,Named,Word,THW,token,word,NER
来源: https://blog.csdn.net/Raki_J/article/details/123591434

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有