自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning

2021-06-29 10:52:43 阅读：262 来源： 互联网

标签：最大化 Information Mutual language Language BERT 框架 gram modeling

资料放在前面：

文章的贡献如下：

（1）提出了一个基于最大化MI的理论框架来理解词表示学习模型，并将已知的方法统一到这个框架之中，如skip-gram，masked language modeling（如BERT）和permutation language modeling（如XLNET）。并指出BERT和Skip-gram其实在最大化一个相似的目标式，而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。

标签：最大化,Information,Mutual,language,Language,BERT,框架,gram,modeling
来源： https://blog.51cto.com/u_12136715/2952815

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning