词向量模型word2vec

2019-10-19 20:55:54 阅读：226 来源： 互联网

标签：嵌入 word2vec skip 模型 nce gram 字词向量

Word2vec 是一种计算效率特别高的预测模型，用于学习原始文本中的字词嵌入。
它分为两种类型：连续词袋模型 (CBOW) 和 Skip-Gram 模型。
从算法上看，这些模型比较相似，只是 CBOW 从源上下文字词（“the cat sits on the”）中预测目标字词（例如“mat”），
而 skip-gram 则逆向而行，从目标字词中预测源上下文字词。这种调换似乎是一种随意的选择，
但从统计学上来看，它有助于 CBOW 整理很多分布信息（通过将整个上下文视为一个观察对象）。
在大多数情况下，这对于小型数据集来说是很有用的。
但是，skip-gram 将每个上下文-目标对视为一个新的观察对象，当我们使用大型数据集时，skip-gram 似乎能发挥更好的效果。
在本教程接下来的部分，我们将重点介绍 skip-gram 模型。

该模型的数学原理是最大似然率 (ML) 原则，为实际字词分配高概率，并为噪声字词分配低概率时，此目标被最大化。
实际上，我们会利用非常相似的噪声对比估算 (NCE) 损失，TensorFlow 为此提供了一个方便的辅助函数 tf.nn.nce_loss()。
loss = tf.reduce_mean(tf.nn.nce_loss(nce_weights, nce_biases, train_labels, embed,num_sampled, vocabulary_size))

一旦模型学习了良好的单词植入，那么它们实际上可以在任何NLP应用中发挥作用：
毕竟，无论是什么应用，“milk”仍然比较接近“water”，而和“shoes”差距较大。事实上，你可能希望下载预训练的单词嵌入，而不是训练自己的。
正如在重用预训练层一样（参见第11章），可以选择冻结预训练嵌入（例如，创建嵌入变量），或者让反向传播调整应用程序。
第一种选择将会加快培训，第二种可能会提高性能。

嵌入对于代表可能占用大量不同值的分类属性也很有用处，特别是当值之间存在复杂的相似性时，例如，考虑职业、爱好、菜肴、品种、品牌，等等。

我们已经拥有了实现一个机器翻译系统的所有工具。现在一起看看如何实现吧。

标签：嵌入,word2vec,skip,模型,nce,gram,字词,向量
来源： https://www.cnblogs.com/czlong/p/11705112.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

词向量模型word2vec