python – 为什么Doc2vec为同一文本提供了2个不同的向量

2019-06-11 03:43:13 阅读：329 来源： 互联网

标签：python nlp gensim word2vec doc2vec

我正在使用Doc2vec从单词中获取向量.
请看下面的代码：

from gensim.models.doc2vec import TaggedDocument
f = open('test.txt','r')

trainings = [TaggedDocument(words = data.strip().split(","),tags = [i]) for i,data in enumerate(f)


model = Doc2Vec(vector_size=5,  epochs=55, seed = 1, dm_concat=1)

model.build_vocab(trainings)
model.train(trainings, total_examples=model.corpus_count, epochs=model.epochs)

model.save("doc2vec.model")

model = Doc2Vec.load('doc2vec.model')
for i in range(len(model.docvecs)):
    print(i,model.docvecs[i])

我有一个test.txt文件,其内容有2行,这两行的内容是相同的(它们是“a”)
我用doc2vec训练并得到了模型,但问题是虽然2行的内容是相同的,但doc2vec给了我2个不同的向量.

0 [ 0.02730868  0.00393569 -0.08150548 -0.04009786 -0.01400406]
1 [ 0.03916578 -0.06423566 -0.05350181 -0.00726833 -0.08292392]

我不知道为什么会这样.我认为这些载体会是一样的.
你能解释一下吗？如果我想为同一个词创建相同的向量,在这种情况下我该怎么做？

解决方法:

在Doc2Vec(和Word2Vec)算法中存在固有的随机性,例如初始向量已经是随机的,即使对于相同的句子也是不同的.您可以对model.train调用进行评论,并亲自查看.

详细信息如果你感兴趣：在构建词汇后立即初始化向量：在你的情况下,它是model.build_vocab(…)调用,它又调用model.reset_doc_weights()方法(参见gensim/models/doc2vec.py的源代码) ),无论句子是什么,它都会随机初始化所有向量.如果此时你重置初始化并分配相等的向量,它们不应再分叉.

从理论上讲,如果训练相同的句子足够长,即使初始化程度不同,算法也应收敛到同一个向量.但实际上,它不会发生,我认为你不应该担心这一点.

标签：python,nlp,gensim,word2vec,doc2vec
来源： https://codeday.me/bug/20190611/1216020.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python – 为什么Doc2vec为同一文本提供了2个不同的向量