NLP学习笔记十一-skip-gram模型求解
上一篇文章,我们见到了skip-gram模型的原理,这里我们在陈述一下skip-gram模型其实是基于分布相似性原理来设计的,在skip-gram模型中,他认为一个词的内涵可以由他的上下文文本信息来概括,,那么基于这个原理,skip-gram模型设计了两个矩阵,一个是词向量表征矩阵,也就是这个向量中每一行代表了一个词的嵌入向量,也就是表征信息,又设计了一个表示词语在上下问中做背景词是的表征矩阵,在这个矩阵中每一行,表示一个词语做上下问词语时自己的表征信息。当一个词作为中心词,在乘以背景词表征矩阵,经过softmax处理,会得到一个向量,这个向量元素之和为1,向量长度为词语集合类别数,每个元素的值代表一个词语被选择的概率。当我们输入一个词语序列,我们会根据该词语序列计算2m次概率向量,因为窗口大小为m,也就是输入了2m个上下文词语,此时我们需要做的就是对两个矩阵进行更新,假设输入中心词的表征向量为 w I w_I wI,输入上下文文本词语的表征向量为 w O , 1 , w O , 2 , w O , 3 , , , , , , w O , C w_{O,1},w_{O,2},w_{O,3},,,,,,w_{O,C} wO,1,wO,2,wO,3,,,,,,wO,C。上一篇文章,我们见到了skip-gram模型的原理