NLP学习笔记十二-skip-gram模型求解

发表于:2025-10-17

NLP学习笔记十一-skip-gram模型求解

上一篇文章，我们见到了skip-gram模型的原理，这里我们在陈述一下skip-gram模型其实是基于分布相似性原理来设计的，在skip-gram模型中，他认为一个词的内涵可以由他的上下文文本信息来概括，，那么基于这个原理，skip-gram模型设计了两个矩阵，一个是词向量表征矩阵，也就是这个向量中每一行代表了一个词的嵌入向量，也就是表征信息，又设计了一个表示词语在上下问中做背景词是的表征矩阵，在这个矩阵中每一行，表示一个词语做上下问词语时自己的表征信息。当一个词作为中心词，在乘以背景词表征矩阵，经过softmax处理，会得到一个向量，这个向量元素之和为1，向量长度为词语集合类别数，每个元素的值代表一个词语被选择的概率。当我们输入一个词语序列，我们会根据该词语序列计算2m次概率向量，因为窗口大小为m，也就是输入了2m个上下文词语，此时我们需要做的就是对两个矩阵进行更新，假设输入中心词的表征向量为 w I w_I wI，输入上下文文本词语的表征向量为 w O , 1 , w O , 2 , w O , 3 , , , , , , w O , C w_{O,1},w_{O,2},w_{O,3},,,,,,w_{O,C} wO,1,wO,2,wO,3,,,,,,wO,C。上一篇文章，我们见到了skip-gram模型的原理

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。