!-- flowchart 箭头图标 勿删 --
在指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组的关键词。因此,每个新闻页都存在一组词频,称为该新闻网页的特征向量。
设两个新闻网页的特征向量分别为:甲(a1 ,a2,.... ak)、乙(b1 ,b2,.... bk),则计算这个网页的相似度时需先计算它们的内积S=a1b1+a2b2+.....+akbk。一般情况下,新闻网页特征向量的维数时巨大的,但每个特征向量中非零元素却并不多。为了节省存储空间和计算时间,我们依次用特征向量中非零元素的序号及相应词频值来简化特征向量。为此,
在指定网页中,某个