阅读背景:

文本相似度算法——空间向量模型的余弦算法和TF-IDF

来源:互联网 

1.信息检索中的重要发明TF-IDF

   TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。   TF-IDF是一种统计方法,TF-IDF的主要




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: