阅读背景:

csdn博客推荐系统实战-2文本相似度-simhash和海明距离

来源:互联网 

上一篇我讲到了TF-IDF(term frequency–inverse document frequency)模型,再配合余弦定理来计算2篇文本的相似度,但是这样也有一个缺点,如果文本很长,那文本的特征向量会特别的多,比如5W个词,20W个词,那用余弦来计算的话,计算量就会很大,如果语料库文本量又很大,500W,5000W,那两两比较的话,计算量是一个天文数字,时间成本太高了,这种方法肯定不行。上一篇我讲到了TF-IDF(term frequency–inverse document f




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: