上一篇我讲到了TF-IDF(term frequency–inverse document frequency)模型,再配合余弦定理来计算2篇文本的相似度,但是这样也有一个缺点,如果文本很长,那文本的特征向量会特别的多,比如5W个词,20W个词,那用余弦来计算的话,计算量就会很大,如果语料库文本量又很大,500W,5000W,那两两比较的话,计算量是一个天文数字,时间成本太高了,这种方法肯定不行。上一篇我讲到了TF-IDF(term frequency–inverse document f
上一篇我讲到了TF-IDF(term frequency–inverse document frequency)模型,再配合余弦定理来计算2篇文本的相似度,但是这样也有一个缺点,如果文本很长,那文本的特征向量会特别的多,比如5W个词,20W个词,那用余弦来计算的话,计算量就会很大,如果语料库文本量又很大,500W,5000W,那两两比较的话,计算量是一个天文数字,时间成本太高了,这种方法肯定不行。上一篇我讲到了TF-IDF(term frequency–inverse document f