阅读背景:

tf-idf sklearn

来源:互联网 

第一步:语料转化为词袋向量

step 1. 声明一个向量化工具vectorizer;

本文使用的是CountVectorizer,默认情况下,CountVectorizer仅统计长度超过两个字符的词,但是在短文本中任何一个字都可能十分重要,比如“去/到”等,所以要想让CountVectorizer也支持单字符的词,需要加上参数本




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: