1、数据归一化(normalization)
举个例子,例如下图所示的判断是否为恶性肿瘤的数据中,有两个特征,分别为肿瘤大小和肿瘤发现的时间,如果按照KNN算法中需要计算两个数据之间的欧拉距离,则发现时间的差的平方将远远大于肿瘤大小的差的平方,因此样本间的距离被“发现时间”所主导。举个例子,例如下图所示的判断是否为恶性肿瘤的数据中,
举个例子,例如下图所示的判断是否为恶性肿瘤的数据中,有两个特征,分别为肿瘤大小和肿瘤发现的时间,如果按照KNN算法中需要计算两个数据之间的欧拉距离,则发现时间的差的平方将远远大于肿瘤大小的差的平方,因此样本间的距离被“发现时间”所主导。举个例子,例如下图所示的判断是否为恶性肿瘤的数据中,