K近邻模型本身非常直观并且容易理解。算法描述起来也很简单,如下图所示。假设我们有一些携带分类标记的训练样本,分布于特征空间中;蓝色、绿色的样本各自代表其类别。对于一个待分类的红色测试样本点,未知其类别,按照成语“近朱者赤,近墨者黑”的说法,我们需要寻找与这个待分类的样本在特征空间中距离最近的K个已标记样本作为参考,来帮助我们做出分类决策。这便是K近邻算法的通俗解释。而在下图中,如果我们根据最近的K=3个带有标记的训练样本做分类决策,那么待测试的样本应该属于绿色级别,因为在3个最近邻的已标记样本中,绿色类别样本的比例最高;如果我们扩大搜索范围,设定K=7,那么分类器则倾向待测样本属于蓝色。因此我们也可以发现,随着K的不同,我们会获得不同效果的分类器。
K近邻模型本身非常直观并且容易理解。算法描述起来也很简单,如下图所示。假设我们有一些携带分