sklearn之聚类K均值算法

发表于:2020-11-03
'''
    聚类：分类（class）与聚类（cluster）不同，分类是有监督学习模型，聚类属于无监督学习模型。
        聚类讲究使用一些算法把样本划分为n个群落。一般情况下，这种算法都需要计算欧氏距离。（用两个样本对应特征值之差的平方和之平方根，
        即欧氏距离，来表示这两个样本的相似性）

        1.K均值算法：
            第一步：随机选择k个样本作为k个聚类的中心，计算每个样本到各个聚类中心的欧氏距离，
                    将该样本分配到与之距离最近的聚类中心所在的类别中。
            第二步：根据第一步所得到的聚类划分，分别计算每个聚类的几何中心，将几何中心作为新的聚类中心，
                    重复第一步，直到计算所得几何中心与聚类中心重合或接近重合为止。
            注意：
            聚类数k必须事先已知。借助某些评估指标，优选最好的聚类数。
            聚类中心的初始选择会影响到最终聚类划分的结果。初始中心尽量选择距离较远的样本。

            K均值算法相关API：
                    import sklearn.cluster as sc
                    # n_clusters: 聚类数
                    model = sc.KMeans(n_clusters=4)
                    # 不断调整聚类中心，直到最终聚类中心稳定则聚类完成
                    model.fit(x)
                    # 获取训练结果的聚类中心
                    centers = model.cluster_centers_
    案例：加载multiple3.txt，基于K均值算法完成样本的聚类。
        步骤：
            1.读取文件，加载数据，把样本绘制在窗口中
            2.基于K均值完成聚类业务，为每个样本设置颜色
            3.绘制聚类背景边界线----pcolormesh


    聚类：分类（class）与聚类（cluster）不同，分类是有监督学习模
分享到：
非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。