主要的算法流程就是:
(1)随机选择k个点,放到磁盘上供个个点进行共享
(2)每一个map读取中心点,每一条及记录找到最近的Cluster,发出的记录是<(id),(cluster)>,Reduce的功能就是重新计算新的k均值,并写到hdfs中,供下一次的迭代使用(2)每一个m
主要的算法流程就是:
(1)随机选择k个点,放到磁盘上供个个点进行共享
(2)每一个map读取中心点,每一条及记录找到最近的Cluster,发出的记录是<(id),(cluster)>,Reduce的功能就是重新计算新的k均值,并写到hdfs中,供下一次的迭代使用(2)每一个m