Page 123 - 高中 信息技术 必修1 数据与计算
P. 123

 5.3 数据的分析







                         (5)计算置信度序列。


                         for i in column2:
                             cofidence_series[ms.join(i)]=support_series[ms.join(sorted(i))]/support_series[
                         ms.join(i[:len(i) - 1])]



                         (6)置信度筛选。


                         for i in cofidence_series[cofidence_series>confidence].index:
                                 result[i]=0.0
                                             广东教育出版社
                                 result[i]['confidence']=cofidence_series[i]
                                 result[i]['support']=support_series[ms.join(sorted(i.split(ms)))]






                      5.3.3  聚类分析




                         聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标
                    准,聚类分析能够从样本数据出发,自动进行分类。聚类分析的算法有很多,其中K-平均
                    (K-Means)算法是一种经典的自下而上的聚类分析方法。K-平均算法的基本思想就是在
                    空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选

                    择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群
                    分”的效果,如图5-10所示。














                                                     图5-10  聚类分析K-平均算法


                         聚类分析的基本算法如下:
                         (1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚

                    集中心的平均值。
                         (2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于
                    这项聚类。
                         (3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到

                    预先设定的迭代次数或中心点不再频繁波动。


                                                                                                                    115115







            9      ֻ໴ᅣ JOEE
   118   119   120   121   122   123   124   125   126   127   128