Page 123 - 高中 信息技术 必修1 数据与计算
P. 123
5.3 数据的分析
(5)计算置信度序列。
for i in column2:
cofidence_series[ms.join(i)]=support_series[ms.join(sorted(i))]/support_series[
ms.join(i[:len(i) - 1])]
(6)置信度筛选。
for i in cofidence_series[cofidence_series>confidence].index:
result[i]=0.0
广东教育出版社
result[i]['confidence']=cofidence_series[i]
result[i]['support']=support_series[ms.join(sorted(i.split(ms)))]
5.3.3 聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标
准,聚类分析能够从样本数据出发,自动进行分类。聚类分析的算法有很多,其中K-平均
(K-Means)算法是一种经典的自下而上的聚类分析方法。K-平均算法的基本思想就是在
空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选
择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群
分”的效果,如图5-10所示。
图5-10 聚类分析K-平均算法
聚类分析的基本算法如下:
(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚
集中心的平均值。
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于
这项聚类。
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到
预先设定的迭代次数或中心点不再频繁波动。
115115
9 ֻᅣ JOEE