Page 74 - 高中 信息技术 选择性必修4 人工智能初步
P. 74

第三章  机器学习与人工智能的核心算法








                              对于每一个簇 j =1, …, k:


                                  使新的质心C更新为该簇中所有点X 的平均值:
                                                 j
                                                                        i


                              其中a=1, …, d,d为簇的总数


                                  将新的质心运用于下一轮点X 的分配中
                                                                  i
                          直到没有簇的质心因为点的分配而改变时,算法结束



                           上面提到的距离计算方法D(  X   ,  C )可以使用任何合适的距离度量方法。K-Means算法
                                                          i
                                                             j
                                             广东教育出版社
                      在数据集上的性能会受到所选距离计算的影响。

                        3 . 3 . 3   K-Means聚类算法的应用




                           K-Means算法通常可以用于处理维数、数值都很小且连续的数据集,主要应用于从随

                      机分布的事物集合中对相似事物进行分组。例如,对一个营销组织来说,将不同客户根据
                      他们的特点分组,从而有针对性地定制营销活动;对学校老师来说,将学生根据特点分
                      组,从而有所侧重地进行教育活动。K-Means在不同领域都有类似的应用案例。




                           实 践

                           鸢尾花数据集(Iris)是一类多重变量分析的数据集。它最初是从鸢尾属花朵样本中提
                      取的地理变异数据。后来作为判别分析的一个例子,运用到统计学中。

                           鸢尾花数据集包含150组数据,分为三类,包含山鸢尾(Iris Setosa)、变色鸢尾(Iris
                      Versicolour)和维吉尼亚鸢尾(Iris Virginica),如图3-7所示。每类50组数据,除花卉种
                      类信息以外,每组数据还包含四个属性,分别是花萼长度(Sepal.Length,单位cm)、花

                      萼宽度(Sepal.Width,单位cm)、花瓣长度(Petal.Length,单位cm)、花瓣宽度(Petal.
                      Width,单位cm)。可通过四个
                      属性预测鸢尾花属于三个种类中
                      的哪一类。其中的一个种类与另

                      外两个种类是线性可分离的,其
                      余两个种类是非线性可分离的。

                      使用鸢尾花数据集,根据花瓣长
                      度、花瓣宽度和萼片长度三个特
                      征对花的种类进行聚类。
                                                                                图3-7  鸢尾花




              66  66







          21Y3228.indd   66                                                                                        2019/10/10   14:23:56
   69   70   71   72   73   74   75   76   77   78   79