Page 73 - 高中 信息技术 选择性必修4 人工智能初步
P. 73

 3.3 聚类







                         3.  基于密度的方法
                         大部分聚类算法都通过衡量对象之间的距离来划分簇。因此这样划分出来的簇都会呈
                    球状分布,导致在发现任意形状的簇时,会遇到困难。而基于密度的方法(Density-Based

                    Methods)的主要思想是:只要“领域”中的密度(对象或数据点的数量)超过阈值,就
                    继续增长给定的簇。也就是说,对给定簇中的每个数据点,在给定半径的领域中必须至少
                    包含最少数目的点。这样的方法可以用来过滤噪声或离群点,发现任意形状的簇。基于这
                    一思想的典型方法有DBSCAN,如图3-6所示。






                                             广东教育出版社










                                                     图3-6  DBSCAN聚类结果图


                         4.  基于网格的方法
                         基于网格的方法(Grid-Based Methods)把对象空间量化为有限数目的单元,形成网格
                    结构,所有的聚类操作都在这个网格结构(即量化空间)中进行。该算法的优点是处理速

                    度快,其处理时间常常独立于数据对象的数量,只与量化空间中每一维的单元数量有关。



                      3 . 3 . 2   K-Means聚类算法




                         K-Means聚类是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每个簇通过
                    其质心(Centroid),即簇中所有点的中心来描述。
                         K-Means聚类算法工作时,首先随机确定k个初始点作为质心;接着将数据集中的每个

                    点分配到一个簇中,即为每个点找距其最近的质心,并将其分配给该质心所对应的簇;然
                    后把每个簇的质心更新为该簇所有点的平均值。上述流程可用如下伪代码表示:



                        输入:簇个数k,数据点集合X , …, X
                                                               n
                                                       1

                        为k个簇随机初始化它们的质心C , …, C                   k
                                                         1

                        重复以下步骤直到收敛:
                            对于每个点X :
                                          i
                            找到距其最近的质心C:argminD(  X  ,  C )
                                                                    j
                                                                 i
                                                    j
                          将点X 分配到簇 j 中
                                   i

                                                                                                                    65 65







          21Y3228.indd   65                                                                                        2019/10/10   14:23:55
   68   69   70   71   72   73   74   75   76   77   78