Page 74 - 高中 信息技术 选择性必修4 人工智能初步
P. 74
第三章 机器学习与人工智能的核心算法
对于每一个簇 j =1, …, k:
使新的质心C更新为该簇中所有点X 的平均值:
j
i
其中a=1, …, d,d为簇的总数
将新的质心运用于下一轮点X 的分配中
i
直到没有簇的质心因为点的分配而改变时,算法结束
上面提到的距离计算方法D( X , C )可以使用任何合适的距离度量方法。K-Means算法
i
j
广东教育出版社
在数据集上的性能会受到所选距离计算的影响。
3 . 3 . 3 K-Means聚类算法的应用
K-Means算法通常可以用于处理维数、数值都很小且连续的数据集,主要应用于从随
机分布的事物集合中对相似事物进行分组。例如,对一个营销组织来说,将不同客户根据
他们的特点分组,从而有针对性地定制营销活动;对学校老师来说,将学生根据特点分
组,从而有所侧重地进行教育活动。K-Means在不同领域都有类似的应用案例。
实 践
鸢尾花数据集(Iris)是一类多重变量分析的数据集。它最初是从鸢尾属花朵样本中提
取的地理变异数据。后来作为判别分析的一个例子,运用到统计学中。
鸢尾花数据集包含150组数据,分为三类,包含山鸢尾(Iris Setosa)、变色鸢尾(Iris
Versicolour)和维吉尼亚鸢尾(Iris Virginica),如图3-7所示。每类50组数据,除花卉种
类信息以外,每组数据还包含四个属性,分别是花萼长度(Sepal.Length,单位cm)、花
萼宽度(Sepal.Width,单位cm)、花瓣长度(Petal.Length,单位cm)、花瓣宽度(Petal.
Width,单位cm)。可通过四个
属性预测鸢尾花属于三个种类中
的哪一类。其中的一个种类与另
外两个种类是线性可分离的,其
余两个种类是非线性可分离的。
使用鸢尾花数据集,根据花瓣长
度、花瓣宽度和萼片长度三个特
征对花的种类进行聚类。
图3-7 鸢尾花
66 66
21Y3228.indd 66 2019/10/10 14:23:56