Page 71 - 高中 信息技术 选择性必修4 人工智能初步
P. 71
3.3 聚类
# 用训练好的分类器去预测测试集的标签值
pred =clf.predict(features_test)
typ = ' '
if pred > 0.9:
typ = 'trash'
else:
typ = 'normal'
实验结果表明,朴素贝叶斯垃圾邮件分类器在该数据集上达到了近96%的准确率。但
3.3 广东教育出版社
即使这样,垃圾邮件分类器还可能将正常的邮件当作垃圾邮件过滤掉。通过继续调整模型
的参数,垃圾邮件分类器还可以达到更好的效果。
为了测试垃圾邮件分类器能否工作,运行client.py程序,建立与服务器端的连接后,
发送想要传输的内容,看看服务器端收到消息后会给出什么样的判断。
项目实施
各小组根据项目选题及拟订的项目方案,结合本节所学知识,剖析贝叶斯分类器算法。
1. 运行配套学习资源包中的程序,体验朴素贝叶斯分类器的应用。
2. 运行配套学习资源包中的程序,调整朴素贝叶斯垃圾邮件分类器的参数,提高垃
圾邮件分类能力。
聚类
聚类就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似
组,这些相似组被称作“簇”。簇内的对象之间越相似,不同簇间对象差别越大,聚类效
果越好。聚类通常又被称为无监督学习,与监督学习不同,聚类没有表示数据类别的分类
或者分组信息。
在商业上,聚类分析常被用来发现不同的客户群,并且通过客户的购买模式刻画不同
客户群的特征。聚类分析是细分市场的有效工具。同时聚类也可用于研究消费者行为,寻
找新的潜在市场,进行多元分析的预处理。在生物学上,聚类分析常被用来进行动植物分
类和基因分类,认识种群固有结构。在保险行业,聚类分析通过平均消费来进行汽车保险
单的持有者分组,同时根据住宅类型、价值、地理位置等特征来进行一个城市的房产分
63 63
21Y3228.indd 63 2019/10/10 14:23:55