Page 71 - 高中 信息技术 选择性必修4 人工智能初步
P. 71

 3.3 聚类








                        # 用训练好的分类器去预测测试集的标签值
                        pred =clf.predict(features_test)

                        typ = '  '
                        if pred > 0.9:
                            typ = 'trash'

                        else:
                            typ = 'normal'


                         实验结果表明,朴素贝叶斯垃圾邮件分类器在该数据集上达到了近96%的准确率。但
                       3.3 广东教育出版社
                    即使这样,垃圾邮件分类器还可能将正常的邮件当作垃圾邮件过滤掉。通过继续调整模型
                    的参数,垃圾邮件分类器还可以达到更好的效果。
                         为了测试垃圾邮件分类器能否工作,运行client.py程序,建立与服务器端的连接后,

                    发送想要传输的内容,看看服务器端收到消息后会给出什么样的判断。



                             项目实施




                         各小组根据项目选题及拟订的项目方案,结合本节所学知识,剖析贝叶斯分类器算法。
                         1.  运行配套学习资源包中的程序,体验朴素贝叶斯分类器的应用。
                         2.  运行配套学习资源包中的程序,调整朴素贝叶斯垃圾邮件分类器的参数,提高垃

                    圾邮件分类能力。








                                        聚类






                         聚类就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似
                    组,这些相似组被称作“簇”。簇内的对象之间越相似,不同簇间对象差别越大,聚类效

                    果越好。聚类通常又被称为无监督学习,与监督学习不同,聚类没有表示数据类别的分类
                    或者分组信息。
                         在商业上,聚类分析常被用来发现不同的客户群,并且通过客户的购买模式刻画不同

                    客户群的特征。聚类分析是细分市场的有效工具。同时聚类也可用于研究消费者行为,寻
                    找新的潜在市场,进行多元分析的预处理。在生物学上,聚类分析常被用来进行动植物分
                    类和基因分类,认识种群固有结构。在保险行业,聚类分析通过平均消费来进行汽车保险

                    单的持有者分组,同时根据住宅类型、价值、地理位置等特征来进行一个城市的房产分

                                                                                                                    63 63







          21Y3228.indd   63                                                                                        2019/10/10   14:23:55
   66   67   68   69   70   71   72   73   74   75   76