Page 70 - 高中 信息技术 选择性必修4 人工智能初步
P. 70

第三章  机器学习与人工智能的核心算法







                           实 践


                           打开并运行server.py程序,建立TCP通信服务器端,模拟邮件的接收。其中垃圾邮件
                      分类器建立的关键过程如下:

                           (1)训练分类器前,要先将邮件中的句子分成一个个词汇,jieba模块为我们提供了
                      方便的汉语分词功能。


                          import jieba

                          res = list(set(list(jieba.cut(email))))
                          wordlist[dirt].extend(res)
                                             广东教育出版社


                           (2)使用collections统计模块分别计算正常(normal)邮件和垃圾(trash)邮件中某
                      词占邮件总词汇数的比例,计算该词的                                 ,也就是在该词影响下,该邮件是垃圾邮
                      件的概率





                           当收到一封未知邮件时,在不确定的前提下,我们假定它是垃圾邮件和正常邮件的概

                      率各为50%,即P ( s ) = P ( n ) = 50%。


                          # 导入sklearn模块的朴素贝叶斯分类器高斯模型GaussianNB
                          from sklearn.naive_bayes import GaussianNB


                          # 创建分类器
                          clf = GaussianNB(  )


                          # 训练分类器
                          X=features_train
                          Y=labels_train
                          clf.fit(X,Y)



                           (3)提取该邮件中出现概率                         最高的15个词,联合概率





                           设定阈值P>0.9为垃圾邮件,P<0.9为正常邮件。












              62  62







          21Y3228.indd   62                                                                                        2019/10/10   14:23:55
   65   66   67   68   69   70   71   72   73   74   75