Page 70 - 高中 信息技术 选择性必修4 人工智能初步
P. 70
第三章 机器学习与人工智能的核心算法
实 践
打开并运行server.py程序,建立TCP通信服务器端,模拟邮件的接收。其中垃圾邮件
分类器建立的关键过程如下:
(1)训练分类器前,要先将邮件中的句子分成一个个词汇,jieba模块为我们提供了
方便的汉语分词功能。
import jieba
res = list(set(list(jieba.cut(email))))
wordlist[dirt].extend(res)
广东教育出版社
(2)使用collections统计模块分别计算正常(normal)邮件和垃圾(trash)邮件中某
词占邮件总词汇数的比例,计算该词的 ,也就是在该词影响下,该邮件是垃圾邮
件的概率
当收到一封未知邮件时,在不确定的前提下,我们假定它是垃圾邮件和正常邮件的概
率各为50%,即P ( s ) = P ( n ) = 50%。
# 导入sklearn模块的朴素贝叶斯分类器高斯模型GaussianNB
from sklearn.naive_bayes import GaussianNB
# 创建分类器
clf = GaussianNB( )
# 训练分类器
X=features_train
Y=labels_train
clf.fit(X,Y)
(3)提取该邮件中出现概率 最高的15个词,联合概率
设定阈值P>0.9为垃圾邮件,P<0.9为正常邮件。
62 62
21Y3228.indd 62 2019/10/10 14:23:55