Page 68 - 高中 信息技术 选择性必修4 人工智能初步
P. 68
第三章 机器学习与人工智能的核心算法
以得出结论,检查结果为阳性也不意味着年轻人就得病了,但是为了保险起见,需要后续
跟进复查或者分析有无其他症状特征。
3 . 2 . 2 朴素贝叶斯分类器的类型
在使用朴素贝叶斯分类器进行条件概率估计的时候,我们需要知道独立事件的先验概
率。比如本节的例子直接告诉我们“人群中90%的人都无此病”这一先验概率。但我们在
分析其他事件的时候,可能会面临不同的特征(独立事件)分布。例如投掷一枚骰子,我
们会假设任意一个点数朝上这一事件是一个等概率模型,于是
广东教育出版社
任意一个点数朝上的先验概率=
特征分布的假设被称为朴素贝叶斯分类器的事件模型。下面我们了解一些常用的事件
建模方法。对于文档分类(包括垃圾邮件过滤)这样的离散特征建模,多项式模型和伯努
利模型很常用。
1. 高斯模型
在处理实际数值这样的连续型变量时,通常会假设这些连续数值服从高斯分布。这
时,只需要估计训练数据的平均值和标准差。
假设训练集包含一个连续型的属性 x,我们首先根据类别对数据进行分段,然后计算
每个类别中 x 的均值和方差。设 为 x 中与类别 c 相关联值的均值, 为 x 中与类别 c 相
关联值的方差。假设我们已经收集了一些观测值 v ,那么根据高斯分布公式,v 中类别 c
的概率分布
e
2. 多项式模型
在多项式模型中,样本(特征向量)表示特定事件发生的次数。这一模型通常用于文
本分类,特征是单词,值是单词的出现次数。用 p 表示事件 i 发生的概率,其中 x 表示事
i
c
i
件 i 在特定的对象中被观察到的次数,于是概率分布
3. 伯努利模型
在伯努利模型中,每个特征的取值是布尔型的,即true和false,或者1和0。和多项式
模型一样,这个模型在文本分类中也非常流行,就是看某个特征有没有在文档中出现。如
果 x 表示第 i 个词汇有没有出现在文档中,那么这篇文档属于类别 c 的可能性
i
其中,p 表示类别为 c 的文档中出现词汇 x 的概率。这个模型通常用于短文本分类。
i
c
i
60 60
21Y3228.indd 60 2019/10/10 14:23:54