Page 68 - 高中 信息技术 选择性必修4 人工智能初步
P. 68

第三章  机器学习与人工智能的核心算法







                      以得出结论,检查结果为阳性也不意味着年轻人就得病了,但是为了保险起见,需要后续
                      跟进复查或者分析有无其他症状特征。



                        3 . 2 . 2   朴素贝叶斯分类器的类型




                           在使用朴素贝叶斯分类器进行条件概率估计的时候,我们需要知道独立事件的先验概

                      率。比如本节的例子直接告诉我们“人群中90%的人都无此病”这一先验概率。但我们在
                      分析其他事件的时候,可能会面临不同的特征(独立事件)分布。例如投掷一枚骰子,我
                      们会假设任意一个点数朝上这一事件是一个等概率模型,于是
                                             广东教育出版社

                                               任意一个点数朝上的先验概率=

                           特征分布的假设被称为朴素贝叶斯分类器的事件模型。下面我们了解一些常用的事件
                      建模方法。对于文档分类(包括垃圾邮件过滤)这样的离散特征建模,多项式模型和伯努
                      利模型很常用。
                           1.  高斯模型

                           在处理实际数值这样的连续型变量时,通常会假设这些连续数值服从高斯分布。这
                      时,只需要估计训练数据的平均值和标准差。

                           假设训练集包含一个连续型的属性 x,我们首先根据类别对数据进行分段,然后计算
                      每个类别中 x 的均值和方差。设                     为 x 中与类别 c 相关联值的均值,                   为 x 中与类别 c 相
                      关联值的方差。假设我们已经收集了一些观测值 v ,那么根据高斯分布公式,v 中类别 c
                      的概率分布

                                                                              e


                           2.  多项式模型

                           在多项式模型中,样本(特征向量)表示特定事件发生的次数。这一模型通常用于文
                      本分类,特征是单词,值是单词的出现次数。用 p 表示事件 i 发生的概率,其中 x 表示事
                                                                                                            i
                                                                          c
                                                                           i
                      件 i 在特定的对象中被观察到的次数,于是概率分布



                           3.  伯努利模型

                           在伯努利模型中,每个特征的取值是布尔型的,即true和false,或者1和0。和多项式
                      模型一样,这个模型在文本分类中也非常流行,就是看某个特征有没有在文档中出现。如
                      果 x 表示第 i 个词汇有没有出现在文档中,那么这篇文档属于类别 c 的可能性
                          i




                      其中,p 表示类别为 c 的文档中出现词汇 x 的概率。这个模型通常用于短文本分类。
                                                                   i
                              c
                               i
              60  60







          21Y3228.indd   60                                                                                        2019/10/10   14:23:54
   63   64   65   66   67   68   69   70   71   72   73