Page 67 - 高中 信息技术 选择性必修4 人工智能初步
P. 67
3.2 贝叶斯分类器
现在我们来分析一下,假设人群中有20 000人,按照如图3-5所示的患病概率,约
18 000人是正常的,约2000人患此病;在18 000个健康人中,年轻人的概率为95%,检查
结果为阳性的概率为1%,那么同时满足“年轻人”“检查结果为阳性”“无此病”的人
数为18 000×95%×1%=171(人);在2000个病人中,年轻人的概率是5%,检查结果为
阳性的概率是99%。那么同时满足“年轻人”“患此病”“检查结果为阳性”的人数为
2000×5%×99%=99(人)。如果我们现在只知道这个人是年轻人,而且检查结果呈阳
性,那么他有可能是本身真的患病并且被检查出来的人,也有可能是误诊了的人。患病概
率为 %。误诊概率为 。显然,我们有更大的可能性相信他
没有患病(所以现实生活中,医生会让我们多复诊几次)。
广东教育出版社
上述分析过程分别用到了特征条件独立假设、贝叶斯定理、后验概率最大化这几个知
识点。
1. 特征条件独立假设
我们的目的是通过“目前已知的数据”判断未知的结果。这个“目前已知的数据”被
称为特征。在本节例子中,特征就是这个人“是否年轻”以及“检查结果是否为阳性”。
这里我们要做一个重要的假设:在判断这个人有没有患病的时候,我们认为上述两个
特征之间是独立的,即这个人“是否年轻”和“检查结果是否为阳性”之间没有联系。因
此,随机抽取一个检查者,他“年轻”并且“检查结果为阳性”的概率就等于“年轻”的
概率乘“检查结果为阳性”的概率。
上面这个假设就是条件独立假设。如果变量不满足独立性,则不可以将两者的概率相
乘,比如“天空有云”的概率是0.5,“下雨”的概率是0.33,但“下雨”不能独立于“天
空中有没有云”而存在,就不能得到“既有云又下雨”的概率为0.5×0.33这个结论。
2. 贝叶斯定理
贝叶斯定理主要用于在给定特征数据的情况下,判定样本属于某个类别的概率。在下
面的公式中,样本的数据用 X = x 表示,样本的类别属于某个类别用 Y = c 表示。
k
在本节例子中,检查结果呈阳性的年轻人患病的概率:
其中,A为真实得病的人中“检查为阳性”并且“年轻”的人数,B为人群中所有“检查结
果为阳性”并且“年轻”的人数。这个公式就是贝叶斯定理的公式。
3. 后验概率最大化
已知一个“年轻”人的“检查结果为阳性”,那么他有没有患病呢?我们只需要用贝
叶斯公式计算,看看这个“年轻”并且“检查结果为阳性”的人到底是得病的概率更高,
还是没得病的概率更高。这个就是后验概率最大化的直观解释。在本节的例子中,我们可
59 59
21Y3228.indd 59 2019/10/10 14:23:54