Page 80 - 高中 信息技术 选择性必修4 人工智能初步
P. 80
第三章 机器学习与人工智能的核心算法
就越大。这里所说的一元模型指的是单一事件,而不确定性指的是事件出现不同结果的可
能性。
例如,抛硬币可能出现的结果有两个,分别是正面和反面,而每次抛硬币的结果是一
个非常不确定的信息。如表3-2所示,根据我们的经验和实验数据,一质量均匀的硬币出
现正面和反面的概率几乎相等,都约等于50%,因此很难判断下一次出现的是正面还是反
面,这时抛硬币这个事件的熵值很高。假如实验数据显示这枚硬币在过去的100次抛掷试
验中,99次结果都是正面,说明这枚硬币的质量不均匀,出现正面结果的概率很高。那么
我们就很容易判断下一次的结果了。这时的熵值很低,只有0.08。
表3-2 抛硬币事件的熵值
广东教育出版社
硬币状态 出现次数 概率 熵 硬币状态 出现次数 概率 熵
正面 99 0.99 -0.01 正面 51 0.51 -0.50
反面 1 0.01 -0.07 反面 49 0.49 -0.50
合计 100 1.00 0.08 合计 100 1.00 1.00
决定信息的不确定性(复杂程度)的主要因素是概率,熵在信息论中是随机变量不确
定性的度量。设有一个离散型随机变量X,其概率分布为p( x ),则X的信息熵H( X )可定义为
简单地说,信息熵H( X )是衡量随机变量X的不确定性或混乱程度的指标。随机变量X
的不确定性越高,熵值H( X )越高;随机变量X的不确定性越低,熵值H( X )越低。
(2)条件熵。
设有离散型随机变量( X,Y ),X的概率分布为p( x ),Y的概率分布为p( y ),Y对X的条
件分布为 ,X和Y的联合分布为p( xy )。
条件熵 表示在已知随机变量X的条件下随机变量Y的不确定性,定义为在给定
条件X下,Y的条件概率分布的熵对X的数学期望。
我们首先考虑当X取值为x时, =x是带条件的随机变量,按照信息熵的定义,可以
得到
根据X的概率分布p(x)求上述信息熵的数学期望值,可以得到在随机变量X给定的条件
下随机变量Y的条件熵
其中 表示在已知X取值的前提下,Y取值的不确定性;即在变量X的条件下(变量X
的每个值都会取),变量Y的信息熵对X的期望。
72 72
21Y3228.indd 72 2019/10/10 14:23:59