Page 81 - 高中信息技术选择性必修4 人工智能初步

P. 81

3.4 决策树

（3）互信息与信息增益。
互信息指的是两个随机变量之间的相关程度，是用来衡量信息之间相关性的指标。当
两个信息完全相关时，互信息为1，不相关时为0。互信息可以等价地表示成

，
其中，H( X )表示信息熵，是条件熵。因此，条件熵越大，互信息越小，条件熵
越小，互信息越大。

信息增益指的是在一定条件下，信息不确定性减少的程度。表示在条
件Y确定的情况下，信息的不确定性减少的程度。也就是说，按照条件Y对数据进行分类之
后，分类数据的确定性是否比划分之前更高。因此，我们可以通过计算信息增益来选择使

用哪个特征作为决策树的节点更合适。
广东教育出版社
如果被称为“互信息”时，两个随机变量的地位是相同的；如果被称为“信息增益”
时，一个变量是减小另一个变量不确定度的手段。但其实两者的数值是相等的。“互信
息”或者“信息增益”经常作为决策树中选择特征的标准，两种称呼都很常见。

2. 过拟合处理
在决策树学习中，为了尽可能地正确分类训练样本，节点划分过程将不断重复，有时

会造成决策树分支过多，导致过拟合，因此可以通过主动去掉一些分支来降低过拟合的风
险。剪枝的基本策略包括预剪枝和后剪枝。
（1）预剪枝是在决策树生成的过程中，对每个节点在划分前先进行预估，若当前节

点的划分不能使决策树泛化性能提升，则停止划分并将当前节点标记为叶子节点。
（2）后剪枝是先从训练集中生成一棵完整的决策树，然后自底向上地考察非叶子节
点，若将该节点对应的子树替换为叶子节点能提高泛化能力，则进行替换。

3 . 4 . 3 决策树的应用

实践

使用鸢尾花数据集，调用Scikit-learn内嵌的决策树分类器构造决策树：

from sklearn.datasets import load_iris
from sklearn import tree
iris = load_iris( )

clf = tree.DecisionTreeClassifier( )
clf = clf.fit(iris.data, iris.target)

73 73

: JOEE

76 77 78 79 80 81 82 83 84 85 86