Page 81 - 高中 信息技术 选择性必修4 人工智能初步
P. 81
3.4 决策树
(3)互信息与信息增益。
互信息指的是两个随机变量之间的相关程度,是用来衡量信息之间相关性的指标。当
两个信息完全相关时,互信息为1,不相关时为0。互信息可以等价地表示成
,
其中,H( X )表示信息熵, 是条件熵。因此,条件熵越大,互信息越小,条件熵
越小,互信息越大。
信息增益指的是在一定条件下,信息不确定性减少的程度。 表示在条
件Y确定的情况下,信息的不确定性减少的程度。也就是说,按照条件Y对数据进行分类之
后,分类数据的确定性是否比划分之前更高。因此,我们可以通过计算信息增益来选择使
用哪个特征作为决策树的节点更合适。
广东教育出版社
如果被称为“互信息”时,两个随机变量的地位是相同的;如果被称为“信息增益”
时,一个变量是减小另一个变量不确定度的手段。但其实两者的数值是相等的。“互信
息”或者“信息增益”经常作为决策树中选择特征的标准,两种称呼都很常见。
2. 过拟合处理
在决策树学习中,为了尽可能地正确分类训练样本,节点划分过程将不断重复,有时
会造成决策树分支过多,导致过拟合,因此可以通过主动去掉一些分支来降低过拟合的风
险。剪枝的基本策略包括预剪枝和后剪枝。
(1)预剪枝是在决策树生成的过程中,对每个节点在划分前先进行预估,若当前节
点的划分不能使决策树泛化性能提升,则停止划分并将当前节点标记为叶子节点。
(2)后剪枝是先从训练集中生成一棵完整的决策树,然后自底向上地考察非叶子节
点,若将该节点对应的子树替换为叶子节点能提高泛化能力,则进行替换。
3 . 4 . 3 决策树的应用
实 践
使用鸢尾花数据集,调用Scikit-learn内嵌的决策树分类器构造决策树:
from sklearn.datasets import load_iris
from sklearn import tree
iris = load_iris( )
clf = tree.DecisionTreeClassifier( )
clf = clf.fit(iris.data, iris.target)
73 73
: JOEE