Page 78 - 高中 信息技术 选择性必修4 人工智能初步
P. 78
第三章 机器学习与人工智能的核心算法
2. 决策树的优缺点
决策树模型呈树形结构,在分类问题中表示基于特征对实例进行分类的过程。它既可
以被认为是“如果—则”条件规则的集合,也可以被认为是定义在特征空间与类空间上的
条件概率分布。决策树的构造过程不需要任何领域的知识或参数设置,因此在实际应用
中,对于探测式的知识发现非常有用。决策树具备以下优点:
● 易于理解和实现,在学习过程中不需要使用者了解很多背景知识;能够直接体现数
据的特点,通过解释后,使用者都有能力去理解决策树所表达的意义。
● 数据的预处理往往是简单或者是不必要的;能够同时处理数值型和常规型数据,在
较短时间内能够对大型数据集做出可行且效果良好的预测模型。
● 易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察模
广东教育出版社
型,那么所产生的决策树很容易推出相应的逻辑表达式。
同时,决策树也存在一定的问题:
● 对连续性的字段比较难预测。
● 对时序数据,需要进行较多预处理工作。
● 当类别太多时,错误率可能会大幅上升。
3. 决策树的分类
决策树学习根据数据的属性,采用树状结构建立决策模型,决策树模型常常用来解决
分类和回归问题。常见的构造决策树算法包括ID3、C4.5和CART等。
(1)ID3算法。
ID3算法最早于1975年提出,是一种分类预测算法,核心是“信息熵”。ID3算法认为
“互信息”高的属性是好属性,通过计算历史数据中每个类别或属性的“信息熵”获得
“互信息”,并选择“互信息”最高的类别或属性作为决策树中的决策节点,将类别或属
性的值作为分支继续进行分裂。不断重复这个过程,直到生成一棵完整的决策树。
使用信息增益存在一个缺点,那就是它偏向于具有大量值的属性。就是说在训练集
中,某个属性所取的不同值的个数越多,越有可能拿它来作为分裂属性,而这样做有时
候是没有意义的,另外ID3不能处理连续分布的数据特征,于是就有了C4.5算法。此外,
CART算法也支持连续分布的数据特征。
(2)C4.5算法。
C4.5算法继承了ID3算法的优点,并在以下几个方面对ID3算法进行了改进:
● 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的
不足。
● 在树构造过程中进行剪枝。C4.5算法采用了悲观剪枝的方法,使用训练集生成决策
树,又用训练集来进行剪枝。
● 能够完成对连续属性的离散化处理。
● 能够对不完整数据进行处理。
C4.5算法产生的分类规则易于理解,准确率较高,但因构造过程中,需要对数据集进
行多次顺序扫描和排序,计算效率低。也正因为必须多次扫描数据集,C4.5只适合于能够
70 70
21Y3228.indd 70 2019/10/10 14:23:59