Page 78 - 高中信息技术选择性必修4 人工智能初步

P. 78

第三章机器学习与人工智能的核心算法

2. 决策树的优缺点
决策树模型呈树形结构，在分类问题中表示基于特征对实例进行分类的过程。它既可
以被认为是“如果—则”条件规则的集合，也可以被认为是定义在特征空间与类空间上的

条件概率分布。决策树的构造过程不需要任何领域的知识或参数设置，因此在实际应用
中，对于探测式的知识发现非常有用。决策树具备以下优点：
● 易于理解和实现，在学习过程中不需要使用者了解很多背景知识；能够直接体现数
据的特点，通过解释后，使用者都有能力去理解决策树所表达的意义。

● 数据的预处理往往是简单或者是不必要的；能够同时处理数值型和常规型数据，在
较短时间内能够对大型数据集做出可行且效果良好的预测模型。

● 易于通过静态测试来对模型进行评测，可以测定模型可信度；如果给定一个观察模
广东教育出版社
型，那么所产生的决策树很容易推出相应的逻辑表达式。
同时，决策树也存在一定的问题：
● 对连续性的字段比较难预测。

● 对时序数据，需要进行较多预处理工作。
● 当类别太多时，错误率可能会大幅上升。
3. 决策树的分类

决策树学习根据数据的属性，采用树状结构建立决策模型，决策树模型常常用来解决
分类和回归问题。常见的构造决策树算法包括ID3、C4.5和CART等。
（1）ID3算法。

ID3算法最早于1975年提出，是一种分类预测算法，核心是“信息熵”。ID3算法认为
“互信息”高的属性是好属性，通过计算历史数据中每个类别或属性的“信息熵”获得
“互信息”，并选择“互信息”最高的类别或属性作为决策树中的决策节点，将类别或属

性的值作为分支继续进行分裂。不断重复这个过程，直到生成一棵完整的决策树。
使用信息增益存在一个缺点，那就是它偏向于具有大量值的属性。就是说在训练集
中，某个属性所取的不同值的个数越多，越有可能拿它来作为分裂属性，而这样做有时
候是没有意义的，另外ID3不能处理连续分布的数据特征，于是就有了C4.5算法。此外，

CART算法也支持连续分布的数据特征。
（2）C4.5算法。
C4.5算法继承了ID3算法的优点，并在以下几个方面对ID3算法进行了改进：

● 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的
不足。
● 在树构造过程中进行剪枝。C4.5算法采用了悲观剪枝的方法，使用训练集生成决策

树，又用训练集来进行剪枝。
● 能够完成对连续属性的离散化处理。
● 能够对不完整数据进行处理。

C4.5算法产生的分类规则易于理解，准确率较高，但因构造过程中，需要对数据集进
行多次顺序扫描和排序，计算效率低。也正因为必须多次扫描数据集，C4.5只适合于能够

70 70

21Y3228.indd 70 2019/10/10 14:23:59

73 74 75 76 77 78 79 80 81 82 83