Page 78 - 高中 信息技术 选择性必修4 人工智能初步
P. 78

第三章  机器学习与人工智能的核心算法







                           2.  决策树的优缺点
                           决策树模型呈树形结构,在分类问题中表示基于特征对实例进行分类的过程。它既可
                      以被认为是“如果—则”条件规则的集合,也可以被认为是定义在特征空间与类空间上的

                      条件概率分布。决策树的构造过程不需要任何领域的知识或参数设置,因此在实际应用
                      中,对于探测式的知识发现非常有用。决策树具备以下优点:
                           ● 易于理解和实现,在学习过程中不需要使用者了解很多背景知识;能够直接体现数
                      据的特点,通过解释后,使用者都有能力去理解决策树所表达的意义。

                           ● 数据的预处理往往是简单或者是不必要的;能够同时处理数值型和常规型数据,在
                      较短时间内能够对大型数据集做出可行且效果良好的预测模型。

                           ● 易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察模
                                             广东教育出版社
                      型,那么所产生的决策树很容易推出相应的逻辑表达式。
                           同时,决策树也存在一定的问题:
                           ● 对连续性的字段比较难预测。

                           ● 对时序数据,需要进行较多预处理工作。
                           ● 当类别太多时,错误率可能会大幅上升。
                           3.  决策树的分类

                           决策树学习根据数据的属性,采用树状结构建立决策模型,决策树模型常常用来解决
                      分类和回归问题。常见的构造决策树算法包括ID3、C4.5和CART等。
                           (1)ID3算法。

                           ID3算法最早于1975年提出,是一种分类预测算法,核心是“信息熵”。ID3算法认为
                      “互信息”高的属性是好属性,通过计算历史数据中每个类别或属性的“信息熵”获得
                      “互信息”,并选择“互信息”最高的类别或属性作为决策树中的决策节点,将类别或属

                      性的值作为分支继续进行分裂。不断重复这个过程,直到生成一棵完整的决策树。
                           使用信息增益存在一个缺点,那就是它偏向于具有大量值的属性。就是说在训练集
                      中,某个属性所取的不同值的个数越多,越有可能拿它来作为分裂属性,而这样做有时
                      候是没有意义的,另外ID3不能处理连续分布的数据特征,于是就有了C4.5算法。此外,

                      CART算法也支持连续分布的数据特征。
                           (2)C4.5算法。
                           C4.5算法继承了ID3算法的优点,并在以下几个方面对ID3算法进行了改进:

                           ● 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的
                      不足。
                           ● 在树构造过程中进行剪枝。C4.5算法采用了悲观剪枝的方法,使用训练集生成决策

                      树,又用训练集来进行剪枝。
                           ● 能够完成对连续属性的离散化处理。
                           ● 能够对不完整数据进行处理。

                           C4.5算法产生的分类规则易于理解,准确率较高,但因构造过程中,需要对数据集进
                      行多次顺序扫描和排序,计算效率低。也正因为必须多次扫描数据集,C4.5只适合于能够


              70  70







          21Y3228.indd   70                                                                                        2019/10/10   14:23:59
   73   74   75   76   77   78   79   80   81   82   83