机器学习-04-分类算法-01决策树

总结

本系列是机器学习课程的系列课程，主要介绍机器学习中分类算法，本篇为分类算法开篇与决策树部分。

参考

决策树——ID3和C4.5（理论+图解+公式推导）
策略产品经理必读系列—第七讲ID3、C4.5和CART算法详解
 决策树（一）| 基础决策树 ID3、C4.5、CART 核心概要

本门课程的目标

完成一个特定行业的算法应用全过程：

懂业务+会选择合适的算法+数据处理+算法训练+算法调优+算法融合
+算法评估+持续调优+工程化接口实现

机器学习定义

关于机器学习的定义，Tom Michael Mitchell的这段话被广泛引用：
对于某类任务T和性能度量P，如果一个计算机程序在T上其性能P随着经验E而自我完善，那么我们称这个计算机程序从经验E中学习。

分类方法的定义

在这里插入图片描述

决策树算法ID3

什么是好瓜

在这里插入图片描述

熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值，称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出，对任何已知孤立的物理系统的演化，热熵只能增加，不能减少。
信息的基本作用就是消除人们对事物了解的不确定性。美国信息论创始人香农发现任何信息都存在冗余，冗余的大小与信息的每一个符号出现的概率和理想的形态有关。信息熵表示的是信息的混乱程度。当均匀分布时，信息熵最大。当熵除一个值之外，其他值均为0，信息熵最小。
和热力学中的熵相反的是，信息熵只能减少，不能增加。
所以热熵和信息熵互为负量。且已证明，任何系统要获得信息必须要增加热熵来补偿，即两者在数量上是有联系的。