决策树算法系列之一 ID3

  • 时间:
  • 浏览:0
  • 来源:大发pk10_pk10遗漏_大发pk10遗漏
  • 通俗来说,决策树分类的思想类式于找对象
  • 还还有一个多女孩的母亲要给五种女孩介绍男某些人 (分类什么的问题、见或不见)
  • 女孩有自己的一套标准
某箭队经理 不见
中等 某大科学好生会主席 不见
中等 中等 某NN记者 不见
中等 某上市公司CTO
中等 公务员

       没法有下面的对话

       女儿:长的帅不帅?

       母亲:挺帅的。

       女儿:收入高不?

       母亲:不算很高,中等清况 。

       女儿:是公务员不?

       母亲:是,在税务局上班呢。

       女儿:那好,我去见见。

       每次选泽还还有一个多属性进行判断, 若只有得出结论,继续选泽其

他属性进行判断,直到都都可不可不可以 “肯定地”判断

       长相 -> 收入 -> 职业

       何如让机器学习到五种有递进关系、且考虑有优先顺序属性形态的分类措施?



图1 一颗简单的决策树
  • 步骤1:将所有的数据看成是还还有一个多节点,进入步骤2;
  • 步骤2:从中选泽还还有一个多数据形态对节点进行分割,进入步骤3;
  • 步骤3:生成若干孩子节点,对每还还有一个多孩子节点进行判断若满足停止分裂的条件,进入步骤4;否则,进入步骤2;
  • 步骤4:设置该节点是子节点,其输出为该节点数量占比最大的类别。

       全都 有还还有一个多什么的问题:

       (1) 数据何如分割

       离散型数据的分割

       连续型数据的分割

       (2)何如选泽分裂的属性

       分裂算法(ID3 C4.5 CART)

       (3)哪几种以前停止分裂

       最小节点数、树层厚、所有形态因为使用完毕

凉爽
凉爽
凉爽
凉爽

       训练集为D, 总样本数|D|

       训练集所含N个类别,|Ci|为第i个类别的数量

       假设其中还还有一个多属性A有n个不同离散取值(a1,a2…an)

       假设取值a1样本集为Da1,个数为|Da1|,其中属于第j个类的个数为|Da1,j |

       假设取值a2样本集为Da2,个数为|Da2|,其中属于第j个类的个数为|Da2,j|

       …

       假设取值an样本集为Dan,个数为|Dan|,其中属于第j个类的个数为|Dan,j|

       (1) 计算数据集D的经验熵

\[H\left( D \right) = - \sum\limits_{i = 1}^N {\frac{{\left| {{C_i}} \right|}}{{\left| D \right|}}} \log \frac{{\left| {{C_i}} \right|}}{{\left| D \right|}}\]

       (2) 计算属性A对数据集D的经验条件熵

\[ H\left( {D\left| A \right.} \right) = \sum\limits_{i = 1}^n {\frac{{\left| {{D_{ai}}} \right|}}{{\left| D \right|}}} H\left( {{D_{ai}}} \right) = \sum\limits_{i = 1}^n {\left( {\frac{{\left| {{D_{ai}}} \right|}}{{\left| D \right|}}\left( { - \sum\limits_{j = 1}^N {\frac{{\left| {{D_{ai,j}}} \right|}}{{\left| {{D_{ai}}} \right|}}\log \frac{{\left| {{D_{ai,j}}} \right|}}{{\left| {{D_{ai}}} \right|}}} } \right)} \right)} \]

       (3) 计算属性A信息增益

\[ G\left( {D\left| A \right.} \right){\rm{ = }}H\left( D \right) - H\left( {D\left| A \right.} \right) \]

       选泽使得G(D|A)最大的属性A作为最优属性进行决策划分

       (1) 计算数据集D的经验熵

       一共1还还有一个多样本,9个正例、还还有一个负例

\[ H\left( D \right) = - \left( {\frac{{\rm{9}}}{{{\rm{14}}}}\log \frac{{\rm{9}}}{{{\rm{14}}}}{\rm{ + }}\frac{{\rm{5}}}{{{\rm{14}}}}\log \frac{{\rm{5}}}{{{\rm{14}}}}} \right){\rm{ = }}0.2830 \]

       (2) 计算属性对数据集D的经验条件熵 (天气属性)

       天气一共有晴、阴、雨还还有一个多属性

       天气 =晴 , 还还有一个多正例、还还有一个负例,全都

\[H\left( {D\left| {{A_晴}} \right.} \right) = - \left( {\frac{2}{5}\log \frac{2}{5}{\rm{ + }}\frac{3}{5}\log \frac{3}{5}} \right){\rm{ = }}0.{\rm{2923}}\]

       天气 =阴, 还还有一个多正例、0个负例, 全都

\[H\left( {D\left| {{A_阴}} \right.} \right) = - \left( {\frac{4}{4}\log \frac{4}{4}{\rm{ + }}\frac{0}{4}\log \frac{0}{4}} \right){\rm{ = 0}}\]

       天气 =雨, 还还有一个正例、还还有一个多负例,全都

\[ H\left( {D\left| {{A_雨}} \right.} \right) = - \left( {\frac{3}{5}\log \frac{3}{5}{\rm{ + }}\frac{2}{5}\log \frac{2}{5}} \right){\rm{ = }}0.{\rm{2923}} \]

       全都 天气属性的经验条件熵为

\[ H\left( {D\left| A \right.} \right) = \frac{{\rm{5}}}{{{\rm{14}}}} \cdot 0.{\rm{2923 + }}\frac{{\rm{4}}}{{{\rm{14}}}} \cdot {\rm{0 + }}\frac{{\rm{5}}}{{{\rm{14}}}} \cdot 0.{\rm{2923 = }}0.{\rm{2}}0{\rm{87}} \]

       (3) 天气属性的信息增益

\[ G\left( {D\left| A \right.} \right) = H\left( D \right) - H\left( {D\left| A \right.} \right) = 0.0{\rm{743}} \]

       同理能都可不可不可以 算出温度、湿度、与否有风的信息增益

天气 0.0743
温度 0.0088
湿度 0.0457
与否有风 0.0145

       否则天气的信息增益最大,决策树第还还有一个多决策节点选泽天气进行决策即有:



图2 决策树节点划分



猜你喜欢

东航一航班返航是怎么回事

更新时间:2019-09-0414:04:06来源:斗蟹游戏编辑:周公约我 【斗蟹资讯】东航一航班返航是为社 会 ?越来越来越来越多日本日本前前男友都真不知道,下面斗

2019-11-14

惠普 EliteBook 820 G2 12.5英寸笔记本参数,功能,与其他型号对比区别

基本参数笔记本型号EliteBook820G2上市时间2015年2月3日机身颜色黑色操作系统预装Windows8.1CPU外理器型号Intel酷睿i5外理器架构Broadwel

2019-11-14

S8世界赛中LPL最令人担心的战队:大赛容易断腿的IG

斗玩小编 来源:斗玩网 2018-09-2909:02:00

2019-11-14

【惠普 暗影精灵III代 15.6英寸游戏笔记本电脑(i7

产品评价好评度62%运行速快外型酷炫运行流畅运行超快十分流畅流畅度佳漂亮大方倍感舒适系统充裕质量上乘运行平稳电量充裕完整版评价(422条)好评(265条)中评(96条)差评(6

2019-11-14

69元!云麦腕力球开箱图赏:根本停不下来

3月2日,云麦发布了一款加压神器——云麦腕力球,已在有品上架,售价69元。腕力球被誉为“世界上最快的人工动力装置”,是由中国台湾发明家 家 家创造,利用“陀螺仪和角动量守恒

2019-11-14