一个多判定条件的决策树有统计女生根据男生条件决定是否交往的数据序号外型性格职业上进心是否交往帅否否不好一般12不帅好上进否一般帅好一般上进是3不帅好4爆好上进是5帅上进否不好一般帅上进否6不好一般是7帅好好否不帅好较好上进是8帅9爆好较好上进是10不帅好上进是不好好否帅否11一般否否帅好12一般
一个多判定条件的决策树 有统计女生根据男生条件决定是否交往的数据 序号 外型 性格 职业 上进心 是否交往 1 帅 不好 一般 否 否 2 不帅 好 一般 上进 否 3 帅 好 一般 上进 是 4 不帅 爆好 好 上进 是 5 帅 不好 一般 上进 否 6 帅 不好 一般 上进 否 7 帅 好 好 否 是 8 不帅 好 较好 上进 是 9 帅 爆好 较好 上进 是 10 不帅 不好 好 上进 是 11 帅 好 一般 否 否 12 帅 好 一般 否 否
一个多判定条件的决策树男生们希望根据中的数据,生成决策树,从而了解女生的决策过程如何寻找第一个节点?“职业”是“好”或者“较好”的通过仔细观察表中的数据发现,“职业”是决定性的因素,男生,“交往”结果都是“是”。可以认为选择“职业”这个因素作为首次决策的依据时,区分效果会很好。那么,有什么量化的手段来帮助我们评估这些因素,进而做出高效的选择呢?
男生们希望根据中的数据,生成决策树,从而了解女生的决策过程 一个多判定条件的决策树 如何寻找第一个节点? • 通过仔细观察表中的数据发现,“职业”是决定性的因素,“职业”是“好”或者“较好”的 男生,“交往”结果都是“是”。 • 可以认为选择“职业”这个因素作为首次决策的依据时,区分效果会很好。 那么,有什么量化的手段来帮助我们评估这些因素,进而做出高效的选择呢?
信息炳分裂节点的关键信息摘(InformationEntropy)可以用来评估因素指标的重要程度。假定有随机变量X={xl,x2,...,xn),X中第i类样本xi所占的比例为p(xi),则X的信息炳定义为:nH(X) =p(x) log2p(xi)i=1简单地说,计算结果指出了需要多少个二进制位,可以消除概率事件的不确定性。H(X)值越大,意味着需要越多的二进制位来消除不确定性(也就是需要多少个二进制位来传递信息);H(X)值越小,则X的不确定性越小,用来描述区分信息的二进制位就越少
信息熵(Information Entropy)可以用来评估因素指标的重要程度。假定有随机 变量X={x1,x2,.,xn},X中第i类样本x_i所占的比例为p(x_i),则X的信息熵 定义为: 𝐻 𝑋 = − 𝑖=1 𝑛 𝑝 𝑥𝑖 log2 𝑝(𝑥𝑖) 分裂节点的关键——信息熵 简单地说,计算结果指出了需要多少个二进制位,可以消除概率事件的不确定性。 • H(X)值越大,意味着需要越多的二进制位来消除不确定性(也就是需要多少个二进制位来传递 信息); • H(X)值越小,则X的不确定性越小,用来描述区分信息的二进制位就越少
信息炳分裂节点的关键例子:对一个只有on/off两种等可能状态的灯,D=fon,off?。D信息滴为:IH(D) = - Z=1 (d) 1g2 p(d) = -G* 10g2+ *10g2)=结论:使用1个二进制位,就可准确地描述灯亮,或者不亮的状态。如果是某种极端情况,这盏灯坏了,那么它只有一种可能状态D={off},那么D的信息滴为: H(D) = -Zn=1p(di) log2 p(di) = -(* log2) = 0结论:因为这盏灯是确定状态,不用任何其他信息我们都可以知道它的on/of状态
例子:对一个只有on/off两种等可能状态的灯,D={on,off}。D信息熵为: 𝐻 𝐷 = − σ𝑖=1 𝑛 𝑝 𝑑𝑖 log2 𝑝 𝑑𝑖 = −( 1 2 ∗ log2 1 2 + 1 2 ∗ log2 1 2 )=1 分裂节点的关键——信息熵 结论:使用1个二进制位,就可准确地描述灯亮,或者不亮的状态。 如果是某种极端情况,这盏灯坏了,那么它只有一种可能状态D={off},那么D的 信息熵为:𝐻 𝐷 = − σ𝑖=1 𝑛 𝑝 𝑑𝑖 log2 𝑝 𝑑𝑖 = − 1 1 ∗ log2 1 1 = 0 结论:因为这盏灯是确定状态,不用任何其他信息我们都可以知道它的on/off状态
信息滴的应用有统计女生根据男生条件决定是否交往的数据序号外型性格职业上进心是否交往帅否否不好一般1.2好上进否不帅一般帅好是3上进一般不帅好上进是4爆好5帅不好上进否一般帅否6不好一般上进好否是7帅好好是8不帅较好上进帅上进9爆好较好是不帅好上进是10不好帅好否否11一般否帅好否12一般
信息熵的应用 有统计女生根据男生条件决定是否交往的数据 序号 外型 性格 职业 上进心 是否交往 1 帅 不好 一般 否 否 2 不帅 好 一般 上进 否 3 帅 好 一般 上进 是 4 不帅 爆好 好 上进 是 5 帅 不好 一般 上进 否 6 帅 不好 一般 上进 否 7 帅 好 好 否 是 8 不帅 好 较好 上进 是 9 帅 爆好 较好 上进 是 10 不帅 不好 好 上进 是 11 帅 好 一般 否 否 12 帅 好 一般 否 否