决策树的划分依据之:信息增益率

2023-08-01 14:45:38

在上面的介绍中,我们有意忽略了"编号"这一列.若把"编号"也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益为 0.9182,远大于其他候选划分属性。

计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测.

实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法 [Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性.

增益率:增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"(intrinsic value) [Quinlan , 1993J的比值来共同定义的。

在这里插入图片描述

属性 a 的可能取值数目越多(即 V 越大),则 IV(a) 的值通常会越大.

案例一

a.计算类别信息熵

b.计算性别属性的信息熵(性别、活跃度)

c.计算活跃度的信息增益(性别、活跃度)

d.计算属性分裂信息度量

用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息,我们把这些信息称为属性的内在信息(instrisic information)。信息增益率用信息增益/内在信息,会导致属性的重要性随着内在信息的增大而减小(也就是说,如果这个属性本身不确定性就很大,那我就越不倾向于选取它),这样算是对单纯用信息增益有所补偿。

在这里插入图片描述

e.计算信息增益率

在这里插入图片描述

活跃度的信息增益率更高一些,所以在构建决策树的时候,优先选择

通过这种方式,在选取节点的过程中,我们可以降低取值较多的属性的选取偏好。

案例二

如下图,第一列为天气,第二列为温度,第三列为湿度,第四列为风速,最后一列该活动是否进行。

我们要解决:根据下面表格数据,判断在对应天气下,活动是否会进行?

在这里插入图片描述
在这里插入图片描述

该数据集有四个属性,属性集合A={ 天气,温度,湿度,风速}, 类别标签有两个,类别集合L={进行,取消}。

a.计算类别信息熵

类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念,熵越大,不确定性就越大,把事情搞清楚所需要的信息量就越多。

Ent(D)=−149log2149−145log2145=0.940

b.计算每个属性的信息熵

每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下,各种类别出现的不确定性之和。属性的信息熵越大,表示这个属性中拥有的样本类别越不“纯”。

在这里插入图片描述

c.计算信息增益

信息增益的 = 熵 - 条件熵,在这里就是 类别信息熵 - 属性信息熵,它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大,就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性,当然,选择该属性就可以更快更好地完成我们的分类目标。

信息增益就是ID3算法的特征选择指标。

加粗样式

e.计算信息增益率

天气的信息增益率最高,选择天气为分裂属性。发现分裂了之后,天气是“阴”的条件下,类别是”纯“的,所以把它定义为叶子节点,选择不“纯”的结点继续分裂。

在这里插入图片描述

在子结点当中重复过程1~5,直到所有的叶子结点足够"纯"。

现在我们来总结一下C4.5的算法流程

while(当前节点"不纯")1.计算当前节点的类别熵(以类别取值计算)
    2.计算当前阶段的属性熵(按照属性取值吓得类别取值计算)
    3.计算信息增益
    4.计算各个属性的分裂信息度量
    5.计算各个属性的信息增益率
end while
当前阶段设置为叶子节点
更多推荐

模型训练中的常见超参数解析

目录超参数学习率——lrbatch_sizenum_workersseed随机种子超参数学习率——lr数据集大小与学习率的调整有一定的关系,但并不是唯一决定学习率的因素。学习率的选择通常需要进行实验和调整,以找到最佳的学习率值,而这个最佳值可能会受到数据集大小的影响。下面是一些关于数据集大小和学习率调整的一般原则:1.

java面试题-jvm面试题

java面试题-jvm面试题1JVM组成面试官:JVM由那些部分组成,运行流程是什么?候选人:嗯,好的~~在JVM中共有四大部分,分别是ClassLoader(类加载器)、RuntimeDataArea(运行时数据区,内存分区)、ExecutionEngine(执行引擎)、NativeMethodLibrary(本地库

恒合仓库 - 用户管理、用户列表、为用户分配角色

文章目录用户管理一、用户列表1.1实体类1.1.1分页实体类1.1.2用户信息实体类1.2业务实现1.2.1UserMapper1.2.2Service层1.2.3Controller层1.2.4效果图二、用户增删改查2.1添加用户业务实现2.1.1Mapper2.1.2Service2.1.3Controller2.

BUU [HCTF 2018]Hideandseek

BUU[HCTF2018]Hideandseek考点:软连接读取任意文件Flask伪造session/proc/self/environ文件获取当前进程的环境变量列表random.seed()生成的伪随机数种子MAC地址(存放在/sys/class/net/eth0/address文件)国赛的时候遇见过软连接,这次再来

Redis缓存

目录什么是缓存?缓存特性1、缓存雪崩2、缓存穿透3、缓存击穿4、缓存预热什么是缓存?在程序中如果没有设置缓存的时候,用户想要获取到数据一般都是直接从数据库中获取。加入缓存之后会这样执行我们都知道查询数据库是一个比较慢的过程,对用户而言这样的体验是非常不好的。加入缓存之后,查询数据就会先在缓存中查找,如果缓存中没有才会去

C++项目实战——基于多设计模式下的同步&异步日志系统-⑨-同步日志器类与日志器建造者类设计

文章目录专栏导读Logger类设计同步日志器类设计同步日志器测试日志器建造者模式设计抽象日志器建造者类派生局部日志器建造者日志器建造者类测试同步日志器类与日志器建造者类整理专栏导读🌸作者简介:花想云,在读本科生一枚,C/C++领域新星创作者,新星计划导师,阿里云专家博主,CSDN内容合伙人…致力于C/C++、Linu

电力系统直流潮流分析【N-1】(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。⛳️座右铭:行百里者,半于九十。📋📋📋本文目录如下:🎁🎁🎁目录💥1概述📚2运行结果🎉3参考文献🌈4Matlab代码及文档讲解💥1概述该程序接受一个感受矩阵B=[NxN]和注入功

从零开始:使用Python创建GUI驱动的简易国际象棋游戏

第一部分:国际象棋的基础1.介绍国际象棋,一个古老而又充满策略的游戏,历经数世纪的发展,至今仍然广受喜爱。那么,如何使用Python来创建一个简单的国际象棋游戏,并给它加上一个图形界面(GUI)呢?这篇文章将指导您一步步完成这一目标。2.定义棋盘和棋子首先,我们需要定义国际象棋的棋盘和棋子。棋盘是一个8x8的方格,通常

【备考网络工程师】如何备考2023年网络工程师之错题集篇(1)

文章目录写在前面涉及知识点一、自我认知(做一套真题)二、错题整理总结写在前面上半年试了一下软考的水,没想到居然过了,当然当时考的是初级-网络管理员,但是我觉得应该追求再高一些,正好比王勃说的穷且益坚,不坠青云之志。所以我得时刻保持自己学习的状态,为遇见明天更好的自己而加油,因此我也趁备战之初记录下来,有一起备考的赶紧加

巨人互动|Facebook海外户&Facebook有什么功能

Facebook是一款国际化的用于聊天的软件,Facebook一般情况下用户可以在其共享照片、发布评论以及在网络上发布新闻或者其他有趣内容的链接,观看短视频或者实时聊天等。那么Facebook也拥有广泛的功能和特点。巨人互动|Google海外户&Google内容定位介绍(◀想要了解更多可点击查看)巨人互动|Google

安全保护策略:iOS应用程序代码保护的关键步骤和技巧

​转载:怎么保护苹果手机移动应用程序iosipa文件中的代码?目录转载:怎么保护苹果手机移动应用程序iosipa文件中的代码?代码混淆步骤1.选择要混淆保护的ipa文件2.选择要混淆的类名称3.选择要混淆保护的函数,方法4.配置签名证书5.混淆和测试运行​编辑在当今移动应用市场竞争激烈的环境中,代码保护功能对于iOS应

热文推荐