六、决策树算法(DT,DecisionTreeClassifier)(有监督学习)

2023-09-22 11:49:31

决策树(DT)是一种用于分类和回归的非参数监督学习方法。其目标是创建一个模型,通过学习从数据特征中推断出的简单决策规则来预测目标变量的值。一棵树可以看作是一个片断常数近似值。

一、算法思路

具体可参考博文:七、决策树算法和集成算法

基尼系数Gini:衡量选择标准的不确定程度;说白了,就是越不确定Gini系数越高
需要选择最小的Gini系数来决定决策树下一级别分类的标准
在这里插入图片描述
以基尼系数为核心的决策树称为CART决策树(Classification and Regression Tree)
一般看到的决策树都是二叉树,这只是一种选择,并不代表所有决策树都是二叉树
决策树的生成容易造成过拟合现象的产生,需要剪枝操作来放弃一些约束条件达到防止过拟合的效果

官网决策树算法介绍:1.10. Decision Trees

二、官网API

官网API

class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, class_weight=None, ccp_alpha=0.0)

导包:from sklearn.tree import DecisionTreeClassifier

①特征标准选择criterion

criterion衡量分割质量的函数
gini’:用于衡量gini不纯度,默认值
log_loss’和’entropy’:均用于衡量Shannon信息增益

具体官网详情如下:
在这里插入图片描述

使用方法

DecisionTreeClassifier(criterion='entropy')

②splitter

splitter用于选择每个节点分割的策略
best’:最佳分割,默认值
random’:最佳随机分割

具体官网详情如下:
在这里插入图片描述

使用方法

DecisionTreeClassifier(splitter='random')

③max_features

max_features寻找最佳分割时需要考虑的特征数量
auto’:每次分割时,特征数量根据具体情况进行自动选择
sqrt’:每次分割时,特征数量采用max_features=sqrt(n_features)
log2’:每次分割时,特征数量采用max_features=log2(n_features)
int’:在每次分割时考虑max_features特征
float’:特征值是一个分数;每次分割时,特征数量采用max(1,int(max_features * n_features_in_))
None’:每次分割时,特征数量采用max_features=n_features,默认值

具体官网详情如下:
在这里插入图片描述

使用方法

DecisionTreeClassifier(max_features='auto')

④随机种子random_state

控制估计器的随机性,随即状态实例,如果要是为了对比,需要控制变量的话,这里的随机种子最好设置为同一个整型数

在每次分割时,即使splitter=‘best’,特征也总是随机排列的
当 max_features < n_features 时,算法会在每次分割时随机选择 max_features,然后再从中找出最佳分割
但是,即使 max_features=n_features 在不同的运行中找到的最佳分割也可能不同
如果多个分割点的改进标准相同,且必须随机选择一个分割点,就会出现这种情况;为了在拟合过程中获得确定的行为,必须将 random_state 设为整数

具体官网详情如下:
在这里插入图片描述

使用方法

DecisionTreeClassifier(random_state=42)

三、代码实现

①导包

这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X,最后一列是因变量Y

常用的划分数据集函数官网API:train_test_split
在这里插入图片描述
test_size:测试集数据所占比例
train_size:训练集数据所占比例
random_state:随机种子
shuffle:是否将数据进行打乱
因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建DT模型

参数可以自己去尝试设置调整

dtc = DecisionTreeClassifier()

⑤模型训练

就这么简单,一个fit函数就可以实现模型训练

dtc.fit(X_train,y_train)

⑥模型评估

把测试集扔进去,得到预测的测试结果

y_pred = dtc.predict(X_test)

看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy)

也可以通过score得分进行评估,计算的结果和思路都是一样的,都是看所有的数据集中模型猜对的概率,只不过这个score函数已经封装好了,当然传入的参数也不一样,需要导入accuracy_score才行,from sklearn.metrics import accuracy_score

score = dtc.score(X_test,y_test)#得分
print(score)

⑦模型测试

拿到一条数据,使用训练好的模型进行评估
这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果,prediction = dtc.predict(test)
看下预测结果是多少,是否和正确结果相同,print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = dtc.predict(test)
print(prediction) #[2]

⑧保存模型

lsvc是模型名称,需要对应一致
后面的参数是保存模型的路径

joblib.dump(dtc, './dtc.model')#保存模型

⑨加载和使用模型

dtc_yy = joblib.load('./dtc.model')

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = dtc_yy.predict(test)#带入数据,预测一下
print(prediction) #[4]

完整代码

模型训练和评估,不包含⑦⑧⑨。

from sklearn.tree import DecisionTreeClassifier
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

fiber = pd.read_csv("./fiber.csv")
# 划分自变量和因变量
X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']
#划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

dtc = DecisionTreeClassifier(criterion='entropy',splitter='random',max_features='auto',random_state=42)
dtc.fit(X_train,y_train)#模型拟合
y_pred = dtc.predict(X_test)#模型预测结果
accuracy = np.mean(y_pred==y_test)#准确度
score = dtc.score(X_test,y_test)#得分
print(accuracy)
print(score)

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = dtc.predict(test)#带入数据,预测一下
print(prediction)
更多推荐

STM32 ADC介绍和应用

目录1.ADC是什么?2.ADC的性能指标3.ADC特性4.ADC通道5.ADC转换顺序6.ADC触发方式7.ADC转化时间8.ADC转化模式扫描模式单次转换/连续转换9.ADC实验使用ADC读取烟雾传感器的值代码实现思路:1.ADC是什么?全称:Analog-to-DigitalConverter,指模拟/数字转换器

奇富大模型获新应用方向,AI专家加速金融行业智能化

近日,由奇富科技推出的大模型应用在研发效能,大数据分析等领域斩获新突破。毓智AI专家以奇富大模型为底座,面向研发效能和大数据分析等应用场景,结合资深技术、大数据分析师的专业能力与数据沉淀,形成金融领域的“AI专家”。目前,这一大模型应用,已在技术研发与商业分析两大方向展现出极高价值。作为金融科技行业内首屈一指的技术驱动

最小二乘法

LeastSquareMethod1、相关的矩阵公式2、线性回归3、最小二乘法3.1、损失函数(LossFunction)3.2、多维空间的损失函数3.3、解析法求解3.4、梯度下降法求解1、相关的矩阵公式Precondition:ξ∈Rn,A∈Rn∗ni:σAξσξ=ATii:σξTAξσξ=ATξ+Aξiii:(A

【TCP】粘包问题 以及 异常处理

粘包问题以及异常处理一.粘包问题二.TCP异常情况一.粘包问题注意:不仅TCP存在粘包问题,其他面向字节流的机制也存在粘包问题。首先要明确,粘包问题中的“包”,是指的应用层的数据包。在TCP的协议头中,没有如同UDP一样的“报文长度”这样的字段。站在传输层的角度,TCP是一个一个报文过来的。按照序号排好序放在接收缓冲区

视频直播美颜sdk与计算机视觉的奇妙结合

在数字时代,视频直播已经成为了人们分享生活、娱乐互动的重要方式之一。而随着社交媒体和在线直播平台的不断发展,用户们对于直播质量和体验提出了越来越高的要求。其中之一就是美颜效果。美颜不仅仅是为了矫正自身缺陷,它更是一种增强直播吸引力的手段。本文将探讨视频直播美颜sdk与计算机视觉技术的结合,以及这种奇妙结合是如何提升用户

26.39万起的2024款小鹏G9能大卖吗?

监制|何玺排版|叶媛小鹏2024款G9正式发布。新G9对硬件配置和智驾系统做了升级,起售价上更比老款G9直降4万余元,以全新的姿态,再度杀入纯电中大型旗舰SUV赛道。“重生”而归的新款G9,这次能大卖吗?012024款小鹏G9发布2024款G9发布会上,小鹏汽车董事长何小鹏亲自主持并对新产品进行了详尽阐述。在发言中,他

海外代理IP是什么?如何使用?

一、海外代理IP是什么?首先,代理服务器是在用户和互联网之间提供网关的系统或路由器。它是一个服务器,被称为“中介”,因为它位于最终用户和他们在线访问的网页之间。海外IP代理是就是指从海外地区获取的IP地址,用于将互联网连接路由通过位于不同国家或地区的服务器。这种代理服务允许用户隐藏其真实的地理位置,并获得访问其他国家或

Redis缓存与从数据取数据性能比较

Redis缓存与从数据取数据性能比较为什么使用Redis使用Redis缓存数据有多个原因,包括提高性能、降低数据库负载、减少响应时间和支持临时数据存储等。以下是一些主要原因以及Redis缓存的工作原理和好处:1.提高性能:数据库查询通常是一个相对较慢的操作,特别是当数据库中的数据量很大时。通过将常用的数据存储在Redi

定制EXP之RCE

文章目录1.常见模块介绍1.1base641.1.1base64编码1.1.2base64解码1.2string2.常规EXP编写2.1phpstudy_2016-2018_rce漏洞2.1.1漏洞利用脚本2.1.2进阶脚本2.1.3漏洞检测名词解释POC(ProofofConcept)漏洞验证代码,验证漏洞的存在性。

【ODPS新品发布第2期】实时数仓Hologres:推出计算组实例/支持JSON数据/向量计算+大模型等新能力

阿里云ODPS系列产品以MaxCompute、DataWorks、Hologres为核心,致力于解决用户多元化数据的计算需求问题,实现存储、调度、元数据管理上的一体化架构融合,支撑交通、金融、科研、等多场景数据的高效处理,是目前国内最早自研、应用最为广泛的一体化大数据平台。本期将重点介绍ꔷHologres推出计算组实例

计算机竞赛 深度学习OCR中文识别 - opencv python

文章目录0前言1课题背景2实现效果3文本区域检测网络-CTPN4文本识别网络-CRNN5最后0前言🔥优质竞赛项目系列,今天要分享的是🚩**基于深度学习OCR中文识别系统**该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!🥇学长这里给一个题目综合评分(每项满分5分)难度系数:3分工作量:3分创新点:4分🧿更多

热文推荐