四、线性支持向量机算法(LinearSVC,Linear Support Vector Classification)(有监督学习)

2023-09-21 09:20:16

线性支持向量机,Linear Support Vector Classification.
与参数内核为线性的SVC类似(SVC(kernel=‘linear’)),但使用liblinear而非libsvm实现,因此在选择惩罚和损失函数时更具灵活性,并能更好地扩展到大量样本

SVC(kernel=’linear’)LinearSVC()是类似的,只不过LinearSVC()是通过liblinear实现的;而SVC(kernel=’linear’)通过libsvm实现的;相较于SVC(kernel=’linear’),LinearSVC)(在选择惩罚和损失函数时更具灵活性,并能更好地扩展到大量样本

一、算法思路

本质都是SVM中的一种优化,原理都类似,详细算法思路可以参考博文:三、支持向量机算法(SVC,Support Vector Classification)(有监督学习)

二、官网API

官网API

class sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', *, dual='warn', tol=0.0001, C=1.0, multi_class='ovr', fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)

这里的参数还是比较多的,具体的参数使用,可以根据官网给的demo进行学习,多动手尝试;这里就以一些常用的参数进行说明。
导包:from sklearn.svm import LinearSVC

①惩罚项penalty

惩罚项的选择,指定惩罚中使用的规范
l2惩罚是SVC使用的标准,l1会导致coef_向量稀疏
正则化说白了就是对损失函数的一种约束限制

在线性回归中,L1正则化也称为Lasso回归,可以产生稀疏模型
在线性回归中,L2正则化也称为Ridge回归,可以获得很小的参数,防止过拟合
指定惩罚中使用的规范。l2 “惩罚是 SVC 使用的标准。l1” 会导致 coef_ 向量稀疏。

l1’:添加L1正则化
l2’:添加L2正则化,默认,L2正则化是SVC的使用标准
SVC()中可以选择None,而LinearSVC()中没有

具体官网详情如下:
在这里插入图片描述

使用方式

LinearSVC(penalty='l2')

②损失函数loss

loss,指定损失函数
hinge是标准SVM损失函数(如SVC类使用,而squared_hinge是hinge损失函数的平方

不支持 penalty=‘l1’ 和 loss=‘hinge’ 的组合
因为penalty='l2’是SVC的使用标准,loss='hinge’是标准SVM损失函数,只有这样配套的才可以搭配使用

hinge’:标准SVM损失函数
squared_hinge’:hinge损失函数的平方

具体官网详情如下:
在这里插入图片描述

使用方式

LinearSVC(loss='squared_hinge')

③正则化参数C

正则化强度与C成反比,惩罚是L2正则化的平方,C是一个浮点数类型

具体官网详情如下:
在这里插入图片描述

使用方式

LinearSVC(C=2.0)

④随机种子random_state

如果要是为了对比,需要控制变量的话,这里的随机种子最好设置为同一个整型数

具体官网详情如下:
在这里插入图片描述

使用方式

LinearSVC(random_state=42)

⑤最终构建模型

LinearSVC(penalty=‘l2’,loss=‘squared_hinge’,C=2.0,random_state=42)

三、代码实现

①导包

这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X,最后一列是因变量Y

常用的划分数据集函数官网API:train_test_split
在这里插入图片描述
test_size:测试集数据所占比例
train_size:训练集数据所占比例
random_state:随机种子
shuffle:是否将数据进行打乱
因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建LinearSVC模型

参数可以自己去尝试设置调整

lsvc = LinearSVC(penalty='l2',loss='squared_hinge',C=2.0,random_state=42)

⑤模型训练

就这么简单,一个fit函数就可以实现模型训练

lsvc.fit(X_train,y_train)

⑥模型评估

把测试集扔进去,得到预测的测试结果

y_pred = lsvc.predict(X_test)

看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy)

也可以通过score得分进行评估,计算的结果和思路都是一样的,都是看所有的数据集中模型猜对的概率,只不过这个score函数已经封装好了,当然传入的参数也不一样,需要导入accuracy_score才行,from sklearn.metrics import accuracy_score

score = lsvc.score(X_test,y_test)#得分
print(score)

⑦模型测试

拿到一条数据,使用训练好的模型进行评估
这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果,prediction = lsvc.predict(test)
看下预测结果是多少,是否和正确结果相同,print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = lsvc.predict(test)
print(prediction) #[2]

⑧保存模型

lsvc是模型名称,需要对应一致
后面的参数是保存模型的路径

joblib.dump(lsvc, './lsvc.model')#保存模型

⑨加载和使用模型

lsvc_yy = joblib.load('./lsvc.model')

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = lsvc_yy.predict(test)#带入数据,预测一下
print(prediction) #[4]

完整代码

模型训练和评估,不包含⑦⑧⑨。

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

fiber = pd.read_csv("./fiber.csv")
# 划分自变量和因变量
X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']
#划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

lsvc = LinearSVC(penalty='l2',loss='squared_hinge',C=2.0,random_state=42)
lsvc.fit(X_train,y_train)

y_pred = lsvc.predict(X_test)
accuracy = np.mean(y_pred==y_test)
print(accuracy)
score = lsvc.score(X_test,y_test)#得分
print(score)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = lsvc.predict(test)
print(prediction) #[2]
更多推荐

Bean的生命周期

SpringBean的生命周期是从Bean实例化之后,即通过反射创建出对象之后,到Bean成为一个完整对象,最终存储到单例池中,这个过程被称为SpringBean的生命周期。小枫叶一,实例化1.1Bean工厂后处理器–BeanFactoryPostProcessorBeanFactoryPostProcessor是一个

怎样判断一个数是否为偶数

要求代码行数尽可能少;packagemainimport("fmt""strconv")funcmain(){fmt.Printf("传入的值是否为奇数:%t\n",Judge_is_even(7))}funcJudge_is_even(numint)bool{//fmt.Println(num%2)rs,_:=str

modbus的协议

在介绍Modbus协议之前,我们要先了解下RS485协议,因为Modbus协议是在RS485这个硬件层协议上搭建的软件层协议。RS485特性半双工。用缆线两端的电压差值来表示传递信号。RS485的特点包括1.S485的电气特性:逻辑“1”以两线间的电压差为+(2~6)V表示;逻辑“0”以两线间的电压差为-(2~6)V表

ChatGPT Prompting开发实战(八)

一.什么是归纳总结式的prompt开发有时候需要对一段文本进行归纳总结,那么可以采取以下的方案:-按照给定单词、句子或者字符的数量限制来让模型裁剪文本,使内容更精炼-基于聚焦的主题进行总结-只根据需求抽取相关的文本信息,不需要整段文本内容除了上面列出的几种方式之外,还可能有额外的一些需求,譬如给出多段文本,要求模型同时

JUnit测试进阶(Private测试)

Private测试前言一、间接调用二、Java反射机制调用前言在单元测试中,由于私有方法(PrivateMethod)无法直接被调用,因此对私有方法进行测试成为一项难题。一个可行的方法是:在测试时将私有方法改变为公有方法(PublicMethod),在测试完成后再将其修改为私有方法。然而,该方法操作过程比较复杂,不利于

Redis面试题(五)

文章目录前言一、使用过Redis做异步队列么,你是怎么用的?有什么缺点?二、什么是缓存穿透?如何避免?什么是缓存雪崩?何如避免?总结前言使用过Redis做异步队列么,你是怎么用的?有什么缺点?什么是缓存穿透?如何避免?什么是缓存雪崩?何如避免?`一、使用过Redis做异步队列么,你是怎么用的?有什么缺点?一般使用lis

Windows开机密码破解

目前可行的方法(目前只能通过进PE的方式进行密码的修改)通过本文最后“本文参考网页”下载Rufus写盘工具和Hiren’sBootCDPE镜像启动写盘工具,选择U盘和镜像U盘插入电脑时确保电脑为关机状态启动电脑,快速敲击Delete键,进入Bios界面(不同的电脑是通过不同的按键进入BIOS,可以利用搜索引擎查看你的电

腾讯会议核心存储治理:Redis分库和异地多活

👉导读会控为整个会议最为核心的业务,由于海量请求的高性能要求,后台存储全部为Redis。在业务飞速发展期,各模块边界不够清晰,大家对存储的使用处于失控状态,随着PCU的不断上涨,逐步暴露出存储和架构的诸多问题,同时也对系统容灾能力有了更高的要求。会控业务历史包袱重,存储改造伤筋动骨,要做到平滑迁移需要考虑的细节较多。

常用注解梳理

@RestController注解:将一个类标识为一个RESTful风格的控制器,用于处理HTTP请求和响应。@RequestMapping注解:用于将一个HTTP请求映射到控制器的处理方法上,可以用于类级别和方法级别。@PostMapping注解:用于将HTTPPOST请求映射到控制器的处理方法上。@GetMappi

浅谈xss

XSS简介XSS,全称CrossSiteScripting,即跨站脚本攻击,是最普遍的Web应用安全漏洞。这类漏洞能够使得攻击者嵌入恶意脚本代码到正常用户会访问到的页面中,当正常用户访问该页面时,则可导致嵌入的恶意脚本代码的执行,从而达到恶意攻击用户的目的。需要强调的是,XSS不仅仅限于JavaScript,还包括fl

vue模板语法(下集)

事件处理器Vue模板语法中的事件处理器是指在Vue组件中绑定DOM事件,当事件发生时执行相应的方法或表达式。常见的事件包括点击事件@click、输入事件@input、鼠标移入事件@mouseover等等。事件监听可以使用v-on指令2.1事件修饰符.Vue通过由点(.)表示的指令后缀来调用修饰符,.stop.preve

热文推荐