三、支持向量机算法(SVC,Support Vector Classification)(有监督学习)

2023-09-20 11:18:04

支持向量机Support Vector Machine,就是所谓的SVM,它指的是一系列的机器学习算法,根据解决问题的不同,分为SVC(分类)和SVR(回归)

SVC,Support Vector Classification,其本质也是支持向量机support vector,只不过是用于分类classification任务
SVR,Support Vector Regression,其本质也是支持向量机support vector,只不过是用于回归Regression任务
本专栏主要是分类算法的总结,主要介绍SVC

C-Support Vector Classification(C-支持向量分类器)其实现基于libsvm。拟合时间至少与样本数成二次方关系,超过数万个样本后可能就不可行了。对于大型数据集,可以考虑使用 LinearSVC或SGDClassifier,可能的话,在使用Nystroem变换器或其他内核近似方法后再使用。

一、算法思路

以二分类任务为例,有两类不同的样本数据,新来一个样本,对其进行归类划分;下面是一些核心概念,用我自己的大白话进行描述

寻找一条线,可以将这两个类别的样本数据进行划分,这条线称之为决策边界
以决策边界为中心,分别向两边进行平移,触碰到样本点为止,这两条线之间的间隔称为margin(间隔);所触碰到的样本点称为支持向量
最终变成寻找margin最大问题

决策边界:找到一个可以划分这两个类别数据的一条线(二维),或者一个超平面(三维)等
间隔:以决策边界为中心向两边平移,直到碰到最近的样本点为止,这两条线之间的距离就是margin(间隔)
支持向量:以决策边界为中心向两边平移,这两条线所碰到的样本点被称为支持向量
硬间隔:死板的间隔,严格按照算法求解思路进行操作得到的间隔
软间隔:灵活的间隔,若来了一个异常点或者噪点,可以根据正则化进行限制,得到一个合乎

这里的蓝色噪点更应该属于五边形类别,但是它在数据集样本中是五角星类别,该样本是个噪点,会影响正常的分类,需要进行排除,此时就引入了软间隔,降低该噪点的影响。
在这里插入图片描述

二、官网API

官网API

class sklearn.svm.SVC(*, C=1.0, kernel='rbf', degree=3, gamma='scale', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape='ovr', break_ties=False, random_state=None)

这里的参数还是比较多的,具体的参数使用,可以根据官网给的demo进行学习,多动手尝试;这里就以一些常用的参数进行说明。
导包:from sklearn.svm import SVC

①正则化参数C

正则化强度与C成反比,惩罚是L2正则化的平方,C是一个浮点数类型

具体官网详情如下:
在这里插入图片描述

使用方式

SVC(C=2.0)

②核函数kernel

linear’:线性核函数,速度快;只能处理数据集样本线性可分,不能处理线性不可分。
poly’:多项式核函数,可将数据集样本升维,从低维空间映射到高维空间;参数较多,计算量大
rbf’:高斯核函数,和多项式核函数一样,可将样本升维;相较于多项式核函数来说,参数较少;默认值
'sigmoid’:sigmoid 核函数;当选用 sigmoid 核函数时,SVM 可实现的是多层神经网络
precomputed’:核矩阵;使用用户给定的核函数矩阵(n*n)
也可以自定义自己的核函数,然后进行调用即可

具体官网详情如下:
在这里插入图片描述

使用方式

SVC(kernel='sigmoid')

③多项式核函数的阶数degree

多项式核函数的阶数;该参数只对多项式核函数(poly)有用;若是其他的核函数,系统会自动忽略该参数

具体官网详情如下:
在这里插入图片描述

使用方式

SVC(kernel='ploy',degree=2)

④核系数gamma

rbf、poly 和 sigmoid核函数的核系数,该参数只针对这三个核函数,需要注意
scale’:默认值,具体的计算公式看下面的详细官网详情
auto’:具体的计算公式看下面的详细官网详情
或者是其他的浮点数均可

具体官网详情如下:
在这里插入图片描述

使用方式

SVC(gamma='auto')

⑤随机种子random_state

如果要是为了对比,需要控制变量的话,这里的随机种子最好设置为同一个整型数

具体官网详情如下:
在这里插入图片描述

使用方式

SVC(random_state=42)

⑥最终构建模型

SVC(C=3.0,kernel=‘sigmoid’,gamma=‘auto’,random_state=42)

三、代码实现

①导包

这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X,最后一列是因变量Y

常用的划分数据集函数官网API:train_test_split
在这里插入图片描述
test_size:测试集数据所占比例
train_size:训练集数据所占比例
random_state:随机种子
shuffle:是否将数据进行打乱
因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建SVC模型

参数可以自己去尝试设置调整

svc = SVC(C=3.0,kernel='sigmoid',gamma='auto',random_state=42)

⑤模型训练

就这么简单,一个fit函数就可以实现模型训练

svc.fit(X_train,y_train)

⑥模型评估

把测试集扔进去,得到预测的测试结果

y_pred = svc.predict(X_test)

看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy)

也可以通过score得分进行评估,计算的结果和思路都是一样的,都是看所有的数据集中模型猜对的概率,只不过这个score函数已经封装好了,当然传入的参数也不一样,需要导入accuracy_score才行,from sklearn.metrics import accuracy_score

score = svc.score(X_test,y_test)#得分
print(score)

⑦模型测试

拿到一条数据,使用训练好的模型进行评估
这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果,prediction = svc.predict(test)
看下预测结果是多少,是否和正确结果相同,print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = svc.predict(test)
print(prediction) #[2]

⑧保存模型

svc是模型名称,需要对应一致
后面的参数是保存模型的路径

joblib.dump(svc, './svc.model')#保存模型

⑨加载和使用模型

svc_yy = joblib.load('./svc.model')

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = svc_yy.predict(test)#带入数据,预测一下
print(prediction) #[4]

完整代码

模型训练和评估,不包含⑦⑧⑨。

from sklearn.svm import SVC
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

fiber = pd.read_csv("./fiber.csv")
# 划分自变量和因变量
X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']
#划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

svc = SVC(C=3.0,kernel='sigmoid',gamma='auto',random_state=42)
svc.fit(X_train,y_train)#模型拟合
y_pred = svc.predict(X_test)#模型预测结果
accuracy = np.mean(y_pred==y_test)#准确度
score = svc.score(X_test,y_test)#得分
print(accuracy)
print(score)

test = np.array([[23,97215.5,22795.5,2613.09,29.72,1786141.62]])#随便找的一条数据
prediction = svc.predict(test)#带入数据,预测一下
print(prediction)
更多推荐

自己实现一个简单的vhost-net

框架vhost在网络中的位置如图:要学习具体的框架可以看我之前的文章vhost-net--------深入了解Virtio-networking和vhost-net接下来,我们自己实现一个vhost.vhost-net代码在代码中写了详细注释,就直接上代码了#include<stdio.h>#include<strin

新消费降温,良品铺子还能走多远?

如果时间倒退到多年前,杨红春应该不会料到现在良品铺子的境遇。从2006年创立至今,前半段良品铺子经历了品牌升级,从线下发展到平台电商、社交电商,做APP客户端进行全渠道的营销,把一家曾入不敷出的小店,养成年利润过亿的高端零食大公司,似乎每一步都精准地踏在时代的节骨眼上。行业层面,国内零食市场规模也从杨红春刚创业时的数千

Next.js 13 服务器组件和应用目录完整指南

通过关于使用服务器组件和应用程序目录的最完整和最权威的教程,释放Next.js13的全部潜力。目录Next.js13带来了什么?服务器组件(RSC)布局ServerActions服务器操作EnhancedRouter增强型路由器什么是服务器组件?服务器组件与客户端组件定义服务器组件定义客户端组件App应用目录文件结构托

Docker 架构解析:理解 Docker 引擎和容器运行时

🌷🍁博主猫头虎带您GotoNewWorld.✨🍁🦄博客首页——猫头虎的博客🎐🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺🌊《IDEA开发秘籍专栏》学会IDEA常用操作,工作效率翻倍~💐🌊《100天精通Golang(基础入门篇)》学会Golang语言,畅玩云原生,走遍大

【计算机组成原理】读书笔记第四期:从源文件到可执行文件

目录写在开头从源代码到本地代码源代码本地代码的初级形态(这一节有点不严谨)编译器从目标文件到可执行文件启动和库文件DLL文件及导入库可执行文件的运行机制变量和函数的内存地址程序加载时生成栈和堆结尾写在开头本文继续阅读总结《程序是怎样跑起来的》这本书(作者:矢泽久雄)。前三篇博客介绍了这本书的阅读感受,并分别对第一章CP

如何修复msvcp140.dll文件,msvcp140.dll丢失的解决方法

在使用电脑的过程中,可能会遇到提示“msvcp140.dll丢失”的错误。这通常是由于某些程序或游戏在运行时需要调用msvcp140.dll文件,但由于某种原因(如病毒感染、误删等),该文件被删除或损坏,导致程序无法正常运行。解决方法1.重新安装相关程序当出现msvcp140.dll丢失的错误时,首先尝试重新安装出现问

Haproxy集群与常见的Web集群调度器

文章目录1.Web集群调度器概述1.1Web集群调度器简介1.2调度器类别1.2.1常用软件类1.2.2常用硬件类2.Haproxy软件介绍2.1Haproxy简介2.2支持功能2.3主要特性2.4常用调度算法2.4.1轮询:RR(RoundRobin)2.4.2最小连接数:LC(LeastConnections)2.

MongoDB-1入门介绍

NoSQLNoSQL(NoSQL=NotOnlySQL),意即反SQL运动,指的是非关系型的数据库优点1、对数据库高并发读写。2、对海量数据的高效率存储和访问。3、对数据库的高可扩展性和高可用性。弱点:1、数据库事务一致性需求2、数据库的写实时性和读实时性需求3、对复杂的SQL查询,特别是多表关联查询的需求简介Mong

【小沐学NLP】关联规则分析Apriori算法(Mlxtend库,Python)

文章目录1、简介2、Mlxtend库2.1安装2.2功能2.2.1UserGuide2.2.2UserGuide-data2.2.3UserGuide-frequent_patterns2.3入门示例3、Apriori算法3.1基本概念3.2apriori3.2.1示例1--生成频繁项集3.2.2示例2--选择和筛选结

nginx配置指南

nginx.conf配置找到Nginx的安装目录下的nginx.conf文件,该文件负责Nginx的基础功能配置。配置文件概述Nginx的主配置文件(conf/nginx.conf)按以下结构组织:配置块功能描述全局块与Nginx运行相关的全局设置events块与网络连接有关的设置http块代理、缓存、日志、虚拟主机等

Vulnhub实战-prime1

前言VulnHub是一个面向信息安全爱好者和专业人士的虚拟机(VM)漏洞测试平台。它提供了一系列特制的漏洞测试虚拟机镜像,供用户通过攻击和漏洞利用的练习来提升自己的安全技能。本次,我们本次测试的是prime1。一、主机发现和端口扫描查看Vmware中靶机的MAC地址,方便与之后nmap扫描出来的主机的MAC地址进行对比

热文推荐