支持向量机Support Vector Machine，就是所谓的SVM，它指的是一系列的机器学习算法，根据解决问题的不同，分为SVC(分类)和SVR(回归)

SVC，Support Vector Classification，其本质也是支持向量机support vector，只不过是用于分类classification任务
SVR，Support Vector Regression，其本质也是支持向量机support vector，只不过是用于回归Regression任务
本专栏主要是分类算法的总结，主要介绍SVC

C-Support Vector Classification（C-支持向量分类器）其实现基于libsvm。拟合时间至少与样本数成二次方关系，超过数万个样本后可能就不可行了。对于大型数据集，可以考虑使用 LinearSVC或SGDClassifier，可能的话，在使用Nystroem变换器或其他内核近似方法后再使用。

一、算法思路

以二分类任务为例，有两类不同的样本数据，新来一个样本，对其进行归类划分；下面是一些核心概念，用我自己的大白话进行描述

寻找一条线，可以将这两个类别的样本数据进行划分，这条线称之为决策边界
以决策边界为中心，分别向两边进行平移，触碰到样本点为止，这两条线之间的间隔称为margin(间隔)；所触碰到的样本点称为支持向量
最终变成寻找margin最大问题

决策边界：找到一个可以划分这两个类别数据的一条线(二维)，或者一个超平面(三维)等
间隔：以决策边界为中心向两边平移，直到碰到最近的样本点为止，这两条线之间的距离就是margin(间隔)
支持向量：以决策边界为中心向两边平移，这两条线所碰到的样本点被称为支持向量
硬间隔：死板的间隔，严格按照算法求解思路进行操作得到的间隔
软间隔：灵活的间隔，若来了一个异常点或者噪点，可以根据正则化进行限制，得到一个合乎

这里的蓝色噪点更应该属于五边形类别，但是它在数据集样本中是五角星类别，该样本是个噪点，会影响正常的分类，需要进行排除，此时就引入了软间隔，降低该噪点的影响。
在这里插入图片描述

二、官网API

官网API

class sklearn.svm.SVC(*, C=1.0, kernel='rbf', degree=3, gamma='scale', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape='ovr', break_ties=False, random_state=None)

SVC(random_state=42)

⑥最终构建模型

SVC(C=3.0,kernel=‘sigmoid’,gamma=‘auto’,random_state=42)

三、代码实现

①导包

这里需要评估、训练、保存和加载模型，以下是一些必要的包，若导入过程报错，pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个，csv格式即可，我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X，最后一列是因变量Y

常用的划分数据集函数官网API：train_test_split
在这里插入图片描述
test_size：测试集数据所占比例
train_size：训练集数据所占比例
random_state：随机种子
shuffle：是否将数据进行打乱
因为我这里的数据集共48个，训练集0.75，测试集0.25，即训练集36个，测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建SVC模型

参数可以自己去尝试设置调整

svc = SVC(C=3.0,kernel='sigmoid',gamma='auto',random_state=42)

⑤模型训练

就这么简单，一个fit函数就可以实现模型训练

svc.fit(X_train,y_train)

⑥模型评估

把测试集扔进去，得到预测的测试结果

y_pred = svc.predict(X_test)

看看预测结果和实际测试集结果是否一致，一致为1否则为0，取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy)

也可以通过score得分进行评估，计算的结果和思路都是一样的，都是看所有的数据集中模型猜对的概率，只不过这个score函数已经封装好了，当然传入的参数也不一样，需要导入accuracy_score才行，from sklearn.metrics import accuracy_score

score = svc.score(X_test,y_test)#得分
print(score)

⑦模型测试

拿到一条数据，使用训练好的模型进行评估
这里是六个自变量，我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果，prediction = svc.predict(test)
看下预测结果是多少，是否和正确结果相同，print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = svc.predict(test)
print(prediction) #[2]

⑧保存模型

svc是模型名称，需要对应一致
后面的参数是保存模型的路径

joblib.dump(svc, './svc.model')#保存模型

⑨加载和使用模型

svc_yy = joblib.load('./svc.model')

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = svc_yy.predict(test)#带入数据，预测一下
print(prediction) #[4]

完整代码

模型训练和评估，不包含⑦⑧⑨。

from sklearn.svm import SVC
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

fiber = pd.read_csv("./fiber.csv")
# 划分自变量和因变量
X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']
#划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

svc = SVC(C=3.0,kernel='sigmoid',gamma='auto',random_state=42)
svc.fit(X_train,y_train)#模型拟合
y_pred = svc.predict(X_test)#模型预测结果
accuracy = np.mean(y_pred==y_test)#准确度
score = svc.score(X_test,y_test)#得分
print(accuracy)
print(score)

test = np.array([[23,97215.5,22795.5,2613.09,29.72,1786141.62]])#随便找的一条数据
prediction = svc.predict(test)#带入数据，预测一下
print(prediction)

三、支持向量机算法(SVC，Support Vector Classification)（有监督学习）

一、算法思路

二、官网API

①正则化参数C

使用方式

②核函数kernel

使用方式

③多项式核函数的阶数degree

使用方式

④核系数gamma

使用方式

⑤随机种子random_state

使用方式

⑥最终构建模型

三、代码实现

①导包

②加载数据集

③划分数据集

④构建SVC模型

⑤模型训练

⑥模型评估

⑦模型测试

⑧保存模型

⑨加载和使用模型

完整代码

更多推荐

热文推荐