机器学习(17)---支持向量机(SVM)

2023-09-20 17:06:31


一、概述

1.1 介绍

 1. 支持向量机(SVM,也称为支持向量网络),最擅长分类问题。

在这里插入图片描述

 2.(1)从实际应用来看,SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛,在文本和超文本的分类中举足轻重,因为SVM可以大量减少标准归纳(standard inductive)和转换设置(transductivesettings)中对标记训练实例的需求。 (2)从学术的角度来看,SVM是最接近深度学习的机器学习算法。线性SVM可以看成是神经网络的单个神经元(虽然损失函数与神经网络不同),非线性的SVM则与两层的神经网络相当,非线性的SVM中如果添加多个核函数,则可以模仿多层的神经网络。

1.2 工作原理

 1. 超平面:在几何中,超平面是一个空间的子空间,它是维度比所在空间小一维的空间。 如果数据空间本身是三维的,则其超平面是二维平面;而如果数据空间本身是二维的,则其超平面是一维的直线。在二分类问题中,如果一个超平面能够将数据划分为两个集合,其中每个集合中包含单独的一个类别,我们就说这个超平面是数据的“决策边界”。

 2. 先来看看下面这一组数据的分布,这是一组两种标签的数据,两种标签分别由圆和方块代表。支持向量机的分类方法,是在这组分布中找出一个超平面作为决策边界,使模型在数据上的分类误差尽量接近于小,尤其是在未知数据集上的分类误差(泛化误差)尽量小。

在这里插入图片描述

 3. 决策边界一侧的所有点在分类为属于一个类,而另一侧的所有点分类属于另一个类。如果我们能够找出决策边界,分类问题就可以变成探讨每个样本对于决策边界而言的相对位置。比如上面的数据分布,我们很容易就可以在方块和圆的中间画出一条线,并让所有落在直线左边的样本被分类为方块,在直线右边的样本被分类为圆。如果把数据当作我们的训练集,只要直线的一边只有一种类型的数据,就没有分类错误,我们的训练误差就会为0。

 4. 但是,对于一个数据集来说,让训练误差为0的决策边界可以有无数条。在此基础上,我们无法保证这条决策边界在未知数据集(测试集)上的表现也会优秀。对于现有的数据集来说,我们有B1和B2两条可能的决策边界。我们可以把决策边界B1向两边平移,直到碰到离这条决策边界最近的方块和圆圈后停下,形成两个新的超平面,分别是b11和b12。并且我们将原始的决策边界移动到b11和b12的中间,确保B1到b11和b12的距离相等。在b11和b12中间的距离,叫做 这条决策边界的边际(margin),通常记作d。
 对B2也执行同样的操作,然后我们来对比一下两个决策边界。现在两条决策边界右边的数据都被判断为圆,左边的数据都被判断为方块,两条决策边界在现在的数据集上的训练误差都是0,没有一个样本被分错。

在这里插入图片描述

 5. 我们引入和原本的数据集相同分布的测试样本(红色所示),平面中的样本变多了,此时我们可以发现,对于B1而言,依然没有一个样本被分错,这条决策边界上的泛化误差也是0。但是对于B2而言,却有三个方块被误分类成了圆,二有两个圆被误分类成了方块,这条决策边界上的泛化误差就远远大于B1了。这个例子表现出,拥有更大边际的决策边界在分类中的泛化误差更小,这一点可以由结构风险最小化定律来证明(SRM)。如果边际很小,则任何轻微扰动都会对决策边界的分类产生很大的影响。边际很小的情况,是一种模型在训练集上表现很好,却在测试集上表现糟糕的情况,所以会“过拟合”。所以我们在找寻决策边界的时候,希望边际越大越好。

在这里插入图片描述

 6. 支持向量机,就是通过找出边际最大的决策边界,来对数据进行分类的分类器。也因此,支持向量分类器又叫做最大边际分类器。这个过程在二维平面中看起来十分简单,但将上述过程使用数学表达出来,就不是一件简单的事情了。

1.3 三层理解

在这里插入图片描述

二、sklearn.svm.SVC

2.1 查看数据集

from sklearn.datasets import make_blobs   #生成聚类数据集
from sklearn.svm import SVC
import matplotlib.pyplot as plt
import numpy as np

x,y=make_blobs(n_samples=100,centers=2,random_state=0,cluster_std=0.6)
plt.scatter(x[:,0],x[:,1],c=y,s=50,cmap='rainbow')
plt.show()

在这里插入图片描述

2.2 contour函数

 1. 函数:matplotlib.axes.Axes.contour([X, Y,] Z, [levels], **kwargs)

 2. Contour是我们专门用来绘制等高线的函数。等高线,本质上是在二维图像上表现三维图像的一种形式,其中两维X和Y是两条坐标轴上的取值,而Z表示高度。Contour就是将由X和Y构成平面上的所有点中,高度一致的点连接成线段的函数,在同一条等高线上的点一定具有相同的Z值。我们可以利用这个性质来绘制我们的决策边界。

参数含义
X和Y选填。两维平面上所有的点的横纵坐标取值,一般要求是二维结构并且形状需要与Z相同,往往通过numpy.meshgrid()这样的函数来创建。如果X和Y都是一维,则Z的结构必须为(len(Y), len(X))。如果不填写,则默认X = range(Z.shape[1]),Y = range(Z.shape[0])。
Z必填。平面上所有的点所对应的高度。
levels可不填,不填默认显示所有的等高线,填写用于确定等高线的数量和位置。如果填写整数n,则显示n个数据区间,即绘制n+1条等高线。水平高度自动选择。如果填写的是数组或列表,则在指定的高度级别绘制等高线。列表或数组中的值必须按递增顺序排列。

2.3 画决策边界:制作网格

ax = plt.gca()
xlim = ax.get_xlim()  # 返回上面图的x轴的最小值和最大值
ylim = ax.get_ylim()  # 返回上面图的y轴的最小值和最大值

# print(xlim,ylim)    #(-0.7425578984849813, 3.3721920271976598) (-0.41872382476349596, 5.754870487889891)

axisx = np.linspace(xlim[0], xlim[1], 30)  # 根据xlim和ylim绘制网格点
axisy = np.linspace(ylim[0], ylim[1], 30)
print(axisx, axisy)

axisx, axisy = np.meshgrid(axisx, axisy)  # 将axisx和axisy分别向y轴和x轴进行扩充(广播)

xy = np.vstack([axisx.ravel(), axisy.ravel()]).T  # 扩充为30*30的坐标点,后面基于这900个点绘制决策边界

plt.scatter(xy[:, 0], xy[:, 1], s=1, cmap="rainbow")
plt.show()

在这里插入图片描述

2.4 建模画图

clf=SVC(kernel='linear').fit(x,y)                #建模
z=clf.decision_function(xy).reshape(axisx.shape) #每个样本所对应的到决策边界的距离

def plot_svc_decision_funtion(model, ax=None):
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()

    x = np.linspace(xlim[0], xlim[1], 30)
    y = np.linspace(ylim[0], ylim[1], 30)

    y, x = np.meshgrid(y, x)
    xy = np.vstack([x.ravel(), y.ravel()]).T
    P = model.decision_function(xy).reshape(x.shape)

    ax.contour(x, y, P, colors='k',
               levels=[-1, 0, 1],
               alpha=0.5,
               linestyles=['--', '-', '--'])
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)

    plt.show()
plt.scatter(x[:,0],x[:,1],c=y,s=50,cmap='rainbow')
plot_svc_decision_funtion(clf)

在这里插入图片描述

三、非线性情况推广

3.1 查看数据集

from sklearn.datasets import make_circles
from sklearn.svm import SVC
import matplotlib.pyplot as plt
import numpy as np
X,y = make_circles(100, factor=0.1, noise=.1)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plt.show()

在这里插入图片描述

3.2 线性画图

 明显,现在线性SVM已经不适合于我们的状况了,我们无法找出一条直线来划分我们的数据集,让直线的两边分别是两种类别。这个时候,如果我们能够在原本的X和y的基础上,添加一个维度r,变成三维,我们再可视化这个数据,来看看添加维度让我们的数据如何变化。

def plot_svc_decision_function(model, ax=None):
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()

    x = np.linspace(xlim[0], xlim[1], 30)
    y = np.linspace(ylim[0], ylim[1], 30)

    y, x = np.meshgrid(y, x)
    xy = np.vstack([x.ravel(), y.ravel()]).T
    P = model.decision_function(xy).reshape(x.shape)

    ax.contour(x, y, P, colors='k',
               levels=[-1, 0, 1],
               alpha=0.5,
               linestyles=['--', '-', '--'])
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)
    plt.show()
clf = SVC(kernel = "linear").fit(X,y)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plot_svc_decision_function(clf)

在这里插入图片描述

3.3 为非线性数据增加维度并绘制3D图像

r = np.exp(-(X**2).sum(1))
rlim = np.linspace(min(r),max(r),1)
def plot_3D(elev=30,azim=30,X=X,y=y):
    ax = plt.subplot(projection="3d")
    ax.scatter3D(X[:,0],X[:,1],r,c=y,s=50,cmap='rainbow')
    ax.view_init(elev=elev,azim=azim)
    ax.set_xlabel("x")
    ax.set_ylabel("y")
    ax.set_zlabel("r")
    plt.show()

plot_3D()

在这里插入图片描述

四、核函数

 1. 是一种能够使用数据原始空间中的向量计算来表示升维后的空间中的点积结果的数学方式。具体表现为:

在这里插入图片描述

 2. 核函数确保了高维空间中任意两个向量的点积一定可以被低维空间中的这两个向量的某种计算来表示(多数时候是点积的某种变换)。选用不同的核函数,就可以解决不同数据分布下的寻找超平面问题。在SVC中,这个功能由参数“kernel”和一系列与核函数相关的参数来进行控制。之前的代码中我们一直使用这个参数并输入"linear"。参数“kernel"在sklearn中可选以下几种选项:

在这里插入图片描述

 3. 使用其它的核函数画决策边界:

clf = SVC(kernel = "rbf").fit(X,y)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow")
plot_svc_decision_function(clf)

在这里插入图片描述

更多推荐

就只说 3 个 Java 面试题

在面试时,即使是经验丰富的开发人员,也可能会发现这是一些很棘手的问题:1、Java中“transient”关键字的用途是什么?如何才能实现这一目标?在Java中,“transient”关键字用于指示类的特定字段不应包含在对象的序列化形式中。这意味着当对象被序列化时,其状态将转换为可以写入文件或通过网络发送的字节序列。通

Mybatis学习笔记10 高级映射及延迟加载

Mybatis学习笔记9动态SQL_biubiubiu0706的博客-CSDN博客无论简单映射(前面所学的单表和对象之间的映射关系)还是高级映射说到底都是java对象和数据库表记录之间的映射关系准备数据库表:一个班级对应多个学生.班级表:t_class学生表:s_stu(自增)新建模块项目整体结构pom.xml<?xm

深度学习——卷积神经网络

卷积神经网络1计算机视觉(ComputerVision)2边缘检测示例(EdgeDetectionExample)3更多边缘检测内容(MoreEdgeDetectionExample)4Padding5卷积步长(StridedConvolutions)6三维卷积(ConvolutionsOverVolumes)7单层卷

汽油辛烷值的测定 马达法

声明本文是学习GB-T503-2016汽油辛烷值的测定马达法.而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们8试剂和标准物8.1气缸夹套冷却液若实验室所处海拔的水沸点为100℃±1.5℃(212F±3F),应使用水作为气缸夹套冷却液。当实验室海拔高度不确定时,应使用添加商用乙二醇防冻剂的水溶液,加

面向Java开发者的ChatGPT提示词工程(8)

GPT是一种强大的自然语言处理技术,能够对文本进行深入分析,实现多种任务,如提取标签、识别实体、理解情感等。在传统的机器学习工作流程中,若要分析一段文本的情感,首先需要收集带有标签的数据集,然后训练模型,接着探索如何在云端部署模型并进行推断。虽然这种方法可能取得不错的效果,但其工作流程较为繁琐。此外,对于每个任务(如情

ChatGPT扇动翅膀后带来的蝴蝶效应

对于蝴蝶效应最常见的阐述是:“一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。”简介肯尼亚essay正文论文代写之都为什么是肯尼亚?蝴蝶效应简介在印象中贫穷且落后的东非国家肯尼亚,几乎承包了全球的英文essay代写业务。肯尼亚肯尼亚共和国(TheRepublico

面向Java开发者的ChatGPT提示词工程(6)

在使用GPT构建应用程序时,我们通常不会直接使用第一次写的提示词,而是通过不断迭代来改进它们,以找到最适合我们想要实现的任务的提示词。虽然第一次写的提示词可能会有一定的可用性,但最重要的是找到适合你的应用程序的提示词的过程,而不是第一个提示是否有效。因此,我们需要不断地尝试和改进,才能找到最佳的提示词。使用GPT构建应

MySQL基础—从零开始学习MySQL

01.MySQL课程介绍_哔哩哔哩_bilibili1、MySQL安装以管理员身份运行cmdnetstartmysql80netstopmysql80客户端连接1).方式一:使用MySQL提供的客户端命令行工具2).方式二:使用系统自带的命令行工具执行指令mysql[-h127.0.0.1][-P3306]-uroot

PostgreSQL 入门

文章目录PostgreSQL介绍PostgreSQL和MySQL的区别PostgreSQL的安装PostgreSQL的配置远程连接配置配置数据库的日志PostgreSQL基本操作用户操作权限操作图形化界面安装总结PostgreSQL介绍PostgreSQL是一个功能强大的开源的关系型数据库,底层基于C实现。其开源协议和

Java基于SpringBoot的校园疫情防控系统

文章目录第一章2.主要技术第三章第四章系统设计4.1功能结构4.2数据库设计4.2.1数据库E/R图4.2.2数据库表第五章系统功能实现5.1系统功能模块5.2后台功能模块5.2.1管理员功能源码咨询第一章springboot校园疫情防控系统演示录像2022一个好的系统能将校园疫情防控的管理手段提上一个新的台阶。系统内

一键实现冒泡排序算法,代码质量有保障!

近年来,深度学习和神经语言模型作为提高开发人员生产力的手段,尤其是2022年11月30日,ChatGPT这一现象级热点得出横空出世,在全球范围内形成了热烈的讨论,其中关于自动化代码生成和其它软件工程方面受到了极大的关注。软件开发过程涵盖了各种代码生成任务,包括代码自动生成、代码翻译和程序融合。受到预训练神经语言模型在不

热文推荐