人工智能安全-2-非平衡数据处理(2)

5 算法层面

代价敏感：设置损失函数的权重，使得少数类判别错误的损失大于多数类判别错误的损失；
单类分类器方法：仅对少数类进行训练，例如运用SVM算法；
集成学习方法：即多个分类器，然后利用投票或者组合得到结果。

6 代价敏感算法

6.1 相关问题

经典分类方法一般假设各个类别的错分代价是相同的，并且以全局错分率最低为优化目标。
以入侵检测为例，“将入侵行为判别为正常行为的代价”与“将正常行为判别为入侵行为的代价”是不同的，前者会引起安全问题，后者只是影响了正常行为。

基于代价敏感学习分类方法以分类错误总代价最低为优化目标，能更加关注错误代价较高类别的样本，使得分类性能更加合理。

实现方法：

改变原始的数据分布来得到代价敏感的模型；
对分类的结果进行调整，以达到最小损失的目的；
直接构造一个代价敏感的学习模型。

代价矩阵：
在这里插入图片描述

错误分类造成的代价要大于正确分类所需要的代价，即 $C_{10} > C_{11}$ 、 $C_{01} > C_{00}$ ，通常情况下，可以设置 $C_{11} = C_{00} = 0$ ， $C_{10}$ 和 $C_{01}$ 设置一个大于0的值；
在非平衡分类的代价敏感学习中，为了提高少数类样本的识别准确率，少数类的错分代价应当大于多数类的错分代价，假设这里的正类（1）是少数类，负类(0）是多数类，那么要求 $C_{10} > C_{01}$ 。

6.2 MetaCost算法(bagging)

在这里插入图片描述
具体步骤如下：

在训练集中多次取样，生成多个模型；
根据多个模型，得到训练集中每个样本属于每个类别的概率 $P(j|x_i)$ ；
计算训练集中每个样本属于每个类的代价 $R(x_i)$ ，根据最小代价，修改类标签；
训练修改过的数据集，得到新的模型。

6.3 代价敏感SVM

对SVM进行代价敏感学习改造的关键在于其惩罚因子 $C$ ，该参数的作用是表征每个样本在分类器构造过程中的重要程度。如果分类器认为某个样本对于其分类性能很重要，那么可以设置较大的值；反之，就设置较小的值。一般情况下， $C$ 的值不能太大，也不能太小。根据这个原理，对于不平衡分类而言，少数类样本应当具有更大的惩罚值，表示这些样本在决定分类器参数时很重要。因此，应用于非平衡数据分类，对SVM的最简单、最常见的扩展就是根据每个类别的重要性用 $C$ 值进行加权。权重的值可以根据类之间的不平衡比或单个实例复杂性因素来给出。

对于一个给定的训练数据集 $x_1，y_1，)，…，(x_n，y_n))$ ，标准的非代价敏感支持向量机学习出一个决策边界：
$f(x)=w^{T} \phi(x)+b$
普通SVM：
$\begin{array}{cl} \min _{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum_{i} \xi_{i} \\ \text { s.t. } & y_{i}\left(w^{T} x_{i}+b\right) \geq 1-\xi_{i} \end{array}$

偏置惩罚支持向量机(BP-SVM)：
$\begin{array}{ll} \min _{w, b, \xi} & \frac{1}{2}\|w\|^2+C\left[C_{+} \sum_{i \in S_{+}} \xi_i+C_{-} \sum_{i \in S_{-}} \xi_i\right] \\ \text { s.t. } & y_i\left(w^T x_i+b\right) \geq 1-\xi_i \end{array}$
代价敏感教练损失支持向量机(CSHL-SVM)：
$\begin{array}{ll} \min _{w, b, \xi} & \frac{1}{2}\|w\|^2+C\left[\beta \sum_{i \in S_{+}} \xi_i+\lambda \sum_{i \in S_{-}} \xi_i\right] \\ \text { s.t. } & y_i\left(w^T x_i+b\right) \geq 1-\xi_i, \quad i \in S_{+} \\ & y_i\left(w^T x_i+b\right) \geq \kappa-\xi_i, \quad i \in S_{-} \end{array}$

7 单分类器方法

密度估计法
基于聚类的方法
基于支持域的方法

7.1 SVM

单类支持向量机(OneclassSVM)
支持向量数据描述（Support Vector Data Description，SVDD）
在这里插入图片描述
当多数类中存在明显簇结构时，使用聚类方法获得聚类结构有利于提高多数类轮廓描述的精度。

8 集成学习的方法

典型的集成学习方法有

Bagging
Boosting
Stacking
SMOTEBagging
SMOTEBoost

8.1 Bagging

Over Bagging：每次迭代时应用随机过采样在小类数据
Under Bagging：每次迭代时应用随机下采样在大类数据
SMOTEBagging：结合了SMOTE与bagging,先使用SMOTE生成更加全面的小类数据，然后应用bagging
Asymmetric bagging：每次迭代时，全部小类数据保留，从大类数据中分离一个与小类数据一样大的子集

8.2 Boosting

SMOTEBoost : 结合了SMOTE方法代替简单的增加小类观察点的权重
BalanceCascade : 是典型的双重集成算法，采用Bagging作为基本的集成学习方法，并在训练每个Boostrap数据时，使用AdaBoost作为分类算法。