对抗样本和对抗网络_数据增强的方法有哪些

A. GAN的基本介绍和变种

GAN，全称为Generative Adversarial Nets，直译为“生成式对抗网络”。GAN作为生成模型的代表，自2014年被Ian Goodfellow提出后引起了业界的广泛关注并不断涌现出新的改进模型，深度学习泰斗之一的Yann LeCun高度评价GAN是机器学习界近十年来最有意思的想法。

GAN始终存在训练难、稳定性差以及模型崩塌（Model Collapse）等问题。产生这种不匹配的根本原因其实还是对GAN背后产生作用的理论机制没有探索清楚。

在推动GAN应用方面，2017年有两项技术是非常值得关注的。其中一个是CycleGAN，其本质是利用对偶学习并结合GAN机制来优化生成图片的效果的，采取类似思想的包括DualGAN以及DiscoGAN等，包括后续的很多改进模型例如StarGAN等。CycleGAN的重要性主要在于使得GAN系列的模型不再局限于监督学习，它引入了无监督学习的方式，只要准备两个不同领域的图片集合即可，不需要训练模型所需的两个领域的图片一一对应，这样极大扩展了它的使用范围并降低了应用的普及难度。

另外一项值得关注的技术是英伟达采取“渐进式生成”技术路线的GAN方案，这项方案的引人之处在于使得计算机可以生成1024*1024大小的高清图片，它是目前无论图像清晰度还是图片生成质量都达到最好效果的技术，其生成的明星图片几乎可以达到以假乱真的效果（参考图3）。英伟达这项由粗到细，首先生成图像的模糊轮廓，再逐步添加细节的思想其实并非特别新颖的思路，在之前的StackGAN等很多方案都采用了类似思想，它的独特之处在于这种由粗到细的网络结构是动态生成的而非事先固定的静态网络，更关键的是产生的图片效果特别好

首先，有一个一代的 generator，它能生成一些很差的图片，然后有一个一代的 discriminator，它能准确的把生成的图片，和真实的图片分类，简而言之，这个 discriminator 就是一个二分类器，对生成的图片输出 0，对真实的图片输出 1。

接着，开始训练出二代的 generator，它能生成稍好一点的图片，能够让一代的 discriminator 认为这些生成的图片是真实的图片。然后会训练出一个二代的 discriminator，它能准确的识别出真实的图片，和二代 generator 生成的图片。以此类推，会有三代，四代。。。n 代的 generator 和 discriminator，最后 discriminator 无法分辨生成的图片和真实图片，这个网络就拟合了。

对抗样本（adversarial examples）是机器学习模型的输入，攻击者故意设计它们以引起模型出错;它们就像是机器的视觉错觉。

对抗样本指的是一个经过微小调整就可以让机器学习算法输出错误结果的输入样本。在图像识别中，可以理解为原来被一个卷积神经网络（CNN）分类为一个类（比如“熊猫”）的图片，经过非常细微甚至人眼无法察觉的改动后，突然被误分成另一个类（比如“长臂猿”）。

对抗训练

对抗训练是防御对抗样本攻击的一种方法。将对抗样本和正常样本一起训练是一种有效的正则化，可以提高模型的准确度，同时也能有效降低对抗样本的攻击成功率。不过这种防御也只是针对同样用来产生训练集中的对抗样本的方法。

确实在下图中可以看到，训练集是正常样本和对抗样本，测试集是正常样本的红线比训练集和测试集都是正常样本的错误率要降低，说明对抗训练是有正则化的功能。

Figure 9

在训练的时候直接生成对抗样本是比较低效的，之前提到的FGSM是一个高效的对抗训练方法。只需要改变目标函数就能在训练每个正常样本的同时也考虑了对抗样本。模型训练去给对抗样本赋予和正常样本原分类同样的类别。

用经过FGSM训练的网络，可以有效的防御用FGSM产生的对抗样本攻击，但是如果换其他对抗攻击方法，也会被攻破。

对抗样本的工作思路，可以有以下两个方面的意义：

结论

要为集成模型创建对抗样本，因为梯度方法的问题，难度会加大。但是生成的算法更为可行有效。

单个模型出现盲点可以由其他模型弥补，采用的会是输出结果最好的模型数据。

我们发现当我们用动态创建的对抗模型来训练算法时，能够解决这些对抗样本的问题。这是因为当模型面对这些可能出现问题的对抗低概率区域时，可以产生更高的“免疫力”。这同时也支持了低概率区域的论点，在这些区域的对抗样本更难处理。

DCGAN是继GAN之后比较好的改进，其主要的改进主要是在网络结构上，到目前为止，DCGAN的网络结构还是被广泛的使用，DCGAN极大的提升了GAN训练的稳定性以及生成结果质量。

论文的主要贡献是：

◆ 为GAN的训练提供了一个很好的网络拓扑结构。

◆ 表明生成的特征具有向量的计算特性。

D(x)表示D网络判断真实图片是否真实的概率（因为x是真实的，所以对于D来说，这个值越接近1越好）。而D(G(z))D(G(z))是为了D判断G生成的图片是否真实的概率。

G的目的：G应该希望自己生成的图片“越接近真实越好”。也就是说，G希望D(G(z))D(G(z))尽可能得大，这是V(D,G)V(D,G)会变小。

D的目的：D的能力越强，D(x)D(x)应该越大，D(G(x))D(G(x))应该越小。因此D的目的和G不同，D希望V(D,G)V(D,G)越大越好。

DCGAN对卷积神经网络的结构做了一些改变，以提高样本的质量和收敛的速度，这些改变有：

取消所有pooling层。G网络中使用转置卷积（transposed convolutional layer）进行上采样，D网络中用加入stride的卷积代替pooling。

在D和G中均使用batch normalization

去掉FC层，使网络变为全卷积网络

G网络中使用ReLU作为激活函数，最后一层使用tanh

D网络中使用LeakyReLU作为激活函数

DCGAN中的G网络示意：

DCGAN的生成器网络结构如上图所示，相较原始的GAN，DCGAN几乎完全使用了卷积层代替全链接层，判别器几乎是和生成器对称的，从上图中我们可以看到，整个网络没有pooling层和上采样层的存在，实际上是使用了带步长（fractional-strided）的卷积代替了上采样，以增加训练的稳定性。

DCGAN能改进GAN训练稳定的原因主要有：

◆ 使用步长卷积代替上采样层，卷积在提取图像特征上具有很好的作用，并且使用卷积代替全连接层。

◆ 生成器G和判别器D中几乎每一层都使用batchnorm层，将特征层的输出归一化到一起，加速了训练，提升了训练的稳定性。（生成器的最后一层和判别器的第一层不加batchnorm）

◆ 在判别器中使用leakrelu激活函数，而不是RELU，防止梯度稀疏，生成器中仍然采用relu，但是输出层采用tanh

◆ 使用adam优化器训练，并且学习率最好是0.0002，（我也试过其他学习率，不得不说0.0002是表现最好的了）

BigGAN在训练中 Batch 采用了很大的 Batch，已经达到了 2048（我们平常训练 Batch 正常都是 64 居多），在卷积的通道上也是变大了，还有就是网络的参数变多了，在 2048 的 Batch 下整个网络的参数达到了接近 16 亿

B. VAT虚拟对抗训练

参考论文：Graph Adversarial Training: Dynamically Regularizing Based on Graph Structure

功能介绍： 虚拟对抗训练是一种正则化方法，正则化在深度学习中是防止过拟合的一种方法。

关于正则化我就不过多展开，此处可理解为提高泛化能力。

最常见的正则化是直接对模型的参数的大小进行限制。

对抗训练

对抗性训练可以作为一种正则化方法来 提高泛化性能 以及防止深度学习模型过度拟合。

机器学习方法（包括深度学习）对对抗样本非常敏感，这些对抗样本和非对抗样本非常相似，但是模型（已经在非对抗样本中训练好的模型）却会错分这些样本。为了能更好的分类该类样本，提出了对抗训练的概念。

总结为使得训练模型更好的分类对抗样本，对模型进行的训练。

这里不重点展开重点，详情就看我上一篇文章：

神经网络中的对抗攻击与对抗样本

由于本文章是对图对抗训练:基于图结构的动态规则化（GAT）的改进，此处就不详细推导。
GAT详情请看：图对抗训练:基于图结构的动态正则化（GAT）

本篇是在 上一篇的基础上 进行的讨论，本篇将沿用上一篇的符号意义，并且不再说明，如有需要，则在上一篇手写推导标注中查找。

改进之处：

1.局部平滑度

改动： 将损失函数中对于真实标签的分布被替换为当前迭代下的标签预测分布，采用真实分布，具体参数可以进行动态的多次迭代，随着多次迭代，参数数量可以剧增，使得平滑性更好。

2.快速计算对抗方向
采用幂迭代法计算矩阵最大特征值对应的特征向量。

3.增加了额外的正则项
增加条件熵作为额外的正则项，让输出的概率分布更集中，更确定。达到更好的预测效果

数学推导;

C. 智能网联汽车新兴攻击方式有哪些分别有哪些特点

一、基于车辆通信模块信息泄露的远程控制劫持攻击

安全研究人员发现，国内自主品牌汽车大多使用专用apn，通过车内通信模块中的T-box连接与车辆控制相关的TSP后端服务器。通过ISP拉出一条专线，可以在一定程度上保护后端服务器的安全，但也会给后端服务器带来更多的安全隐患。由于专网apn的存在，Tsp不会暴露在公网，导致Tsp安全人员忽略了专网和Tsp本身的安全问题。专网内部没有严格的安全访问控制，T-box过于可信，允许T-box随意访问专网内部资产。同时，许多不必要的基础设施服务也暴露在APN专网中，这将导致更多的安全风险。

D. 神经网络中的对抗攻击与对抗样本

对抗攻击

对抗攻击论文参考：
《Intriguing properties of neural networks》
《神经网络有趣的特性》

《Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey》，以下简称『Survey』。

图片做适当修改后能欺骗深度学习模型的可能性

1.举例理解：

左边是一张能够被GoogLeNet正常分类为熊猫的图片，在添加一定的噪音后变成右图，在人的肉眼看来，它还是熊猫，但GoogLeNet会判定为长臂猿。这种被修改后人类无法明显察觉，却被机器识别错误的数据即为 对抗样本 ，而这整个过程就可以理解为 对抗攻击 。

2.数学理解：
神经网络中每层神经元的输入 a = g(Wx+b)，其中 g 为激活函数，W 为权重参数，x 为上一层的样本数据，b 为偏置参数，那么从拓扑学角度来看，在一个二维平面上，这个过程相当于哪几个步骤呢？
（1）一次使用权重参数矩阵 W 的线性变换
（2）一次使用偏执向量 b 的移动
（3）一次应用非线性激活函数 g 的变换

在 二维平面 ，其实是将整个平面进行了 旋转、移动和拉伸 三步。

分类问题

简单分类问题：通过较少几次变换将问题转换为一条直线可分割的空间。
既是一层神经网络就可以完成分类，通过变换空间布局，最终通过一条直线完成分类。

举例：

简单转换ing........

转换结果看下图

复杂分类问题：通过多几次的转换完成将问题转换为一条直线可分割的空间。
就是多层神经网络完成分类，通过变换空间布局，最终通过一条直线完成分类。

举例：

动态多步转换

以上是从低维度理解神经网络的训练，其中也有难以拉伸的例外，下图所示的圆套圆的情况，就是难以在二维空间将其拉伸到理想的位置的例子。

但，增加神经元，可以在 三维空间 中轻松将其分离。

看！

归纳同样对于复杂问题可以通过，增加神经元在高维度通过更长且复杂的方式解决。

但是例如两个相互套起来的环，按照推测需要在四维空间中才能完全分开，然而我们难以想象四维空间，在现实世界的数据集中，这种死结或者缠绕问题可能会更复杂。

对于神经网络来，可以选择 将打成死结的数据尽可能拉伸开，而不是完全解开 ，如下图，对于分类问题来说，已经具有较高的准确率和召回率。

部分情况下，为了更精确地分类，较宽的神经网络可能相对深度来说更重要。

综上所述
1. 神经网络中包含语义信息的不在每个独立的神经单元，而是整个空间。神经网络在最后一层能将样本中诸多变化的因子理清楚并理解其语义，并不是因为某个独立神经元中包含了什么特定的语义，而是 对整个空间进行变换后从最终的表征层中学到的 ，经过学习，神经网络会 放大某些相关因子，同时缩小某些无关因子 。

2. 神经网络学习到的输入到输出的映射在很大程度上是不连续的。就像上面图中为了解开一个死结所做的拉伸结果一样， 在人看来，在拉伸距离较大的地方我们可以认为这种映射是连续的， 然而 对于仍然缠绕在一起的部分，之前可以用来划分界限的直线或者超平面已经无法连续 。
通过仔细观察可以区分出来，但是上文只是一个简单的例子，现实世界中的真实数据较为复杂，对于肉眼来说可能很难分清楚缠绕在一起的部分。对于神经网络来说， 对抗样本已经严重的跨过了用于分类的界限 ，而对于肉眼其实还 看不出来它有移动。

（）线性特性的攻击行为（）和（）高效制造对抗样本的方法（）

参考论文：
《Explaining and harnessing adversarial examples》
《对抗性例子的解读和掌握》

深度神经网络在高纬空间中的线性特性已经足以产生这种攻击行为 ，并提出了一种 更高效生成对抗样本的方法 ，接下来我们就简单分析一下这一理论和方法。

目前神经网络为了提高训练效率所使用的激活函数在局部都过于线性。
例如：

类比先前举出的拓扑学例子，在 最后的表征层 都是 通过直线或超平面完成的分类 ，在线性的假设下，暂且不通过二维或三维空间来理解，先从一个简单的数学公式角度开始。

数学解释

公式内容解释：
w 是训练好的参数向量
x 表示真实样本数据向量
η 表示给图像加入的噪音向量
x ~表示加入噪音后新生成的样本

当加入足够小的 η 时，肉眼无法区分出 x 的变化，直观感觉上左边的式子可能也不会变化很大。
事实上 ，然而 η 当的方向与 w 完全一致的时候，即使很小，也会使整个激活值变化很大。
假设证明：
如果 w 是一个 n 维向量，而其权值的平均大小为 m，那么激活值将会增加 nm。可见，在一个肉眼几乎无法差觉的扰动干扰下，对神经网络最终激活层的计算会产生巨大的干扰，从而迷惑神经网络训练出来的模型。

寻找正确方向
当 η 与 w 的方向一致时会使激活值最大，那么，如何找到这个正确的方向呢？

结论，那就是损失函数在待构造样本上的梯度方向，即下面的式子。
ε 是一个调节系数
sign() 是一个符号函数，代表的意思也很简单，就是取一个值的符号
（当值大于 0 时取 1，当值等于 0 时取 0，当值小于 0 时取 -1）
▽ 表示求 x 的梯度，可以理解为偏导，
J 是训练模型的损失函数。

结论的由来
在正常的神经网络模型训练过程中，有一个过程叫反向传播，就是对参数求偏导，然后将参数更新，我们结合下面这张图看一下。

假设图中的函数即为 损失函数 ，为了使损失函数降到最低，我们会根据当前值的梯度去调整。
当梯度小于 0 的时候我们可以看出，当前值需要右移。
而当梯度大于 0 的时候，当前值需要左移。
这个过程实际上就是用 θ 减去 θ。扩展到损失函数 J(θ, x, y) 中，θ 即为 我们要调整的参数 ，因此在样本 x 和 y 不改变的情况下，我们会**不断去调整参数 θ **以寻求局部最优解，即 θ = θ - θ 。

生成对抗样本，也可以采用类似的方法，那就是 固定参数 θ，调整 x 同时使损失函数增大 ，而不是变小，此时就应该让 x 往相反的方向走，即 x = x + x ，这样是不是很容易可以理解上面 η 的定义呢？在实践中，我们还需要通过 ε 这个参数来 调节噪音的大小 ，这种方法相比之前提到的优化方法非常高效，基本只需要一次计算就可以找到对抗样本，因此作者将这种方法叫做 快速梯度符号法 （Fast Gradient Sign Method，FGSM）。总结一下FGSM，这种方法通过替换目标值 y 就可以 让攻击样本朝着指定的分类目标走 ，即，可以做任意目标的欺骗。

将线性假设简化到二维空间，我们要求的 η 其方向正好就接近于参数 w 的方向，不再展开说明，有兴趣的读者可以自行画一画。

建立在一个高维空间线性的假设或猜测前提下，需要实验支撑，根据下列图片分析展开。

图片解释

这张图是对数据集CIFAR-10的分类器的决策边界示意图。
其中每个小格子代表的是不同的CIFAR-10样本，
每个小格子中：
横向从左往右代表的是FGSM算法中的梯度方向，
纵向代表的是FGSM梯度方向的正交方向，
白色表示模型能分类正确的情况
彩色代表预测出错的情况
不同的颜色代表不同的错误预测分类。
可以看出，在出错的区域都程线性分布，另外，如果横轴的方向走的不够远，即便再往其他方向走都无法使模型出错，而一单进入这个区域，就会出现大量的对抗样本。而在随机找到的对抗样本中，这种分布也是很随机的，甚至很难找到，见下图。

从实验结果表明
高维空间中的线性假设也是合理的

举例
一匹叫做 Clever Hans 的马，刚出现的时候人们认为这匹马会做算术，但实际上它只是会阅读人的表情，当它点马蹄的次数接近正确答案时，人们的表情会更兴奋，它就知道该这个时候停止了。

隐喻神经网络，一个测试效果良好的分类器，其实并不像人类一样学习到了所分类样本的真正底层概念，只不过刚好构建了一个在训练数据上运行相当良好的模型，所以，你以为你以为的就是你以为的吗？

分类器能够在训练集的不同子集上训练时获得大致相同的分类权重，因为机器学习算法能够泛化，基础分类权重的稳定性反过来又会导致对抗性样本的稳定性。因此， 对抗攻击可以认为是存在于任何神经网络模型。

以上是论文二的线性特性的攻击行为

高效制造对抗样本的方法

目前来看还没有能够完全抵抗这种攻击的方法，其实结合攻击的原理也不难看出，即便分类器做得再好，总能使一个样本用最小的干扰走到错误的分类区域，我们能做的更多是如何构造鲁棒性更强的模型，同时也保持对这个领域的关注。『Survey』（注意第一篇论文的引用有注释）中总结的目前抵御攻击的办法可以分为三大类：

1.修改训练样本 ———— 通过添加更多的对抗样本到训练集中可以有效避免一部分攻击 ，但这更像是一种无奈的做法， 当扩大样本集的时候，其实分类边界有可能也在随之扩大 。

2.修改训练网络 ，这类方法会对训练网络做出一定调整，其中有一种方式是模拟生物学 在最后一层使用更加非线性的激活函数 ，但这种方式又会 导致训练效率和效果下降 。修改训练网络的方法分为 完全抵抗 和 仅检测 两种方式，完全抵抗其实就是让模型能将对抗样本识别为正确的分类，而仅检测是为了发现这种攻击样本，从而拒绝服务。

3.附加网络 ，这种方式是在 不改变原有模型的情况下使用额外的网络进行辅助 ，这样可以使原有网络保持不变，其中最有效的一种方式是生成式对抗网络——GAN。同样的，这种方式也分为 完全抵抗 和 仅检测 两种方式。

总结一下
定义：
对抗样本：是指在数据集中通过故意添加细微的干扰所形成的输入样本，会导致模型以高置信度给出一个错误的输出。
原因分析：
对抗样本出现的主要原因之一是过度线性，神经网络主要是基于线性块构建的，实现的整体函数被证明是高度线性的，如果一个线性函数具有许多输入，那么它的值可以非常迅速地改变。

参考：

E. 数据增强的方法有哪些

1 什么是数据增强？

数据增强也叫数据扩增，意思是在不实质性的增加数据的情况下，让有限的数据产生等价于更多数据的价值。

比如上图，第1列是原图，后面3列是对第1列作一些随机的裁剪、旋转操作得来。

每张图对于网络来说都是不同的输入，加上原图就将数据扩充到原来的10倍。假如我们输入网络的图片的分辨率大小是256×256，若采用随机裁剪成224×224的方式，那么一张图最多可以产生32×32张不同的图，数据量扩充将近1000倍。虽然许多的图相似度太高，实际的效果并不等价，但仅仅是这样简单的一个操作，效果已经非凡了。

如果再辅助其他的数据增强方法，将获得更好的多样性，这就是数据增强的本质。

数据增强可以分为，有监督的数据增强和无监督的数据增强方法。其中有监督的数据增强又可以分为单样本数据增强和多样本数据增强方法，无监督的数据增强分为生成新的数据和学习增强策略两个方向。

2 有监督的数据增强

有监督数据增强，即采用预设的数据变换规则，在已有数据的基础上进行数据的扩增，包含单样本数据增强和多样本数据增强，其中单样本又包括几何操作类，颜色变换类。

2.1. 单样本数据增强

所谓单样本数据增强，即增强一个样本的时候，全部围绕着该样本本身进行操作，包括几何变换类，颜色变换类等。

(1) 几何变换类

几何变换类即对图像进行几何变换，包括翻转，旋转，裁剪，变形，缩放等各类操作，下面展示其中的若干个操作。

水平翻转和垂直翻转

随机旋转

随机裁剪

变形缩放

翻转操作和旋转操作，对于那些对方向不敏感的任务，比如图像分类，都是很常见的操作，在caffe等框架中翻转对应的就是mirror操作。

翻转和旋转不改变图像的大小，而裁剪会改变图像的大小。通常在训练的时候会采用随机裁剪的方法，在测试的时候选择裁剪中间部分或者不裁剪。值得注意的是，在一些竞赛中进行模型测试时，一般都是裁剪输入的多个版本然后将结果进行融合，对预测的改进效果非常明显。

以上操作都不会产生失真，而缩放变形则是失真的。

很多的时候，网络的训练输入大小是固定的，但是数据集中的图像却大小不一，此时就可以选择上面的裁剪成固定大小输入或者缩放到网络的输入大小的方案，后者就会产生失真，通常效果比前者差。

(2) 颜色变换类

上面的几何变换类操作，没有改变图像本身的内容，它可能是选择了图像的一部分或者对像素进行了重分布。如果要改变图像本身的内容，就属于颜色变换类的数据增强了，常见的包括噪声、模糊、颜色变换、擦除、填充等等。

基于噪声的数据增强就是在原来的图片的基础上，随机叠加一些噪声，最常见的做法就是高斯噪声。更复杂一点的就是在面积大小可选定、位置随机的矩形区域上丢弃像素产生黑色矩形块，从而产生一些彩色噪声，以Coarse Dropout方法为代表，甚至还可以对图片上随机选取一块区域并擦除图像信息。

添加Coarse Dropout噪声

颜色变换的另一个重要变换是颜色扰动，就是在某一个颜色空间通过增加或减少某些颜色分量，或者更改颜色通道的顺序。

颜色扰动

还有一些颜色变换，本文就不再详述。

几何变换类，颜色变换类的数据增强方法细致数还有非常多，推荐给大家一个git项目：

https://github.com/aleju/imgaug

预览一下它能完成的数据增强操作吧。

2.2. 多样本数据增强

不同于单样本数据增强，多样本数据增强方法利用多个样本来产生新的样本，下面介绍几种方法。

(1) SMOTE[1]

SMOTE即Synthetic Minority Over-sampling Technique方法，它是通过人工合成新样本来处理样本不平衡问题，从而提升分类器性能。

类不平衡现象是很常见的，它指的是数据集中各类别数量不近似相等。如果样本类别之间相差很大，会影响分类器的分类效果。假设小样本数据数量极少，如仅占总体的1%，则即使小样本被错误地全部识别为大样本，在经验风险最小化策略下的分类器识别准确率仍能达到99%，但由于没有学习到小样本的特征，实际分类效果就会很差。

SMOTE方法是基于插值的方法，它可以为小样本类合成新的样本，主要流程为：

第一步，定义好特征空间，将每个样本对应到特征空间中的某一点，根据样本不平衡比例确定好一个采样倍率N；

第二步，对每一个小样本类样本(x,y)，按欧氏距离找出K个最近邻样本，从中随机选取一个样本点，假设选择的近邻点为(xn,yn)。在特征空间中样本点与最近邻样本点的连线段上随机选取一点作为新样本点，满足以下公式：

第三步，重复以上的步骤，直到大、小样本数量平衡。

该方法的示意图如下。

在python中，SMOTE算法已经封装到了imbalanced-learn库中，如下图为算法实现的数据增强的实例，左图为原始数据特征空间图，右图为SMOTE算法处理后的特征空间图。

(2) SamplePairing[2]

SamplePairing方法的原理非常简单，从训练集中随机抽取两张图片分别经过基础数据增强操作(如随机翻转等)处理后经像素以取平均值的形式叠加合成一个新的样本，标签为原样本标签中的一种。这两张图片甚至不限制为同一类别，这种方法对于医学图像比较有效。

经SamplePairing处理后可使训练集的规模从N扩增到N×N。实验结果表明，因SamplePairing数据增强操作可能引入不同标签的训练样本，导致在各数据集上使用SamplePairing训练的误差明显增加，而在验证集上误差则有较大幅度降低。

尽管SamplePairing思路简单，性能上提升效果可观，符合奥卡姆剃刀原理，但遗憾的是可解释性不强。

(3) mixup[3]

mixup是Facebook人工智能研究院和MIT在“Beyond Empirical Risk Minimization”中提出的基于邻域风险最小化原则的数据增强方法，它使用线性插值得到新样本数据。

令(xn,yn)是插值生成的新数据，(xi,yi)和(xj,yj)是训练集随机选取的两个数据，则数据生成方式如下

λ的取值范围介于0到1。提出mixup方法的作者们做了丰富的实验，实验结果表明可以改进深度学习模型在ImageNet数据集、CIFAR数据集、语音数据集和表格数据集中的泛化误差，降低模型对已损坏标签的记忆，增强模型对对抗样本的鲁棒性和训练生成对抗网络的稳定性。

SMOTE，SamplePairing，mixup三者思路上有相同之处，都是试图将离散样本点连续化来拟合真实样本分布，不过所增加的样本点在特征空间中仍位于已知小样本点所围成的区域内。如果能够在给定范围之外适当插值，也许能实现更好的数据增强效果。

3 无监督的数据增强

无监督的数据增强方法包括两类：

(1) 通过模型学习数据的分布，随机生成与训练数据集分布一致的图片，代表方法GAN[4]。

(2) 通过模型，学习出适合当前任务的数据增强方法，代表方法AutoAugment[5]。

3.1 GAN

关于GAN(generative adversarial networks)，我们已经说的太多了。它包含两个网络，一个是生成网络，一个是对抗网络，基本原理如下：

(1) G是一个生成图片的网络，它接收随机的噪声z，通过噪声生成图片，记做G(z) 。

(2) D是一个判别网络，判别一张图片是不是“真实的”，即是真实的图片，还是由G生成的图片。

GAN的以假乱真能力就不多说了。

2 Autoaugmentation[5]

AutoAugment是Google提出的自动选择最优数据增强方案的研究，这是无监督数据增强的重要研究方向。它的基本思路是使用增强学习从数据本身寻找最佳图像变换策略，对于不同的任务学习不同的增强方法，流程如下：

(1) 准备16个常用的数据增强操作。

(2) 从16个中选择5个操作，随机产生使用该操作的概率和相应的幅度，将其称为一个sub-policy，一共产生5个sub-polices。

(3) 对训练过程中每一个batch的图片，随机采用5个sub-polices操作中的一种。

(4) 通过模型在验证集上的泛化能力来反馈，使用的优化方法是增强学习方法。

(5) 经过80~100个epoch后网络开始学习到有效的sub-policies。

(6) 之后串接这5个sub-policies，然后再进行最后的训练。

总的来说，就是学习已有数据增强的组合策略，对于门牌数字识别等任务，研究表明剪切和平移等几何变换能够获得最佳效果。

F. GAN生成对抗网络(一)

GAN(Generative Adversarial Networks)是两个网络的的组合，一个网络生成模拟数据，另一个网络判断生成的数据是真实的还是模拟的。生成模拟数据的网络要不断优化自己让判别的网络判断不出来，判别的网络也要优化自己让自己判断得更准确。二者关系形成对抗博弈，因此叫 对抗神经网络 （生成对抗网络）。实验证明，利用这种网络间的对抗关系所形成的网络，在无监督及半监督领域取得了很好的效果，可以算是用网络来监督网络的一个自学习过程。在GAN发明之前，变分自编码器被认为是理论完美、实现简单，使用神经网络训练起来很稳定，生成的图片逼近度也较高，但是人类还是可以很轻易地分辨出真实图片与机器生成的图片。

生成对抗网络包含了 2 个子网络：生成网络(Generator， G)和判别网络(Discriminator，D)，其中生成网络负责学习样本的真实分布，判别网络负责将生成网络采样的样本与真实样本区分开来。

生成网络 G(𝐳) 生成网络 G 和自编码器的 Decoder 功能类似，从先验分布中采样隐藏变量，通过生成网络 G 参数化的分布，获得生成样本，如下图所示。其中隐藏变量𝒛的先验分布可以假设属于某中已知的分布，比如多元均匀分布。

可以用深度神经网络来参数化，如下图所示，从均匀分布中采样出隐藏变量𝒛，经过多层转置卷积层网络参数化的分布中采样出样本。

判别网络 D(𝒙) 判别网络和普通的二分类网络功能类似，它接受输入样本𝒙，包含了采样自真实数据分布的样本，也包含了采样自生成网络的假样本，和共同组成了判别网络的训练数据集。判别网络输出为𝒙属于真实样本的概率，我们把所有真实样本的标签标注为1，所有生成网络产生的样本标注为0，通过最小化判别网络预测值与标签之间的误差来优化判别网络参数。

我们的目标很明确，既要不断提升判断器辨别真假图像样本的能力，又要不断提升生成器生成更加逼真的图像，使判别器越来越难判别。
对于判别网络 D ，它的目标是能够很好地分辨出真样本与假样本。即最小化图片的预测值和真实值之间的交叉熵损失函数：

其中代表真实样本在判别网络的输出，为判别网络的参数集，为生成样本在判别网络的输出，为的标签，由于真实样本标注为真，故，为生成样本的的标签，由于生成样本标注为假，故。根据二分类问题的交叉熵损失函数定义:

因此判别网络的优化目标是:

去掉中的负号，把问题转换为问题，并写为期望形式：

对于生成网络G(𝒛) ，我们希望能够很好地骗过判别网络，假样本在判别网络的输出越接近真实的标签越好。也就是说，在训练生成网络时，希望判别网络的输出越逼近 1 越好，此时的交叉熵损失函数：

把问题转换为问题，并写为期望形式：

再等价转化为：

GAN的优化过程不像通常的求损失函数的最小值，而是保持生成与判别两股力量的动态平衡。因此，其训练过程要比一般神经网络难很多。

把判别网络的目标和生成网络的目标合并，写成min-max形式：

原GAN论文中：

这里为了好理解，把各个符号梳理的更清晰了，注意符号和网络参数的对应。
理想情况下 ，会有更精确的鉴别真伪数据的能力，经过大量次数的迭代训练会使尽可能模拟出以假乱真的样本，最终整个GAN会达到所谓的纳什均衡，即对于生成样本和真实样本鉴别结果为正确率和错误率各占50%。下面具体从理论层面来推导。

现在从理论层面进行分析，通过博弈学习的训练方式，生成器 G 和判别器 D 分别会达到什么状态。具体地，来看以下 2 个问题：

首先我们通过一维正态分布的例子给出一个直观的解释，如下图所示，黑色虚线曲线代表了真实数据的分布，为某正态分布，绿色实线代表了生成网络学习到的分布，蓝色虚线代表了判别器的决策边界曲线，图中(a)(b)(c)(d)分别代表了生成网络的学习轨迹。在初始状态，如图 (a)所示，分布与差异较大，判别器可以很轻松地学习到决策边界，即图(a)中的蓝色虚线，将来自的采样点判定为 0，中的采样点判定为 1。随着生成网络的分布越来越逼近真实分布，判别器越来越困难将真假样本区分开，如图 (b)(c)所示。最后，生成网络性能达到最佳，学习到的分布，此时从生成网络中采样的样本非常逼真，判别器无法区分，即判定为真假样本的概率均等，如图(d)所示。

固定生成器G的参数，判别器D最佳能达到的状态：

证明： 对于给定的生成器G，要让判别器D达到最优，我们的目标是最大化损失函数，其积分形式为：

对于给定的，真实分布始终是固定的，所以和都是定值，于是对于判别器D，要找出

的最大值，其中是判别器网络参数，对于函数，不难得到在处取得极大值且是最大值。因此可得的极值点也为

故判别器能达到的最佳状态为定理中给出的式子。

现在考虑第二个问题。
JS 散度(Jensen–Shannon divergence)

对于KL散度，，是不对称的。但JS散度是对称的。

当达到时，考虑此时和的散度：

考虑到判别网络到达时，此时的损失函数为：

于是我们可以得到：

对于生成网络而言，目标是最小化损失函数，由于，因此取得最小值仅在时(此时 )，取得最小值:

此时生成网络达到状态是：

即的学到的分布与真实分布一致，网络达到纳什均衡点，此时：

即对于生成器生成的图像有0.5的概率被判定为真，也有0.5的概率被判定为假。

导航:首页 > 编程大全 > 对抗样本和对抗网络

对抗样本和对抗网络

与对抗样本和对抗网络相关的资料

友情链接