生成对抗网络GAN（五）WGAN(Wasserstein GAN)及其改进

由fGAN结论：不只是JS Div,任何的Div（统称为f-Div）都可以被放到GANs架构中，引出WGAN。

该论文介绍了一种新的算法，它是传统GAN训练的一种替代。在这个新的模型中，证明了可以提高学习的稳定性，摆脱像模式崩溃这样的问题，并且提供了对调试和超参数搜索有用的有意义的学习曲线。供了大量的理论工作，强调了分布之间的深度联系。

论文阐述了JS散度的缺陷，大多数情况下，P_G与P_Data并不会重叠(overlapped)，原因：

论文提出了Wasserstein距离解决以上问题，对于离散的概率分布，Wasserstein距离又称为推土机距离(Earth Mover’s Distance ,EMD)。

当下图的左边想要移动为右边一样的分布时，

可以采用这样的策略(moving plan)：

甚至这样：

穷举所有解，求Best moving plan。将Best moving plan问题转化：P移动到Q的数量可以看作矩阵(Matrix)，Best moving plan转化为求最优矩阵的问题。

WGAN基于GAN模型，在计算????_???? 与 ????_???????????????? 的距离时，用Wasserstein距离代替了JS散度，实现了小步伐迭代更新权重参数。

在WGAN中clip函数用于限制判别器，使之收敛于1-Lipschitz.

但WGAN并没有做到，而是使用标量c控制。 WGAN-GP添加gradient penalty梯度惩罚使之收敛于1-Lipschitz。

展开阅读全文