深度生成式图像模型的几何原理及其应用

基于黎曼几何的GAN隐空间分析框架,实现可解释轴发现与生成模型高效优化
diyshow.org | PDF Size: 18.6 MB
深度生成式图像模型的几何原理及其应用

深度生成式图像模型的几何原理及其应用

王彬旭 & Carlos R. Ponce | 圣路易斯华盛顿大学神经科学系

发表于ICLR 2021会议论文

摘要

生成对抗网络(GAN)已成为建模真实世界数据集(如自然图像)统计规律的强大无监督方法。这些网络经过训练,能够将隐空间中的随机输入映射为代表学习数据的新样本。然而,由于隐空间的高维特性和生成器的非线性,其结构难以直观理解,这限制了模型的实际应用价值。

理解隐空间需要解决两个关键问题:为现有真实图像寻找对应输入编码(逆向映射),以及识别具有已知图像变换意义的方向(可解释性)。本文采用几何框架同步解决这两个问题。我们提出了一种与架构无关的方法,用于计算GAN所创建图像流形的黎曼度规。通过对度规进行特征分解,可以分离出表征不同层次图像变异度的坐标轴。

对多个预训练GAN的实证分析表明,每个位置周围的图像变异集中在极少数主要轴上(空间呈现高度各向异性),且产生这种显著变异的方向在空间不同位置具有相似性(空间呈现均匀性)。我们发现多数主要特征向量对应于图像空间中的可解释变换,而特征空间的相当部分对应次要变换,这些次要变换可以被压缩剔除。

这种几何理解统一了先前关于GAN可解释性的关键研究成果。我们证明使用该度规可以在隐空间中实现更高效的优化(如GAN逆向映射),并促进可解释轴的无监督发现。我们的研究结果表明,定义GAN图像流形的几何结构可作为理解GAN的通用框架。

引言

深度生成模型,特别是生成对抗网络(GAN),通过生成高度逼真且多样化的图像,彻底改变了无监督学习领域。尽管在生成逼真样本方面取得了显著成功,但其隐空间的底层结构仍未被充分理解。这些空间的高维和非线性特性给解释和实际应用带来了重大挑战。

本文引入几何视角来分析和理解GAN的隐空间。通过将生成器视为从隐空间到图像空间的平滑映射,我们可以应用黎曼几何工具来刻画所得图像流形的结构。该方法为解决GAN研究中的两个基本挑战提供了统一框架:隐空间逆向映射(为真实图像寻找编码)和可解释性(识别隐空间中有意义的方向)。

我们的工作证明,GAN流形的黎曼度规揭示了其几何结构的关键特性,包括各向异性和均匀性,这些发现对生成模型的理论理解和实际应用具有直接意义。

研究背景

生成对抗网络通过学习复杂数据集的表征模式,进而生成代表该数据集的新样本。近年来,在训练GAN生成高分辨率和逼真图像方面取得了巨大成功。训练良好的GAN在隐输入空间进行插值时,图像输出之间呈现平滑过渡,这使得它们在高级图像编辑(如改变人脸属性)、对象识别等应用中具有重要价值。