深度生成式影像模型的幾何結構及其應用

運用黎曼度規分析GAN潛在空間的幾何框架,實現可解釋軸向發現與生成模型中的高效優化
diyshow.org | PDF Size: 18.6 MB
深度生成式影像模型的幾何結構及其應用

深度生成式影像模型的幾何結構及其應用

王斌旭 & Carlos R. Ponce | 聖路易斯華盛頓大學神經科學系

發表於ICLR 2021會議論文

摘要

生成對抗網路已成為建模真實世界資料集統計模式的強大無監督方法,例如自然影像。這些網路經過訓練,能將其潛在空間中的隨機輸入映射到代表學習資料的新樣本。然而,由於生成器的高維度與非線性特性,潛在空間的結構難以直觀理解,限制了模型的實用性。

理解潛在空間需要兩種能力:識別現有真實影像對應輸入編碼的能力(反演),以及識別具有已知影像轉換方向的能力(可解釋性)。本文採用幾何框架同時解決這兩個問題。我們開發了一種與架構無關的方法,用於計算GAN所創建影像流形的黎曼度規。度規的特徵分解能分離出對應不同層級影像變異性的軸向。

對數個預訓練GAN的實證分析顯示,每個位置周圍的影像變異集中在極少數主要軸向上(空間具有高度各向異性),且產生這種大幅變異的方向在空間中不同位置處極為相似(空間具有均質性)。我們證明許多頂部特徵向量對應於影像空間中可解釋的轉換,而特徵空間的相當部分對應於可被壓縮的次要轉換。

這種幾何理解統一了先前與GAN可解釋性相關的關鍵研究成果。我們證明使用此度規能在潛在空間中實現更高效的優化(例如GAN反演),並促進可解釋軸向的無監督發現。我們的結果說明,定義GAN影像流形的幾何結構可作為理解GAN的通用框架。

緒論

深度生成模型,特別是生成對抗網路,透過實現高度逼真且多樣化影像的生成,徹底改變了無監督學習領域。儘管在產生逼真樣本方面取得顯著成功,但其潛在空間的底層結構仍鮮為人知。這些空間的高維度與非線性特性為解釋與實際應用帶來了重大挑戰。

本文引入幾何視角來分析與理解GAN的潛在空間。透過將生成器視為從潛在空間到影像空間的平滑映射,我們可以應用黎曼幾何工具來表徵所得影像流形的結構。此方法為解決GAN研究中的兩個基本挑戰提供了統一框架:潛在空間反演(尋找真實影像的編碼)與可解釋性(識別潛在空間中的有意義方向)。

我們的研究證明,GAN流形的黎曼度規揭示了其幾何結構的關鍵特性,包括各向異性與均質性,這些特性對生成模型的理論理解與實際應用具有直接影響。

背景知識

生成對抗網路學習表徵複雜資料集的模式,隨後生成代表該集合的新樣本。近年來,在訓練GAN生成高解析度與逼真影像方面取得了巨大成功。經過良好訓練的GAN在其潛在輸入空間進行插值時,顯示出影像輸出間的平滑過渡,這使其在高端影像編輯等應用中非常實用。