深度生成圖像模型嘅幾何結構同應用
Binxu Wang & Carlos R. Ponce | 聖路易斯華盛頓大學神經科學系
發表於ICLR 2021會議論文
摘要
生成對抗網絡(GAN)已經成為一種強大嘅無監督方法,用嚟模擬真實世界數據集(例如自然圖像)嘅統計模式。呢啲網絡經過訓練,可以將潛空間中嘅隨機輸入映射到代表學習數據嘅新樣本。然而,由於潛空間嘅高維度同生成器嘅非線性特性,其結構好難直觀理解,限制咗模型嘅實用性。
理解潛空間需要一種方法嚟識別現有真實世界圖像嘅輸入代碼(反演),同埋一種方法嚟識別具有已知圖像變換嘅方向(可解釋性)。本文採用幾何框架同時解決呢兩個問題。我哋開發咗一種與架構無關嘅方法,用嚟計算GAN創建嘅圖像流形嘅黎曼度量。度量嘅特徵分解可以分離出解釋唔同層次圖像變異性嘅軸向。
對多個預訓練GAN嘅實證分析顯示,每個位置周圍嘅圖像變異集中喺驚人地少數主要軸向上(空間具有高度各向異性),而且產生呢種大變異嘅方向喺空間唔同位置都相似(空間具有均勻性)。我哋發現好多頂部特徵向量對應於圖像空間中可解釋嘅變換,而特徵空間嘅相當一部分對應於可以壓縮嘅次要變換。
呢種幾何理解統一咗之前關於GAN可解釋性嘅關鍵結果。我哋證明使用呢種度量可以實現潛空間中更高效嘅優化(例如GAN反演),並促進可解釋軸向嘅無監督發現。我哋嘅結果說明,定義GAN圖像流形嘅幾何結構可以作為理解GAN嘅通用框架。
引言
深度生成模型,特別係生成對抗網絡(GAN),通過生成高度逼真同多樣化嘅圖像,徹底改變咗無監督學習領域。儘管佢哋喺生成逼真樣本方面取得顯著成功,但其潛空間嘅底層結構仍然未被充分理解。呢啲空間嘅高維度同非線性特性為解釋同實際應用帶嚟重大挑戰。
本文引入幾何視角嚟分析同理解GAN嘅潛空間。通過將生成器視為從潛空間到圖像空間嘅平滑映射,我哋可以應用黎曼幾何工具嚟描述結果圖像流形嘅結構。呢種方法為解決GAN研究中嘅兩個基本挑戰提供統一框架:潛空間反演(尋找真實圖像嘅代碼)同可解釋性(識別潛空間中有意義嘅方向)。
我哋嘅工作證明,GAN流形嘅黎曼度量揭示咗其幾何結構嘅關鍵特性,包括各向異性同均勻性,呢啲特性對生成模型嘅理論理解同實際應用都有直接意義。
背景知識
生成對抗網絡學習表徵複雜數據集嘅模式,隨後生成代表該集合嘅新樣本。近年嚟,訓練GAN生成高分辨率同逼真圖像取得巨大成功。訓練良好嘅GAN喺其潛輸入空間中進行插值時,顯示出圖像輸出之間嘅平滑過渡,使佢哋喺高級圖像編輯(改變面部屬性)、對象識別等應用中非常有用。