Geometri Model Penjana Imej Deep Learning dan Aplikasinya

Kerangka geometri untuk menganalisis ruang laten GAN menggunakan metrik Riemann, membolehkan penemuan paksi boleh tafsir dan pengoptimuman cekap dalam model penjana.
diyshow.org | PDF Size: 18.6 MB
Geometri Model Penjana Imej Deep Learning dan Aplikasinya

Geometri Model Penjana Imej Deep Learning dan Aplikasinya

Binxu Wang & Carlos R. Ponce | Jabatan Neurosains, Universiti Washington di St Louis

Diterbitkan sebagai kertas persidangan di ICLR 2021

Abstrak

Rangkaian Adversarial Penjana (GAN) telah muncul sebagai kaedah tanpa penyeliaan yang berkuasa untuk memodelkan corak statistik set data dunia sebenar, seperti imej semula jadi. Rangkaian ini dilatih untuk memetakan input rawak dalam ruang laten mereka kepada sampel baru yang mewakili data yang dipelajari. Walau bagaimanapun, struktur ruang laten sukar untuk diintuisikan kerana dimensinya yang tinggi dan ketidaklinearan penjana, yang mengehadkan kegunaan model.

Memahami ruang laten memerlukan cara untuk mengenal pasti kod input untuk imej dunia sebenar sedia ada (penyongsangan), dan cara untuk mengenal pasti arah dengan transformasi imej yang diketahui (kebolehtafsiran). Di sini, kami menggunakan kerangka geometri untuk menangani kedua-dua isu secara serentak. Kami membangunkan kaedah bebas seni bina untuk mengira metrik Riemann manifold imej yang dicipta oleh GAN. Penguraian eigen metrik tersebut mengasingkan paksi yang menyumbang kepada tahap kebolehubahan imej yang berbeza.

Analisis empirikal beberapa GAN yang telah dilatih pra menunjukkan bahawa variasi imej di sekitar setiap kedudukan tertumpu sepanjang beberapa paksi utama yang mengejutkan (ruang sangat anisotropik) dan arah yang mencipta variasi besar ini adalah serupa di kedudukan berbeza dalam ruang (ruang adalah homogen). Kami menunjukkan bahawa banyak vektor eigen teratas sepadan dengan transformasi boleh tafsir dalam ruang imej, dengan sebahagian besar ruang eigen sepadan dengan transformasi minor yang boleh dimampatkan.

Pemahaman geometri ini menyatukan keputusan utama sebelumnya yang berkaitan dengan kebolehtafsiran GAN. Kami menunjukkan bahawa penggunaan metrik ini membolehkan pengoptimuman yang lebih cekap dalam ruang laten (contohnya penyongsangan GAN) dan memudahkan penemuan tanpa penyeliaan paksi boleh tafsir. Keputusan kami menggambarkan bahawa mentakrifkan geometri manifold imej GAN boleh berfungsi sebagai kerangka umum untuk memahami GAN.

Pengenalan

Model penjana deep learning, terutamanya Rangkaian Adversarial Penjana (GAN), telah merevolusikan bidang pembelajaran tanpa penyeliaan dengan membolehkan penjanaan imej yang sangat realistik dan pelbagai. Walaupun kejayaan luar biasa mereka dalam menghasilkan sampel fotorealistik, struktur asas ruang laten mereka masih kurang difahami. Sifat ruang ini yang berdimensi tinggi dan tidak linear memberikan cabaran signifikan untuk tafsiran dan aplikasi praktikal.

Kertas kerja ini memperkenalkan perspektif geometri untuk menganalisis dan memahami ruang laten GAN. Dengan memperlakukan penjana sebagai pemetaan licin dari ruang laten ke ruang imej, kami boleh menggunakan alat dari geometri Riemann untuk mencirikan struktur manifold imej yang terhasil. Pendekatan ini menyediakan kerangka bersepadu untuk menangani dua cabaran asas dalam penyelidikan GAN: penyongsangan ruang laten (mencari kod untuk imej sebenar) dan kebolehtafsiran (mengenal pasti arah bermakna dalam ruang laten).

Kerja kami menunjukkan bahawa metrik Riemann manifold GAN mendedahkan sifat penting tentang geometrinya, termasuk anisotropi dan homogeniti, yang mempunyai implikasi langsung untuk kedua-dua pemahaman teori dan aplikasi praktikal model penjana.

Latar Belakang

Rangkaian adversarial penjana mempelajari corak yang mencirikan set data kompleks dan seterusnya menjana sampel baru yang mewakili set tersebut. Dalam tahun-tahun kebelakangan ini, terdapat kejayaan besar dalam melatih GAN untuk menjana imej beresolusi tinggi dan fotorealistik. GAN yang dilatih dengan baik menunjukkan peralihan lancar antara output imej apabila menginterpolasi dalam ruang input laten mereka, yang menjadikannya berguna dalam aplikasi seperti penyuntingan imej peringkat tinggi (menukar atribut muka), objek s