Derin Üretici Görüntü Modellerinin Geometrisi ve Uygulamaları

GAN gizli uzaylarını Riemann metriği ile analiz eden geometrik bir çerçeve sunarak yorumlanabilir eksen keşfi ve verimli optimizasyon sağlar.
diyshow.org | PDF Size: 18.6 MB
Derin Üretici Görüntü Modellerinin Geometrisi ve Uygulamaları

Derin Üretici Görüntü Modellerinin Geometrisi ve Uygulamaları

Binxu Wang & Carlos R. Ponce | Washington Üniversitesi St Louis Nörobilim Bölümü

ICLR 2021 konferans bildirisi olarak yayınlanmıştır

Özet

Üretici çekişmeli ağlar (GAN'lar), doğal görüntüler gibi gerçek dünya veri setlerinin istatistiksel kalıplarını modellemek için güçlü bir denetimsiz yöntem olarak ortaya çıkmıştır. Bu ağlar, gizli uzaylarındaki rastgele girdileri öğrenilen verileri temsil eden yeni örneklere eşlemek üzere eğitilir. Ancak, gizli uzayın yapısı yüksek boyutluluğu ve üreticinin doğrusal olmaması nedeniyle sezilmesi zordur, bu da modellerin kullanışlılığını sınırlar.

Gizli uzayı anlamak, mevcut gerçek dünya görüntüleri için girdi kodlarını belirleme (ters çevirme) ve bilinen görüntü dönüşümlerine sahip yönleri tanımlama (yorumlanabilirlik) yöntemi gerektirir. Burada, her iki sorunu da aynı anda ele almak için geometrik bir çerçeve kullanıyoruz. GAN'lar tarafından oluşturulan görüntü manifoldunun Riemann metriğini hesaplamak için mimariden bağımsız bir yöntem geliştirdik. Metrik özayrışımı, farklı görüntü değişkenlik seviyelerini açıklayan eksenleri izole eder.

Birkaç önceden eğitilmiş GAN'ın ampirik analizi, her konum etrafındaki görüntü değişiminin şaşırtıcı derecede az sayıda ana eksen boyunca yoğunlaştığını (uzay oldukça anizotropiktir) ve bu büyük değişimi yaratan yönlerin uzaydaki farklı konumlarda benzer olduğunu (uzay homojendir) göstermektedir. En üst özvektörlerin birçoğunun görüntü uzayında yorumlanabilir dönüşümlere karşılık geldiğini, özuzayın önemli bir kısmının sıkıştırılarak çıkarılabilecek küçük dönüşümlere karşılık geldiğini gösteriyoruz.

Bu geometrik anlayış, GAN yorumlanabilirliği ile ilgili önceki temel sonuçları birleştirmektedir. Bu metriğin kullanımının gizli uzayda daha verimli optimizasyona (örn. GAN ters çevirme) olanak sağladığını ve yorumlanabilir eksenlerin denetimsiz keşfini kolaylaştırdığını gösteriyoruz. Sonuçlarımız, GAN görüntü manifoldunun geometrisini tanımlamanın GAN'ları anlamak için genel bir çerçeve olarak hizmet edebileceğini göstermektedir.

Giriş

Derin üretici modeller, özellikle Üretici Çekişmeli Ağlar (GAN'lar), son derece gerçekçi ve çeşitli görüntüler oluşturmayı mümkün kılarak denetimsiz öğrenme alanında devrim yaratmıştır. Foto-gerçekçi örnekler üretmedeki dikkat çekici başarılarına rağmen, gizli uzaylarının altında yatan yapı hala yeterince anlaşılamamıştır. Bu uzayların yüksek boyutlu, doğrusal olmayan doğası, yorumlama ve pratik uygulama için önemli zorluklar sunmaktadır.

Bu makale, GAN'ların gizli uzaylarını analiz etmek ve anlamak için geometrik bir bakış açısı sunmaktadır. Üreticiyi gizli uzaydan görüntü uzayına düzgün bir eşleme olarak ele alarak, ortaya çıkan görüntü manifoldunun yapısını karakterize etmek için Riemann geometrisinden araçlar uygulayabiliriz. Bu yaklaşım, GAN araştırmasındaki iki temel zorluğu ele almak için birleşik bir çerçeve sağlar: gizli uzay ters çevirme (gerçek görüntüler için kod bulma) ve yorumlanabilirlik (gizli uzayda anlamlı yönler belirleme).

Çalışmamız, GAN manifoldunun Riemann metriğinin, hem teorik anlayış hem de üretici modellerin pratik uygulamaları için doğrudan çıkarımları olan anizotropi ve homojenlik dahil olmak üzere geometrisi hakkında çok önemli özellikleri ortaya çıkardığını göstermektedir.

Arka Plan

Üretici çekişmeli ağlar, karmaşık veri setlerini karakterize eden kalıpları öğrenir ve daha sonra bu seti temsil eden yeni örnekler üretir. Son yıllarda, yüksek çözünürlüklü ve foto-gerçekçi görüntüler oluşturmak için GAN'ları eğitmede büyük başarı elde edilmiştir. İyi eğitilmiş GAN'lar, gizli girdi uzaylarında enterpolasyon yapıldığında görüntü çıktıları arasında düzgün geçişler gösterir, bu da onları üst düzey görüntü düzenleme (yüz özniteliklerini değiştirme), nesne