A Geometria dos Modelos de Geração de Imagens com Aprendizado Profundo e Suas Aplicações

Um framework geométrico para analisar espaços latentes de GANs usando métricas riemannianas, permitindo descoberta de eixos interpretáveis e otimização eficiente em modelos generativos.
diyshow.org | PDF Size: 18.6 MB
A Geometria dos Modelos de Geração de Imagens com Aprendizado Profundo e Suas Aplicações

A Geometria dos Modelos de Geração de Imagens com Aprendizado Profundo e Suas Aplicações

Binxu Wang & Carlos R. Ponce | Departamento de Neurociência, Universidade de Washington em St Louis

Publicado como artigo de conferência no ICLR 2021

Resumo

As redes adversariais generativas (GANs) emergiram como um método não supervisionado poderoso para modelar os padrões estatísticos de conjuntos de dados do mundo real, como imagens naturais. Essas redes são treinadas para mapear entradas aleatórias em seu espaço latente para novas amostras representativas dos dados aprendidos. No entanto, a estrutura do espaço latente é difícil de intuir devido à sua alta dimensionalidade e à não linearidade do gerador, limitando a utilidade dos modelos.

Compreender o espaço latente requer uma maneira de identificar códigos de entrada para imagens reais existentes (inversão) e uma maneira de identificar direções com transformações de imagem conhecidas (interpretabilidade). Aqui, usamos uma estrutura geométrica para abordar ambas as questões simultaneamente. Desenvolvemos um método independente de arquitetura para calcular a métrica riemanniana da variedade de imagem criada pelas GANs. A decomposição em autovalores da métrica isola eixos que explicam diferentes níveis de variabilidade da imagem.

Uma análise empírica de várias GANs pré-treinadas mostra que a variação da imagem em torno de cada posição está concentrada ao longo de poucos eixos principais (o espaço é altamente anisotrópico) e as direções que criam essa grande variação são semelhantes em diferentes posições no espaço (o espaço é homogêneo). Mostramos que muitos dos principais autovetores correspondem a transformações interpretáveis no espaço da imagem, com uma parte substancial do autoespaço correspondendo a transformações menores que poderiam ser comprimidas.

Esta compreensão geométrica unifica resultados-chave anteriores relacionados à interpretabilidade das GANs. Mostramos que o uso desta métrica permite uma otimização mais eficiente no espaço latente (por exemplo, inversão de GAN) e facilita a descoberta não supervisionada de eixos interpretáveis. Nossos resultados ilustram que definir a geometria da variedade de imagem da GAN pode servir como uma estrutura geral para entender as GANs.

Introdução

Os modelos generativos profundos, particularmente as Redes Adversariais Generativas (GANs), revolucionaram o campo da aprendizagem não supervisionada ao permitir a geração de imagens altamente realistas e diversificadas. Apesar de seu notável sucesso na produção de amostras fotorrealistas, a estrutura subjacente de seus espaços latentes permanece pouco compreendida. A natureza não linear e de alta dimensionalidade desses espaços apresenta desafios significativos para interpretação e aplicação prática.

Este artigo introduz uma perspectiva geométrica para analisar e compreender os espaços latentes das GANs. Ao tratar o gerador como um mapeamento suave do espaço latente para o espaço da imagem, podemos aplicar ferramentas da geometria riemanniana para caracterizar a estrutura da variedade de imagem resultante. Esta abordagem fornece uma estrutura unificada para abordar dois desafios fundamentais na pesquisa de GANs: inversão do espaço latente (encontrar códigos para imagens reais) e interpretabilidade (identificar direções significativas no espaço latente).

Nosso trabalho demonstra que a métrica riemanniana da variedade da GAN revela propriedades cruciais sobre sua geometria, incluindo anisotropia e homogeneidade, que têm implicações diretas tanto para a compreensão teórica quanto para as aplicações práticas dos modelos generativos.

Contexto Teórico

As redes adversariais generativas aprendem padrões que caracterizam conjuntos de dados complexos e subsequentemente geram novas amostras representativas desse conjunto. Nos últimos anos, houve um tremendo sucesso no treinamento de GANs para gerar imagens de alta resolução e fotorrealistas. GANs bem treinadas mostram transições suaves entre saídas de imagem ao interpolar em seu espaço de entrada latente, o que as torna úteis em aplicações como edição de imagem de alto nível (alteração de atributos de rostos), objet