Geometría de Modelos Generativos Profundos de Imágenes y Sus Aplicaciones
Binxu Wang & Carlos R. Ponce | Departamento de Neurociencia, Universidad de Washington en San Luis
Publicado como artículo de conferencia en ICLR 2021
Tabla de Contenidos
Resumen
Las redes generativas adversarias (GAN) han surgido como un método no supervisado potente para modelar los patrones estadísticos de conjuntos de datos del mundo real, como las imágenes naturales. Estas redes se entrenan para mapear entradas aleatorias en su espacio latente a nuevas muestras representativas de los datos aprendidos. Sin embargo, la estructura del espacio latente es difícil de intuir debido a su alta dimensionalidad y la no linealidad del generador, lo que limita la utilidad de los modelos.
Comprender el espacio latente requiere una forma de identificar códigos de entrada para imágenes existentes del mundo real (inversión), y una forma de identificar direcciones con transformaciones de imagen conocidas (interpretabilidad). Aquí, utilizamos un marco geométrico para abordar ambos problemas simultáneamente. Desarrollamos un método independiente de la arquitectura para calcular la métrica riemanniana de la variedad de imagen creada por las GAN. La descomposición en valores propios de la métrica aísla ejes que explican diferentes niveles de variabilidad de imagen.
Un análisis empírico de varias GAN preentrenadas muestra que la variación de imagen alrededor de cada posición se concentra a lo largo de sorprendentemente pocos ejes principales (el espacio es altamente anisótropo) y las direcciones que crean esta gran variación son similares en diferentes posiciones del espacio (el espacio es homogéneo). Demostramos que muchos de los autovectores principales corresponden a transformaciones interpretables en el espacio de imagen, con una parte sustancial del espacio propio correspondiente a transformaciones menores que podrían comprimirse.
Esta comprensión geométrica unifica resultados clave previos relacionados con la interpretabilidad de las GAN. Mostramos que el uso de esta métrica permite una optimización más eficiente en el espacio latente (por ejemplo, inversión de GAN) y facilita el descubrimiento no supervisado de ejes interpretables. Nuestros resultados ilustran que definir la geometría de la variedad de imagen de GAN puede servir como un marco general para comprender las GAN.
Introducción
Los modelos generativos profundos, particularmente las Redes Generativas Adversarias (GAN), han revolucionado el campo del aprendizaje no supervisado al permitir la generación de imágenes altamente realistas y diversas. A pesar de su notable éxito en producir muestras fotorrealistas, la estructura subyacente de sus espacios latentes sigue siendo poco comprendida. La naturaleza no lineal y de alta dimensionalidad de estos espacios presenta desafíos significativos para la interpretación y aplicación práctica.
Este artículo introduce una perspectiva geométrica para analizar y comprender los espacios latentes de las GAN. Al tratar el generador como un mapeo suave del espacio latente al espacio de imagen, podemos aplicar herramientas de la geometría riemanniana para caracterizar la estructura de la variedad de imagen resultante. Este enfoque proporciona un marco unificado para abordar dos desafíos fundamentales en la investigación de GAN: inversión del espacio latente (encontrar códigos para imágenes reales) e interpretabilidad (identificar direcciones significativas en el espacio latente).
Nuestro trabajo demuestra que la métrica riemanniana de la variedad de GAN revela propiedades cruciales sobre su geometría, incluyendo anisotropía y homogeneidad, que tienen implicaciones directas tanto para la comprensión teórica como para las aplicaciones prácticas de los modelos generativos.
Antecedentes
Las redes generativas adversarias aprenden patrones que caracterizan conjuntos de datos complejos y posteriormente generan nuevas muestras representativas de ese conjunto. En los últimos años, ha habido un éxito tremendo en entrenar GAN para generar imágenes de alta resolución y fotorrealistas. Las GAN bien entrenadas muestran transiciones suaves entre salidas de imagen cuando se interpola en su espacio de entrada latente, lo que las hace útiles en aplicaciones como edición de imagen de alto nivel (cambiando atributos de rostros), objet