Геометрия глубинных генеративных моделей изображений и её приложения
Бинсю Ван и Карлос Р. Понсе | Кафедра нейронауки, Университет Вашингтона в Сент-Луисе
Опубликовано как конференционная статья на ICLR 2021
Содержание
Аннотация
Генеративно-состязательные сети (GAN) стали мощным неконтролируемым методом для моделирования статистических закономерностей реальных наборов данных, таких как естественные изображения. Эти сети обучаются отображать случайные входные данные в латентном пространстве в новые выборки, репрезентативные для изученных данных. Однако структура латентного пространства сложна для интуитивного понимания из-за его высокой размерности и нелинейности генератора, что ограничивает полезность моделей.
Понимание латентного пространства требует способа идентификации входных кодов для существующих реальных изображений (инверсия) и способа идентификации направлений с известными преобразованиями изображений (интерпретируемость). Здесь мы используем геометрический фреймворк для одновременного решения обеих проблем. Мы разрабатываем архитектурно-независимый метод вычисления римановой метрики многообразия изображений, создаваемого GAN. Собственное разложение метрики выделяет оси, которые учитывают различные уровни вариативности изображений.
Эмпирический анализ нескольких предобученных GAN показывает, что вариация изображений вокруг каждой позиции сосредоточена вдоль удивительно малого количества основных осей (пространство сильно анизотропно), и направления, создающие эту большую вариацию, схожи в разных позициях пространства (пространство однородно). Мы показываем, что многие из главных собственных векторов соответствуют интерпретируемым преобразованиям в пространстве изображений, при этом существенная часть собственного пространства соответствует второстепенным преобразованиям, которые могут быть сжаты.
Это геометрическое понимание объединяет ключевые предыдущие результаты, связанные с интерпретируемостью GAN. Мы показываем, что использование этой метрики позволяет проводить более эффективную оптимизацию в латентном пространстве (например, инверсия GAN) и облегчает неконтролируемое обнаружение интерпретируемых осей. Наши результаты иллюстрируют, что определение геометрии многообразия изображений GAN может служить общим фреймворком для понимания GAN.
Введение
Глубинные генеративные модели, в частности генеративно-состязательные сети (GAN), произвели революцию в области неконтролируемого обучения, позволив генерировать высокореалистичные и разнообразные изображения. Несмотря на их впечатляющий успех в создании фотореалистичных образцов, базовая структура их латентных пространств остается плохо изученной. Высокомерная нелинейная природа этих пространств представляет значительные challenges для интерпретации и практического применения.
Данная статья представляет геометрическую перспективу для анализа и понимания латентных пространств GAN. Рассматривая генератор как гладкое отображение из латентного пространства в пространство изображений, мы можем применить инструменты римановой геометрии для характеристики структуры результирующего многообразия изображений. Этот подход предоставляет унифицированный фреймворк для решения двух фундаментальных challenges в исследованиях GAN: инверсии латентного пространства (поиск кодов для реальных изображений) и интерпретируемости (идентификация значимых направлений в латентном пространстве).
Наша работа демонстрирует, что риманова метрика многообразия GAN раскрывает crucial свойства его геометрии, включая анизотропию и однородность, которые имеют прямые implications как для теоретического понимания, так и для практических приложений генеративных моделей.
Теоретические основы
Генеративно-состязательные сети изучают закономерности, характеризующие сложные наборы данных, и впоследствии генерируют новые выборки, репрезентативные для этого набора. В последние годы достигнут значительный прогресс в обучении GAN для генерации высококачественных и фотореалистичных изображений. Хорошо обученные GAN демонстрируют плавные переходы между выходными изображениями при интерполяции в их латентном входном пространстве, что делает их полезными в приложениях, таких как высокоуровневое редактирование изображений (изменение атрибутов лиц), объекты