딥 생성 이미지 모델의 기하학적 구조와 응용

리만 계량을 활용한 GAN 잠재 공간 분석 기하학적 프레임워크로, 생성 모델에서 해석 가능한 축 발견과 효율적 최적화를 가능하게 합니다.
diyshow.org | PDF Size: 18.6 MB
딥 생성 이미지 모델의 기하학적 구조와 응용

딥 생성 이미지 모델의 기하학적 구조와 응용

Binxu Wang & Carlos R. Ponce | 세인트루이스 워싱턴 대학교 신경과학과

ICLR 2021 컨퍼런스 논문으로 발표

요약

생성적 적대 신경망(GAN)은 자연 이미지와 같은 실제 데이터 세트의 통계적 패턴을 모델링하는 강력한 비지도 학습 방법으로 부상했습니다. 이러한 네트워크는 잠재 공간의 무작위 입력을 학습된 데이터를 대표하는 새로운 샘플로 매핑하도록 훈련됩니다. 그러나 잠재 공간의 구조는 고차원성과 생성기의 비선형성으로 인해 직관적으로 이해하기 어려워 모델의 유용성을 제한합니다.

잠재 공간을 이해하려면 기존 실제 이미지에 대한 입력 코드를 식별하는 방법(역변환)과 알려진 이미지 변환을 가진 방향을 식별하는 방법(해석 가능성)이 필요합니다. 본 연구에서는 두 문제를 동시에 해결하기 위해 기하학적 프레임워크를 사용합니다. 우리는 GAN이 생성한 이미지 매니폴드의 리만 계량을 계산하는 아키텍처 독립적 방법을 개발합니다. 계량의 고유분해는 다양한 수준의 이미지 변동성을 설명하는 축을 분리합니다.

여러 사전 훈련된 GAN에 대한 실증적 분석은 각 위치 주변의 이미지 변동이 놀랍도록 적은 수의 주요 축을 따라 집중되고(공간이 매우 이방성), 이러한 큰 변동을 생성하는 방향이 공간 내 다른 위치에서 유사함을 보여줍니다(공간이 균질). 많은 상위 고유벡터가 이미지 공간에서 해석 가능한 변환에 해당하며, 고유공간의 상당 부분이 압축될 수 있는 사소한 변환에 해당함을 보여줍니다.

이러한 기하학적 이해는 GAN 해석 가능성과 관련된 주요 기존 결과들을 통합합니다. 이 계량을 사용하면 잠재 공간에서 더 효율적인 최적화(예: GAN 역변환)가 가능하고 해석 가능한 축의 비지도 발견이 용이해짐을 보여줍니다. 우리의 결과는 GAN 이미지 매니폴드의 기하학을 정의하는 것이 GAN 이해를 위한 일반적인 프레임워크로 기능할 수 있음을 보여줍니다.

서론

딥 생성 모델, 특히 생성적 적대 신경망(GAN)은 매우 사실적이고 다양한 이미지 생성을 가능하게 함으로써 비지도 학습 분야에 혁명을 일으켰습니다. 사실적인 샘플 생산에서 놀라운 성공을 거두었음에도 불구하고, 이들의 잠재 공간 기본 구조는 여전히 제대로 이해되지 않고 있습니다. 이러한 공간의 고차원적, 비선형적 특성은 해석과 실용적 응용에 상당한 도전 과제를 제시합니다.

본 논문은 GAN의 잠재 공간을 분석하고 이해하기 위한 기하학적 관점을 소개합니다. 생성기를 잠재 공간에서 이미지 공간으로의 매끄러운 매핑으로 취급함으로써, 리만 기하학의 도구를 적용하여 결과적인 이미지 매니폴드의 구조를 특성화할 수 있습니다. 이 접근 방식은 GAN 연구의 두 가지 근본적인 과제, 즉 잠재 공간 역변환(실제 이미지에 대한 코드 찾기)과 해석 가능성(잠재 공간에서 의미 있는 방향 식별)을 해결하기 위한 통합된 프레임워크를 제공합니다.

우리의 작업은 GAN 매니폴드의 리만 계량이 이방성과 균질성을 포함한 기하학적 특성에 대한 중요한 정보를 드러내며, 이는 생성 모델의 이론적 이해와 실용적 응용 모두에 직접적인 함의를 가짐을 보여줍니다.

배경

생성적 적대 신경망은 복잡한 데이터 세트를 특징짓는 패턴을 학습한 후 해당 세트를 대표하는 새로운 샘플을 생성합니다. 최근 몇 년 동안 고해상도 및 사실적인 이미지를 생성하도록 GAN을 훈련시키는 데 엄청난 성공이 있었습니다. 잘 훈련된 GAN은 잠재 입력 공간에서 보간할 때 이미지 출력 간 매끄러운 전환을 보여주며, 이는 고급 이미지 편집(얼굴 속성 변경)과 같은 응용 프로그램에서 유용하게 만듭니다.