深層生成画像モデルの幾何学とその応用

リーマン計量を用いたGAN潜在空間解析の幾何学的フレームワーク。解釈可能な軸の発見と生成モデルにおける効率的な最適化を実現。
diyshow.org | PDF Size: 18.6 MB
深層生成画像モデルの幾何学とその応用

深層生成画像モデルの幾何学とその応用

Binxu Wang & Carlos R. Ponce | ワシントン大学セントルイス校 神経科学科

ICLR 2021 カンファレンス論文として発表

概要

敵対的生成ネットワーク(GAN)は、自然画像などの実世界データセットの統計的パターンをモデル化する強力な教師なし手法として登場しました。これらのネットワークは、潜在空間内のランダムな入力を学習データを代表する新しいサンプルに写像するように訓練されます。しかし、潜在空間の構造は、その高次元性とジェネレータの非線形性により直感的に理解することが難しく、モデルの有用性を制限しています。

潜在空間を理解するには、既存の実世界画像に対する入力コードを特定する方法(逆写像)と、既知の画像変換に対応する方向を特定する方法(解釈可能性)が必要です。本論文では、幾何学的フレームワークを用いてこれらの課題を同時に解決します。我々は、GANによって生成される画像多様体のリーマン計量を計算する、アーキテクチャに依存しない手法を開発しました。計量の固有分解により、異なるレベルの画像変動を説明する軸を分離します。

複数の事前学習済みGANに対する実証分析により、各位置周辺の画像変動は驚くほど少ない主要軸に集中していること(空間が高度に異方性を持つこと)、およびこの大きな変動を生み出す方向が空間内の異なる位置で類似していること(空間が等質であること)が示されました。多くの主要固有ベクトルが画像空間における解釈可能な変換に対応しており、固有空間の大部分は圧縮可能な微小変換に対応していることを示します。

この幾何学的理解は、GANの解釈可能性に関連する従来の主要な結果を統一的に説明します。本計量の使用により、潜在空間におけるより効率的な最適化(GAN逆写像など)が可能となり、解釈可能な軸の教師なし発見が促進されることを示します。我々の結果は、GAN画像多様体の幾何学を定義することが、GANを理解するための一般的なフレームワークとして機能しうることを示しています。

序論

深層生成モデル、特に敵対的生成ネットワーク(GAN)は、非常に現実的で多様な画像の生成を可能にすることにより、教師なし学習の分野に革命をもたらしました。写真的なサンプルを生成するという顕著な成功にもかかわらず、その潜在空間の基礎構造は十分に理解されていません。これらの空間の高次元かつ非線形な性質は、解釈と実用的応用に重大な課題を提起します。

本論文は、GANの潜在空間を分析・理解するための幾何学的視点を導入します。ジェネレータを潜在空間から画像空間への滑らかな写像として扱うことにより、リーマン幾何学の手法を適用して結果として得られる画像多様体の構造を特徴づけることができます。このアプローチは、GAN研究における二つの基本的課題、すなわち潜在空間逆写像(実画像に対するコードの発見)と解釈可能性(潜在空間内の意味のある方向の特定)に取り組むための統一的フレームワークを提供します。

我々の研究は、GAN多様体のリーマン計量が、異方性や等質性を含むその幾何学的性質に関する重要な特性を明らかにすることを示しており、これは生成モデルの理論的理解と実用的応用の両方に直接的な意義を持ちます。

背景

敵対的生成ネットワークは、複雑なデータセットを特徴づけるパターンを学習し、その後、その集合を代表する新しいサンプルを生成します。近年、高解像度で写真的な画像を生成するGANの学習において大きな成功が収められています。十分に学習されたGANは、潜在入力空間内で補間を行う際に画像出力間の滑らかな遷移を示し、これは高レベルな画像編集(顔の属性変更)などの応用において有用です。