هندسه مدلهای تولید عمیق تصویر و کاربردهای آن
بینکسو وانگ و کارلوس آر. پونس | گروه علوم اعصاب، دانشگاه واشنگتن در سنت لوئیس
منتشر شده به عنوان مقاله کنفرانس در ICLR 2021
فهرست مطالب
چکیده
شبکههای مولد تخاصمی (GANs) به عنوان یک روش قدرتمند بدون نظارت برای مدلسازی الگوهای آماری مجموعه دادههای دنیای واقعی، مانند تصاویر طبیعی، ظهور یافتهاند. این شبکهها آموزش دیدهاند تا ورودیهای تصادفی در فضای نهان خود را به نمونههای جدیدی که نماینده دادههای آموخته شده هستند، نگاشت کنند. با این حال، ساختار فضای نهان به دلیل ابعاد بالا و غیرخطی بودن مولد، به سختی قابل درک است که کاربرد مدلها را محدود میکند.
درک فضای نهان نیازمند روشی برای شناسایی کدهای ورودی برای تصاویر موجود دنیای واقعی (وارونگی) و روشی برای شناسایی جهتها با تبدیلهای تصویری شناخته شده (تفسیرپذیری) است. در اینجا، ما از یک چارچوب هندسی برای پرداختن همزمان به هر دو مسئله استفاده میکنیم. ما یک روش مستقل از معماری برای محاسبه متریک ریمانی منیفولد تصویر ایجاد شده توسط GANها توسعه میدهیم. تجزیه ویژه متریک، محورهایی را جدا میکند که سطوح مختلف تغییرپذیری تصویر را توضیح میدهند.
یک تحلیل تجربی از چندین GAN از پیش آموزش دیده نشان میدهد که تغییرات تصویر در اطراف هر موقعیت در امتداد محورهای اصلی به طور شگفتآوری کمی متمرکز شده است (فضا بسیار ناهمسانگرد است) و جهتهایی که این تغییر بزرگ را ایجاد میکنند در موقعیتهای مختلف در فضا مشابه هستند (فضا همگن است). ما نشان میدهیم که بسیاری از بردارهای ویژه برتر با تبدیلهای تفسیرپذیر در فضای تصویر مطابقت دارند، با بخش قابل توجهی از فضای ویژه مربوط به تبدیلهای جزئی که میتواند فشرده شود.
این درک هندسی، نتایج کلیدی قبلی مربوط به تفسیرپذیری GAN را یکپارچه میکند. ما نشان میدهیم که استفاده از این متریک امکان بهینهسازی کارآمدتر در فضای نهان (مانند وارونگی GAN) را فراهم میکند و کشف بدون نظارت محورهای تفسیرپذیر را تسهیل میکند. نتایج ما نشان میدهد که تعریف هندسه منیفولد تصویر GAN میتواند به عنوان یک چارچوب کلی برای درک GANها عمل کند.
مقدمه
مدلهای مولد عمیق، به ویژه شبکههای مولد تخاصمی (GANs)، با امکان تولید تصاویر بسیار واقعی و متنوع، زمینه یادگیری بدون نظارت را متحول کردهاند. با وجود موفقیت چشمگیر آنها در تولید نمونههای فوتورئالیستی، ساختار زیربنایی فضاهای نهان آنها هنوز به خوبی درک نشده است. ماهیت ابعاد بالا و غیرخطی این فضاها چالشهای قابل توجهی برای تفسیر و کاربرد عملی ارائه میدهد.
این مقاله یک دیدگاه هندسی برای تحلیل و درک فضاهای نهان GANها معرفی میکند. با در نظر گرفتن مولد به عنوان یک نگاشت هموار از فضای نهان به فضای تصویر، میتوانیم ابزارهایی از هندسه ریمانی را برای توصیف ساختار منیفولد تصویر حاصل اعمال کنیم. این رویکرد یک چارچوب یکپارچه برای پرداختن به دو چالش اساسی در تحقیقات GAN فراهم میکند: وارونگی فضای نهان (یافتن کدها برای تصاویر واقعی) و تفسیرپذیری (شناسایی جهتهای معنیدار در فضای نهان).
کار ما نشان میدهد که متریک ریمانی منیفولد GAN ویژگیهای حیاتی درباره هندسه آن، از جمله ناهمسانگردی و همگنی را آشکار میکند، که پیامدهای مستقیمی برای درک نظری و کاربردهای عملی مدلهای مولد دارد.
پیشینه
شبکههای مولد تخاصمی الگوهایی را میآموزند که مجموعه دادههای پیچیده را مشخص میکنند و متعاقباً نمونههای جدیدی را تولید میکنند که نماینده آن مجموعه هستند. در سالهای اخیر، موفقیت عظیمی در آموزش GANها برای تولید تصاویر با وضوح بالا و فوتورئالیستی وجود داشته است. GANهای به خوبی آموزش دیده، انتقالهای همواری بین خروجیهای تصویر هنگام درونیابی در فضای ورودی نهان خود نشان میدهند، که آنها را در کاربردهایی مانند ویرایش تصویر سطح بالا (تغییر ویژگیهای چهرهها)، شی مفید میکند.