डीप जेनरेटिव इमेज मॉडल्स की ज्यामिति और इसके अनुप्रयोग

रीमैनियन मीट्रिक का उपयोग करके GAN अव्यक्त स्थानों के विश्लेषण के लिए एक ज्यामितीय ढांचा, जो व्याख्यात्मक अक्ष खोज और जेनरेटिव मॉडल में कुशल अनुकूलन सक्षम बनाता है।
diyshow.org | PDF Size: 18.6 MB
डीप जेनरेटिव इमेज मॉडल्स की ज्यामिति और इसके अनुप्रयोग

डीप जेनरेटिव इमेज मॉडल्स की ज्यामिति और इसके अनुप्रयोग

बिनक्सू वांग और कार्लोस आर. पोंस | न्यूरोसाइंस विभाग, वाशिंगटन यूनिवर्सिटी इन सेंट लुई

ICLR 2021 में कॉन्फ्रेंस पेपर के रूप में प्रकाशित

सारांश

जनरेटिव एडवरसैरियल नेटवर्क्स (GANs) वास्तविक दुनिया के डेटा सेटों, जैसे प्राकृतिक छवियों, के सांख्यिकीय पैटर्न को मॉडल करने के लिए एक शक्तिशाली अनसुपरवाइज्ड विधि के रूप में उभरे हैं। इन नेटवर्क्स को उनके अव्यक्त स्थान में यादृच्छिक इनपुट को सीखे गए डेटा के प्रतिनिधि नमूनों में मैप करने के लिए प्रशिक्षित किया जाता है। हालांकि, जनरेटर की उच्च आयामिता और गैर-रैखिकता के कारण अव्यक्त स्थान की संरचना को समझना कठिन है, जो मॉडलों की उपयोगिता को सीमित करता है।

अव्यक्त स्थान को समझने के लिए मौजूदा वास्तविक दुनिया की छवियों के लिए इनपुट कोड की पहचान करने का तरीका (इनवर्जन), और ज्ञात छवि परिवर्तनों वाली दिशाओं की पहचान करने का तरीका (व्याख्यात्मकता) चाहिए। यहां, हम दोनों मुद्दों को एक साथ हल करने के लिए एक ज्यामितीय ढांचे का उपयोग करते हैं। हम GANs द्वारा बनाए गए छवि मैनिफोल्ड के रीमैनियन मीट्रिक की गणना करने के लिए एक आर्किटेक्चर-अज्ञेय विधि विकसित करते हैं। मीट्रिक के आइजेन-डिकम्पोजिशन उन अक्षों को अलग करते हैं जो छवि परिवर्तनशीलता के विभिन्न स्तरों के लिए जिम्मेदार होते हैं।

कई पूर्व-प्रशिक्षित GANs के एक प्रायोगिक विश्लेषण से पता चलता है कि प्रत्येक स्थिति के आसपास छवि भिन्नता आश्चर्यजनक रूप से कुछ प्रमुख अक्षों के साथ केंद्रित होती है (स्थान अत्यधिक अनिसोट्रोपिक है) और यह बड़ा बदलाव पैदा करने वाली दिशाएं अंतरिक्ष में अलग-अलग स्थितियों में समान होती हैं (स्थान सजातीय है)। हम दिखाते हैं कि कई शीर्ष आइजेनवेक्टर छवि स्थान में व्याख्यात्मक परिवर्तनों के अनुरूप हैं, जिसमें आइजेनस्पेस का एक महत्वपूर्ण हिस्सा मामूली परिवर्तनों के अनुरूप है जिन्हें संपीड़ित किया जा सकता है।

यह ज्यामितीय समझ GAN व्याख्यात्मकता से संबंधित पिछले प्रमुख परिणामों को एकीकृत करती है। हम दिखाते हैं कि इस मीट्रिक का उपयोग अव्यक्त स्थान में अधिक कुशल अनुकूलन (जैसे GAN इनवर्जन) की अनुमति देता है और व्याख्यात्मक अक्षों की अनसुपरवाइज्ड खोज की सुविधा प्रदान करता है। हमारे परिणाम बताते हैं कि GAN छवि मैनिफोल्ड की ज्यामिति को परिभाषित करना GANs को समझने के लिए एक सामान्य ढांचे के रूप में कार्य कर सकता है।

परिचय

डीप जनरेटिव मॉडल, विशेष रूप से जनरेटिव एडवरसैरियल नेटवर्क्स (GANs), अत्यधिक यथार्थवादी और विविध छवियों के निर्माण को सक्षम करके अनसुपरवाइज्ड लर्निंग के क्षेत्र में क्रांति ला चुके हैं। फोटोरियलिस्टिक नमूने तैयार करने में उनकी उल्लेखनीय सफलता के बावजूद, उनके अव्यक्त स्थानों की अंतर्निहित संरचना अभी भी खराब तरीके से समझी गई है। इन स्थानों की उच्च-आयामी, गैर-रैखिक प्रकृति व्याख्या और व्यावहारिक अनुप्रयोग के लिए महत्वपूर्ण चुनौतियां पेश करती है।

यह पेपर GANs के अव्यक्त स्थानों का विश्लेषण और समझने के लिए एक ज्यामितीय परिप्रेक्ष्य पेश करता है। जनरेटर को अव्यक्त स्थान से छवि स्थान तक एक सहज मैपिंग के रूप में मानते हुए, हम परिणामी छवि मैनिफोल्ड की संरचना को चित्रित करने के लिए रीमैनियन ज्यामिति से उपकरण लागू कर सकते हैं। यह दृष्टिकोण GAN शोध में दो मौलिक चुनौतियों को संबोधित करने के लिए एक एकीकृत ढांचा प्रदान करता है: अव्यक्त स्थान इनवर्जन (वास्तविक छवियों के लिए कोड ढूंढना) और व्याख्यात्मकता (अव्यक्त स्थान में सार्थक दिशाओं की पहचान करना)।

हमारा काम प्रदर्शित करता है कि GAN मैनिफोल्ड का रीमैनियन मीट्रिक इसकी ज्यामिति के बारे में महत्वपूर्ण गुणों को प्रकट करता है, जिसमें अनिसोट्रोपी और सजातीयता शामिल है, जिनके जनरेटिव मॉडल की सैद्धांतिक समझ और व्यावहारिक अनुप्रयोगों दोनों के लिए सीधे निहितार्थ हैं।

पृष्ठभूमि

जनरेटिव एडवरसैरियल नेटवर्क्स उन पैटर्नों को सीखते हैं जो जटिल डेटासेट्स की विशेषता बताते हैं और बाद में उस सेट के प्रतिनिधि नए नमूने उत्पन्न करते हैं। हाल के वर्षों में, उच्च-रिज़ॉल्यूशन और फोटोरियलिस्टिक छवियों को उत्पन्न करने के लिए GANs को प्रशिक्षित करने में जबरदस्त सफलता मिली है। अच्छी तरह से प्रशिक्षित GANs अपने अव्यक्त इनपुट स्थान में इंटरपोलेट करते समय छवि आउटपुट के बीच सहज संक्रमण दिखाते हैं, जो उन्हें उच्च-स्तरीय छवि संपादन (चेहरों की विशेषताओं को बदलना), वस्तु # लंबाई सीमा के कारण काटा गया