هندسة نماذج توليد الصور العميقة وتطبيقاتها

إطار هندسي لتحليل المساحات الكامنة في شبكات GAN باستخدام متريات ريمان، مما يمكن من اكتشاف محاور قابلة للتفسير وتحسين كفاءة النماذج التوليدية.
diyshow.org | PDF Size: 18.6 MB
هندسة نماذج توليد الصور العميقة وتطبيقاتها

هندسة نماذج توليد الصور العميقة وتطبيقاتها

بينكسو وانغ وكارلوس ر. بونس | قسم العلوم العصبية، جامعة واشنطن في سانت لويس

نُشر كبحث مؤتمر في ICLR 2021

الملخص

ظهرت الشبكات التوليدية التنافسية (GANs) كأسلوب غير خاضع للإشراف قوي لنمذجة الأنماط الإحصائية لمجموعات البيانات الواقعية، مثل الصور الطبيعية. يتم تدريب هذه الشبكات لتعيين المدخلات العشوائية في مساحتها الكامنة إلى عينات جديدة تمثل البيانات المتعلمة. ومع ذلك، يصعب استيعاب بنية المساحة الكامنة بسبب أبعادها العالية واللاخطية للمولد، مما يحد من فائدة النماذج.

يتطلب فهم المساحة الكامنة طريقة لتحديد رموز الإدخال للصور الواقعية الموجودة (الانعكاس)، وطريقة لتحديد الاتجاهات ذات التحويلات المعروفة للصور (القابلية للتفسير). هنا، نستخدم إطارًا هندسيًا لمعالجة هاتين المسألتين في وقت واحد. نطور طريقة مستقلة عن الهندسة المعمارية لحساب متري ريمان لمتعدد الشعب للصور الذي تنشئه شبكات GAN. يعزل التحليل الذاتي للمتري المحاور التي تفسر مستويات مختلفة من تباين الصور.

يُظهر التحليل التجريبي للعديد من شبكات GAN المدربة مسبقًا أن تباين الصور حول كل موضع يتركز على طول عدد قليل بشكل مدهش من المحاور الرئيسية (المساحة شديدة اللاتجانس) وأن الاتجاهات التي تخلق هذا التباين الكبير متشابهة في مواقع مختلفة في المساحة (المساحة متجانسة). نوضح أن العديد من المتجهات الذاتية الرئيسية تتوافق مع تحويلات قابلة للتفسير في مساحة الصور، مع جزء كبير من الفضاء الذاتي يتوافق مع تحويلات ثانوية يمكن ضغطها.

يُوحد هذا الفهم الهندسي النتائج الرئيسية السابقة المتعلقة بقابلية تفسير شبكات GAN. نوضح أن استخدام هذا المتري يسمح بتحسين أكثر كفاءة في المساحة الكامنة (مثل انعكاس GAN) ويسهل الاكتشاف غير الخاضع للإشراف للمحاور القابلة للتفسير. توضح نتائجنا أن تعريف هندسة متعدد الشعب لصور GAN يمكن أن يكون بمثابة إطار عام لفهم شبكات GAN.

المقدمة

أحدثت النماذج التوليدية العميقة، وخاصة الشبكات التوليدية التنافسية (GANs)، ثورة في مجال التعلم غير الخاضع للإشراف من خلال تمكين توليد صور واقعية ومتنوعة للغاية. على الرغم من نجاحها الملحوظ في إنتاج عينات واقعية، لا تزال البنية الأساسية لمساحاتها الكامنة غير مفهومة جيدًا. تقدم الطبيعة عالية الأبعاد وغير الخطية لهذه المساحات تحديات كبيرة للتفسير والتطبيق العملي.

يقدم هذا البحث منظورًا هندسيًا لتحليل وفهم المساحات الكامنة لشبكات GAN. من خلال معاملة المولد على أنه تعيين سلس من المساحة الكامنة إلى مساحة الصور، يمكننا تطبيق أدوات من هندسة ريمان لوصف بنية متعدد الشعب الناتج للصور. يوفر هذا النهج إطارًا موحدًا لمعالجة تحديين أساسيين في أبحاث GAN: انعكاس المساحة الكامنة (إيجاد الرموز للصور الحقيقية) والقابلية للتفسير (تحديد الاتجاهات ذات المعنى في المساحة الكامنة).

يُظهر عملنا أن متري ريمان لمتعدد الشعب لـ GAN يكشف خصائص حاسمة حول هندسته، بما في ذلك اللاتجانس والتجانس، والتي لها آثار مباشرة على كل من الفهم النظري والتطبيقات العملية للنماذج التوليدية.

الخلفية النظرية

تتعلم الشبكات التوليدية التنافسية الأنماط التي تميز مجموعات البيانات المعقدة وتولد لاحقًا عينات جديدة تمثل تلك المجموعة. في السنوات الأخيرة، تحقق نجاح هائل في تدريب شبكات GAN لتوليد صور عالية الدقة وواقعية. تُظهر شبكات GAN المدربة جيدًا انتقالات سلسة بين مخرجات الصور عند الاستيفاء في مساحة الإدخال الكامنة، مما يجعلها مفيدة في تطبيقات مثل تحرير الصور عالي المستوى (تغيير سمات الوجوه)، وكائنات