Fashion-Diffusion डेटासेट: AI फैशन डिज़ाइन के लिए लाखों उच्च-गुणवत्ता वाली छवियाँ प्रदान करता है

विषय-सूची

1.04M

उच्च गुणवत्ता वाला फैशन चित्र

768x1152

छवि रिज़ॉल्यूशन

8,037

एनोटेशन विशेषता

1.59M

पाठ विवरण

1. परिचय

कृत्रिम बुद्धिमत्ता (AI) और फैशन डिजाइन का संगम, कंप्यूटर विजन और रचनात्मक उद्योगों में एक परिवर्तनकारी अग्रिम का प्रतिनिधित्व करता है। हालांकि DALL-E, Stable Diffusion और Imagen जैसे टेक्स्ट-टू-इमेज (T2I) मॉडलों ने उत्कृष्ट क्षमताएं प्रदर्शित की हैं, लेकिन फैशन डिजाइन जैसे विशिष्ट क्षेत्रों में उनके अनुप्रयोग एक महत्वपूर्ण बाधा से सीमित रहे हैं: बड़े पैमाने पर, उच्च-गुणवत्ता और डोमेन-विशिष्ट डेटासेट की कमी।

मौजूदा फैशन डेटासेट, जैसे कि DeepFashion, CM-Fashion और Prada, आकार (आमतौर पर 100,000 से कम छवियाँ), रिज़ॉल्यूशन (उदाहरण के लिए 256x256), व्यापकता (पूर्ण शरीर के चित्र या विस्तृत पाठ विवरण की कमी) या एनोटेशन सूक्ष्मता के मामले में सीमित हैं। यह पेपर प्रस्तुत करता है Fashion-Diffusion डेटासेट, एक बहु-वर्षीय प्रयास है जो इस अंतर को पाटने का लक्ष्य रखता है। इसमें दस लाख से अधिक उच्च-रिज़ॉल्यूशन (768x1152) फैशन छवियाँ शामिल हैं, जिनमें से प्रत्येक के साथ कपड़ों और मानव शरीर की विशेषताओं को कवर करने वाले विस्तृत पाठ विवरण हैं, और डेटा स्रोत वैश्विक रूप से विविध फैशन रुझानों को शामिल करते हैं।

2. Fashion-Diffusion डेटासेट

2.1 डेटासेट निर्माण एवं संग्रहण

The construction of this dataset began in 2018, involving meticulous collection and curation from a massive library of high-quality garment images. A key distinction lies in theGlobal Diversityपर ध्यान केंद्रित करना, विभिन्न भौगोलिक और सांस्कृतिक पृष्ठभूमियों से छवियां प्राप्त करना, ताकि वैश्विक फैशन रुझानों को शामिल किया जा सके, न कि केवल पश्चिम-केंद्रित शैलियों को।

निर्माण प्रक्रिया में स्वचालन और मैनुअल प्रसंस्करण का संयोजन शामिल है। प्रारंभिक संग्रह के बाद, सख्त गुणवत्ता और प्रासंगिकता छानने का कार्य किया गया। एक मिश्रित एनोटेशन रणनीति अपनाई गई, जिसमें स्वचालित विषय पहचान/वर्गीकरण का उपयोग किया गया और सटीकता एवं विस्तार सुनिश्चित करने के लिए फैशन डिजाइन विशेषज्ञों द्वारा मैनुअल सत्यापन भी किया गया।

2.2 डेटा एनोटेशन एवं विशेषताएँ

टीम ने फैशन विशेषज्ञों के साथ सहयोग करके, कपड़ों से संबंधित विशेषताओं का एक व्यापक ओंटोलॉजी सेट परिभाषित किया। अंतिम डेटासेट में शामिल हैं 8,037 एनोटेटेड विशेषताएँ, जो T2I जनरेशन प्रक्रिया पर सूक्ष्म-स्तरीय नियंत्रण प्रदान करती हैं। विशेषताएँ शामिल करती हैं:

कपड़ों का विवरण: श्रेणी (ड्रेस, शर्ट, पैंट), शैली (बोहेमियन, मिनिमलिस्ट), कपड़ा (सिल्क, डेनिम), रंग, पैटर्न, नेकलाइन, आस्तीन की लंबाई।
मानव संदर्भ: मुद्रा, शारीरिक संरचना, लिंग, आयु वर्ग, वस्त्रों के साथ अंतर्क्रिया।
दृश्य और संदर्भ: अवसर (आरामदायक, औपचारिक), परिवेश।

प्रत्येक छवि एक या अधिक उच्च-गुणवत्ता वाले पाठ विवरणों के साथ युग्मित है, जिससे 1.598 मिलियन छवि-पाठ युग्म बनते हैं, जो T2I मॉडल के प्रशिक्षण के लिए महत्वपूर्ण शब्दार्थ संरेखण जानकारी को काफी समृद्ध करते हैं।

2.3 डेटासेट सांख्यिकी और विशेषताएँ

पैमाना: 1,044,491 छवियाँ।
रिज़ॉल्यूशन: उच्च रिज़ॉल्यूशन 768x1152, विस्तृत डिज़ाइन विज़ुअलाइज़ेशन के लिए उपयुक्त।
छवि-पाठ युग्म: 1,593,808 विवरण.
विविधता: स्रोतों में भौगोलिक और सांस्कृतिक विविधता है।
एनोटेशन गहराई: 8,037 सूक्ष्म-स्तरीय विशेषताएँ।
मानव-केंद्रित: पूरे शरीर के पोर्ट्रेट पर ध्यान दें जो कपड़े पहने हों, न कि केवल अलग-थलग कपड़ों के आइटम पर।

3. प्रयोगात्मक बेंचमार्क और परिणाम

3.1 मूल्यांकन मापदंड

प्रस्तावित बेंचमार्क मानक मेट्रिक्स का उपयोग करके T2I मॉडल का मूल्यांकन कई आयामों से करता है:

फ्रेचेट इनसेप्शन डिस्टेंस (FID): यह उत्पन्न छवियों और वास्तविक छवियों के वितरण के बीच समानता को मापता है। कम संख्या बेहतर होती है।
प्रारंभिक स्कोर (IS): उत्पन्न छवियों की गुणवत्ता और विविधता का मूल्यांकन करें। संख्या जितनी अधिक होगी, उतना ही बेहतर।
CLIP स्कोर: उत्पन्न छवि और इनपुट टेक्स्ट प्रॉम्प्ट के बीच शब्दार्थ संरेखण की डिग्री का मूल्यांकन करें। संख्यात्मक मान जितना अधिक हो, उतना बेहतर।

3.2 तुलनात्मक विश्लेषण

Fashion-Diffusion पर प्रशिक्षित मॉडल की तुलना अन्य प्रसिद्ध फैशन डेटासेट (जैसे DeepFashion-MM) पर प्रशिक्षित मॉडलों से की गई। इस तुलना ने डेटासेट की गुणवत्ता और पैमाने का मॉडल प्रदर्शन पर प्रभाव उजागर किया।

3.3 परिणाम और प्रदर्शन

प्रयोगात्मक परिणामों से पता चलता है कि Fashion-Diffusion डेटासेट पर प्रशिक्षित मॉडल में श्रेष्ठता है:

FID: 8.33 (Fashion-Diffusion) बनाम 15.32 (बेसलाइन)। लगभग 46% की वृद्धि, यह दर्शाता है कि उत्पन्न छवियाँ काफी अधिक फोटो-यथार्थवादी हैं और वास्तविक डेटा के साथ बेहतर संगतता रखती हैं।
IS: 6.95 बनाम 4.7। लगभग 48% की वृद्धि, जो बेहतर मानी गई छवि गुणवत्ता और विविधता को दर्शाती है।
CLIP स्कोर: 0.83 बनाम 0.70। लगभग 19% की वृद्धि, जो बेहतर छवि-पाठ शब्दार्थ संरेखण दर्शाती है।

(कल्पना) चार्ट विवरण: "T2I मॉडल प्रदर्शन तुलना" शीर्षक वाला एक बार चार्ट FID, IS और CLIPScore के लिए तीन सेट बार दिखाएगा। "Fashion-Diffusion" के बार "बेसलाइन डेटासेट" के बारों की तुलना में (IS और CLIPScore के लिए) काफी ऊंचे या (FID के लिए) काफी नीचे होंगे, जिससे पाठ में बताए गए मात्रात्मक लाभ की स्पष्ट पुष्टि होगी।

4. तकनीकी ढांचा एवं पद्धतिशास्त्र

4.1 पाठ-से-चित्र संश्लेषण प्रक्रिया

इस अध्ययन में प्रसार मॉडल का उपयोग किया गया है, जो वर्तमान T2I जनरेशन की अत्याधुनिक तकनीक है। विशिष्ट प्रक्रिया में शामिल हैं:

पाठ एन्कोडिंग: इनपुट टेक्स्ट प्रॉम्प्ट को CLIP या T5 जैसे मॉडल का उपयोग करके लेटेंट रिप्रेजेंटेशन में एन्कोड करें।
डिफ्यूजन प्रक्रिया: एक U-Net आर्किटेक्चर पाठ एम्बेडिंग के मार्गदर्शन में, सुसंगत छवियां उत्पन्न करने के लिए यादृच्छिक गाऊसी शोर को पुनरावृत्त रूप से विशुद्ध करता है। यह प्रक्रिया फॉरवर्ड (शोर जोड़ना) और रिवर्स (शोर हटाना) मार्कोव श्रृंखलाओं द्वारा परिभाषित की जाती है।
सूक्ष्म-स्तरीय नियंत्रण: Fashion-Diffusion में विस्तृत विशेषता लेबल विशिष्ट विशेषताओं के आधार पर प्रसार प्रक्रिया पर सशर्त नियंत्रण की अनुमति देते हैं, जिससे उत्पन्न फैशन आइटमों पर सटीक नियंत्रण प्राप्त होता है।

4.2 गणितीय आधार

विसरण मॉडल का मूल एक अग्रगामी शोर-योजन प्रक्रिया को उलटना सीखने में निहित है। एक डेटा बिंदु $x_0$ (एक वास्तविक छवि) दिए जाने पर, अग्रगामी प्रक्रिया $T$ चरणों में धीरे-धीरे शोर बढ़ाने वाले अव्यक्त चर $x_1, x_2, ..., x_T$ की एक श्रृंखला उत्पन्न करती है:

$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$

जहाँ $\beta_t$ विचरण अनुसूची है। तंत्रिका नेटवर्क $\theta$ द्वारा पैरामीटरकृत विपरीत प्रक्रिया शोर हटाना सीखती है:

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$

प्रशिक्षण में परिवर्तनशील निचली सीमा का अनुकूलन शामिल है। सशर्त उत्पादन (उदाहरण के लिए, दिए गए पाठ $y$ के लिए) के लिए, मॉडल $p_\theta(x_{t-1} | x_t, y)$ सीखता है। Fashion-Diffusion में उच्च-गुणवत्ता, अच्छी तरह से संरेखित छवि-पाठ युग्म फैशन डोमेन में इस सशर्त वितरण $p_\theta$ को सीखने के लिए एक मजबूत प्रशिक्षण संकेत प्रदान करते हैं।

5. मुख्य अंतर्दृष्टि एवं विश्लेषण परिप्रेक्ष्य

मुख्य अंतर्दृष्टि:

Fashion-Diffusion केवल एक और डेटासेट नहीं है; यह एक रणनीतिक बुनियादी ढांचा पहल है जो औद्योगिक-स्तरीय AI फैशन डिजाइन के विकास में मुख्य बाधा - डेटा की कमी और निम्न गुणवत्ता - पर सीधा प्रहार करती है। हालांकि शैक्षणिक जगत हमेशा मॉडल आर्किटेक्चर (जैसे, डिफ्यूजन मॉडल में U-Net में सुधार) से ग्रस्त रहा है, यह कार्य सही ढंग से इंगित करता है कि फैशन जैसे सूक्ष्म, सौंदर्य-संचालित क्षेत्र के लिए,डेटा फाउंडेशनही वास्तविक अंतरकारी कारक है। यह प्रतिस्पर्धात्मक बाधा को एल्गोरिदम से सावधानीपूर्वक क्यूरेट की गई स्वामित्व वाली डेटा संपत्तियों की ओर स्थानांतरित कर देता है।

तार्किक संरचना:

इस पेपर का तर्क प्रभावशाली है: 1) समस्या की पहचान (उच्च-गुणवत्ता वाले फैशन T2I डेटा की कमी)। 2) समाधान का निर्माण (एक बड़े पैमाने पर, उच्च-रिज़ॉल्यूशन, अच्छी तरह से एनोटेट डेटासेट)। 3) इसके मूल्य का प्रमाण (बेंचमार्क SOTA परिणाम दिखाते हैं)। यह शोध समुदाय की क्लासिक "फील्ड ऑफ ड्रीम्स" रणनीति है। हालाँकि, यह तर्क मानता है कि पैमाना और एनोटेशन गुणवत्ता स्वचालित रूप से बेहतर मॉडल में तब्दील हो जाएगी। यह अपनी वैश्विक क्यूरेटोरियल प्रक्रिया में पेश किए जा सकने वाले संभावित पूर्वाग्रह को कुछ हद तक नज़रअंदाज़ करता है - "उच्च-गुणवत्ता" या "विविध" की परिभाषा स्वाभाविक रूप से व्यक्तिपरक है, और भविष्य के AI डिजाइनरों में सांस्कृतिक पूर्वाग्रह एम्बेड कर सकती है, जो AI Now Institute जैसे एल्गोरिदमिक न्याय अनुसंधान में उजागर एक महत्वपूर्ण मुद्दा है।

ताकत और कमजोरियाँ:

लाभ: फैशन डोमेन में अभूतपूर्व पैमाने और रिज़ॉल्यूशन प्रदान करता है। पूर्ण शरीर मानव संदर्भ को शामिल करना एक प्रमुख विशेषता है - यह अलग-थलग परिधान उत्पन्न करने से आगे बढ़कर संदर्भ में पहनने योग्य फैशन का सृजन करता है, जो वास्तविक व्यावसायिक आवश्यकता है। डोमेन विशेषज्ञों के साथ सहयोग कर विशेषताओं को परिभाषित करना, महत्वपूर्ण विश्वसनीयता जोड़ता है, जो शुद्ध वेब-स्क्रैप्ड डेटासेट से भिन्न है।

कमियाँ: इस लेख में "हाइब्रिड" एनोटेशन प्रक्रिया के विशिष्ट विवरण पर अधिक प्रकाश नहीं डाला गया है। स्वचालित और मैन्युअल एनोटेशन का अनुपात क्या है? लागत कैसी है? यह अस्पष्टता पुनरुत्पादनशीलता का मूल्यांकन करना कठिन बनाती है। इसके अलावा, हालांकि बेंचमार्क परीक्षणों में सुधार दिखाया गया है, लेकिन यह साबित नहीं करता है कि इसकीरचनात्मकताउपयोगिता - क्या यह वास्तव में नवीन, प्रवृत्ति-सेटिंग डिज़ाइन उत्पन्न कर सकता है, या केवल मौजूदा शैलियों के बीच इंटरपोलेशन करता है? CycleGAN जैसे अग्रणी रचनात्मक AI कार्यों के साथ इसकी तुलना में CycleGAN(Zhu et al., 2017) की तुलना में, जो अनयुग्मित छवि-से-छवि रूपांतरण प्रस्तुत करता है, Fashion-Diffusion पर्यवेक्षित डेटा पर बेहतर प्रदर्शन करता है, लेकिन संभवतः अनयुग्मित, कम-प्रतिबंधित शिक्षा द्वारा प्रदान की जाने वाली कट्टरपंथी शैली खोज की क्षमता का अभाव हो सकता है।

क्रियान्वयन योग्य अंतर्दृष्टि:

1. शोधकर्ताओं के लिए: यह डेटासेट एक नया बेंचमार्क है। किसी भी नए फैशन T2I मॉडल को गंभीरता से लिए जाने के लिए इस पर प्रशिक्षित और मूल्यांकित किया जाना चाहिए। अब ध्यान समग्र FID स्कोर बढ़ाने के बजाय, सूक्ष्म गुणों का उपयोग करके नियंत्रणीय और व्याख्यात्मक डिजाइन प्राप्त करने की ओर होना चाहिए।
2. उद्योग (फैशन ब्रांड्स) के लिए: वास्तविक मूल्य इस ओपन-सोर्स आधार पर अपने स्वयं के स्वामित्व वाले डेटा - स्केचेस, मूड बोर्ड, पिछले संग्रह - को एकीकृत करने में निहित है ताकि मॉडल को आपके अद्वितीय ब्रांड डीएनए को पकड़ने के लिए फाइन-ट्यून किया जा सके। एआई-सहायक डिजाइन का युग आ गया है; विजेता वे होंगे जो एआई प्रशिक्षण डेटा को एक मुख्य रणनीतिक संपत्ति के रूप में देखते हैं।
3. निवेशकों के लिए: उन कंपनियों और उपकरणों का समर्थन करें जो उच्च-गुणवत्ता वाले डोमेन-विशिष्ट डेटासेट के निर्माण, प्रबंधन और एनोटेशन को बढ़ावा देते हैं। मॉडल परत वस्तु-सामग्री बन रही है; डेटा परत ही रक्षात्मक मूल्य के निर्माण का स्थान है, जैसा कि इस लेख में प्रदर्शित प्रदर्शन छलांग से स्पष्ट है।

6. अनुप्रयोग ढांचा और केस अध्ययन

AI सहायता प्राप्त फैशन डिजाइन ढांचा:

इनपुट: डिजाइनर प्राकृतिक भाषा ब्रीफ (उदाहरण के लिए, "लैवेंडर रंग के शिफॉन की एक हवादार मिडी लंबाई की गर्मियों की पोशाक, बबल स्लीव्स के साथ, गार्डन पार्टी के लिए उपयुक्त") प्रदान करता है या ओंटोलॉजी से विशिष्ट विशेषताओं का चयन करता है।
जनरेट: Fashion-Diffusion पर प्रशिक्षित एक विसरण मॉडल (उदाहरण के लिए, फाइन-ट्यून किया गया Stable Diffusion) कई उच्च-रिज़ॉल्यूशन दृश्य अवधारणाएँ उत्पन्न करता है।
परिष्कृत करें: डिज़ाइनर चयन करते हैं और पुनरावृत्ति करते हैं, विशिष्ट क्षेत्रों (जैसे, नेकलाइन बदलना, लंबाई समायोजित करना) को संशोधित करने के लिए संभवतः इनपेंटिंग या इमेज-टू-इमेज तकनीकों का उपयोग करते हुए।
आउटपुट: प्रोटोटाइपिंग या डिजिटल एसेट निर्माण के लिए अंतिम डिज़ाइन दृश्य।

नॉन-कोड केस स्टडी: ट्रेंड फोरकास्टिंग एंड रैपिड प्रोटोटाइपिंग
एक फास्ट-फैशन रिटेलर सोशल मीडिया विश्लेषण के माध्यम से उभरते हुए "कॉटेजकोर" सौंदर्यशास्त्र प्रवृत्ति का लाभ उठाना चाहता है। फैशन-डिफ्यूज़न आधारित T2I प्रणाली का उपयोग करते हुए, इसकी डिज़ाइन टीम "कॉटेजकोर लिनेन जंपर ड्रेस, स्मॉक्ड बॉडिस, प्रेयरी एस्थेटिक्स" जैसे प्रॉम्प्ट दर्ज करती है और कुछ ही घंटों में सैकड़ों अद्वितीय डिज़ाइन वेरिएंट उत्पन्न करती है। इन डिज़ाइनों का त्वरित समीक्षा के बाद शीर्ष 10 का चयन डिजिटल सैंपलिंग के लिए किया जाता है, जिससे प्रवृत्ति पहचान से प्रोटोटाइप निर्माण तक का लीड टाइम सप्ताहों से घटकर कुछ दिनों का रह जाता है, जिससे बाज़ार प्रतिक्रिया गति में उल्लेखनीय वृद्धि होती है।

7. भविष्य के अनुप्रयोग और दिशाएं

अति-व्यक्तिगत फैशन: उपयोगकर्ता-विशिष्ट शारीरिक माप और शैली प्राथमिकताओं को एकीकृत करके, सटीक फिट और व्यक्तिगत कपड़ों के डिज़ाइन उत्पन्न करना।
वर्चुअल ट्राय-ऑन और मेटावर्स फैशन: एक आधार डेटासेट के रूप में, वर्चुअल दुनिया और सोशल प्लेटफॉर्म में अवतारों के लिए यथार्थवादी डिजिटल कपड़े उत्पन्न करना।
सतत डिजाइन: विस्तृत परिधान विशेषता जानकारी के आधार पर, AI-संचालित सामग्री अनुकूलन और शून्य-अपशिष्ट पैटर्न जनरेशन।
इंटरैक्टिव सहयोगी डिज़ाइन टूल: रियल-टाइम, संवादात्मक AI डिज़ाइन असिस्टेंट, जहां डिज़ाइनर संवाद के माध्यम से अवधारणाओं को पुनरावृत्त करके परिष्कृत कर सकते हैं।
क्रॉस-मोडल फैशन खोज: डेटासेट से सीखे गए संयुक्त इमेज-टेक्स्ट एम्बेडिंग स्पेस का उपयोग करके, स्केच, वर्णनात्मक भाषा या यहां तक कि वांछित शैली की एक अपलोड की गई तस्वीर के माध्यम से कपड़ों के आइटम खोजना संभव बनाना।
नैतिकता और पूर्वाग्रह न्यूनीकरण: भविष्य के कार्य को डेटासेट के ऑडिट और पूर्वाग्रह-मुक्तीकरण पर ध्यान केंद्रित करना चाहिए, ताकि शरीर के प्रकार, नस्ल और संस्कृति के आधार पर निष्पक्ष प्रतिनिधित्व सुनिश्चित हो और फैशन उद्योग में रूढ़िवादिता की निरंतरता को रोका जा सके।

8. संदर्भ सूची

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
AI Now Institute. (2019). Disability, Bias, and AI. Retrieved from https://ainowinstitute.org
Ge, Y., Zhang, R., Wang, X., Tang, X., & Luo, P. (2021). DeepFashion-MM: A Text-to-Image Synthesis Dataset for Fashion. ACM Multimedia.
Yu, J., Zhang, L., Chen, Z., et al. (2024). Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design. arXiv:2311.12067v3.