एक संपूर्ण पोशाक के रूप में: नोड-वाइज़ ग्राफ न्यूरल नेटवर्क्स पर आधारित पोशाक संगतता सीखना

1. परिचय

यह शोध पत्र फैशन सिफारिश में एक व्यावहारिक समस्या को संबोधित करता है: "दिए गए फैशन आइटम्स के साथ मेल खाने और एक संगत पोशाक बनाने के लिए हमें कौन सा आइटम चुनना चाहिए?" मुख्य चुनौती पोशाक संगतता का सटीक अनुमान लगाना है। पिछले दृष्टिकोण, जो जोड़ीवार आइटम संगतता पर केंद्रित थे या पोशाकों को अनुक्रमों के रूप में प्रस्तुत करते थे (जैसे, आरएनएन का उपयोग करके), एक पोशाक में सभी आइटम्स के बीच जटिल, गैर-अनुक्रमिक संबंधों को पकड़ने में विफल रहे। इस सीमा को दूर करने के लिए, लेखक एक नई ग्राफ-आधारित प्रस्तुति और एक संबंधित नोड-वाइज़ ग्राफ न्यूरल नेटवर्क (NGNN) मॉडल का प्रस्ताव करते हैं।

2. पद्धति

प्रस्तावित ढांचा पोशाक संगतता की समस्या को एक ग्राफ लर्निंग कार्य में बदल देता है।

2.1. फैशन ग्राफ निर्माण

एक पोशाक को एक फैशन ग्राफ $G = (V, E)$ के रूप में दर्शाया जाता है।

नोड्स ($V$): आइटम श्रेणियों का प्रतिनिधित्व करते हैं (जैसे, टी-शर्ट, जींस, जूते)।
एजेस ($E$): श्रेणियों के बीच संगतता संबंधों या अंतःक्रियाओं का प्रतिनिधित्व करते हैं।

प्रत्येक पोशाक एक उप-ग्राफ है जहां विशिष्ट आइटम उदाहरणों को उनकी संबंधित श्रेणी नोड्स में रखा जाता है। यह संरचना एक पोशाक के संबंधपरक टोपोलॉजी को स्पष्ट रूप से मॉडल करती है।

2.2. नोड-वाइज़ ग्राफ न्यूरल नेटवर्क्स (NGNN)

मुख्य नवाचार नोड (श्रेणी) प्रस्तुतियों को सीखने के लिए NGNN परत है। मानक GNNs के विपरीत जो एजेस में साझा पैरामीटर्स का उपयोग कर सकते हैं, NGNN विशिष्ट अंतःक्रियाओं को मॉडल करने के लिए नोड-वाइज़ पैरामीटर्स का उपयोग करता है। पड़ोसी $j$ से नोड $i$ के लिए संदेश पासिंग को इस प्रकार तैयार किया जा सकता है: $$\mathbf{m}_{ij} = \text{MessageFunction}(\mathbf{h}_i^{(l)}, \mathbf{h}_j^{(l)}; \mathbf{W}_{ij})$$ जहां $\mathbf{h}_i^{(l)}$ परत $l$ पर नोड $i$ की विशेषता है, और $\mathbf{W}_{ij}$ नोड जोड़ी $(i, j)$ के लिए विशिष्ट पैरामीटर्स हैं। एकत्रित संदेश का उपयोग तब नोड की प्रस्तुति को अपडेट करने के लिए किया जाता है: $$\mathbf{h}_i^{(l+1)} = \text{UpdateFunction}(\mathbf{h}_i^{(l)}, \text{Aggregate}(\{\mathbf{m}_{ij}\}_{j \in \mathcal{N}(i)}))$$ एक ध्यान तंत्र अंत में संपूर्ण पोशाक ग्राफ के लिए एक संगतता स्कोर की गणना करता है।

2.3. बहु-मोडल विशेषता एकीकरण

NGNN लचीला है और कई मोडलिटीज़ से विशेषताओं को समाहित कर सकता है:

दृश्य विशेषताएँ: सीएनएन (जैसे, रेसनेट) का उपयोग करके आइटम छवियों से निकाली गई।
पाठ्य विशेषताएँ: एनएलपी मॉडल का उपयोग करके आइटम विवरण या टैग से निकाली गई।

इन विशेषताओं को प्रारंभिक नोड विशेषताओं $\mathbf{h}_i^{(0)}$ के रूप में बनाने के लिए जोड़ा या मिलाया जाता है।

3. प्रयोग और परिणाम

मॉडल की प्रभावशीलता को मान्य करने के लिए दो मानक कार्यों पर प्रयोग किए गए।

3.1. प्रयोगात्मक सेटअप

मॉडल का मूल्यांकन सार्वजनिक रूप से उपलब्ध फैशन संगतता डेटासेट पर किया गया। बेसलाइन में शामिल थे:

जोड़ीवार तरीके (जैसे, सियामीज़ सीएनएन, लो-रैंक महलानोबिस)।
अनुक्रम-आधारित तरीके (जैसे, आरएनएन, बाय-एलएसटीएम)।
अन्य ग्राफ-आधारित तरीके (जैसे, मानक जीसीएन, जीएटी)।

मूल्यांकन मापदंड: रिक्त स्थान भरने के लिए सटीकता, संगतता भविष्यवाणी के लिए एयूसी और एफ1-स्कोर।

3.2. रिक्त स्थान भरने का कार्य

एक अपूर्ण पोशाक दी गई है, कार्य उम्मीदवार पूल से सबसे संगत आइटम का चयन करके रिक्त स्थान को भरना है। NGNN ने श्रेष्ठ प्रदर्शन हासिल किया, जो अनुक्रम मॉडल (आरएनएन/बाय-एलएसटीएम) और अन्य GNN वेरिएंट्स से काफी बेहतर रहा। यह स्थानीय जोड़ीवार या अनुक्रमिक निर्भरताओं से परे समग्र पोशाक तर्क के लिए इसकी श्रेष्ठ क्षमता को प्रदर्शित करता है।

3.3. संगतता भविष्यवाणी कार्य

एक पूर्ण पोशाक दी गई है, कार्य एक बाइनरी लेबल (संगत/असंगत) या एक संगतता स्कोर की भविष्यवाणी करना है। NGNN ने फिर से उच्चतम AUC और F1 स्कोर हासिल किए। परिणामों ने पुष्टि की कि नोड-वाइज़ अंतःक्रियाओं वाले ग्राफ के रूप में पोशाकों को मॉडल करना फैशन संगतता की सूक्ष्म, बहु-संबंधपरक प्रकृति को अधिक प्रभावी ढंग से पकड़ता है।

4. तकनीकी विश्लेषण और अंतर्दृष्टि

मुख्य अंतर्दृष्टि: पेपर की मौलिक सफलता यह पहचानना है कि फैशन संगतता एक संबंधपरक ग्राफ समस्या है, न कि जोड़ीवार या अनुक्रमिक। ग्राफ अमूर्तता (फैशन ग्राफ) अनुक्रमों की तुलना में इस डोमेन के लिए अधिक स्वाभाविक रूप से उपयुक्त है, जैसा कि डीप लर्निंग के लिए संबंधपरक प्रेरक पूर्वाग्रहों पर मौलिक कार्यों में तर्क दिया गया है (बैटाग्लिया एट अल., 2018)। लेखक आरएनएन की सीमा को सही ढंग से पहचानते हैं, जो स्वाभाविक रूप से अव्यवस्थित आइटम सेट पर एक मनमाना क्रम लागू करते हैं, एक दोष जो सेट और ग्राफ प्रस्तुति सीखने पर शोध में भी नोट किया गया है (विन्याल्स एट अल., 2015)।

तार्किक प्रवाह: तर्क ठोस है: 1) समस्या की संबंधपरक प्रकृति की पहचान करें, 2) एक ग्राफ-संरचित डेटा प्रस्तुति का प्रस्ताव करें, 3) विभेदित एज अंतःक्रियाओं के साथ उस संरचना के अनुरूप एक तंत्रिका वास्तुकला (NGNN) डिजाइन करें, 4) अनुभवजन्य रूप से मान्य करें। अनुक्रम-से-ग्राफ की ओर यह कदम एआई में स्ट्रिंग्स से नेटवर्क प्रोसेसिंग की ओर व्यापक विकास को दर्शाता है, जैसा कि सोशल नेटवर्क विश्लेषण और ज्ञान ग्राफ में देखा गया है।

शक्तियाँ और कमियाँ: मुख्य शक्ति NGNN में नोड-वाइज़ पैरामीटरीकरण है। यह मॉडल को यह सीखने की अनुमति देता है कि "ब्लेज़र" और "ड्रेस" के बीच की अंतःक्रिया "स्नीकर्स" और "मोज़े" के बीच की अंतःक्रिया से मौलिक रूप से भिन्न है, जो श्रेणी-विशिष्ट शैली नियमों को पकड़ती है। यह वैनिला जीसीएन/जीएटी से एक कदम आगे है। एक संभावित कमी, जो अकादमिक प्रोटोटाइप में आम है, कम्प्यूटेशनल लागत है। प्रत्येक संभावित श्रेणी जोड़ी के लिए एक अद्वितीय पैरामीटर सेट $\mathbf{W}_{ij}$ सीखना, महत्वपूर्ण पैरामीटर साझाकरण या गुणनखंडन तकनीकों के बिना, हजारों श्रेणियों वाले विशाल, सूक्ष्म-वर्गीकृत कैटलॉग तक स्केल नहीं कर सकता है।

कार्रवाई योग्य अंतर्दृष्टि: व्यवसायियों के लिए, यह शोध डेटा मॉडलिंग में बदलाव को अनिवार्य करता है। अनुक्रमिक पोशाक डेटा तैयार करने के बजाय, समृद्ध श्रेणी-संबंध ग्राफ बनाने पर ध्यान केंद्रित करें। NGNN वास्तुकला स्टिच फिक्स या अमेज़न फैशन जैसी कंपनियों में तकनीकी टीमों के लिए एक तैयार-कार्यान्वयन योजना है। बहु-मोडल दृष्टिकोण छवियों और पाठ के लिए एकीकृत विशेषता पाइपलाइनों में निवेश करने का भी सुझाव देता है। तत्काल अगला कदम नोड-वाइज़ पैरामीटर्स के कुशल सन्निकटन (जैसे, हाइपरनेटवर्क या टेंसर गुणनखंडन का उपयोग करके) का पता लगाना होना चाहिए ताकि औद्योगिक व्यवहार्यता सुनिश्चित हो सके।

5. विश्लेषण ढांचा उदाहरण

परिदृश्य: एक उम्मीदवार पोशाक की संगतता का विश्लेषण: "सफेद लिनन शर्ट, गहरी नीली जींस, भूरे रंग के चमड़े के लोफर्स, चांदी की घड़ी।"

ढांचा अनुप्रयोग (गैर-कोड):

ग्राफ निर्माण:
- नोड्स: {शर्ट, जींस, जूते, घड़ी}।
- एजेस: पूरी तरह से जुड़े हुए या पूर्व ज्ञान ग्राफ पर आधारित (जैसे, शर्ट-जींस, शर्ट-जूते, जींस-जूते, घड़ी-शर्ट, आदि)।
विशेषता आरंभीकरण:
- दृश्य विशेषताएँ निकालें: रंग (सफेद, नीला, भूरा, चांदी), बनावट (लिनन, डेनिम, चमड़ा, धातु), औपचारिकता स्कोर।
- पाठ्य विशेषताएँ निकालें: विवरण से कीवर्ड ("कैजुअल," "फॉर्मल," "गर्मी," "एक्सेसरी")।
NGNN प्रसंस्करण:
- "शर्ट" नोड को "जींस," "जूते," और "घड़ी" से संदेश प्राप्त होते हैं। $\mathbf{W}_{\text{शर्ट,जींस}}$ पैरामीटर्स कैजुअल शैली संरेखण सीखते हैं, जबकि $\mathbf{W}_{\text{शर्ट,घड़ी}}$ एक्सेसरी समन्वय नियम सीख सकते हैं।
- कई परतों के बाद, प्रत्येक नोड के पास एक संदर्भ-सचेत प्रस्तुति होती है जो इस विशिष्ट पोशाक में इसकी भूमिका को दर्शाती है।
संगतता स्कोरिंग:
- अंतिम ग्राफ-स्तरीय प्रस्तुति को एक ध्यान/स्कोरिंग परत में फीड किया जाता है।
- आउटपुट: एक उच्च संगतता स्कोर (जैसे, 0.87), जो एक सुसंगत, स्टाइलिश पोशाक को इंगित करता है।

यह ढांचा अलगाव में यह जांचने से आगे बढ़ता है कि शर्ट जींस से मेल खाती है या नहीं, बल्कि सभी चार आइटम्स की समग्र सामंजस्य का एक प्रणाली के रूप में मूल्यांकन करता है।

6. भविष्य के अनुप्रयोग और दिशाएँ

व्यक्तिगत संगतता: उपयोगकर्ता प्रोफाइल, पिछली खरीदारी और शारीरिक मापदंडों को ग्राफ में एकीकृत करना (जैसे, एक "उपयोगकर्ता" नोड जोड़कर) सामान्य से व्यक्तिगत पोशाक सिफारिश की ओर बढ़ना। GNNs के माध्यम से सहयोगी फ़िल्टरिंग में शोध (हे एट अल., 2020, लाइटजीसीएन) एक स्पष्ट मार्ग प्रदान करता है।
फैशन के लिए समझने योग्य एआई: GNN व्याख्यात्मकता तकनीकों (जैसे, GNNExplainer) का लाभ उठाकर यह उजागर करना कि कौन सी विशिष्ट आइटम-जोड़ी अंतःक्रियाएं एक पोशाक के स्कोर को कमजोर कर रही हैं, उपयोगकर्ताओं को कार्रवाई योग्य शैली सलाह प्रदान करना।
क्रॉस-डोमेन और मेटावर्स फैशन: वर्चुअल ट्राई-ऑन, गेम्स/मेटावर्स में डिजिटल फैशन, और क्रॉस-डोमेन स्टाइलिंग (जैसे, एक सुसंगत "सौंदर्यशास्त्र" के लिए फर्नीचर को कपड़ों से मिलाना) के लिए ढांचे को लागू करना। ग्राफ संरचना आसानी से विभिन्न डोमेन से नोड्स को शामिल कर सकती है।
टिकाऊ फैशन और कैप्सूल वार्डरोब: अधिकतम बहुमुखी "कोर" आइटम्स की पहचान करने के लिए मॉडल का उपयोग करना जो कई अन्य के साथ संगत पोशाक बनाते हैं, टिकाऊ कैप्सूल वार्डरोब बनाने और अति-उपभोग को कम करने में सहायता करना।
गतिशील और अस्थायी ग्राफ: अस्थायी फैशन ग्राफ बनाकर समय के साथ फैशन ट्रेंड्स को मॉडल करना, सिस्टम को उन पोशाकों की सिफारिश करने की अनुमति देना जो वर्तमान सीज़न के लिए संगत और ट्रेंडी दोनों हैं।

7. संदर्भ

Cui, Z., Li, Z., Wu, S., Zhang, X., & Wang, L. (2019). Dressing as a Whole: Outfit Compatibility Learning Based on Node-wise Graph Neural Networks. Proceedings of the 2019 World Wide Web Conference (WWW '19).
Battaglia, P. W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261.
Vinyals, O., Bengio, S., & Kudlur, M. (2015). Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391.
He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M. (2020). LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning visual clothing style with heterogeneous dyadic co-occurrences. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
McAuley, J., Targett, C., Shi, Q., & van den Hengel, A. (2015). Image-based recommendations on styles and substitutes. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.