1. परिचय
जेनरेटिव आर्टिफिशियल इंटेलिजेंस (GenAI) जटिल औद्योगिक वर्कफ़्लो को क्रांतिकारी बना रही है। कपड़ा उद्योग में, ग्राहक की मांग से लेकर डिजाइनर, पैटर्न मेकर, दर्जी और अंतिम डिलीवरी तक की पारंपरिक प्रक्रिया को बड़े मल्टीमॉडल मॉडल (LMMs) द्वारा संवर्धित किया जा रहा है। हालांकि वर्तमान LMMs माल की सिफारिशों के लिए ग्राहक की प्राथमिकताओं का विश्लेषण करने में कुशल हैं, लेकिनसूक्ष्म-दानेदार, उपयोगकर्ता-संचालित अनुकूलनअभी भी महत्वपूर्ण अंतराल मौजूद हैं। उपयोगकर्ता डिजाइनर की भूमिका निभाने, डिजाइन बनाने और संतुष्ट होने तक उनमें पुनरावृत्ति करने की इच्छा रखते हैं। हालाँकि, शुद्ध पाठ संकेत (जैसे "सफेद सूट जैकेट") अस्पष्ट हैं और उन पेशेवर विवरणों (जैसे किसी विशिष्ट कॉलर प्रकार) का अभाव है जिन्हें एक डिजाइनर अनुमान लगा सकता है। यह पेपर प्रस्तुत करता हैBetter Understanding Generation (BUG)वर्कफ़्लो, जो व्याख्या करने के लिए LMMs का उपयोग करता हैइमेज-टू-प्रॉम्प्टइनपुट और टेक्स्ट के माध्यम से सटीक, पुनरावृत्तीय फैशन डिज़ाइन संपादन को सक्षम करना, ताकि शौकिया उपयोगकर्ताओं के इरादे और पेशेवर-स्तरीय आउटपुट के बीच की खाई को पाटा जा सके।
2. कार्यप्रणाली
2.1 BUG वर्कफ़्लो
BUG वर्कफ़्लो वास्तविक दुनिया की डिज़ाइन परामर्श प्रक्रिया का अनुकरण करता है। यह शुरू होता हैइनिशियलाइज़ेशनचरण से, जो उपयोगकर्ता के पाठ विवरण (जैसे "फैब्रिक पैटर्न वाला एक कॉटन सूट जैकेट") के आधार पर एक आधारभूत परिधान छवि उत्पन्न करता है। इसके बाद, उपयोगकर्ता संपादन के लिए पुनरावृत्त चक्रों के माध्यम से अनुरोध कर सकता है। प्रत्येक पुनरावृत्ति में एकपाठ संकेत(उदाहरण के लिए "कॉलर संशोधित करें"), और महत्वपूर्ण रूप सेइमेज-टू-प्रॉम्प्ट——एक संदर्भ छवि जो वांछित शैली तत्वों को दर्शाती है (उदाहरण के लिए, एक पीक लैपल की तस्वीर)। LMM इस बहु-मोडल इनपुट को संसाधित करके संपादित डिज़ाइन उत्पन्न करता है, जिसे उपयोगकर्ता स्वीकार कर सकता है या अगले परिष्करण के आधार के रूप में उपयोग कर सकता है।
2.2 इमेज-टू-प्रॉम्प्ट मैकेनिज़्म
यह मुख्य नवाचार है। सिस्टम अब केवल दृश्य अवधारणाओं के पाठ्य विवरण पर निर्भर नहीं रहता, बल्कि एक संदर्भ छवि प्राप्त करता है। LMM का विज़ुअल एनकोडर उस संदर्भ छवि से दृश्य विशेषताएं निकालता है, और फिर उन्हें एनकोडेड टेक्स्ट प्रॉम्प्ट के साथ मिलाता है। यह संयोजन छवि जनरेट/एडिट मॉडल के लिए एक अधिक समृद्ध और कम अस्पष्ट सशर्त सिग्नल बनाता है, जो सीधे परिचय में उजागर "टेक्स्ट अंसर्टेंटी" समस्या का समाधान करता है।
2.3 LMM आर्किटेक्चर
प्रस्तावित प्रणाली ने दो LMM सेटअप को अपनाया है, जिसे चित्र 2 में संकेतित किया गया है।eLMM和mLMM。eLMM (Editing LMM)बहु-मोडल संपादन अनुरोधों को समझने और संशोधन योजना बनाने के लिए जिम्मेदार।mLMM (Modifying LMM)वास्तविक छवि संपादन को निष्पादित करना, संभवतः Stable Diffusion 3 जैसे विसरण मॉडल आर्किटेक्चर पर आधारित निर्माण, और एकीकृत पाठ-छवि प्रतिनिधित्व द्वारा नियंत्रित। यह पृथक्करण विशिष्ट अनुमान और निष्पादन की अनुमति देता है।
3. FashionEdit डेटासेट
3.1 Dataset Construction
BUG वर्कफ़्लो को सत्यापित करने के लिए, लेखक नेFashionEditडेटासेट का परिचय दिया। इस डेटासेट का उद्देश्य वास्तविक दुनिया के फैशन डिज़ाइन वर्कफ़्लो का अनुकरण करना है। इसमें ट्रिपल शामिल हैं:(1) बेस कपड़ों की छवि,(2) पाठ संपादन निर्देश(उदाहरण के लिए "शांग बो लिंग शैली में बदलें"), तथा(3) लक्ष्य विशेषताओं का वर्णन करने वाली संदर्भ शैली छवि। यह डेटासेट सूक्ष्म-स्तरीय संपादनों को शामिल करता है, जैसे कॉलर प्रकार परिवर्तन (पीक लैपेल), बंद करने के तरीके में संशोधन (चार-बटन डबल-ब्रेस्टेड), और सहायक उपकरण जोड़ना (एक बूटोनियर जोड़ना)।
3.2 Evaluation Metrics
प्रस्तावित मूल्यांकन में तीन पहलू शामिल हैं:
- समानता उत्पन्न करें:संपादित आउटपुट और संदर्भ छवि में अपेक्षित विशेषताओं के बीच निकटता को मापें, LPIPS (Learned Perceptual Image Patch Similarity) और CLIP स्कोर जैसे मेट्रिक्स का उपयोग करके।
- उपयोगकर्ता संतुष्टि:वास्तविक उपयोगिता और उपयोगकर्ता इरादे के साथ संगति का मूल्यांकन मैन्युअल मूल्यांकन या प्रश्नावली सर्वेक्षण के माध्यम से किया जाता है।
- गुणवत्ता:कलाकृतियों की अनुपस्थिति सुनिश्चित करते हुए, उत्पन्न छवि की समग्र दृश्य निष्ठा और सुसंगतता का मूल्यांकन करें।
4. प्रयोग और परिणाम
4.1 प्रयोग सेटअप
FashionEdit डेटासेट पर, BUG फ्रेमवर्क का केवल पाठ-आधारित बेसलाइन संपादन विधियों (जैसे Stable Diffusion 3 और DALL-E 2 के साथ इनपेंटिंग क्षमता वाले मॉडल) के साथ बेंचमार्क परीक्षण किया गया। प्रयोग ने संदर्भ छवि मार्गदर्शन में सटीक, विशिष्ट विशेषता संपादन करने की प्रणाली की क्षमता का परीक्षण किया।
4.2 मात्रात्मक परिणाम
शोध पत्र में बताया गया है कि BUG वर्कफ़्लो सभी तीन मूल्यांकन मेट्रिक्स पर प्लेन टेक्स्ट बेसलाइन से बेहतर प्रदर्शन करता है। मुख्य निष्कर्षों में शामिल हैं:
- उच्च LPIPS/CLIP स्कोर:संपादित छवि संदर्भ छवि द्वारा निर्दिष्ट लक्ष्य विशेषताओं के साथ धारणात्मक रूप से अधिक समानता प्रदर्शित करती है।
- उच्च उपयोगकर्ता संतुष्टि:मानव मूल्यांकन में, छवि-से-टेक्स्ट विधि द्वारा उत्पन्न आउटपुट को संपादन अनुरोधों को अधिक सटीक रूप से पूरा करने के लिए लगातार उच्च रेट किया गया।
- छवि गुणवत्ता बनाए रखना:BUG वर्कफ़्लो लक्ष्य संपादन करते हुए, आधार वस्त्र की समग्र गुणवत्ता और सुसंगतता बनाए रखता है।
4.3 गुणात्मक विश्लेषण एवं केस अध्ययन
PDF में चित्र 1 और चित्र 2 मजबूत गुणात्मक साक्ष्य प्रदान करते हैं। चित्र 1 एक वास्तविक दृश्य प्रस्तुत करता है: उपयोगकर्ता एक व्यक्ति की छवि जो सफेद सूट जैकेट पहने हुए है और एक विशिष्ट कॉलर शैली की संदर्भ तस्वीर प्रदान करता है, संशोधन का अनुरोध करते हुए। केवल पाठ विवरण "सफेद सूट जैकेट" पर्याप्त नहीं है। चित्र 2 दृश्य रूप से पुनरावृत्त BUG प्रक्रिया (पाठ और छवि संकेत दोनों का उपयोग करते हुए) की तुलना शुद्ध पाठ संपादन प्रवाह से करता है, यह दर्शाता है कि पूर्व कैसे सही डिजाइन की ओर ले जाता है, जबकि बाद वाला बटनहोल जोड़ने या डबल-ब्रेस्टेड चार-बटन शैली में बदलने जैसे सूक्ष्म कार्यों पर अक्सर गलत या अस्पष्ट परिणाम उत्पन्न करता है।
5. तकनीकी विश्लेषण एवं ढांचा
5.1 गणितीय सूत्र
मूल उत्पादन प्रक्रिया को एक सशर्त प्रसार प्रक्रिया के रूप में व्यक्त किया जा सकता है। मान लीजिए $I_0$ प्रारंभिक आधार छवि है। एक संपादन अनुरोध एक जोड़ी $(T_{edit}, I_{ref})$ है, जहां $T_{edit}$ पाठ निर्देश है और $I_{ref}$ संदर्भ छवि है। LMM इसे एक संयुक्त सशर्त वेक्टर $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$ में एन्कोड करता है, जहां $\mathcal{F}$ एक संलयन नेटवर्क (उदाहरण के लिए क्रॉस-अटेंशन) है। फिर, संपादित छवि $I_{edit}$ को $c$ द्वारा सशर्त रिवर्स प्रसार प्रक्रिया से नमूना लेकर प्राप्त किया जाता है:
5.2 विश्लेषणात्मक ढांचा उदाहरण
केस: सूट लैपल संपादन
- इनपुट: बेस इमेज ($I_0$): एक महिला की छवि जो नॉच लैपल वाला सूट जैकेट पहने हुए है। संपादन अनुरोध: $(T_{edit}="पीक लैपल शैली में बदलें", I_{ref}=[पीक लैपल छवि])$।
- LMM प्रोसेसिंग: eLMM $T_{edit}$ का विश्लेषण करता है ताकि लक्ष्य क्षेत्र ("लैपल") और कार्रवाई ("शैली बदलें") की पहचान की जा सके। विज़ुअल एनकोडर $I_{ref}$ से "पीक लैपल" को परिभाषित करने वाले दृश्य विशेषताओं को निकालता है।
- कंडीशनल फ्यूज़न: $I_0$ से "लैपल" विशेषताएं, टेक्स्ट कॉन्सेप्ट "पीक लैपल", और $I_{ref}$ से दृश्य टेम्पलेट को संरेखित और एकीकृत किया जाता है, जिससे mLMM के उपयोग के लिए एक एकीकृत स्थानिक-जागरूक कंडीशन मैप बनता है।
- Execute: mLMM (a diffusion model), guided by fusion conditions, repairs/edits the lapel area of $I_0$, transforming a notch lapel into a peak lapel while preserving the rest of the suit and the model's pose.
- Output: $I_{edit}$: एक ही आधार छवि, लेकिन लैपल को सटीक रूप से पीक लैपल में संशोधित किया गया है।
6. भविष्य के अनुप्रयोग एवं दिशाएँ
BUG वर्कफ़्लो का प्रभाव फैशन डोमेन से परे है:
- इंटीरियर एवं उत्पाद डिजाइन: उपयोगकर्ता 3D मॉडल या कमरे के रेंडर को संशोधित करने के लिए फर्नीचर के पैर या कपड़े की बनावट के संदर्भ चित्र प्रदर्शित कर सकते हैं।
- गेम एसेट निर्माण: आधार मॉडल को शैली संदर्भ के साथ जोड़कर, पात्र कवच, हथियार या परिवेश का त्वरित प्रोटोटाइप बनाना।
- वास्तुकला दृश्यीकरण: उदाहरण छवि के आधार पर वास्तुकला अग्रभाग या आंतरिक सज्जा में संशोधन करना।
- भविष्य के शोध: विस्तार करनावीडियो संपादन(फ्रेमों में अभिनेता के कपड़े बदलना),3D आकार संपादन, और संपादन में सुधार के लिएसंयोजनशीलता(कई संभावित परस्पर विरोधी संदर्भ छवियों को संसाधित करना)। एक प्रमुख दिशा LMM कीस्थानिक संबंधों और भौतिक गुणों की तर्क क्षमता को बढ़ाना है, यह सुनिश्चित करने के लिए कि संपादन न केवल दृश्य रूप से सही बल्कि तार्किक भी हो (उदाहरण के लिए, बाउटोनियर लैपल पर सही ढंग से लगा हो)।
7. संदर्भ सूची
- Stable Diffusion 3: Research Paper, Stability AI.
- Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
- Isola, P., et al. (2017). सशर्त प्रतिकूल नेटवर्क के साथ छवि-से-छवि अनुवाद। IEEE कंप्यूटर विज़न और पैटर्न रिकग्निशन कॉन्फ्रेंस (CVPR) की कार्यवाही. (CycleGAN एक संबंधित अनिरीक्षित विधि है)।
- Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
- Brooks, T., et al. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- Li, H., et al. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.
8. मौलिक विश्लेषण एवं विशेषज्ञ टिप्पणी
मुख्य अंतर्दृष्टि: यह शोध पत्र केवल छवि संपादन क्षेत्र में एक और वृद्धिशील सुधार नहीं है; यह एक ऐसा कदम है जोमल्टीमॉडल इरादा अस्पष्टता निवारणका रणनीतिक मोड़। लेखक सही ढंग से इंगित करते हैं कि रचनात्मक क्षेत्रों में जेनरेटिव एआई की अगली सीमा कच्ची क्षमता नहीं है, बल्किसटीक संचारहै। वास्तविक बाधा मॉडल की "सूट जैकेट" उत्पन्न करने की क्षमता नहीं है, बल्कि उपयोगकर्ता के मन में उसकी समझ हैकौन सा सूट जैकेट विशेष रूप से हैकी क्षमता। "इमेज एज़ रेफरेंस" प्रतिमान को "इमेज-टू-प्रॉम्प्ट" बेंचमार्क (BUG) के रूप में औपचारिक रूप देकर, वे मानव-एआई सह-निर्माण को प्रभावित करने वाली मूलभूत अस्पष्टता का समाधान कर रहे हैं। यह CycleGAN (अयुग्मित शैली स्थानांतरण सीखना) या InstructPix2Pix (केवल पाठ पर निर्भर) जैसे मॉडलों के पुराने रास्ते से आगे बढ़कर, स्पष्ट रूप से एआई से मांग करता हैक्रॉस-रेफरेंसदृश्य उदाहरण, यह एक संज्ञानात्मक चरण है जो मानव डिजाइनरों के कार्य करने के तरीके के अधिक निकट है।
तार्किक संरचना: तर्क प्रभावशाली और अच्छी तरह से संरचित है। यह एक स्पष्ट उद्योग समस्या (शौकिया पाठ संकेतों और पेशेवर डिजाइन आउटपुट के बीच की खाई) से शुरू होता है, एक संज्ञानात्मक रूप से उचित समाधान (संदर्भ छवियों का उपयोग करने के लिए डिजाइनरों के तरीके की नकल करना) प्रस्तावित करता है, और फिर इसे एक विशिष्ट तकनीकी वर्कफ़्लो (BUG) और एक कस्टम मूल्यांकन डेटासेट (FashionEdit) द्वारा समर्थित करता है। उच्च-स्तरीय योजना और निम्न-स्तरीय निष्पादन को तार्किक रूप से अलग करने के लिए दोहरे LMM आर्किटेक्चर (eLMM/mLMM) का उपयोग, एजेंट-आधारित AI प्रणालियों में एक तेजी से लोकप्रिय डिजाइन पैटर्न है, जैसा कि Google DeepMind जैसे संस्थानों द्वारा उपकरण उपयोग और योजना पर शोध से पता चलता है।
शक्तियाँ और सीमाएँ: मुख्य फायदा यह है किसमस्या परिभाषा और बेंचमार्क निर्माण।FashionEdit डेटासेट यदि सार्वजनिक रूप से उपलब्ध हो, तो यह बारीक-स्तरीय संपादन के मूल्यांकन के लिए एक मानक बन सकता है, जैसे MS-COCO वस्तु पहचान के लिए है। उपयोगकर्ता संतुष्टि को एक मीट्रिक के रूप में शामिल करना भी सराहनीय है, यह स्वीकार करते हुए कि केवल तकनीकी स्कोर पर्याप्त नहीं हैं। हालाँकि, जैसा कि सारांश दर्शाता है, इस पेपर में महत्वपूर्ण कमियाँ हैं।LMM संलयन तंत्र के तकनीकी विवरण बहुत कम हैं$I_{ref}$ से दृश्य विशेषताएँ वास्तव में $I_0$ में स्थानिक क्षेत्रों के साथ कैसे संरेखित होती हैं? क्या यह क्रॉस-एटेंशन, एक समर्पित स्थानिक संरेखण मॉड्यूल, या किसी अन्य विधि के माध्यम से है? इसके अलावा, जबकि मूल्यांकन आशाजनक है, अधिक कठोर विच्छेदन अध्ययन की आवश्यकता है। प्रदर्शन में सुधार कितना संदर्भ छवि से आता है, न कि केवल एक बेहतर ट्यून किए गए आधार मॉडल होने से? जैसेInstructPix2Pix或DragGANशैली-आधारित बिंदु संपादन जैसे मजबूत बेसलाइन के साथ तुलना करने से अधिक ठोस साक्ष्य प्रदान किया जाएगा।
क्रियान्वयन योग्य अंतर्दृष्टि: उद्योग के पेशेवरों के लिए, यह अध्ययन एक स्पष्ट संकेत देता है: अपने जेनरेटिव AI उत्पादों के लिएमल्टीमॉडल इंटरैक्शन लेयर में निवेश करें। एक साधारण टेक्स्ट बॉक्स अब पर्याप्त नहीं है। यूजर इंटरफेस को उपयोगकर्ताओं को संदर्भ छवियों को ड्रैग-एंड-ड्रॉप या सर्कल करके चुनने की अनुमति देनी चाहिए। शोधकर्ताओं के लिए, BUG बेंचमार्क कई दिशाएं खोलता है: 1)रोबस्टनेस टेस्टिंग——मॉडल कम गुणवत्ता या अर्थपूर्ण रूप से दूर के संदर्भ छवियों के तहत कैसा प्रदर्शन करता है?2)संयोजनशीलता——क्या यह "छवि A के कॉलर और छवि B की आस्तीन को संयोजित करें" को संभाल सकता है?3)जनरलाइज़ेशन——क्या इन सिद्धांतों को गैर-फैशन डोमेन जैसे ग्राफिक डिज़ाइन या औद्योगिक CAD में लागू किया जा सकता है? अंतिम कसौटी यह होगी कि क्या यह विधि नियंत्रित डेटासेट से वास्तविक उपयोगकर्ताओं की अव्यवस्थित, खुले-सिरे की रचनात्मकता की ओर बढ़ सकती है, एक चुनौती जो अक्सर शैक्षणिक प्रोटोटाइप को व्यावसायिक सफलता से अलग करती है, जैसा कि GAN-आधारित प्रारंभिक रचनात्मक उपकरणों के इतिहास से पता चलता है।