একটি সম্পূর্ণ পোশাক: নোড-ওয়াইজ গ্রাফ নিউরাল নেটওয়ার্কের উপর ভিত্তি করে পোশাক সামঞ্জস্যতা শেখা

1. ভূমিকা

এই গবেষণাপত্রটি ফ্যাশন সুপারিশের একটি ব্যবহারিক সমস্যা সমাধান করে: "প্রদত্ত ফ্যাশন আইটেমগুলোর সাথে মিলিয়ে একটি সামঞ্জস্যপূর্ণ পোশাক গঠনের জন্য কোন আইটেমটি নির্বাচন করা উচিত?" মূল চ্যালেঞ্জ হল পোশাক সামঞ্জস্যতা সঠিকভাবে অনুমান করা। পূর্ববর্তী পদ্ধতিগুলো, যা জোড়া আইটেম সামঞ্জস্যতার উপর দৃষ্টি নিবদ্ধ করেছিল বা পোশাকগুলিকে ক্রম (যেমন, RNN ব্যবহার করে) হিসেবে উপস্থাপন করেছিল, একটি পোশাকের সমস্ত আইটেমের মধ্যে জটিল, অ-ক্রমিক সম্পর্কগুলো ক্যাপচার করতে ব্যর্থ হয়েছিল। এই সীমাবদ্ধতা কাটিয়ে উঠতে, লেখকরা একটি নতুন গ্রাফ-ভিত্তিক উপস্থাপনা এবং একটি সংশ্লিষ্ট নোড-ওয়াইজ গ্রাফ নিউরাল নেটওয়ার্ক (NGNN) মডেল প্রস্তাব করেছেন।

2. পদ্ধতি

প্রস্তাবিত কাঠামোটি পোশাক সামঞ্জস্যতার সমস্যাকে একটি গ্রাফ লার্নিং টাস্কে রূপান্তরিত করে।

2.1. ফ্যাশন গ্রাফ নির্মাণ

একটি পোশাককে একটি ফ্যাশন গ্রাফ $G = (V, E)$ হিসেবে উপস্থাপন করা হয়।

নোড ($V$): আইটেম বিভাগগুলোর প্রতিনিধিত্ব করে (যেমন, টি-শার্ট, জিন্স, জুতা)।
এজ ($E$): বিভাগগুলোর মধ্যে সামঞ্জস্যতা সম্পর্ক বা মিথস্ক্রিয়ার প্রতিনিধিত্ব করে।

প্রতিটি পোশাক একটি উপ-গ্রাফ যেখানে নির্দিষ্ট আইটেমের উদাহরণগুলো তাদের সংশ্লিষ্ট বিভাগ নোডে স্থাপন করা হয়। এই কাঠামোটি একটি পোশাকের সম্পর্কিত টপোলজি স্পষ্টভাবে মডেল করে।

2.2. নোড-ওয়াইজ গ্রাফ নিউরাল নেটওয়ার্ক (NGNN)

মূল উদ্ভাবন হল নোড (বিভাগ) উপস্থাপনা শেখার জন্য NGNN স্তর। স্ট্যান্ডার্ড GNN-গুলোর থেকে ভিন্ন, যারা এজ জুড়ে শেয়ার করা প্যারামিটার ব্যবহার করতে পারে, NGNN স্বতন্ত্র মিথস্ক্রিয়া মডেল করার জন্য নোড-ওয়াইজ প্যারামিটার ব্যবহার করে। প্রতিবেশী $j$ থেকে নোড $i$-এর জন্য মেসেজ পাসিং নিম্নরূপে সূত্রায়িত করা যেতে পারে: $$\mathbf{m}_{ij} = \text{MessageFunction}(\mathbf{h}_i^{(l)}, \mathbf{h}_j^{(l)}; \mathbf{W}_{ij})$$ যেখানে $\mathbf{h}_i^{(l)}$ হল স্তর $l$-এ নোড $i$-এর বৈশিষ্ট্য, এবং $\mathbf{W}_{ij}$ হল নোড জোড়া $(i, j)$-এর জন্য নির্দিষ্ট প্যারামিটার। সমষ্টিগত মেসেজটি তারপর নোডের উপস্থাপনা আপডেট করতে ব্যবহৃত হয়: $$\mathbf{h}_i^{(l+1)} = \text{UpdateFunction}(\mathbf{h}_i^{(l)}, \text{Aggregate}(\{\mathbf{m}_{ij}\}_{j \in \mathcal{N}(i)}))$$ একটি অ্যাটেনশন মেকানিজম শেষ পর্যন্ত সম্পূর্ণ পোশাক গ্রাফের জন্য একটি সামঞ্জস্যতা স্কোর গণনা করে।

2.3. বহু-মোড বৈশিষ্ট্য সংযোজন

NGNN নমনীয় এবং একাধিক মোডালিটি থেকে বৈশিষ্ট্য গ্রহণ করতে পারে:

ভিজুয়াল বৈশিষ্ট্য: CNN (যেমন, ResNet) ব্যবহার করে আইটেম ছবি থেকে নিষ্কাশিত।
পাঠ্য বৈশিষ্ট্য: NLP মডেল ব্যবহার করে আইটেম বর্ণনা বা ট্যাগ থেকে নিষ্কাশিত।

এই বৈশিষ্ট্যগুলো প্রাথমিক নোড বৈশিষ্ট্য $\mathbf{h}_i^{(0)}$ গঠনের জন্য সংযুক্ত বা একীভূত করা হয়।

3. পরীক্ষা ও ফলাফল

মডেলের কার্যকারিতা যাচাই করার জন্য দুটি স্ট্যান্ডার্ড টাস্কে পরীক্ষা চালানো হয়েছিল।

3.1. পরীক্ষামূলক সেটআপ

মডেলটি সর্বজনীনভাবে উপলব্ধ ফ্যাশন সামঞ্জস্যতা ডেটাসেটে মূল্যায়ন করা হয়েছিল। বেসলাইনগুলোর মধ্যে অন্তর্ভুক্ত ছিল:

জোড়াভিত্তিক পদ্ধতি (যেমন, সিয়ামিজ CNN, লো-র্যাঙ্ক মহালানোবিস)।
ক্রম-ভিত্তিক পদ্ধতি (যেমন, RNN, Bi-LSTM)।
অন্যান্য গ্রাফ-ভিত্তিক পদ্ধতি (যেমন, স্ট্যান্ডার্ড GCN, GAT)।

মূল্যায়ন মেট্রিক্স: ফিল-ইন-দ্য-ব্ল্যাঙ্কের জন্য নির্ভুলতা, সামঞ্জস্যতা ভবিষ্যদ্বাণীর জন্য AUC এবং F1-স্কোর।

3.2. ফিল-ইন-দ্য-ব্ল্যাঙ্ক টাস্ক

একটি অসম্পূর্ণ পোশাক দেওয়া হলে, টাস্কটি হল ফাঁকা স্থান পূরণের জন্য প্রার্থী পুল থেকে সবচেয়ে সামঞ্জস্যপূর্ণ আইটেম নির্বাচন করা। NGNN শ্রেষ্ঠ কর্মক্ষমতা অর্জন করেছে, ক্রম মডেল (RNN/Bi-LSTM) এবং অন্যান্য GNN প্রকরণগুলোর তুলনায় উল্লেখযোগ্যভাবে এগিয়ে। এটি স্থানীয় জোড়াভিত্তিক বা ক্রমিক নির্ভরতার বাইরে সামগ্রিক পোশাক যুক্তির জন্য এর উচ্চতর ক্ষমতা প্রদর্শন করে।

3.3. সামঞ্জস্যতা ভবিষ্যদ্বাণী টাস্ক

একটি সম্পূর্ণ পোশাক দেওয়া হলে, টাস্কটি হল একটি বাইনারি লেবেল (সামঞ্জস্যপূর্ণ/অসামঞ্জস্যপূর্ণ) বা একটি সামঞ্জস্যতা স্কোর ভবিষ্যদ্বাণী করা। NGNN আবার সর্বোচ্চ AUC এবং F1 স্কোর অর্জন করেছে। ফলাফলগুলো নিশ্চিত করেছে যে নোড-ওয়াইজ মিথস্ক্রিয়া সহ গ্রাফ হিসেবে পোশাক মডেলিং করা ফ্যাশন সামঞ্জস্যতার সূক্ষ্ম, বহু-সম্পর্কিত প্রকৃতিকে আরও কার্যকরভাবে ক্যাপচার করে।

4. প্রযুক্তিগত বিশ্লেষণ ও অন্তর্দৃষ্টি

মূল অন্তর্দৃষ্টি: গবেষণাপত্রের মৌলিক অগ্রগতি হল এই স্বীকৃতি যে ফ্যাশন সামঞ্জস্যতা একটি সম্পর্কিত গ্রাফ সমস্যা, জোড়াভিত্তিক বা ক্রমিক সমস্যা নয়। গ্রাফ বিমূর্ততা (ফ্যাশন গ্রাফ) ক্রমের তুলনায় এই ডোমেনের জন্য একটি আরও প্রাকৃতিক ফিট, যেমন গভীর শিক্ষার জন্য সম্পর্কিত ইন্ডাকটিভ বায়াসের মৌলিক কাজগুলোতে যুক্তি দেওয়া হয়েছে (Battaglia et al., 2018)। লেখকরা RNN-গুলোর সীমাবদ্ধতা সঠিকভাবে চিহ্নিত করেছেন, যা স্বভাবতই অর্ডারহীন আইটেম সেটগুলোর উপর একটি নির্বিচারে ক্রম চাপিয়ে দেয়, সেট এবং গ্রাফ উপস্থাপনা শেখার গবেষণায়ও এই ত্রুটিটি উল্লেখ করা হয়েছে (Vinyals et al., 2015)।

যুক্তিগত প্রবাহ: যুক্তিটি সঠিক: 1) সমস্যার সম্পর্কিত প্রকৃতি চিহ্নিত করা, 2) একটি গ্রাফ-কাঠামোবদ্ধ ডেটা উপস্থাপনা প্রস্তাব করা, 3) সেই কাঠামোর সাথে খাপ খাইয়ে নেওয়া একটি নিউরাল আর্কিটেকচার (NGNN) ডিজাইন করা যেখানে পার্থক্যপূর্ণ এজ মিথস্ক্রিয়া রয়েছে, 4) অভিজ্ঞতামূলকভাবে যাচাই করা। ক্রম থেকে গ্রাফে রূপান্তর সামাজিক নেটওয়ার্ক বিশ্লেষণ এবং জ্ঞান গ্রাফে দেখা যায়, যেমন AI-তে স্ট্রিং প্রসেসিং থেকে নেটওয়ার্ক প্রসেসিং-এ বিস্তৃত বিবর্তনের প্রতিফলন ঘটায়।

শক্তি ও ত্রুটি: মূল শক্তি হল NGNN-এ নোড-ওয়াইজ প্যারামিটারাইজেশন। এটি মডেলটিকে শিখতে দেয় যে "ব্লেজার" এবং "ড্রেস"-এর মধ্যে মিথস্ক্রিয়া "স্নিকার্স" এবং "মোজা"-এর মধ্যে মিথস্ক্রিয়া থেকে মৌলিকভাবে ভিন্ন, বিভাগ-নির্দিষ্ট স্টাইল নিয়মগুলো ক্যাপচার করে। এটি ভ্যানিলা GCN/GAT-এর চেয়ে এক ধাপ এগিয়ে। একটি সম্ভাব্য ত্রুটি, যা একাডেমিক প্রোটোটাইপগুলিতে সাধারণ, তা হল গণনীয় খরচ। প্রতিটি সম্ভাব্য বিভাগ জোড়ার জন্য একটি অনন্য প্যারামিটার সেট $\mathbf{W}_{ij}$ শেখা উল্লেখযোগ্য প্যারামিটার শেয়ারিং বা ফ্যাক্টরাইজেশন কৌশল ছাড়া হাজার হাজার বিভাগ সহ বিশাল, সূক্ষ্ম-দানাদার ক্যাটালগে স্কেল নাও করতে পারে।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, এই গবেষণা ডেটা মডেলিংয়ে একটি পরিবর্তন বাধ্যতামূলক করে। ক্রমিক পোশাক ডেটা কিউরেট করার পরিবর্তে, সমৃদ্ধ বিভাগ-সম্পর্ক গ্রাফ তৈরি করার উপর ফোকাস করুন। NGNN আর্কিটেকচার হল স্টিচ ফিক্স বা অ্যামাজন ফ্যাশনের মতো কোম্পানিগুলোর প্রযুক্তি দলের জন্য একটি বাস্তবায়ন-প্রস্তুত নীলনকশা। বহু-মোড পদ্ধতিটি ছবি এবং পাঠ্যের জন্য একীভূত বৈশিষ্ট্য পাইপলাইনে বিনিয়োগেরও পরামর্শ দেয়। অবিলম্বে পরবর্তী পদক্ষেপ হওয়া উচিত নোড-ওয়াইজ প্যারামিটারের দক্ষ আনুমানিক অন্বেষণ করা (যেমন, হাইপারনেটওয়ার্ক বা টেনসর ফ্যাক্টরাইজেশন ব্যবহার করে) শিল্পের কার্যকারিতা নিশ্চিত করার জন্য।

5. বিশ্লেষণ কাঠামোর উদাহরণ

পরিস্থিতি: একটি প্রার্থী পোশাকের সামঞ্জস্যতা বিশ্লেষণ করা: "সাদা লিনেন শার্ট, গাঢ় নীল জিন্স, বাদামী চামড়ার লোফার, সিলভার ঘড়ি।"

কাঠামোর প্রয়োগ (নন-কোড):

গ্রাফ নির্মাণ:
- নোড: {শার্ট, জিন্স, জুতা, ঘড়ি}।
- এজ: সম্পূর্ণ সংযুক্ত বা পূর্ব জ্ঞান গ্রাফের উপর ভিত্তি করে (যেমন, শার্ট-জিন্স, শার্ট-জুতা, জিন্স-জুতা, ঘড়ি-শার্ট, ইত্যাদি)।
বৈশিষ্ট্য আরম্ভকরণ:
- ভিজুয়াল বৈশিষ্ট্য নিষ্কাশন: রঙ (সাদা, নীল, বাদামী, রূপা), টেক্সচার (লিনেন, ডেনিম, চামড়া, ধাতু), আনুষ্ঠানিকতা স্কোর।
- পাঠ্য বৈশিষ্ট্য নিষ্কাশন: বর্ণনা থেকে কীওয়ার্ড ("ক্যাজুয়াল," "ফরমাল," "গ্রীষ্ম," "অ্যাকসেসরি")।
NGNN প্রসেসিং:
- "শার্ট" নোডটি "জিন্স," "জুতা," এবং "ঘড়ি" থেকে মেসেজ পায়। $\mathbf{W}_{\text{Shirt,Jeans}}$ প্যারামিটারগুলি ক্যাজুয়াল স্টাইল অ্যালাইনমেন্ট শেখে, যখন $\mathbf{W}_{\text{Shirt,Watch}}$ অ্যাকসেসরি সমন্বয় নিয়ম শিখতে পারে।
- কয়েকটি স্তরের পরে, প্রতিটি নোডের একটি প্রসঙ্গ-সচেতন উপস্থাপনা থাকে যা এই নির্দিষ্ট পোশাকে এর ভূমিকা প্রতিফলিত করে।
সামঞ্জস্যতা স্কোরিং:
- চূড়ান্ত গ্রাফ-লেভেল উপস্থাপনা একটি অ্যাটেনশন/স্কোরিং স্তরে ফিড করা হয়।
- আউটপুট: একটি উচ্চ সামঞ্জস্যতা স্কোর (যেমন, 0.87), যা একটি সুসংগত, স্টাইলিশ পোশাক নির্দেশ করে।

এই কাঠামোটি শার্টটি জিন্সের সাথে আলাদাভাবে মেলে কিনা তা পরীক্ষা করার বাইরে চলে যায়, সমস্ত চারটি আইটেমের সামগ্রিক সাদৃশ্যকে একটি সিস্টেম হিসেবে মূল্যায়ন করে।

6. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

ব্যক্তিগতকৃত সামঞ্জস্যতা: ব্যবহারকারীর প্রোফাইল, অতীত ক্রয় এবং শরীরের মেট্রিক্স গ্রাফে সংহত করা (যেমন, একটি "ব্যবহারকারী" নোড যোগ করা) সাধারণ থেকে ব্যক্তিগতকৃত পোশাক সুপারিশে যাওয়ার জন্য। GNN-এর মাধ্যমে সহযোগী ফিল্টারিং গবেষণা (He et al., 2020, LightGCN) একটি স্পষ্ট পথ প্রদান করে।
ফ্যাশনের জন্য ব্যাখ্যাযোগ্য AI: GNN ব্যাখ্যাযোগ্যতা কৌশল (যেমন, GNNExplainer) ব্যবহার করে কোন নির্দিষ্ট আইটেম-জোড়া মিথস্ক্রিয়া একটি পোশাকের স্কোর দুর্বল করছে তা হাইলাইট করা, ব্যবহারকারীদের কার্যকরী স্টাইল পরামর্শ প্রদান করা।
ক্রস-ডোমেন ও মেটাভার্স ফ্যাশন: ভার্চুয়াল ট্রাই-অন, গেম/মেটাভার্সে ডিজিটাল ফ্যাশন, এবং ক্রস-ডোমেন স্টাইলিং-এ (যেমন, একটি সুসংগত "নান্দনিকতা"-এর জন্য আসবাবপত্রের সাথে পোশাক মেলানো) কাঠামো প্রয়োগ করা। গ্রাফ কাঠামো সহজেই বিভিন্ন ডোমেন থেকে নোড অন্তর্ভুক্ত করতে পারে।
টেকসই ফ্যাশন ও ক্যাপসুল ওয়ারড্রোব: সর্বাধিক বহুমুখী "কোর" আইটেম চিহ্নিত করতে মডেল ব্যবহার করা যা অনেক অন্যান্য আইটেমের সাথে সামঞ্জস্যপূর্ণ পোশাক গঠন করে, টেকসই ক্যাপসুল ওয়ারড্রোব তৈরি করতে এবং অত্যধিক ভোগ কমাতে সহায়তা করা।
গতিশীল ও অস্থায়ী গ্রাফ: অস্থায়ী ফ্যাশন গ্রাফ নির্মাণ করে সময়ের সাথে ফ্যাশন ট্রেন্ড মডেলিং করা, সিস্টেমটিকে এমন পোশাক সুপারিশ করতে দেয় যা বর্তমান মৌসুমের জন্য সামঞ্জস্যপূর্ণ এবং ট্রেন্ডি উভয়ই।

7. তথ্যসূত্র

Cui, Z., Li, Z., Wu, S., Zhang, X., & Wang, L. (2019). Dressing as a Whole: Outfit Compatibility Learning Based on Node-wise Graph Neural Networks. Proceedings of the 2019 World Wide Web Conference (WWW '19).
Battaglia, P. W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261.
Vinyals, O., Bengio, S., & Kudlur, M. (2015). Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391.
He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M. (2020). LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning visual clothing style with heterogeneous dyadic co-occurrences. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
McAuley, J., Targett, C., Shi, Q., & van den Hengel, A. (2015). Image-based recommendations on styles and substitutes. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.