لباس به عنوان یک کل: یادگیری سازگاری ست لباس مبتنی بر شبکه‌های عصبی گرافی گره‌محور

1. مقدمه

این مقاله به مسئله عملی در توصیه‌گر مد می‌پردازد: "کدام آیتم را باید انتخاب کنیم تا با آیتم‌های مد داده شده مطابقت داشته باشد و یک ست سازگار تشکیل دهد؟" چالش اصلی، تخمین دقیق سازگاری ست لباس است. رویکردهای قبلی که بر سازگاری زوجی آیتم‌ها متمرکز بودند یا ست‌ها را به عنوان دنباله‌ای (مثلاً با استفاده از RNN) نمایش می‌دادند، نتوانستند روابط پیچیده و غیرترتیبی بین تمام آیتم‌های یک ست را درک کنند. برای غلبه بر این محدودیت، نویسندگان یک نمایش مبتنی بر گراف نوآورانه و مدل شبکه عصبی گرافی گره‌محور (NGNN) متناظر با آن را پیشنهاد می‌دهند.

2. روش‌شناسی

چارچوب پیشنهادی، مسئله سازگاری ست را به یک تکلیف یادگیری گراف تبدیل می‌کند.

2.1. ساخت گراف مد

یک ست به عنوان یک گراف مد $G = (V, E)$ نمایش داده می‌شود.

گره‌ها ($V$): دسته‌های آیتم (مانند تی‌شرت، شلوار جین، کفش) را نشان می‌دهند.
یال‌ها ($E$): روابط سازگاری یا تعاملات بین دسته‌ها را نشان می‌دهند.

هر ست یک زیرگراف است که نمونه‌های آیتم خاص در گره‌های دسته متناظر خود قرار می‌گیرند. این ساختار، توپولوژی رابطه‌ای یک ست را به صراحت مدل می‌کند.

2.2. شبکه‌های عصبی گرافی گره‌محور (NGNN)

نوآوری اصلی، لایه NGNN برای یادگیری نمایش‌های گره (دسته) است. برخلاف GNNهای استاندارد که ممکن است از پارامترهای مشترک در سراسر یال‌ها استفاده کنند، NGNN از پارامترهای گره‌محور برای مدل‌سازی تعاملات متمایز استفاده می‌کند. عبور پیام برای گره $i$ از همسایه $j$ را می‌توان به صورت زیر فرموله کرد: $$\mathbf{m}_{ij} = \text{تابع‌پیام}(\mathbf{h}_i^{(l)}, \mathbf{h}_j^{(l)}; \mathbf{W}_{ij})$$ که در آن $\mathbf{h}_i^{(l)}$ ویژگی گره $i$ در لایه $l$ است و $\mathbf{W}_{ij}$ پارامترهای مخصوص زوج گره $(i, j)$ هستند. سپس پیام تجمیع‌شده برای به‌روزرسانی نمایش گره استفاده می‌شود: $$\mathbf{h}_i^{(l+1)} = \text{تابع‌به‌روزرسانی}(\mathbf{h}_i^{(l)}, \text{تجمیع}(\{\mathbf{m}_{ij}\}_{j \in \mathcal{N}(i)}))$$ در نهایت، یک مکانیسم توجه، یک امتیاز سازگاری برای کل گراف ست محاسبه می‌کند.

2.3. یکپارچه‌سازی ویژگی‌های چندوجهی

NGNN انعطاف‌پذیر است و می‌تواند ویژگی‌های حاصل از چندین وجه را دریافت کند:

ویژگی‌های بصری: استخراج‌شده از تصاویر آیتم با استفاده از CNNها (مانند ResNet).
ویژگی‌های متنی: استخراج‌شده از توضیحات یا برچسب‌های آیتم با استفاده از مدل‌های NLP.

این ویژگی‌ها به هم پیوند داده می‌شوند یا ادغام می‌شوند تا ویژگی‌های اولیه گره $\mathbf{h}_i^{(0)}$ را تشکیل دهند.

3. آزمایش‌ها و نتایج

آزمایش‌ها بر روی دو تکلیف استاندارد برای اعتبارسنجی اثربخشی مدل انجام شد.

3.1. تنظیمات آزمایشی

مدل بر روی مجموعه داده‌های عمومی سازگاری مد ارزیابی شد. مدل‌های پایه شامل موارد زیر بودند:

روش‌های زوجی (مانند Siamese CNN، Low-rank Mahalanobis).
روش‌های مبتنی بر توالی (مانند RNN، Bi-LSTM).
سایر روش‌های مبتنی بر گراف (مانند GCN استاندارد، GAT).

معیارهای ارزیابی: دقت برای تکلیف پر کردن جای خالی، AUC و امتیاز F1 برای پیش‌بینی سازگاری.

3.2. تکلیف پر کردن جای خالی

با داشتن یک ست ناقص، تکلیف انتخاب سازگارترین آیتم از یک مجموعه نامزد برای پر کردن جای خالی است. NGNN عملکرد برتر را به دست آورد و به طور قابل توجهی از مدل‌های دنباله‌ای (RNN/Bi-LSTM) و سایر گونه‌های GNN بهتر عمل کرد. این موضوع ظرفیت برتر آن را برای استدلال کلی ست فراتر از وابستگی‌های زوجی محلی یا ترتیبی نشان می‌دهد.

3.3. تکلیف پیش‌بینی سازگاری

با داشتن یک ست کامل، تکلیف پیش‌بینی یک برچسب دودویی (سازگار/ناسازگار) یا یک امتیاز سازگاری است. NGNN دوباره بالاترین امتیازهای AUC و F1 را به دست آورد. نتایج تأیید کرد که مدل‌سازی ست‌ها به عنوان گراف با تعاملات گره‌محور، ماهیت ظریف و چند-رابطه‌ای سازگاری مد را مؤثرتر درک می‌کند.

4. تحلیل فنی و بینش‌ها

بینش اصلی: پیشرفت بنیادی مقاله، تشخیص این است که سازگاری مد یک مسئله گراف رابطه‌ای است، نه یک مسئله زوجی یا ترتیبی. انتزاع گراف (گراف مد) نسبت به دنباله‌ها، تناسب طبیعی‌تری با این حوزه دارد، همان‌طور که در آثار پایه‌ای در مورد سوگیری‌های استقرایی رابطه‌ای برای یادگیری عمیق (Battaglia و همکاران، 2018) استدلال شده است. نویسندگان به درستی محدودیت RNNها را شناسایی می‌کنند که یک ترتیب دلخواه بر مجموعه‌های ذاتاً بی‌ترتیب آیتم‌ها تحمیل می‌کنند، نقصی که در تحقیقات مربوط به یادگیری نمایش مجموعه و گراف نیز ذکر شده است (Vinyals و همکاران، 2015).

جریان منطقی: استدلال محکم است: 1) شناسایی ماهیت رابطه‌ای مسئله، 2) پیشنهاد یک نمایش داده ساختاریافته گراف، 3) طراحی یک معماری عصبی (NGNN) متناسب با آن ساختار با تعاملات یال متمایز، 4) اعتبارسنجی تجربی. حرکت از دنباله به گراف، بازتابی از تکامل گسترده‌تر در هوش مصنوعی از پردازش رشته‌ها به پردازش شبکه‌ها است، همان‌طور که در تحلیل شبکه‌های اجتماعی و گراف‌های دانش دیده می‌شود.

نقاط قوت و ضعف: نقطه قوت کلیدی، پارامترسازی گره‌محور در NGNN است. این به مدل اجازه می‌دهد یاد بگیرد که تعامل بین "کت و شلوار" و "لباس" اساساً با تعامل بین "کفش کتانی" و "جوراب" متفاوت است و قوانین سبک خاص هر دسته را درک می‌کند. این گامی فراتر از GCN/GATهای ساده است. یک ضعف بالقوه، که در نمونه‌های اولیه دانشگاهی رایج است، هزینه محاسباتی است. یادگیری یک مجموعه پارامتر منحصر به فرد $\mathbf{W}_{ij}$ برای هر زوج دسته ممکن، بدون استفاده از تکنیک‌های اشتراک‌گذاری یا تجزیه پارامتر قابل توجه، ممکن است به کاتالوگ‌های عظیم و ریزدانه با هزاران دسته مقیاس‌پذیر نباشد.

بینش‌های عملی: برای متخصصان، این تحقیق یک تغییر در مدل‌سازی داده‌ها را الزامی می‌کند. به جای گردآوری داده‌های ست دنباله‌ای، بر ساخت گراف‌های رابطه دسته‌ای غنی تمرکز کنید. معماری NGNN یک طرح آماده پیاده‌سازی برای تیم‌های فناوری در شرکت‌هایی مانند Stitch Fix یا Amazon Fashion است. رویکرد چندوجهی همچنین نشان می‌دهد که سرمایه‌گذاری در خطوط لوله ویژگی یکپارچه برای تصاویر و متن ضروری است. گام بعدی فوری باید کاوش در تقریب‌های کارآمد پارامترهای گره‌محور (مانند استفاده از هایپرنت‌ورک‌ها یا تجزیه تانسور) برای اطمینان از قابلیت اجرای صنعتی باشد.

5. مثال چارچوب تحلیل

سناریو: تحلیل سازگاری یک ست نامزد: "پیراهن کتانی سفید، شلوار جین آبی تیره، کفش چرمی قهوه‌ای، ساعت نقره‌ای."

کاربرد چارچوب (غیرکدی):

ساخت گراف:
- گره‌ها: {پیراهن، شلوار جین، کفش، ساعت}.
- یال‌ها: کاملاً متصل یا مبتنی بر یک گراف دانش پیشین (مانند پیراهن-شلوار جین، پیراهن-کفش، شلوار جین-کفش، ساعت-پیراهن و غیره).
مقداردهی اولیه ویژگی‌ها:
- استخراج ویژگی‌های بصری: رنگ (سفید، آبی، قهوه‌ای، نقره‌ای)، بافت (کتان، جین، چرم، فلز)، امتیاز رسمیت.
- استخراج ویژگی‌های متنی: کلمات کلیدی از توضیحات ("راحت"، "رسمی"، "تابستانی"، "اکسسوری").
پردازش NGNN:
- گره "پیراهن" پیام‌هایی از "شلوار جین"، "کفش" و "ساعت" دریافت می‌کند. پارامترهای $\mathbf{W}_{\text{پیراهن,شلوار جین}}$ هم‌ترازی سبک راحت را یاد می‌گیرند، در حالی که $\mathbf{W}_{\text{پیراهن,ساعت}}$ ممکن است قوانین هماهنگی اکسسوری را یاد بگیرد.
- پس از چندین لایه، هر گره یک نمایش آگاه از زمینه دارد که نقش آن را در این ست خاص منعکس می‌کند.
امتیازدهی سازگاری:
- نمایش سطح گراف نهایی به یک لایه توجه/امتیازدهی تغذیه می‌شود.
- خروجی: یک امتیاز سازگاری بالا (مثلاً 0.87)، که نشان‌دهنده یک ست منسجم و شیک است.

این چارچوب فراتر از بررسی این که آیا پیراهن به تنهایی با شلوار جین مطابقت دارد، به ارزیابی هماهنگی کلی هر چهار آیتم به عنوان یک سیستم حرکت می‌کند.

6. کاربردها و جهت‌های آینده

سازگاری شخصی‌شده: یکپارچه‌سازی پروفایل کاربر، خریدهای گذشته و معیارهای بدن در گراف (مانند افزودن یک گره "کاربر") برای حرکت از توصیه ست عمومی به شخصی‌شده. تحقیقات در زمینه فیلترگذاری مشارکتی از طریق GNNها (He و همکاران، 2020، LightGCN) مسیر روشنی را ارائه می‌دهد.
هوش مصنوعی قابل توضیح برای مد: استفاده از تکنیک‌های توضیح‌پذیری GNN (مانند GNNExplainer) برای برجسته کردن این که کدام تعاملات خاص زوج آیتم، امتیاز یک ست را تضعیف می‌کنند و ارائه توصیه‌های سبک عملی به کاربران.
مد فرادامنه‌ای و متاورس: اعمال چارچوب بر روی امتحان مجازی، مد دیجیتال در بازی‌ها/متاورس‌ها و استایلینگ فرادامنه‌ای (مانند مطابقت مبلمان با لباس برای یک "زیبایی‌شناسی" منسجم). ساختار گراف می‌تواند به راحتی گره‌هایی از دامنه‌های مختلف را دربرگیرد.
مد پایدار و کمد لباس کپسولی: استفاده از مدل برای شناسایی آیتم‌های "هسته‌ای" با بیشترین تطبیق‌پذیری که با بسیاری از آیتم‌های دیگر ست‌های سازگار تشکیل می‌دهند، کمک به ساخت کمد لباس کپسولی پایدار و کاهش مصرف بیش از حد.
گراف‌های پویا و زمانی: مدل‌سازی روندهای مد در طول زمان با ساخت گراف‌های مد زمانی، که به سیستم اجازه می‌دهد ست‌هایی را توصیه کند که هم سازگار و هم برای فصل جاری مد روز هستند.

7. مراجع

Cui, Z., Li, Z., Wu, S., Zhang, X., & Wang, L. (2019). Dressing as a Whole: Outfit Compatibility Learning Based on Node-wise Graph Neural Networks. Proceedings of the 2019 World Wide Web Conference (WWW '19).
Battaglia, P. W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261.
Vinyals, O., Bengio, S., & Kudlur, M. (2015). Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391.
He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M. (2020). LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning visual clothing style with heterogeneous dyadic co-occurrences. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
McAuley, J., Targett, C., Shi, Q., & van den Hengel, A. (2015). Image-based recommendations on styles and substitutes. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.