THEME-MATTERS: یادگیری سازگاری مد از طریق توجه به تم

1. مقدمه

یادگیری سازگاری مد برای کاربردهایی مانند ترکیب ست لباس و توصیه‌ی مد آنلاین حیاتی است. این مقاله استدلال می‌کند که سازگاری صرفاً یک مسئله‌ی بصری نیست، بلکه به شدت تحت تأثیر تم یا زمینه (مانند "کاری" در مقابل "ملاقات") قرار دارد. نویسندگان اولین چارچوب یادگیری سازگاری مد آگاه از تم و یک مجموعه داده‌ی متناظر به نام Fashion32 را معرفی می‌کنند.

2. کارهای مرتبط و پیشینه

کارهای موجود به دو دسته‌ی یادگیری سازگاری زوجی (یادگیری متریک) و یادگیری در سطح ست (مدل‌های ترتیبی مانند LSTM) تقسیم می‌شوند. با این حال، این روش‌ها عمدتاً زمینه‌ی موضوعی را نادیده می‌گیرند و سازگاری را به عنوان یک کار تطبیق صرفاً بصری در نظر می‌گیرند.

2.1 یادگیری سازگاری مد

روش‌ها شامل یادگیری متریک برای زوج‌های کالا و مدل‌سازی ترتیبی برای کل ست‌ها می‌شود که از مجموعه داده‌هایی مانند Polyvore استفاده می‌کنند.

2.2 تحلیل مد آگاه از تم

پیش از این کار، تعداد کمی از مجموعه داده‌ها یا مدل‌ها به صراحت اطلاعات موضوعی مانند مناسبت یا نوع رویداد را در ارزیابی سازگاری لحاظ کرده بودند.

3. مجموعه داده‌ی Fashion32

یک مجموعه داده‌ی جدید و واقعی که برای رفع کمبود حاشیه‌نویسی‌های تم در منابع موجود ساخته شده است.

ست‌ها

~۱۴ هزار

تم‌ها

۳۲

اقلام مد

بیش از ۴۰ هزار

دسته‌بندی‌های ریزدانه

۱۵۲

3.1 ساخت مجموعه داده

حاشیه‌نویسی‌ها توسط استایلیست‌های حرفه‌ای مد از فروشندگان برندها ارائه شده است که برچسب‌های باکیفیتی را برای تم‌های ست و دسته‌بندی‌های کالا تضمین می‌کند.

3.2 آمار مجموعه داده

این مجموعه داده شامل مجموعه‌ای متنوع از تم‌ها (مانند کاری، غیررسمی، مهمانی) و یک سلسله‌مراتب جامع از دسته‌بندی‌های اقلام مد است.

4. روش پیشنهادی: مدل توجه به تم

نوآوری اصلی یک مدل دو مرحله‌ای است که ابتدا یک فضای تعبیه‌ی ویژه‌ی دسته را یاد می‌گیرد و سپس یک مکانیزم توجه به تم را بر روی آن اعمال می‌کند.

4.1 یادگیری زیرفضای ویژه‌ی دسته

اقلام سازگار در یک ست را در یک زیرفضای یادگرفته شده، در یک دسته‌ی یکسان، به هم نزدیک می‌کند و پایه‌ای برای اندازه‌گیری سازگاری تشکیل می‌دهد.

4.2 مکانیزم توجه به تم

یاد می‌گیرد که تم‌های خاص را با اهمیت (وزن‌های توجه) سازگاری زوجی بین دسته‌های مختلف کالا مرتبط کند. به عنوان مثال، برای تم "کاری"، سازگاری بین "کت بلیزر" و "شلوار رسمی" توجه بالایی دریافت می‌کند.

4.3 امتیاز سازگاری در سطح ست

امتیاز نهایی سازگاری برای یک ست با توجه به یک تم، با جمع‌آوری امتیازهای سازگاری زوجی وزن‌دار شده با توجه به تم برای تمام زوج‌های کالا در آن ست محاسبه می‌شود.

5. آزمایش‌ها و نتایج

5.1 تنظیمات آزمایشی

آزمایش‌ها بر روی مجموعه داده‌ی Fashion32 انجام شد. مدل پیشنهادی با روش‌های پایه‌ی پیشرفته مانند مدل Bi-LSTM از [5] و مدل Type-Aware از [10] مقایسه شد.

5.2 نتایج کمی

مدل توجه به تم پیشنهادی در معیارهای استاندارد مانند AUC (مساحت زیر منحنی) و دقت FITB (پر کردن جای خالی) برای پیش‌بینی سازگاری آگاه از تم، از تمام روش‌های پایه بهتر عمل کرد.

5.3 تحلیل کیفی

شکل ۱ در مقاله به طور مؤثری مفهوم را نشان می‌دهد: ست A (با دامن کوتاه) از نظر بصری سازگار است اما برای تم "کاری" نامناسب تشخیص داده می‌شود. مدل می‌تواند تغییراتی (مانند یک پیراهن بلند در ست B) را برای تناسب بهتر با تم پیشنهاد دهد. وزن‌های توجه قابلیت تفسیرپذیری را فراهم می‌کنند و نشان می‌دهند که کدام زوج‌های کالا برای یک تم خاص حیاتی هستند.

6. بحث و تحلیل

6.1 بینش اصلی

دستاورد بنیادی مقاله، شناخت سازگاری مد به عنوان یک وظیفه‌ی استدلالی زمینه‌ای، و نه صرفاً بصری است. این امر، حوزه را فراتر از معیارهای ساده‌ی شباهت بصری می‌برد - پارادایمی که از کارهای اولیه مانند شبکه‌های سیامی برای بازیابی تصویر بر آن حاکم بوده است. این بینش که یک ست "ملاقات" در یک "اتاق جلسه" ناموفق است برای انسان واضح است اما برای هوش مصنوعی یک نقطه‌ی کور بود. با محور قرار دادن تم، نویسندگان شکاف مهمی بین ویژگی‌های بصری سطح پایین و قصد معنایی سطح بالا را پر می‌کنند و درک ماشین را به قضاوت انسان نزدیک‌تر می‌سازند، همانطور که در مطالعات علوم شناختی درباره ادراک زمینه‌ای بحث شده است.

6.2 جریان منطقی

استدلال از نظر ساختاری محکم است: (۱) شناسایی یک شکاف (نادیده گرفتن تم)، (۲) ساخت منبع لازم (مجموعه داده‌ی Fashion32)، (۳) پیشنهاد یک معماری جدید (فضای دسته + توجه به تم) که منطقاً از داده‌های جدید استفاده می‌کند، و (۴) اعتبارسنجی تجربی. جریان از یادگیری ویژه‌ی دسته (درک روابط ذاتی کالاها) به توجه به تم (تنظیم آن روابط بر اساس زمینه) ظریف است. این امر الگوهای موفق در حوزه‌های دیگر را منعکس می‌کند، مانند نحوه‌ای که مدل‌های ترنسفورمر از توجه خودی برای وزن‌دهی اهمیت کلمات مختلف بر اساس زمینه استفاده می‌کنند، همانطور که مقالات پایه‌ای مانند "Attention Is All You Need" تأسیس کردند.

6.3 نقاط قوت و ضعف

نقاط قوت: مجموعه داده‌ی گردآوری شده‌ی Fashion32 یک دستاورد عملی و قابل توجه است که پژوهش‌های بیشتری را برمی‌انگیزد. مکانیزم توجه مدل، تفسیرپذیری ارزشمندی ارائه می‌دهد - امری نادر در مدل‌های عمیق مد. بهبود عملکرد آن نسبت به روش‌های پایه‌ی قوی واضح و معنادار است.
نقاط ضعف: وابستگی مدل به تم‌های از پیش تعریف شده و گسسته، نقطه‌ی آسیب‌پذیر آن است. سبک در دنیای واقعی سیال است؛ یک ست می‌تواند "کاری-غیررسمی" یا "هوشمند-غیررسمی" باشد و تم‌ها را در هم بیامیزد. طبقه‌بندی ۳۲ تمی ممکن است این ظرافت را در بر نگیرد و به پیش‌بینی‌های شکننده در مرزهای تم منجر شود. علاوه بر این، این کار به طور عمیق به تعامل بین ویژگی‌های بصری و تم‌ها نمی‌پردازد؛ توجه به تم بر روی یک تعبیه‌ی بصری از پیش یادگرفته شده عمل می‌کند و احتمالاً فرصت‌هایی برای تعدیل ویژگی‌های سطح پایین مشترک، همانطور که در کارهای انتقال سبک مانند CycleGAN دیده می‌شود، را از دست می‌دهد.

6.4 بینش‌های عملی

برای پژوهشگران: مرز بعدی، نمایش پیوسته یا چندبرچسبی تم و بررسی ادغام چندوجهی (متن+تصویر) برای درک غنی‌تر از زمینه است، شاید با الهام از مدل‌های بینایی-زبان مانند CLIP. برای متخصصان صنعت (مانند JD.com، آمازون): فوراً این فناوری را در سیستم‌های توصیه‌گر برای خرید مبتنی بر مناسبت ("ست‌هایی برای عروسی") آزمایش کنید. وزن‌های توجه تفسیرپذیر می‌توانند برای تولید توضیحات متقاعدکننده برای توصیه‌ها استفاده شوند ("این کت بلیزر را با این شلوار جفت کردیم زیرا برای ظاهر حرفه‌ای کلیدی هستند") که اعتماد و تعامل کاربر را افزایش می‌دهد. تعبیه‌های ویژه‌ی دسته همچنین می‌توانند برای مدیریت موجودی و تحلیل روند استفاده شوند.

7. جزئیات فنی و فرمول‌بندی ریاضی

هسته‌ی مدل شامل یادگیری تعبیه‌ها و وزن‌های توجه است. فرض کنید $x_i$ و $x_j$ بردارهای ویژگی بصری برای دو قلم مد متعلق به دسته‌های $c_i$ و $c_j$ باشند. یک تابع تعبیه‌ی ویژه‌ی دسته $f_c(\cdot)$ آن‌ها را به یک زیرفضای سازگاری نگاشت می‌دهد.

امتیاز سازگاری زوجی $s_{ij}$ به عنوان تابعی از فاصله‌ی آن‌ها در این زیرفضا محاسبه می‌شود، اغلب با استفاده از یک فرمول‌بندی یادگیری متریک مانند: $s_{ij} = \exp(-||f_{c_i}(x_i) - f_{c_j}(x_j)||^2_2)$.

مکانیزم توجه به تم یک وزن $\alpha_{ij}^{(t)}$ برای زوج کالای $(i, j)$ تحت تم $t$ معرفی می‌کند. این وزن توسط یک شبکه عصبی یاد گرفته می‌شود که تم $t$ و دسته‌های $c_i, c_j$ را در نظر می‌گیرد. امتیاز نهایی سازگاری ست $C(O, t)$ برای ست $O$ و تم $t$، جمع‌آوری امتیازهای زوجی وزن‌دار شده است:

$C(O, t) = \frac{1}{|\mathcal{P}|} \sum_{(i,j) \in \mathcal{P}} \alpha_{ij}^{(t)} \cdot s_{ij}$

که در آن $\mathcal{P}$ مجموعه تمام زوج‌های کالا در ست $O$ است.

8. چارچوب تحلیل: یک مثال موردی

سناریو: ارزیابی یک ست {کت بلیزر (دسته: بالاپوش)، تی‌شرت طرح‌دار (دسته: تاپ‌ها)، جین پاره (دسته: پایین‌پوش)، کفش کتانی (دسته: پاپوش)} برای تم "مصاحبه‌ی شغلی".

کاربرد چارچوب:

تعبیه‌ی ویژه‌ی دسته: مدل نمایش‌های زیرفضای یادگرفته شده برای هر کالا را بر اساس دسته‌ی آن بازیابی می‌کند.
محاسبه‌ی سازگاری زوجی: سازگاری بصری پایه $s_{ij}$ را برای هر زوج (مانند کت بلیزر و جین پاره) محاسبه می‌کند.
وزن‌دهی توجه به تم: برای تم "مصاحبه‌ی شغلی"، شبکه‌ی توجه وزن‌های بالایی $\alpha$ به زوج‌های حیاتی برای حرفه‌ای بودن (مانند کت بلیزر-پایین‌پوش، تاپ-پایین‌پوش) و وزن‌های پایینی به زوج‌های کم‌اهمیت‌تر (مانند تاپ-پاپوش) اختصاص می‌دهد. احتمالاً وزن بسیار پایینی به سازگاری بین "کت بلیزر" و "تی‌شرت طرح‌دار" می‌دهد زیرا این زوج برای این تم غیرمعمول است.
امتیازدهی و تشخیص ست: امتیاز جمع‌آوری شده $C(O, t)$ پایین خواهد بود. وزن توجه پایین روی زوج کت بلیزر/تی‌شرت و احتمالاً یک سازگاری پایه $s_{ij}$ کم برای کت بلیزر/جین پاره در این امر نقش دارند. یک سیستم تفسیرپذیر می‌تواند برجسته کند: "سازگاری پایین برای 'مصاحبه‌ی شغلی' به دلیل نامناسب بودن تی‌شرت و سبک جین. تعویض پیشنهادی: تی‌شرت طرح‌دار را با یک پیراهن ساده دکمه‌دار جایگزین کنید؛ جین پاره را با شلوار کتان جایگزین کنید."

این مثال نشان می‌دهد که مدل چگونه فراتر از "این رنگ‌ها با هم نمی‌خوانند" به "این اقلام با زمینه همخوانی ندارند" حرکت می‌کند.

9. کاربردها و جهت‌های آینده

مدل‌سازی تم شخصی‌سازی شده: حرکت از تم‌های جهانی ("کاری") به زمینه‌های شخصی‌سازی شده ("غیررسمی کاری شرکت من").
تم‌های پویا و چندوجهی: ادغام داده‌های بلادرنگ (آب‌وهوا، مکان، رویداد تقویم) و توصیفات متنی از رسانه‌های اجتماعی برای تعریف پویای تم‌ها.
دستیارهای مد مولد: ادغام مدل سازگاری آگاه از تم به عنوان یک منتقد یا راهنما در شبکه‌های مولد تخاصمی (GANs) یا مدل‌های انتشار برای تولید اقلام پوشاک جدید و مناسب با تم یا کل ست‌ها از ابتدا.
مد پایدار و بهینه‌سازی کمد لباس: توصیه‌ی نحوه‌ی ترکیب و جفت کردن اقلام موجود در کمد لباس (شکلی از "ترکیب ست") برای تم‌های جدید، ترویج مصرف پایدار.
سازگاری بین‌حوزه‌ای: گسترش مفهوم توجه به تم به حوزه‌های دیگر مانند طراحی داخلی (مبلمان سازگار برای یک تم "مینیمال" در مقابل "بوهمین") یا جفت‌سازی غذا (مواد اولیه سازگار برای یک "پیکنیک تابستانی" در مقابل "شام رسمی").

10. مراجع

Han, X., et al. (2017). "Learning Fashion Compatibility with Bidirectional LSTMs." ACM Multimedia.
Vasileva, M. I., et al. (2018). "Learning Type-Aware Embeddings for Fashion Compatibility." ECCV.
He, R., et al. (2016). "Translation-based Recommendation." RecSys.
Zhu, J.-Y., et al. (2017). "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV. (CycleGAN)
McAuley, J., et al. (2015). "Image-based Recommendations on Styles and Substitutes." SIGIR.
Veit, A., et al. (2015). "Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences." ICCV.
Simo-Serra, E., et al. (2015). "Learning to Simplify: Fully Convolutional Networks for Rough Sketch Cleanup." SIGGRAPH.
Vaswani, A., et al. (2017). "Attention Is All You Need." NeurIPS.
Ge, Y., et al. (2019). "DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images." CVPR.
Lai, J.-H., et al. (2020). "THEME-MATTERS: Fashion Compatibility Learning via Theme Attention." arXiv:1912.06227.