Style2Vec: یادگیری بازنمایی برای اقلام مد از مجموعه‌های استایل

1. مقدمه

با رشد سریع بازار مد آنلاین، نیاز مبرمی به سیستم‌های توصیه‌گر مؤثر وجود دارد. روش‌های سنتی فیلترگذاری مشارکتی که بر تاریخچه خرید کاربران (امتیازات) متکی هستند، برای حوزه مد مناسب نیستند. تاریخچه یک کاربر ممکن است حاوی استایل‌های متفاوتی (مانند کت و شلوار رسمی و جین اسپرت) باشد که یادگیری ویژگی‌های استایل منسجم و ریزدانه برای اقلام یا ست‌های مجزا را غیرممکن می‌سازد. چالش اصلی، مدل‌سازی مفهوم ظریف و اغلب ذهنی «سازگاری استایل» بین اقلام است.

این مقاله Style2Vec را معرفی می‌کند؛ یک مدل بازنمایی توزیع‌شده نوآورانه برای اقلام مد. با الهام از معناشناسی توزیعی در پردازش زبان طبیعی (مانند Word2Vec)، این مدل، امبدینگ‌های اقلام را از «مجموعه‌های استایل» گردآوری‌شده توسط کاربران — مجموعه‌هایی از پوشاک و لوازم جانبی که یک ست منسجم را تشکیل می‌دهند — یاد می‌گیرد. نوآوری کلیدی، استفاده از شبکه‌های عصبی کانولوشنی (CNN) به عنوان توابع تصویر از تصاویر اقلام به بردارهای امبدینگ است که مشکل پراکندگی داده‌ها، جایی که اقلام منفرد در تعداد کمی مجموعه استایل ظاهر می‌شوند، را مرتفع می‌سازد.

2. روش‌شناسی

2.1. فرمول‌بندی مسئله و مجموعه‌های استایل

یک مجموعه استایل به عنوان مجموعه‌ای از اقلام (مانند ژاکت، پیراهن، شلوار، کفش، کیف) تعریف می‌شود که در کنار هم یک ست منسجم واحد را تشکیل می‌دهند. این مفهوم مشابه یک «جمله» در پردازش زبان طبیعی است، در حالی که هر قلم مد منفرد یک «کلمه» محسوب می‌شود. هدف مدل، یادگیری تابع $f: I \rightarrow \mathbb{R}^d$ است که یک تصویر قلم $I$ را به یک بردار استایل نهفته $d$-بعدی نگاشت می‌دهد، به گونه‌ای که اقلام متعلق به یک مجموعه استایل یکسان، بردارهای مشابهی در فضای امبدینگ داشته باشند.

2.2. معماری Style2Vec

این مدل از دو شبکه عصبی کانولوشنی (CNN) مجزا استفاده می‌کند:

CNN ورودی ($\text{CNN}_i$): تصویر قلم هدفی که بازنمایی آن در حال یادگیری است را پردازش می‌کند.
CNN زمینه ($\text{CNN}_c$): تصاویر اقلام زمینه (سایر اقلام در همان مجموعه استایل) را پردازش می‌کند.

هر دو شبکه، تصاویر ورودی مربوطه خود را به یک فضای امبدینگ $d$-بعدی یکسان نگاشت می‌دهند. این رویکرد شبکه دوگانه به مدل اجازه می‌دهد تا نقش قلم هدف و زمینه آن را در طول یادگیری متمایز کند.

2.3. هدف آموزش

این مدل با استفاده از یک هدف یادگیری متضاد که از الگوریتم skip-gram با نمونه‌گیری منفی الهام گرفته شده است، آموزش داده می‌شود. برای یک مجموعه استایل داده شده $S = \{i_1, i_2, ..., i_n\}$، هدف بیشینه‌سازی احتمال مشاهده هر قلم زمینه $i_c$ با توجه به قلم هدف $i_t$ است. تابع هدف برای یک جفت (هدف، زمینه) به صورت زیر است:

$$ J(\theta) = \log \sigma(\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_c}) + \sum_{k=1}^{K} \mathbb{E}_{i_k \sim P_n} [\log \sigma(-\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_k})] $$

که در آن $\mathbf{v}_{i} = \text{CNN}(I_i)$ امبدینگ قلم $i$ است، $\sigma$ تابع سیگموید است، و $P_n$ یک توزیع نویز برای نمونه‌گیری منفی از $K$ نمونه منفی است.

3. تنظیمات آزمایشی

3.1. مجموعه داده

این مدل بر روی ۲۹۷,۰۸۳ مجموعه استایل ایجادشده توسط کاربران جمع‌آوری‌شده از یک وب‌سایت مد محبوب آموزش داده شد. هر مجموعه حاوی چندین تصویر قلم از دسته‌بندی‌های مجزا (بالاتنه، پایین‌تنه، کفش، لوازم جانبی) است.

آمار مجموعه داده

کل مجموعه‌های استایل: ۲۹۷,۰۸۳

میانگین اقلام در هر مجموعه: ~۷-۵

دسته‌بندی‌های اقلام: متنوع (پوشاک، کفش، لوازم جانبی)

3.2. مدل‌های پایه

عملکرد در مقایسه با چندین مدل پایه ارزیابی شد:

مبتنی بر دسته‌بندی: استفاده از دسته‌بندی‌های کدگذاری‌شده one-hot اقلام به عنوان ویژگی.
مبتنی بر ویژگی: استفاده از ویژگی‌های بصری دست‌ساز (رنگ، طرح).
ویژگی‌های CNN: استفاده از ویژگی‌های CNN از پیش آموزش‌دیده (مانند ResNet) از تصاویر منفرد اقلام، بدون در نظر گرفتن زمینه مجموعه.
Word2Vec سنتی روی دسته‌بندی‌ها: در نظر گرفتن دسته‌بندی‌های اقلام به عنوان «کلمات» در «جملات» مجموعه استایل.

3.3. معیارهای ارزیابی

دو روش ارزیابی اولیه استفاده شد:

آزمون قیاس مد: مشابه آزمون "king - man + woman = queen" در امبدینگ‌های کلمات. ارزیابی می‌کند که آیا بردارهای یادگرفته‌شده، روابط معنایی را ثبت می‌کنند (مانند "چکمه پاییزی - زمستان + تابستان = صندل").
طبقه‌بندی استایل: استفاده از ویژگی‌های یادگرفته‌شده Style2Vec به عنوان ورودی یک طبقه‌بند برای پیش‌بینی برچسب‌های استایل از پیش تعریف‌شده (مانند رسمی، پانک، بزنس کژوال). دقت به عنوان معیار استفاده می‌شود.

4. نتایج و تحلیل

4.1. آزمون قیاس مد

Style2Vec با موفقیت انواع قیاس‌های مد را حل کرد و نشان داد که امبدینگ‌های آن، معناشناسی غنی فراتر از دسته‌بندی‌های پایه را ثبت می‌کنند. مثال‌ها شامل تبدیل‌های مرتبط با موارد زیر است:

فصلی بودن: قلم زمستانی → قلم تابستانی.
رسمی بودن: قلم اسپرت → قلم رسمی.
رنگ/طرح: قلم تک‌رنگ → قلم طرح‌دار.
سیلوئت/فرم: قلم فیت → قلم گشاد.

این نشان می‌دهد که مدل یک بازنمایی تفکیک‌شده را یاد گرفته است که در آن ابعاد یا جهت‌های خاصی در فضای برداری، متناظر با ویژگی‌های استایل قابل تفسیر هستند.

4.2. عملکرد طبقه‌بندی استایل

هنگامی که از امبدینگ‌های Style2Vec به عنوان ویژگی‌های یک طبقه‌بند استایل استفاده شد، این امبدینگ‌ها به طور قابل توجهی از تمام روش‌های پایه بهتر عمل کردند. بینش کلیدی این است که ویژگی‌های یادگرفته‌شده از هم‌رخیزی در مجموعه‌های استایل، نسبت به ویژگی‌های حاصل از تصاویر منفرد (مدل‌های پایه CNN) یا فراداده (مدل‌های پایه دسته‌بندی/ویژگی)، پیش‌بینیکننده‌تر از برچسب‌های استایل کلان هستند. این، فرضیه اصلی را تأیید می‌کند که استایل یک ویژگی رابطه‌ای است که بهتر است از زمینه یاد گرفته شود.

بینش‌های کلیدی

زمینه پادشاه است: استایل یک ویژگی ذاتی یک قلم نیست، بلکه از رابطه آن با اقلام دیگر نشأت می‌گیرد.
غلبه بر پراکندگی: استفاده از CNNها به عنوان شبکه‌های تصویر قابل آموزش، به طور مؤثری مشکل پراکندگی ذاتی در برخورد با هر قلم منحصربه‌فرد به عنوان یک نشانه گسسته را کاهش می‌دهد.
معناشناسی غنی: فضای امبدینگ، اقلام را در امتداد چندین بعد استایل قابل تفسیر سازماندهی می‌کند و استدلال قیاسی پیچیده را ممکن می‌سازد.

5. جزئیات فنی و فرمول‌بندی ریاضی

نوآوری اصلی در تطبیق چارچوب Word2Vec برای حوزه بصری نهفته است. فرض کنید $D = \{S_1, S_2, ..., S_N\}$ پیکره مجموعه‌های استایل باشد. برای یک مجموعه استایل $S = \{I_1, I_2, ..., I_m\}$، که در آن $I_j$ یک تصویر است، یک قلم هدف $I_t$ و یک قلم زمینه $I_c$ را از $S$ نمونه‌گیری می‌کنیم.

امبدینگ‌ها به صورت زیر محاسبه می‌شوند: $$\mathbf{v}_t = \text{CNN}_i(I_t; \theta_i), \quad \mathbf{v}_c = \text{CNN}_c(I_c; \theta_c)$$ که در آن $\theta_i$ و $\theta_c$ به ترتیب پارامترهای CNNهای ورودی و زمینه هستند. شبکه‌ها به صورت end-to-end با بهینه‌سازی تابع هدف $J(\theta)$ تعریف‌شده در بخش ۲.۳ در تمام جفت‌های (هدف، زمینه) در مجموعه داده آموزش داده می‌شوند. پس از آموزش، تنها از CNN ورودی ($\text{CNN}_i$) برای تولید امبدینگ نهایی Style2Vec برای هر تصویر قلم جدید استفاده می‌شود.

6. چارچوب تحلیل: یک مطالعه موردی غیرکدی

سناریو: یک پلتفرم تجارت الکترونیک مد می‌خواهد ویجت توصیه‌گر «تکمیل ست» خود را بهبود بخشد.

رویکرد سنتی: ویجت بر اساس فراوانی خرید مشترک یا برچسب‌های دسته‌بندی اشتراکی (مانند «مشتریانی که این بلیزر را خریدند، این شلوارها را نیز خریدند») اقلام را پیشنهاد می‌دهد. این منجر به پیشنهادهای کلی و اغلب از نظر استایلی ناهماهنگ می‌شود.

رویکرد مبتنی بر Style2Vec:

تولید امبدینگ: تمام اقلام موجود در کاتالوگ از طریق CNN ورودی آموزش‌دیده پردازش می‌شوند تا بردارهای Style2Vec آن‌ها به دست آید.
تشکیل پرس‌وجو: کاربر یک شلوار چینو سرمه‌ای و یک کفش کتانی سفید را به سبد خرید خود اضافه می‌کند. پلتفرم میانگین بردارهای Style2Vec این دو قلم را می‌گیرد تا یک «بردار پرس‌وجو» نمایانگر مجموعه استایل در حال شکل‌گیری ایجاد کند.
جستجوی نزدیک‌ترین همسایه: سیستم فضای امبدینگ را برای اقلامی جستجو می‌کند که بردارهای آن‌ها به بردار پرس‌وجو نزدیک‌تر است. به عنوان مثال، یک پیراهن آکسفورد آبی روشن، یک پلیور یقه گرد راه‌راه و یک کمربند کرباسی را بازیابی می‌کند.
نتیجه: پیشنهادها نه تنها به طور مکرر با هم خریداری شده‌اند، بلکه از نظر استایلی با اقلام انتخاب‌شده کاربر منسجم هستند و یک ظاهر اسپرت و بزنس کژوال را ترویج می‌دهند. پلتفرم می‌تواند توصیه‌ها را از طریق قیاس توضیح دهد: «این پیراهن را پیشنهاد دادیم زیرا ظاهر اسپرت شما را تکمیل می‌کند، مشابه اینکه یک بلیزر یک ظاهر رسمی را تکمیل می‌کند.»

این چارچوب، منطق توصیه را از همبستگی آماری به سازگاری استایلی معنایی تغییر می‌دهد.

7. دیدگاه تحلیلگر صنعت

بینش اصلی: Style2Vec فقط یک مدل امبدینگ دیگر نیست؛ بلکه یک چرخش استراتژیک از مدل‌سازی سلیقه کاربر به مدل‌سازی معناشناسی اقلام در یک زمینه استایلی است. این مقاله به درستی نقص بنیادی در اعمال فیلترگذاری مشارکتی سنتی بر مد را شناسایی می‌کند: تاریخچه خرید یک کاربر یک سیگنال پرنویز و چنداستایلی است. با تمرکز بر ست (مجموعه استایل) به عنوان واحد اتمی استایل، آن‌ها از این نویز عبور می‌کنند و جوهره مد — که ترکیبی و رابطه‌ای است — را ثبت می‌کنند. این با روندهای گسترده‌تر در هوش مصنوعی که به سمت استدلال رابطه‌ای و مبتنی بر گراف حرکت می‌کنند، همسو است؛ همان‌طور که در مدل‌هایی مانند شبکه‌های عصبی گراف (GNN) اعمال‌شده بر شبکه‌های اجتماعی یا گراف‌های دانش دیده می‌شود.

جریان منطقی: استدلال قانع‌کننده است. ۱) مسئله: توصیه‌های مبتنی بر تاریخچه کاربر برای استایل شکست می‌خورند. ۲) بینش: استایل توسط هم‌رخیزی اقلام در ست‌ها تعریف می‌شود. ۳) اقتباس: فرضیه توزیعی پردازش زبان طبیعی (کلمات در زمینه‌های مشابه معنای مشابهی دارند). ۴) تطبیق: جایگزینی کلمات با تصاویر اقلام و جملات با مجموعه‌های استایل. ۵) حل پراکندگی: استفاده از CNNها به عنوان رمزگذارهای قابل آموزش به جای جدول جستجو. ۶) اعتبارسنجی: نشان دادن عملکرد امبدینگ‌ها از طریق وظایف قیاس و طبقه‌بندی. منطق تمیز است و انتخاب‌های مهندسی (CNNهای دوگانه، نمونه‌گیری منفی) تطبیق‌های عمل‌گرایانه‌ای از تکنیک‌های اثبات‌شده هستند.

نقاط قوت و ضعف:

نقاط قوت: بزرگ‌ترین نقطه قوت مقاله، وضوح مفهومی و انتقال مؤثر بین‌حوزه‌ای آن است. استفاده از CNNها برای مدیریت ورودی بصری و پراکندگی، ظریف است. آزمون قیاس مد یک معیار ارزیابی درخشان و شهودی است که بلافاصله قابلیت مدل را منتقل می‌کند، بسیار شبیه کاری که مقاله اصلی Word2Vec برای پردازش زبان طبیعی انجام داد.
نقاط ضعف و شکاف‌ها: این مدل ذاتاً واکنشی و توصیفی است، نه مولد. این مدل از مجموعه‌های موجود ایجادشده توسط کاربران یاد می‌گیرد و به طور بالقوه استایل‌های محبوب یا جریان اصلی را تقویت می‌کند و با ترکیبات آوانگارد یا نوآورانه دست و پنجه نرم می‌کند — که یک محدودیت شناخته‌شده روش‌های توزیعی است. همچنین از جنبه شخصی‌سازی چشم‌پوشی می‌کند. استایل «پانک» من ممکن است با استایل شما متفاوت باشد. همان‌طور که در کار بنیادی He و همکاران (۲۰۱۷, WWW) در مورد فیلترگذاری مشارکتی عصبی اشاره شده است، هدف نهایی یک تابع شخصی‌سازی‌شده است. Style2Vec بازنمایی‌های فوق‌العاده‌ای از اقلام ارائه می‌دهد، اما به طور صریح نحوه تعامل یک کاربر خاص با آن فضای استایل را مدل نمی‌کند.

بینش‌های عملی:

برای پژوهشگران: گام بعدی فوری، ترکیب است. امبدینگ‌های زمینه‌آگاه اقلام Style2Vec را با یک ماژول شخصی‌سازی کاربر (مانند یک سیستم توصیه‌گر عصبی) ترکیب کنید. یادگیری استایل با نمونه‌های کم یا صفر را برای شکستن سوگیری محبوبیت بررسی کنید.
برای فعالان صنعت (تجارت الکترونیک، اپلیکیشن‌های استایلینگ): این مدل را به عنوان یک سرویس پایه برای تطبیق ست، استایلینگ کمد مجازی و جستجوی بر اساس استایل پیاده‌سازی کنید. بازگشت سرمایه واضح است: افزایش میانگین ارزش سفارش از طریق پیشنهادهای بهتر «تکمیل ست» و بهبود تعامل مشتری از طریق ابزارهای اکتشاف استایل تعاملی («اقلامی را بیابید که مانند این استایل دارند»).
نتیجه‌گیری استراتژیک: آینده هوش مصنوعی مد در سیستم‌های چندوجهی و زمینه‌آگاه نهفته است. Style2Vec گامی حیاتی فراتر از تحلیل صرف بصری (مانند کاری که مجموعه داده‌های DeepFashion انجام می‌دهند) و فیلترگذاری مشارکتی صرف است. پلتفرم برنده، پلتفرمی خواهد بود که بتواند این نوع درک معنایی استایل را با مدل‌سازی ترجیحات فردی کاربر و شاید حتی قابلیت‌های مولد برای ایجاد استایل‌های مجازی جدید ترکیب کند، مشابه اینکه چگونه مدل‌هایی مانند DALL-E 2 یا Stable Diffusion تصاویر را از دستورات متنی تولید می‌کنند، اما با محدودیت معقول بودن مد.

8. کاربردهای آینده و جهت‌های پژوهشی

Style2Vec شخصی‌سازی‌شده: گسترش مدل برای یادگیری امبدینگ‌های استایل خاص کاربر، که امکان «استایل برای شما» را به جای فقط «استایل به طور کلی» فراهم می‌کند. این می‌تواند شامل یک معماری دوبرجی ترکیب‌کننده رمزگذارهای قلم و کاربر باشد.
یادگیری استایل چندوجهی: ترکیب توصیف‌های متنی (عنوان محصول، نظرات کاربران) و داده‌های شبکه‌های اجتماعی (پست‌های اینستاگرام با هشتگ) در کنار تصاویر برای ایجاد بازنمایی‌های استایل چندوجهی غنی‌تر.
کاربردهای مولد استایل: استفاده از فضای استایل یادگرفته‌شده به عنوان یک مکانیسم شرطی‌سازی برای شبکه‌های مولد تخاصمی (GAN) مانند StyleGAN یا مدل‌های انتشار برای تولید طرح‌های پوشاک جدید که با یک استایل هدف مطابقت دارند، یا برای «پوشیدن مجازی» استایل‌های مختلف با دستکاری امبدینگ‌های اقلام. پژوهش در ترجمه تصویر به تصویر، مانند CycleGAN (Zhu و همکاران، ۲۰۱۷)، پتانسیل تبدیل ظاهر اقلام در بین حوزه‌ها را نشان می‌دهد که می‌تواند توسط جهت‌های Style2Vec هدایت شود.
پیش‌بینی روند استایل پویا: ردیابی تکامل مراکز ثقل بردارهای استایل در طول زمان برای پیش‌بینی روندهای نوظهور، مشابه نحوه استفاده از امبدینگ‌های کلمات برای ردیابی تغییر معنایی در زبان.
مد پایدار: توصیه اقلام دست دوم یا اجاره‌ای که از نظر استایلی منسجم هستند با یافتن نزدیک‌ترین همسایه‌ها در فضای Style2Vec، ترویج اقتصادهای مد چرخشی.

9. مراجع

Lee, H., Seol, J., & Lee, S. (2017). Style2Vec: Representation Learning for Fashion Items from Style Sets. arXiv preprint arXiv:1708.04014.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
He, X., Liao, L., Zhang, H., Nie, L., Hu, X., & Chua, T. S. (2017). Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (pp. 173–182).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).