1. مقدمه
با رشد سریع بازار مد آنلاین، نیاز مبرمی به سیستمهای توصیهگر مؤثر وجود دارد. روشهای سنتی فیلترگذاری مشارکتی که بر تاریخچه خرید کاربران (امتیازات) متکی هستند، برای حوزه مد مناسب نیستند. تاریخچه یک کاربر ممکن است حاوی استایلهای متفاوتی (مانند کت و شلوار رسمی و جین اسپرت) باشد که یادگیری ویژگیهای استایل منسجم و ریزدانه برای اقلام یا ستهای مجزا را غیرممکن میسازد. چالش اصلی، مدلسازی مفهوم ظریف و اغلب ذهنی «سازگاری استایل» بین اقلام است.
این مقاله Style2Vec را معرفی میکند؛ یک مدل بازنمایی توزیعشده نوآورانه برای اقلام مد. با الهام از معناشناسی توزیعی در پردازش زبان طبیعی (مانند Word2Vec)، این مدل، امبدینگهای اقلام را از «مجموعههای استایل» گردآوریشده توسط کاربران — مجموعههایی از پوشاک و لوازم جانبی که یک ست منسجم را تشکیل میدهند — یاد میگیرد. نوآوری کلیدی، استفاده از شبکههای عصبی کانولوشنی (CNN) به عنوان توابع تصویر از تصاویر اقلام به بردارهای امبدینگ است که مشکل پراکندگی دادهها، جایی که اقلام منفرد در تعداد کمی مجموعه استایل ظاهر میشوند، را مرتفع میسازد.
2. روششناسی
2.1. فرمولبندی مسئله و مجموعههای استایل
یک مجموعه استایل به عنوان مجموعهای از اقلام (مانند ژاکت، پیراهن، شلوار، کفش، کیف) تعریف میشود که در کنار هم یک ست منسجم واحد را تشکیل میدهند. این مفهوم مشابه یک «جمله» در پردازش زبان طبیعی است، در حالی که هر قلم مد منفرد یک «کلمه» محسوب میشود. هدف مدل، یادگیری تابع $f: I \rightarrow \mathbb{R}^d$ است که یک تصویر قلم $I$ را به یک بردار استایل نهفته $d$-بعدی نگاشت میدهد، به گونهای که اقلام متعلق به یک مجموعه استایل یکسان، بردارهای مشابهی در فضای امبدینگ داشته باشند.
2.2. معماری Style2Vec
این مدل از دو شبکه عصبی کانولوشنی (CNN) مجزا استفاده میکند:
- CNN ورودی ($\text{CNN}_i$): تصویر قلم هدفی که بازنمایی آن در حال یادگیری است را پردازش میکند.
- CNN زمینه ($\text{CNN}_c$): تصاویر اقلام زمینه (سایر اقلام در همان مجموعه استایل) را پردازش میکند.
هر دو شبکه، تصاویر ورودی مربوطه خود را به یک فضای امبدینگ $d$-بعدی یکسان نگاشت میدهند. این رویکرد شبکه دوگانه به مدل اجازه میدهد تا نقش قلم هدف و زمینه آن را در طول یادگیری متمایز کند.
2.3. هدف آموزش
این مدل با استفاده از یک هدف یادگیری متضاد که از الگوریتم skip-gram با نمونهگیری منفی الهام گرفته شده است، آموزش داده میشود. برای یک مجموعه استایل داده شده $S = \{i_1, i_2, ..., i_n\}$، هدف بیشینهسازی احتمال مشاهده هر قلم زمینه $i_c$ با توجه به قلم هدف $i_t$ است. تابع هدف برای یک جفت (هدف، زمینه) به صورت زیر است:
$$ J(\theta) = \log \sigma(\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_c}) + \sum_{k=1}^{K} \mathbb{E}_{i_k \sim P_n} [\log \sigma(-\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_k})] $$
که در آن $\mathbf{v}_{i} = \text{CNN}(I_i)$ امبدینگ قلم $i$ است، $\sigma$ تابع سیگموید است، و $P_n$ یک توزیع نویز برای نمونهگیری منفی از $K$ نمونه منفی است.
3. تنظیمات آزمایشی
3.1. مجموعه داده
این مدل بر روی ۲۹۷,۰۸۳ مجموعه استایل ایجادشده توسط کاربران جمعآوریشده از یک وبسایت مد محبوب آموزش داده شد. هر مجموعه حاوی چندین تصویر قلم از دستهبندیهای مجزا (بالاتنه، پایینتنه، کفش، لوازم جانبی) است.
آمار مجموعه داده
کل مجموعههای استایل: ۲۹۷,۰۸۳
میانگین اقلام در هر مجموعه: ~۷-۵
دستهبندیهای اقلام: متنوع (پوشاک، کفش، لوازم جانبی)
3.2. مدلهای پایه
عملکرد در مقایسه با چندین مدل پایه ارزیابی شد:
- مبتنی بر دستهبندی: استفاده از دستهبندیهای کدگذاریشده one-hot اقلام به عنوان ویژگی.
- مبتنی بر ویژگی: استفاده از ویژگیهای بصری دستساز (رنگ، طرح).
- ویژگیهای CNN: استفاده از ویژگیهای CNN از پیش آموزشدیده (مانند ResNet) از تصاویر منفرد اقلام، بدون در نظر گرفتن زمینه مجموعه.
- Word2Vec سنتی روی دستهبندیها: در نظر گرفتن دستهبندیهای اقلام به عنوان «کلمات» در «جملات» مجموعه استایل.
3.3. معیارهای ارزیابی
دو روش ارزیابی اولیه استفاده شد:
- آزمون قیاس مد: مشابه آزمون "king - man + woman = queen" در امبدینگهای کلمات. ارزیابی میکند که آیا بردارهای یادگرفتهشده، روابط معنایی را ثبت میکنند (مانند "چکمه پاییزی - زمستان + تابستان = صندل").
- طبقهبندی استایل: استفاده از ویژگیهای یادگرفتهشده Style2Vec به عنوان ورودی یک طبقهبند برای پیشبینی برچسبهای استایل از پیش تعریفشده (مانند رسمی، پانک، بزنس کژوال). دقت به عنوان معیار استفاده میشود.
4. نتایج و تحلیل
4.1. آزمون قیاس مد
Style2Vec با موفقیت انواع قیاسهای مد را حل کرد و نشان داد که امبدینگهای آن، معناشناسی غنی فراتر از دستهبندیهای پایه را ثبت میکنند. مثالها شامل تبدیلهای مرتبط با موارد زیر است:
- فصلی بودن: قلم زمستانی → قلم تابستانی.
- رسمی بودن: قلم اسپرت → قلم رسمی.
- رنگ/طرح: قلم تکرنگ → قلم طرحدار.
- سیلوئت/فرم: قلم فیت → قلم گشاد.
این نشان میدهد که مدل یک بازنمایی تفکیکشده را یاد گرفته است که در آن ابعاد یا جهتهای خاصی در فضای برداری، متناظر با ویژگیهای استایل قابل تفسیر هستند.
4.2. عملکرد طبقهبندی استایل
هنگامی که از امبدینگهای Style2Vec به عنوان ویژگیهای یک طبقهبند استایل استفاده شد، این امبدینگها به طور قابل توجهی از تمام روشهای پایه بهتر عمل کردند. بینش کلیدی این است که ویژگیهای یادگرفتهشده از همرخیزی در مجموعههای استایل، نسبت به ویژگیهای حاصل از تصاویر منفرد (مدلهای پایه CNN) یا فراداده (مدلهای پایه دستهبندی/ویژگی)، پیشبینیکنندهتر از برچسبهای استایل کلان هستند. این، فرضیه اصلی را تأیید میکند که استایل یک ویژگی رابطهای است که بهتر است از زمینه یاد گرفته شود.
بینشهای کلیدی
- زمینه پادشاه است: استایل یک ویژگی ذاتی یک قلم نیست، بلکه از رابطه آن با اقلام دیگر نشأت میگیرد.
- غلبه بر پراکندگی: استفاده از CNNها به عنوان شبکههای تصویر قابل آموزش، به طور مؤثری مشکل پراکندگی ذاتی در برخورد با هر قلم منحصربهفرد به عنوان یک نشانه گسسته را کاهش میدهد.
- معناشناسی غنی: فضای امبدینگ، اقلام را در امتداد چندین بعد استایل قابل تفسیر سازماندهی میکند و استدلال قیاسی پیچیده را ممکن میسازد.
5. جزئیات فنی و فرمولبندی ریاضی
نوآوری اصلی در تطبیق چارچوب Word2Vec برای حوزه بصری نهفته است. فرض کنید $D = \{S_1, S_2, ..., S_N\}$ پیکره مجموعههای استایل باشد. برای یک مجموعه استایل $S = \{I_1, I_2, ..., I_m\}$، که در آن $I_j$ یک تصویر است، یک قلم هدف $I_t$ و یک قلم زمینه $I_c$ را از $S$ نمونهگیری میکنیم.
امبدینگها به صورت زیر محاسبه میشوند: $$\mathbf{v}_t = \text{CNN}_i(I_t; \theta_i), \quad \mathbf{v}_c = \text{CNN}_c(I_c; \theta_c)$$ که در آن $\theta_i$ و $\theta_c$ به ترتیب پارامترهای CNNهای ورودی و زمینه هستند. شبکهها به صورت end-to-end با بهینهسازی تابع هدف $J(\theta)$ تعریفشده در بخش ۲.۳ در تمام جفتهای (هدف، زمینه) در مجموعه داده آموزش داده میشوند. پس از آموزش، تنها از CNN ورودی ($\text{CNN}_i$) برای تولید امبدینگ نهایی Style2Vec برای هر تصویر قلم جدید استفاده میشود.
6. چارچوب تحلیل: یک مطالعه موردی غیرکدی
سناریو: یک پلتفرم تجارت الکترونیک مد میخواهد ویجت توصیهگر «تکمیل ست» خود را بهبود بخشد.
رویکرد سنتی: ویجت بر اساس فراوانی خرید مشترک یا برچسبهای دستهبندی اشتراکی (مانند «مشتریانی که این بلیزر را خریدند، این شلوارها را نیز خریدند») اقلام را پیشنهاد میدهد. این منجر به پیشنهادهای کلی و اغلب از نظر استایلی ناهماهنگ میشود.
رویکرد مبتنی بر Style2Vec:
- تولید امبدینگ: تمام اقلام موجود در کاتالوگ از طریق CNN ورودی آموزشدیده پردازش میشوند تا بردارهای Style2Vec آنها به دست آید.
- تشکیل پرسوجو: کاربر یک شلوار چینو سرمهای و یک کفش کتانی سفید را به سبد خرید خود اضافه میکند. پلتفرم میانگین بردارهای Style2Vec این دو قلم را میگیرد تا یک «بردار پرسوجو» نمایانگر مجموعه استایل در حال شکلگیری ایجاد کند.
- جستجوی نزدیکترین همسایه: سیستم فضای امبدینگ را برای اقلامی جستجو میکند که بردارهای آنها به بردار پرسوجو نزدیکتر است. به عنوان مثال، یک پیراهن آکسفورد آبی روشن، یک پلیور یقه گرد راهراه و یک کمربند کرباسی را بازیابی میکند.
- نتیجه: پیشنهادها نه تنها به طور مکرر با هم خریداری شدهاند، بلکه از نظر استایلی با اقلام انتخابشده کاربر منسجم هستند و یک ظاهر اسپرت و بزنس کژوال را ترویج میدهند. پلتفرم میتواند توصیهها را از طریق قیاس توضیح دهد: «این پیراهن را پیشنهاد دادیم زیرا ظاهر اسپرت شما را تکمیل میکند، مشابه اینکه یک بلیزر یک ظاهر رسمی را تکمیل میکند.»
7. دیدگاه تحلیلگر صنعت
بینش اصلی: Style2Vec فقط یک مدل امبدینگ دیگر نیست؛ بلکه یک چرخش استراتژیک از مدلسازی سلیقه کاربر به مدلسازی معناشناسی اقلام در یک زمینه استایلی است. این مقاله به درستی نقص بنیادی در اعمال فیلترگذاری مشارکتی سنتی بر مد را شناسایی میکند: تاریخچه خرید یک کاربر یک سیگنال پرنویز و چنداستایلی است. با تمرکز بر ست (مجموعه استایل) به عنوان واحد اتمی استایل، آنها از این نویز عبور میکنند و جوهره مد — که ترکیبی و رابطهای است — را ثبت میکنند. این با روندهای گستردهتر در هوش مصنوعی که به سمت استدلال رابطهای و مبتنی بر گراف حرکت میکنند، همسو است؛ همانطور که در مدلهایی مانند شبکههای عصبی گراف (GNN) اعمالشده بر شبکههای اجتماعی یا گرافهای دانش دیده میشود.
جریان منطقی: استدلال قانعکننده است. ۱) مسئله: توصیههای مبتنی بر تاریخچه کاربر برای استایل شکست میخورند. ۲) بینش: استایل توسط همرخیزی اقلام در ستها تعریف میشود. ۳) اقتباس: فرضیه توزیعی پردازش زبان طبیعی (کلمات در زمینههای مشابه معنای مشابهی دارند). ۴) تطبیق: جایگزینی کلمات با تصاویر اقلام و جملات با مجموعههای استایل. ۵) حل پراکندگی: استفاده از CNNها به عنوان رمزگذارهای قابل آموزش به جای جدول جستجو. ۶) اعتبارسنجی: نشان دادن عملکرد امبدینگها از طریق وظایف قیاس و طبقهبندی. منطق تمیز است و انتخابهای مهندسی (CNNهای دوگانه، نمونهگیری منفی) تطبیقهای عملگرایانهای از تکنیکهای اثباتشده هستند.
نقاط قوت و ضعف:
- نقاط قوت: بزرگترین نقطه قوت مقاله، وضوح مفهومی و انتقال مؤثر بینحوزهای آن است. استفاده از CNNها برای مدیریت ورودی بصری و پراکندگی، ظریف است. آزمون قیاس مد یک معیار ارزیابی درخشان و شهودی است که بلافاصله قابلیت مدل را منتقل میکند، بسیار شبیه کاری که مقاله اصلی Word2Vec برای پردازش زبان طبیعی انجام داد.
- نقاط ضعف و شکافها: این مدل ذاتاً واکنشی و توصیفی است، نه مولد. این مدل از مجموعههای موجود ایجادشده توسط کاربران یاد میگیرد و به طور بالقوه استایلهای محبوب یا جریان اصلی را تقویت میکند و با ترکیبات آوانگارد یا نوآورانه دست و پنجه نرم میکند — که یک محدودیت شناختهشده روشهای توزیعی است. همچنین از جنبه شخصیسازی چشمپوشی میکند. استایل «پانک» من ممکن است با استایل شما متفاوت باشد. همانطور که در کار بنیادی He و همکاران (۲۰۱۷, WWW) در مورد فیلترگذاری مشارکتی عصبی اشاره شده است، هدف نهایی یک تابع شخصیسازیشده است. Style2Vec بازنماییهای فوقالعادهای از اقلام ارائه میدهد، اما به طور صریح نحوه تعامل یک کاربر خاص با آن فضای استایل را مدل نمیکند.
بینشهای عملی:
- برای پژوهشگران: گام بعدی فوری، ترکیب است. امبدینگهای زمینهآگاه اقلام Style2Vec را با یک ماژول شخصیسازی کاربر (مانند یک سیستم توصیهگر عصبی) ترکیب کنید. یادگیری استایل با نمونههای کم یا صفر را برای شکستن سوگیری محبوبیت بررسی کنید.
- برای فعالان صنعت (تجارت الکترونیک، اپلیکیشنهای استایلینگ): این مدل را به عنوان یک سرویس پایه برای تطبیق ست، استایلینگ کمد مجازی و جستجوی بر اساس استایل پیادهسازی کنید. بازگشت سرمایه واضح است: افزایش میانگین ارزش سفارش از طریق پیشنهادهای بهتر «تکمیل ست» و بهبود تعامل مشتری از طریق ابزارهای اکتشاف استایل تعاملی («اقلامی را بیابید که مانند این استایل دارند»).
- نتیجهگیری استراتژیک: آینده هوش مصنوعی مد در سیستمهای چندوجهی و زمینهآگاه نهفته است. Style2Vec گامی حیاتی فراتر از تحلیل صرف بصری (مانند کاری که مجموعه دادههای DeepFashion انجام میدهند) و فیلترگذاری مشارکتی صرف است. پلتفرم برنده، پلتفرمی خواهد بود که بتواند این نوع درک معنایی استایل را با مدلسازی ترجیحات فردی کاربر و شاید حتی قابلیتهای مولد برای ایجاد استایلهای مجازی جدید ترکیب کند، مشابه اینکه چگونه مدلهایی مانند DALL-E 2 یا Stable Diffusion تصاویر را از دستورات متنی تولید میکنند، اما با محدودیت معقول بودن مد.
8. کاربردهای آینده و جهتهای پژوهشی
- Style2Vec شخصیسازیشده: گسترش مدل برای یادگیری امبدینگهای استایل خاص کاربر، که امکان «استایل برای شما» را به جای فقط «استایل به طور کلی» فراهم میکند. این میتواند شامل یک معماری دوبرجی ترکیبکننده رمزگذارهای قلم و کاربر باشد.
- یادگیری استایل چندوجهی: ترکیب توصیفهای متنی (عنوان محصول، نظرات کاربران) و دادههای شبکههای اجتماعی (پستهای اینستاگرام با هشتگ) در کنار تصاویر برای ایجاد بازنماییهای استایل چندوجهی غنیتر.
- کاربردهای مولد استایل: استفاده از فضای استایل یادگرفتهشده به عنوان یک مکانیسم شرطیسازی برای شبکههای مولد تخاصمی (GAN) مانند StyleGAN یا مدلهای انتشار برای تولید طرحهای پوشاک جدید که با یک استایل هدف مطابقت دارند، یا برای «پوشیدن مجازی» استایلهای مختلف با دستکاری امبدینگهای اقلام. پژوهش در ترجمه تصویر به تصویر، مانند CycleGAN (Zhu و همکاران، ۲۰۱۷)، پتانسیل تبدیل ظاهر اقلام در بین حوزهها را نشان میدهد که میتواند توسط جهتهای Style2Vec هدایت شود.
- پیشبینی روند استایل پویا: ردیابی تکامل مراکز ثقل بردارهای استایل در طول زمان برای پیشبینی روندهای نوظهور، مشابه نحوه استفاده از امبدینگهای کلمات برای ردیابی تغییر معنایی در زبان.
- مد پایدار: توصیه اقلام دست دوم یا اجارهای که از نظر استایلی منسجم هستند با یافتن نزدیکترین همسایهها در فضای Style2Vec، ترویج اقتصادهای مد چرخشی.
9. مراجع
- Lee, H., Seol, J., & Lee, S. (2017). Style2Vec: Representation Learning for Fashion Items from Style Sets. arXiv preprint arXiv:1708.04014.
- Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
- He, X., Liao, L., Zhang, H., Nie, L., Hu, X., & Chua, T. S. (2017). Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (pp. 173–182).
- Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
- Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).