Style2Vec : Apprentissage de représentations vectorielles pour les articles de mode à partir d'ensembles stylistiques

1. Introduction

Avec la croissance rapide du marché de la mode en ligne, il existe un besoin crucial de systèmes de recommandation efficaces. Les méthodes traditionnelles de filtrage collaboratif, qui reposent sur l'historique d'achat des utilisateurs (les notes), sont mal adaptées à la mode. L'historique d'un utilisateur peut contenir des styles disparates (par exemple, des costumes formels et des jeans décontractés), rendant impossible l'apprentissage de caractéristiques de style cohérentes et fines pour des articles ou tenues individuels. Le défi central est de modéliser la notion subtile et souvent subjective de « compatibilité stylistique » entre les articles.

Cet article présente Style2Vec, un nouveau modèle de représentation distribuée pour les articles de mode. Inspiré par la sémantique distributionnelle en TALN (par exemple, Word2Vec), il apprend des plongements d'articles à partir d'« ensembles stylistiques » organisés par les utilisateurs — des collections de vêtements et d'accessoires qui forment une tenue cohérente. L'innovation clé est l'utilisation de réseaux de neurones convolutifs (CNN) comme fonctions de projection des images d'articles vers des vecteurs de plongement, surmontant ainsi le problème de parcimonie où les articles individuels apparaissent dans peu d'ensembles stylistiques.

2. Méthodologie

2.1. Formulation du problème & Ensembles stylistiques

Un ensemble stylistique est défini comme une collection d'articles (par exemple, veste, chemise, pantalon, chaussures, sac) qui constituent ensemble une seule tenue cohérente. Il est analogue à une « phrase » en TALN, tandis que chaque article de mode individuel est un « mot ». L'objectif du modèle est d'apprendre une fonction $f: I \rightarrow \mathbb{R}^d$ qui mappe une image d'article $I$ à un vecteur de style latent de dimension $d$, de sorte que les articles appartenant au même ensemble stylistique aient des vecteurs similaires dans l'espace de plongement.

2.2. Architecture de Style2Vec

Le modèle utilise deux réseaux de neurones convolutifs (CNN) distincts :

CNN d'entrée ($\text{CNN}_i$) : Traite l'image de l'article cible dont la représentation est en cours d'apprentissage.
CNN de contexte ($\text{CNN}_c$) : Traite les images des articles de contexte (autres articles du même ensemble stylistique).

Les deux réseaux projettent leurs images d'entrée respectives dans le même espace de plongement de dimension $d$. Cette approche à double réseau permet au modèle de différencier le rôle de l'article cible et de son contexte pendant l'apprentissage.

2.3. Objectif d'apprentissage

Le modèle est entraîné en utilisant un objectif d'apprentissage contrastif inspiré du skip-gram avec échantillonnage négatif. Pour un ensemble stylistique donné $S = \{i_1, i_2, ..., i_n\}$, le but est de maximiser la probabilité d'observer un article de contexte $i_c$ étant donné un article cible $i_t$. La fonction objectif pour une paire (cible, contexte) unique est :

$$ J(\theta) = \log \sigma(\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_c}) + \sum_{k=1}^{K} \mathbb{E}_{i_k \sim P_n} [\log \sigma(-\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_k})] $$

où $\mathbf{v}_{i} = \text{CNN}(I_i)$ est le plongement de l'article $i$, $\sigma$ est la fonction sigmoïde, et $P_n$ est une distribution de bruit pour l'échantillonnage négatif de $K$ exemples négatifs.

3. Configuration expérimentale

3.1. Jeu de données

Le modèle a été entraîné sur 297 083 ensembles stylistiques créés par les utilisateurs collectés sur un site de mode populaire. Chaque ensemble contient plusieurs images d'articles provenant de catégories distinctes (hauts, bas, chaussures, accessoires).

Statistiques du jeu de données

Total des ensembles stylistiques : 297 083

Moyenne d'articles par ensemble : ~5-7

Catégories d'articles : Diversifiées (vêtements, chaussures, accessoires)

3.2. Modèles de référence

Les performances ont été comparées à plusieurs modèles de référence :

Basé sur la catégorie : Utilisation des catégories d'articles encodées en one-hot comme caractéristiques.
Basé sur les attributs : Utilisation d'attributs visuels conçus à la main (couleur, motif).
Caractéristiques CNN : Utilisation de caractéristiques d'un CNN pré-entraîné (par exemple, ResNet) extraites d'images d'articles individuels, ignorant le contexte de l'ensemble.
Word2Vec traditionnel sur les catégories : Traitement des catégories d'articles comme des « mots » dans les « phrases » des ensembles stylistiques.

3.3. Métriques d'évaluation

Deux méthodes d'évaluation principales ont été utilisées :

Test d'analogie de mode : Analogue au test « roi - homme + femme = reine » dans les plongements de mots. Évalue si les vecteurs appris capturent des relations sémantiques (par exemple, « bottine - hiver + été = sandale »).
Classification de style : Utilisation des caractéristiques Style2Vec apprises comme entrée d'un classifieur pour prédire des étiquettes de style prédéfinies (par exemple, formel, punk, business casual). La précision est utilisée comme métrique.

4. Résultats & Analyse

4.1. Test d'analogie de mode

Style2Vec a résolu avec succès une variété d'analogies de mode, démontrant que ses plongements capturent une sémantique riche au-delà des catégories de base. Les exemples incluent des transformations liées à :

Saisonnalité : Article d'hiver → Article d'été.
Formalité : Article décontracté → Article formel.
Couleur/Motif : Article uni → Article à motif.
Silhouette/Forme : Article ajusté → Article ample.

Cela indique que le modèle a appris une représentation désentrelacée où des dimensions ou directions spécifiques dans l'espace vectoriel correspondent à des attributs de style interprétables.

4.2. Performance en classification de style

Lorsqu'elles sont utilisées comme caractéristiques pour un classifieur de style, les représentations Style2Vec surpassent significativement toutes les méthodes de référence. L'idée clé est que les caractéristiques apprises à partir de la co-occurrence dans les ensembles stylistiques sont plus prédictives des étiquettes de style globales que les caractéristiques provenant d'images individuelles (références CNN) ou des métadonnées (références catégorie/attributs). Cela valide l'hypothèse centrale selon laquelle le style est une propriété relationnelle qui s'apprend mieux à partir du contexte.

Idées clés

Le contexte est roi : Le style n'est pas une propriété intrinsèque d'un article mais émerge de sa relation avec d'autres articles.
Surmonter la parcimonie : L'utilisation de CNN comme réseaux de projection entraînables atténue efficacement le problème de parcimonie des données inhérent au traitement de chaque article unique comme un jeton discret.
Sémantique riche : L'espace de plongement organise les articles le long de multiples dimensions de style interprétables, permettant un raisonnement analogique complexe.

5. Détails techniques & Formulation mathématique

L'innovation centrale réside dans l'adaptation du cadre Word2Vec au domaine visuel. Soit $D = \{S_1, S_2, ..., S_N\}$ le corpus d'ensembles stylistiques. Pour un ensemble stylistique $S = \{I_1, I_2, ..., I_m\}$, où $I_j$ est une image, nous échantillonnons un article cible $I_t$ et un article de contexte $I_c$ à partir de $S$.

Les plongements sont calculés comme suit : $$\mathbf{v}_t = \text{CNN}_i(I_t; \theta_i), \quad \mathbf{v}_c = \text{CNN}_c(I_c; \theta_c)$$ où $\theta_i$ et $\theta_c$ sont les paramètres des CNN d'entrée et de contexte, respectivement. Les réseaux sont entraînés de bout en bout en optimisant la fonction objectif $J(\theta)$ définie dans la section 2.3 sur toutes les paires (cible, contexte) du jeu de données. Après l'entraînement, seul le CNN d'entrée ($\text{CNN}_i$) est utilisé pour générer le plongement Style2Vec final pour toute nouvelle image d'article.

6. Cadre d'analyse : Une étude de cas sans code

Scénario : Une plateforme de commerce électronique de mode souhaite améliorer son widget de recommandation « Compléter la tenue ».

Approche traditionnelle : Le widget suggère des articles basés sur la fréquence d'achat conjoint ou des tags de catégorie partagés (par exemple, « les clients ayant acheté ce blazer ont également acheté ces pantalons »). Cela conduit à des suggestions génériques, souvent stylistiquement incohérentes.

Approche avec Style2Vec :

Génération des plongements : Tous les articles du catalogue sont traités par le CNN d'entrée entraîné pour obtenir leurs vecteurs Style2Vec.
Formation de la requête : Un utilisateur ajoute un pantalon chino marine et une basket blanche à son panier. La plateforme fait la moyenne des vecteurs Style2Vec de ces deux articles pour créer un « vecteur requête » représentant l'ensemble stylistique naissant.
Recherche des plus proches voisins : Le système recherche dans l'espace de plongement les articles dont les vecteurs sont les plus proches du vecteur requête. Il récupère, par exemple, une chemise Oxford bleu clair, un pull à col rond rayé et une ceinture en toile.
Résultat : Les suggestions ne sont pas seulement fréquemment achetées ensemble mais sont stylistiquement cohérentes avec les articles sélectionnés par l'utilisateur, favorisant un look décontracté, smart-casual. La plateforme peut expliquer les recommandations par analogie : « Nous avons suggéré cette chemise car elle complète votre look décontracté, de la même manière qu'un blazer complète un look formel. »

Ce cadre fait passer la logique de recommandation de la corrélation statistique à la compatibilité stylistique sémantique.

7. Perspective d'un analyste du secteur

Idée centrale : Style2Vec n'est pas juste un autre modèle de plongement ; c'est un pivot stratégique de la modélisation du goût de l'utilisateur vers la modélisation de la sémantique des articles dans un contexte stylistique. L'article identifie correctement le défaut fondamental de l'application du filtrage collaboratif traditionnel à la mode : l'historique d'achat d'un utilisateur est un signal bruyant et multi-styles. En se concentrant sur la tenue (l'ensemble stylistique) comme unité atomique du style, ils contournent ce bruit et capturent l'essence de la mode — qui est combinatoire et relationnelle. Cela s'aligne sur les tendances plus larges de l'IA qui évoluent vers un raisonnement relationnel et basé sur les graphes, comme on le voit dans des modèles comme les réseaux de neurones à graphes (GNN) appliqués aux réseaux sociaux ou aux graphes de connaissances.

Enchaînement logique : L'argument est convaincant. 1) Problème : Les recommandations basées sur l'historique échouent pour le style. 2) Idée : Le style est défini par la co-occurrence d'articles dans les tenues. 3) Emprunt : L'hypothèse distributionnelle du TALN (les mots dans des contextes similaires ont un sens similaire). 4) Adaptation : Remplacer les mots par des images d'articles, les phrases par des ensembles stylistiques. 5) Résoudre la parcimonie : Utiliser des CNN comme encodeurs entraînables au lieu de tables de recherche. 6) Valider : Montrer que les plongements fonctionnent via des tâches d'analogie et de classification. La logique est claire et les choix d'ingénierie (CNN doubles, échantillonnage négatif) sont des adaptations pragmatiques de techniques éprouvées.

Points forts & Limites :

Points forts : La plus grande force de l'article est sa clarté conceptuelle et son transfert interdomaine efficace. L'utilisation de CNN pour gérer l'entrée visuelle et la parcimonie est élégante. Le test d'analogie de mode est une métrique d'évaluation brillante et intuitive qui communique immédiatement la capacité du modèle, tout comme l'article original de Word2Vec l'a fait pour le TALN.
Limites & Lacunes : Le modèle est intrinsèquement réactif et descriptif, pas génératif. Il apprend à partir d'ensembles existants créés par les utilisateurs, renforçant potentiellement les styles populaires ou grand public et peinant avec les combinaisons avant-gardistes ou nouvelles — une limitation connue des méthodes distributionnelles. Il contourne également l'aspect de la personnalisation. Mon style « punk » peut différer du vôtre. Comme noté dans le travail fondateur sur le filtrage collaboratif neuronal de He et al. (2017, WWW), l'objectif ultime est une fonction personnalisée. Style2Vec fournit d'excellentes représentations d'articles mais ne modélise pas explicitement comment un utilisateur spécifique interagit avec cet espace de style.

Perspectives actionnables :

Pour les chercheurs : La prochaine étape immédiate est l'hybridation. Combiner les plongements d'articles conscients du contexte de Style2Vec avec un module de personnalisation utilisateur (par exemple, un système de recommandation neuronal). Étudier l'apprentissage de style en few-shot ou zero-shot pour briser le biais de popularité.
Pour les praticiens (E-commerce, applications de style) : Implémenter ce modèle comme service de base pour l'appariement de tenues, le style de garde-robe virtuel et la recherche par style. Le ROI est clair : augmentation de la valeur moyenne des commandes grâce à de meilleures suggestions « compléter la tenue » et amélioration de l'engagement client via des outils d'exploration de style interactifs (« trouver des articles qui stylent comme celui-ci »).
Conclusion stratégique : L'avenir de l'IA dans la mode réside dans des systèmes multi-modaux et conscients du contexte. Style2Vec est une étape cruciale au-delà de l'analyse purement visuelle (comme celle effectuée par les jeux de données DeepFashion) et du filtrage collaboratif pur. La plateforme gagnante sera celle qui pourra combiner ce type de compréhension sémantique du style avec la modélisation des préférences individuelles des utilisateurs et peut-être même des capacités génératives pour créer de nouveaux styles virtuels, à la manière dont des modèles comme DALL-E 2 ou Stable Diffusion génèrent des images à partir de prompts textuels, mais contraints par la plausibilité de la mode.

8. Applications futures & Directions de recherche

Style2Vec personnalisé : Étendre le modèle pour apprendre des plongements de style spécifiques à l'utilisateur, permettant un « style pour vous » plutôt qu'un simple « style en général ». Cela pourrait impliquer une architecture à deux tours combinant des encodeurs d'articles et d'utilisateurs.
Apprentissage de style multi-modal : Incorporer des descriptions textuelles (titres de produits, avis utilisateurs) et des données de médias sociaux (publications Instagram avec hashtags) aux côtés des images pour créer des représentations de style plus riches et multi-modales.
Applications génératives de style : Utiliser l'espace de style appris comme mécanisme de conditionnement pour des réseaux antagonistes génératifs (GAN) comme StyleGAN ou des modèles de diffusion pour générer de nouveaux designs de vêtements correspondant à un style cible, ou pour « essayer » virtuellement différents styles en manipulant les plongements d'articles. La recherche en traduction image-à-image, comme CycleGAN (Zhu et al., 2017), montre le potentiel de transformation des apparences d'articles à travers des domaines, ce qui pourrait être guidé par les directions de Style2Vec.
Prévision dynamique des tendances de style : Suivre l'évolution des centroïdes des vecteurs de style au fil du temps pour prédire les tendances émergentes, de manière similaire à l'utilisation des plongements de mots pour suivre le changement sémantique dans le langage.
Mode durable : Recommander des articles d'occasion ou de location stylistiquement cohérents en trouvant les plus proches voisins dans l'espace Style2Vec, promouvant ainsi les économies circulaires de la mode.

9. Références

Lee, H., Seol, J., & Lee, S. (2017). Style2Vec: Representation Learning for Fashion Items from Style Sets. arXiv preprint arXiv:1708.04014.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
He, X., Liao, L., Zhang, H., Nie, L., Hu, X., & Chua, T. S. (2017). Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (pp. 173–182).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).