L'Habillement dans son Ensemble : Apprentissage de la Compatibilité des Tenues basé sur des Réseaux de Neurones Graphiques Nodaux

1. Introduction

Cet article aborde le problème pratique dans la recommandation de mode : « quel article devrions-nous sélectionner pour l'assortir aux articles de mode donnés et former une tenue compatible ? » Le défi central est d'estimer avec précision la compatibilité des tenues. Les approches précédentes, qui se concentraient sur la compatibilité par paires d'articles ou représentaient les tenues comme des séquences (par exemple, en utilisant des RNN), ne parvenaient pas à capturer les relations complexes et non séquentielles entre tous les articles d'une tenue. Pour surmonter cette limitation, les auteurs proposent une nouvelle représentation basée sur les graphes et un modèle correspondant de Réseau de Neurones Graphiques Nodaux (NGNN).

2. Méthodologie

Le cadre proposé transforme le problème de compatibilité des tenues en une tâche d'apprentissage sur graphe.

2.1. Construction du Graphe de Mode

Une tenue est représentée comme un Graphe de Mode $G = (V, E)$.

Nœuds ($V$) : Représentent les catégories d'articles (par exemple, T-shirt, jean, chaussures).
Arêtes ($E$) : Représentent les relations de compatibilité ou les interactions entre les catégories.

Chaque tenue est un sous-graphe où des instances d'articles spécifiques sont placées dans leurs nœuds de catégorie correspondants. Cette structure modélise explicitement la topologie relationnelle d'une tenue.

2.2. Réseaux de Neurones Graphiques Nodaux (NGNN)

L'innovation principale est la couche NGNN pour l'apprentissage des représentations des nœuds (catégories). Contrairement aux GNN standard qui peuvent utiliser des paramètres partagés entre les arêtes, le NGNN emploie des paramètres nodaux pour modéliser des interactions distinctes. La transmission de message pour le nœud $i$ depuis le voisin $j$ peut être formulée comme suit : $$\mathbf{m}_{ij} = \text{FonctionMessage}(\mathbf{h}_i^{(l)}, \mathbf{h}_j^{(l)}; \mathbf{W}_{ij})$$ où $\mathbf{h}_i^{(l)}$ est la caractéristique du nœud $i$ à la couche $l$, et $\mathbf{W}_{ij}$ sont des paramètres spécifiques à la paire de nœuds $(i, j)$. Le message agrégé est ensuite utilisé pour mettre à jour la représentation du nœud : $$\mathbf{h}_i^{(l+1)} = \text{FonctionMiseÀJour}(\mathbf{h}_i^{(l)}, \text{Agrégation}(\{\mathbf{m}_{ij}\}_{j \in \mathcal{N}(i)}))$$ Un mécanisme d'attention calcule finalement un score de compatibilité pour l'ensemble du graphe de la tenue.

2.3. Intégration de Caractéristiques Multi-modales

Le NGNN est flexible et peut ingérer des caractéristiques provenant de multiples modalités :

Caractéristiques Visuelles : Extraites des images des articles à l'aide de CNN (par exemple, ResNet).
Caractéristiques Textuelles : Extraites des descriptions ou des étiquettes des articles à l'aide de modèles de TAL.

Ces caractéristiques sont concaténées ou fusionnées pour former les caractéristiques initiales des nœuds $\mathbf{h}_i^{(0)}$.

3. Expériences & Résultats

Des expériences ont été menées sur deux tâches standard pour valider l'efficacité du modèle.

3.1. Configuration Expérimentale

Le modèle a été évalué sur des ensembles de données publics de compatibilité de mode. Les méthodes de référence comprenaient :

Méthodes par paires (par exemple, CNN Siamese, Mahalanobis à faible rang).
Méthodes basées sur les séquences (par exemple, RNN, Bi-LSTM).
Autres méthodes basées sur les graphes (par exemple, GCN standard, GAT).

Métriques d'évaluation : Précision pour la tâche de Remplissage de Vide, AUC et score F1 pour la Prédiction de Compatibilité.

3.2. Tâche de Remplissage de Vide

Étant donnée une tenue incomplète, la tâche consiste à sélectionner l'article le plus compatible dans un ensemble de candidats pour combler le vide. Le NGNN a obtenu des performances supérieures, surpassant significativement les modèles séquentiels (RNN/Bi-LSTM) et d'autres variantes de GNN. Cela démontre sa capacité supérieure à raisonner de manière holistique sur les tenues, au-delà des dépendances locales par paires ou séquentielles.

3.3. Tâche de Prédiction de Compatibilité

Étant donnée une tenue complète, la tâche consiste à prédire une étiquette binaire (compatible/incompatible) ou un score de compatibilité. Le NGNN a à nouveau obtenu les scores AUC et F1 les plus élevés. Les résultats ont confirmé que la modélisation des tenues comme des graphes avec des interactions nodales capture plus efficacement la nature nuancée et multi-relationnelle de la compatibilité vestimentaire.

4. Analyse Technique & Perspectives

Perspective Principale : La percée fondamentale de l'article est de reconnaître que la compatibilité vestimentaire est un problème de graphe relationnel, et non un problème par paires ou séquentiel. L'abstraction par graphe (Graphe de Mode) est plus naturelle pour ce domaine que les séquences, comme le soutiennent les travaux fondateurs sur les biais inductifs relationnels pour l'apprentissage profond (Battaglia et al., 2018). Les auteurs identifient correctement la limitation des RNN, qui imposent un ordre arbitraire à des ensembles d'articles intrinsèquement non ordonnés, un défaut également noté dans la recherche sur l'apprentissage de représentations d'ensembles et de graphes (Vinyals et al., 2015).

Flux Logique : L'argumentation est solide : 1) Identifier la nature relationnelle du problème, 2) Proposer une représentation des données structurée en graphe, 3) Concevoir une architecture neuronale (NGNN) adaptée à cette structure avec des interactions d'arêtes différenciées, 4) Valider empiriquement. Le passage de la séquence au graphe reflète l'évolution plus large de l'IA du traitement des chaînes au traitement des réseaux, comme on le voit dans l'analyse des réseaux sociaux et les graphes de connaissances.

Points Forts & Faiblesses : Le point fort clé est la paramétrisation nodale dans le NGNN. Cela permet au modèle d'apprendre que l'interaction entre un « blazer » et une « robe » est fondamentalement différente de celle entre des « baskets » et des « chaussettes », capturant ainsi des règles de style spécifiques aux catégories. Cela va au-delà des GCN/GAT classiques. Une faiblesse potentielle, courante dans les prototypes académiques, est le coût computationnel. Apprendre un ensemble de paramètres unique $\mathbf{W}_{ij}$ pour chaque paire de catégories possible pourrait ne pas passer à l'échelle pour des catalogues massifs et granulaires avec des milliers de catégories sans techniques significatives de partage ou de factorisation des paramètres.

Perspectives Actionnables : Pour les praticiens, cette recherche impose un changement dans la modélisation des données. Au lieu de constituer des données de tenues séquentielles, concentrez-vous sur la construction de riches graphes de relations entre catégories. L'architecture NGNN est un plan prêt à l'emploi pour les équipes techniques de sociétés comme Stitch Fix ou Amazon Fashion. L'approche multi-modale suggère également d'investir dans des pipelines unifiés de caractéristiques pour les images et le texte. La prochaine étape immédiate devrait être d'explorer des approximations efficaces des paramètres nodaux (par exemple, en utilisant des hyper-réseaux ou la factorisation tensorielle) pour garantir la viabilité industrielle.

5. Exemple de Cadre d'Analyse

Scénario : Analyser la compatibilité d'une tenue candidate : « Chemise en lin blanche, Jeans bleu foncé, Mocassins en cuir marron, Montre argentée. »

Application du Cadre (Sans Code) :

Construction du Graphe :
- Nœuds : {Chemise, Jeans, Chaussures, Montre}.
- Arêtes : Complètement connectées ou basées sur un graphe de connaissances préalable (par exemple, Chemise-Jeans, Chemise-Chaussures, Jeans-Chaussures, Montre-Chemise, etc.).
Initialisation des Caractéristiques :
- Extraire les caractéristiques visuelles : Couleur (blanc, bleu, marron, argent), texture (lin, denim, cuir, métal), score de formalité.
- Extraire les caractéristiques textuelles : Mots-clés des descriptions (« casual », « formel », « été », « accessoire »).
Traitement par NGNN :
- Le nœud « Chemise » reçoit des messages des nœuds « Jeans », « Chaussures » et « Montre ». Les paramètres $\mathbf{W}_{\text{Chemise,Jeans}}$ apprennent l'alignement de style décontracté, tandis que $\mathbf{W}_{\text{Chemise,Montre}}$ pourraient apprendre les règles de coordination des accessoires.
- Après plusieurs couches, chaque nœud possède une représentation sensible au contexte reflétant son rôle dans cette tenue spécifique.
Calcul du Score de Compatibilité :
- La représentation finale au niveau du graphe est transmise à une couche d'attention/de notation.
- Sortie : Un score de compatibilité élevé (par exemple, 0,87), indiquant une tenue cohérente et stylée.

Ce cadre va au-delà de la vérification isolée de l'assortiment entre la chemise et le jean, pour évaluer l'harmonie holistique des quatre articles comme un système.

6. Applications Futures & Orientations

Compatibilité Personnalisée : Intégrer les profils utilisateurs, les achats passés et les mensurations corporelles dans le graphe (par exemple, en ajoutant un nœud « Utilisateur ») pour passer de la recommandation de tenues générale à personnalisée. La recherche sur le filtrage collaboratif via les GNN (He et al., 2020, LightGCN) offre une voie claire.
IA Explicable pour la Mode : Exploiter les techniques d'explicabilité des GNN (par exemple, GNNExplainer) pour mettre en évidence quelles interactions spécifiques entre articles affaiblissent le score d'une tenue, fournissant ainsi des conseils de style actionnables aux utilisateurs.
Mode Transdomaine & Métavers : Appliquer le cadre aux essayages virtuels, à la mode numérique dans les jeux/métavers, et au stylisme transdomaine (par exemple, assortir des meubles à des vêtements pour une « esthétique » cohérente). La structure en graphe peut facilement incorporer des nœuds de différents domaines.
Mode Durable & Garde-robe Capsule : Utiliser le modèle pour identifier les articles « de base » maximisant la versatilité, qui forment des tenues compatibles avec de nombreux autres articles, aidant ainsi à construire des garde-robe capsules durables et à réduire la surconsommation.
Graphes Dynamiques & Temporels : Modéliser les tendances de la mode dans le temps en construisant des graphes de mode temporels, permettant au système de recommander des tenues à la fois compatibles et tendances pour la saison en cours.

7. Références

Cui, Z., Li, Z., Wu, S., Zhang, X., & Wang, L. (2019). Dressing as a Whole: Outfit Compatibility Learning Based on Node-wise Graph Neural Networks. Proceedings of the 2019 World Wide Web Conference (WWW '19).
Battaglia, P. W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261.
Vinyals, O., Bengio, S., & Kudlur, M. (2015). Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391.
He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M. (2020). LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning visual clothing style with heterogeneous dyadic co-occurrences. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
McAuley, J., Targett, C., Shi, Q., & van den Hengel, A. (2015). Image-based recommendations on styles and substitutes. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.