Vestir como um Todo: Aprendizado de Compatibilidade de Conjuntos Baseado em Redes Neurais de Grafos Nó a Nó

1. Introdução

Este artigo aborda um problema prático na recomendação de moda: "qual item devemos selecionar para combinar com os itens de moda fornecidos e formar um conjunto compatível?" O principal desafio é estimar com precisão a compatibilidade do conjunto. Abordagens anteriores, que focavam na compatibilidade de pares de itens ou representavam conjuntos como sequências (por exemplo, usando RNNs), não conseguiram capturar os relacionamentos complexos e não sequenciais entre todos os itens de um conjunto. Para superar essa limitação, os autores propõem uma nova representação baseada em grafos e um modelo correspondente de Rede Neural de Grafos Nó a Nó (NGNN).

2. Metodologia

A estrutura proposta transforma o problema de compatibilidade de conjuntos em uma tarefa de aprendizado de grafos.

2.1. Construção do Grafo de Moda

Um conjunto é representado como um Grafo de Moda $G = (V, E)$.

Nós ($V$): Representam categorias de itens (por exemplo, camiseta, jeans, sapatos).
Arestas ($E$): Representam relações de compatibilidade ou interações entre categorias.

Cada conjunto é um subgrafo onde instâncias específicas de itens são colocadas em seus nós de categoria correspondentes. Essa estrutura modela explicitamente a topologia relacional de um conjunto.

2.2. Redes Neurais de Grafos Nó a Nó (NGNN)

A inovação central é a camada NGNN para aprender representações de nós (categorias). Diferente das GNNs padrão que podem usar parâmetros compartilhados entre arestas, a NGNN emprega parâmetros nó a nó para modelar interações distintas. A passagem de mensagens para o nó $i$ do vizinho $j$ pode ser formulada como: $$\mathbf{m}_{ij} = \text{FunçãoDeMensagem}(\mathbf{h}_i^{(l)}, \mathbf{h}_j^{(l)}; \mathbf{W}_{ij})$$ onde $\mathbf{h}_i^{(l)}$ é a característica do nó $i$ na camada $l$, e $\mathbf{W}_{ij}$ são parâmetros específicos para o par de nós $(i, j)$. A mensagem agregada é então usada para atualizar a representação do nó: $$\mathbf{h}_i^{(l+1)} = \text{FunçãoDeAtualização}(\mathbf{h}_i^{(l)}, \text{Agregar}(\{\mathbf{m}_{ij}\}_{j \in \mathcal{N}(i)}))$$ Um mecanismo de atenção finalmente calcula uma pontuação de compatibilidade para todo o grafo do conjunto.

2.3. Integração de Características Multimodais

A NGNN é flexível e pode ingerir características de múltiplas modalidades:

Características Visuais: Extraídas de imagens dos itens usando CNNs (por exemplo, ResNet).
Características Textuais: Extraídas de descrições ou tags dos itens usando modelos de PLN.

Essas características são concatenadas ou fundidas para formar as características iniciais dos nós $\mathbf{h}_i^{(0)}$.

3. Experimentos & Resultados

Foram conduzidos experimentos em duas tarefas padrão para validar a eficácia do modelo.

3.1. Configuração Experimental

O modelo foi avaliado em conjuntos de dados públicos de compatibilidade de moda. As linhas de base incluíram:

Métodos de pares (por exemplo, CNN Siamesa, Mahalanobis de baixo posto).
Métodos baseados em sequência (por exemplo, RNN, Bi-LSTM).
Outros métodos baseados em grafos (por exemplo, GCN padrão, GAT).

Métricas de avaliação: Acurácia para Preenchimento de Lacuna, AUC e F1-score para Previsão de Compatibilidade.

3.2. Tarefa de Preenchimento de Lacuna

Dado um conjunto incompleto, a tarefa é selecionar o item mais compatível de um conjunto de candidatos para preencher a lacuna. A NGNN alcançou desempenho superior, superando significativamente os modelos de sequência (RNN/Bi-LSTM) e outras variantes de GNN. Isso demonstra sua capacidade superior de raciocínio holístico sobre o conjunto, indo além de dependências locais de pares ou sequenciais.

3.3. Tarefa de Previsão de Compatibilidade

Dado um conjunto completo, a tarefa é prever um rótulo binário (compatível/incompatível) ou uma pontuação de compatibilidade. A NGNN novamente alcançou os maiores escores de AUC e F1. Os resultados confirmaram que modelar conjuntos como grafos com interações nó a nó captura a natureza matizada e multirrelacional da compatibilidade de moda de forma mais eficaz.

4. Análise Técnica & Insights

Insight Central: A descoberta fundamental do artigo é reconhecer que a compatibilidade de moda é um problema de grafo relacional, não um problema de pares ou sequencial. A abstração em grafo (Grafo de Moda) é mais natural para o domínio do que sequências, conforme argumentado em trabalhos seminais sobre vieses indutivos relacionais para aprendizado profundo (Battaglia et al., 2018). Os autores identificam corretamente a limitação das RNNs, que impõem uma ordem arbitrária a conjuntos de itens inerentemente desordenados, uma falha também observada em pesquisas sobre aprendizado de representação de conjuntos e grafos (Vinyals et al., 2015).

Fluxo Lógico: O argumento é sólido: 1) Identificar a natureza relacional do problema, 2) Propor uma representação de dados estruturada em grafo, 3) Projetar uma arquitetura neural (NGNN) adaptada a essa estrutura com interações diferenciadas de arestas, 4) Validar empiricamente. A transição de sequência para grafo reflete a evolução mais ampla na IA, do processamento de strings para o processamento de redes, como visto na análise de redes sociais e grafos de conhecimento.

Pontos Fortes & Fracos: O ponto forte principal é a parametrização nó a nó na NGNN. Isso permite que o modelo aprenda que a interação entre "blazer" e "vestido" é fundamentalmente diferente daquela entre "tênis" e "meias", capturando regras de estilo específicas da categoria. Isso é um passo além das GCNs/GATs básicas. Uma falha potencial, comum em protótipos acadêmicos, é o custo computacional. Aprender um conjunto único de parâmetros $\mathbf{W}_{ij}$ para cada par de categoria possível pode não escalar para catálogos massivos e granulares com milhares de categorias sem técnicas significativas de compartilhamento ou fatoração de parâmetros.

Insights Acionáveis: Para profissionais, esta pesquisa exige uma mudança na modelagem de dados. Em vez de curar dados sequenciais de conjuntos, concentre-se em construir ricos grafos de relação de categorias. A arquitetura NGNN é um projeto pronto para implementação para equipes de tecnologia em empresas como Stitch Fix ou Amazon Fashion. A abordagem multimodal também sugere investir em pipelines unificados de características para imagens e texto. O próximo passo imediato deve ser explorar aproximações eficientes dos parâmetros nó a nó (por exemplo, usando hiper-redes ou fatoração tensorial) para garantir viabilidade industrial.

5. Exemplo de Estrutura de Análise

Cenário: Analisando a compatibilidade de um conjunto candidato: "Camisa de Linho Branca, Jeans Azul Escuro, Sapatos de Camurça Marrom, Relógio de Prata."

Aplicação da Estrutura (Sem Código):

Construção do Grafo:
- Nós: {Camisa, Jeans, Sapatos, Relógio}.
- Arestas: Totalmente conectadas ou baseadas em um grafo de conhecimento prévio (por exemplo, Camisa-Jeans, Camisa-Sapatos, Jeans-Sapatos, Relógio-Camisa, etc.).
Inicialização de Características:
- Extrair características visuais: Cor (branco, azul, marrom, prata), textura (linho, jeans, camurça, metal), pontuação de formalidade.
- Extrair características textuais: Palavras-chave das descrições ("casual", "formal", "verão", "acessório").
Processamento NGNN:
- O nó "Camisa" recebe mensagens de "Jeans", "Sapatos" e "Relógio". Os parâmetros $\mathbf{W}_{\text{Camisa,Jeans}}$ aprendem o alinhamento de estilo casual, enquanto $\mathbf{W}_{\text{Camisa,Relógio}}$ podem aprender regras de coordenação de acessórios.
- Após várias camadas, cada nó tem uma representação consciente do contexto refletindo seu papel neste específico conjunto.
Pontuação de Compatibilidade:
- A representação final em nível de grafo é alimentada a uma camada de atenção/pontuação.
- Saída: Uma alta pontuação de compatibilidade (por exemplo, 0,87), indicando um conjunto coeso e estiloso.

Esta estrutura vai além de verificar se a camisa combina com o jeans isoladamente, para avaliar a harmonia holística de todos os quatro itens como um sistema.

6. Aplicações Futuras & Direções

Compatibilidade Personalizada: Integrar perfis de usuário, compras passadas e medidas corporais no grafo (por exemplo, adicionando um nó "Usuário") para passar da recomendação geral para a personalizada de conjuntos. Pesquisas em filtragem colaborativa via GNNs (He et al., 2020, LightGCN) fornecem um caminho claro.
IA Explicável para Moda: Aproveitar técnicas de explicabilidade de GNNs (por exemplo, GNNExplainer) para destacar quais interações específicas entre pares de itens estão enfraquecendo a pontuação de um conjunto, fornecendo conselhos de estilo acionáveis aos usuários.
Moda Cross-Domínio & Metaverso: Aplicar a estrutura a experimentações virtuais, moda digital em jogos/metaversos e estilização cross-domínio (por exemplo, combinar móveis com roupas para uma "estética" coesa). A estrutura de grafo pode facilmente incorporar nós de diferentes domínios.
Moda Sustentável & Guarda-roupas Cápsula: Usar o modelo para identificar itens "núcleo" maximamente versáteis que formam conjuntos compatíveis com muitos outros, auxiliando na construção de guarda-roupas cápsula sustentáveis e na redução do consumo excessivo.
Grafos Dinâmicos & Temporais: Modelar tendências de moda ao longo do tempo construindo grafos de moda temporais, permitindo que o sistema recomende conjuntos que sejam tanto compatíveis quanto na moda para a estação atual.

7. Referências

Cui, Z., Li, Z., Wu, S., Zhang, X., & Wang, L. (2019). Dressing as a Whole: Outfit Compatibility Learning Based on Node-wise Graph Neural Networks. Proceedings of the 2019 World Wide Web Conference (WWW '19).
Battaglia, P. W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261.
Vinyals, O., Bengio, S., & Kudlur, M. (2015). Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391.
He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M. (2020). LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning visual clothing style with heterogeneous dyadic co-occurrences. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
McAuley, J., Targett, C., Shi, Q., & van den Hengel, A. (2015). Image-based recommendations on styles and substitutes. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.