Одеваться как единое целое: Обучение совместимости комплектов одежды на основе поузловых графовых нейронных сетей

1. Введение

В данной статье рассматривается практическая задача в области рекомендаций моды: "какой предмет одежды следует выбрать, чтобы он сочетался с заданными предметами и образовывал гармоничный комплект?" Основная сложность заключается в точной оценке совместимости комплекта одежды. Предыдущие подходы, фокусировавшиеся на попарной совместимости предметов или представлявшие комплекты как последовательности (например, с использованием RNN), не могли уловить сложные, не последовательные взаимосвязи между всеми предметами в наряде. Чтобы преодолеть это ограничение, авторы предлагают новое графовое представление и соответствующую модель поузловых графовых нейронных сетей (NGNN).

2. Методология

Предлагаемый фреймворк преобразует задачу совместимости комплектов в задачу обучения на графах.

2.1. Построение модного графа

Комплект одежды представляется в виде Модного графа $G = (V, E)$.

Узлы ($V$): Представляют категории предметов (например, футболка, джинсы, обувь).
Рёбра ($E$): Представляют отношения совместимости или взаимодействия между категориями.

Каждый комплект является подграфом, в котором конкретные экземпляры предметов размещаются в соответствующих категориальных узлах. Эта структура явно моделирует реляционную топологию комплекта.

2.2. Поузловые графовые нейронные сети (NGNN)

Ключевым нововведением является слой NGNN для обучения представлений узлов (категорий). В отличие от стандартных GNN, которые могут использовать общие параметры для всех рёбер, NGNN применяет поузловые параметры для моделирования различных взаимодействий. Передача сообщений для узла $i$ от соседа $j$ может быть сформулирована как: $$\mathbf{m}_{ij} = \text{MessageFunction}(\mathbf{h}_i^{(l)}, \mathbf{h}_j^{(l)}; \mathbf{W}_{ij})$$ где $\mathbf{h}_i^{(l)}$ — признаки узла $i$ на слое $l$, а $\mathbf{W}_{ij}$ — параметры, специфичные для пары узлов $(i, j)$. Агрегированное сообщение затем используется для обновления представления узла: $$\mathbf{h}_i^{(l+1)} = \text{UpdateFunction}(\mathbf{h}_i^{(l)}, \text{Aggregate}(\{\mathbf{m}_{ij}\}_{j \in \mathcal{N}(i)}))$$ Механизм внимания в конечном итоге вычисляет оценку совместимости для всего графа комплекта.

2.3. Интеграция мультимодальных признаков

NGNN является гибкой и может обрабатывать признаки из нескольких модальностей:

Визуальные признаки: Извлекаются из изображений предметов с использованием CNN (например, ResNet).
Текстовые признаки: Извлекаются из описаний или тегов предметов с использованием NLP-моделей.

Эти признаки конкатенируются или объединяются для формирования начальных признаков узлов $\mathbf{h}_i^{(0)}$.

3. Эксперименты и результаты

Эксперименты были проведены по двум стандартным задачам для проверки эффективности модели.

3.1. Экспериментальная установка

Модель оценивалась на общедоступных наборах данных по совместимости в моде. Базовые модели включали:

Попарные методы (например, Siamese CNN, Low-rank Mahalanobis).
Методы на основе последовательностей (например, RNN, Bi-LSTM).
Другие графовые методы (например, стандартный GCN, GAT).

Метрики оценки: Точность для задачи "Заполни пропуск", AUC и F1-score для задачи прогнозирования совместимости.

3.2. Задача "Заполни пропуск"

Даётся неполный комплект одежды, задача — выбрать наиболее совместимый предмет из пула кандидатов, чтобы заполнить пропуск. NGNN показала превосходную производительность, значительно превзойдя модели на основе последовательностей (RNN/Bi-LSTM) и другие варианты GNN. Это демонстрирует её превосходную способность к целостному анализу комплекта, выходящему за рамки локальных попарных или последовательных зависимостей.

3.3. Задача прогнозирования совместимости

Даётся полный комплект одежды, задача — предсказать бинарную метку (совместим/несовместим) или оценку совместимости. NGNN снова достигла наивысших показателей AUC и F1. Результаты подтвердили, что моделирование комплектов как графов с поузловыми взаимодействиями более эффективно улавливает тонкую, многогранную природу модной совместимости.

4. Технический анализ и выводы

Ключевой вывод: Фунментальным прорывом статьи является признание того, что модная совместимость — это реляционная графовая задача, а не попарная или последовательная. Графовая абстракция (Модный граф) является более естественной для данной области, чем последовательности, как утверждается в основополагающих работах о реляционных индуктивных смещениях для глубокого обучения (Battaglia et al., 2018). Авторы верно определяют ограничение RNN, которые навязывают произвольный порядок по своей сути неупорядоченным наборам предметов, — недостаток, также отмеченный в исследованиях по обучению представлений множеств и графов (Vinyals et al., 2015).

Логический поток: Аргументация логична: 1) Определить реляционную природу проблемы, 2) Предложить графовое представление данных, 3) Разработать нейросетевую архитектуру (NGNN), адаптированную к этой структуре с дифференцированными взаимодействиями рёбер, 4) Провести эмпирическую валидацию. Переход от последовательностей к графам отражает более широкую эволюцию в ИИ от обработки строк к обработке сетей, как это видно в анализе социальных сетей и графах знаний.

Сильные стороны и недостатки: Ключевым преимуществом является поузловая параметризация в NGNN. Это позволяет модели изучить, что взаимодействие между "пиджаком" и "платьем" принципиально отличается от взаимодействия между "кроссовками" и "носками", улавливая стилевые правила, специфичные для категорий. Это шаг вперёд по сравнению с базовыми GCN/GAT. Потенциальный недостаток, характерный для академических прототипов, — вычислительная стоимость. Обучение уникального набора параметров $\mathbf{W}_{ij}$ для каждой возможной пары категорий может не масштабироваться на огромные, детализированные каталоги с тысячами категорий без значительного совместного использования параметров или техник факторизации.

Практические рекомендации: Для практиков это исследование требует смены парадигмы в моделировании данных. Вместо курирования последовательных данных о комплектах следует сосредоточиться на построении богатых графов категорий-отношений. Архитектура NGNN является готовым к реализации шаблоном для технических команд в таких компаниях, как Stitch Fix или Amazon Fashion. Мультимодальный подход также предполагает инвестиции в унифицированные пайплайны признаков для изображений и текста. Следующим немедленным шагом должно стать исследование эффективных аппроксимаций поузловых параметров (например, с использованием гиперсетей или тензорной факторизации) для обеспечения промышленной жизнеспособности.

5. Пример аналитического фреймворка

Сценарий: Анализ совместимости кандидата в комплект: "Белая льняная рубашка, Тёмно-синие джинсы, Коричневые кожаные лоферы, Серебряные часы."

Применение фреймворка (без кода):

Построение графа:
- Узлы: {Рубашка, Джинсы, Обувь, Часы}.
- Рёбра: Полносвязный граф или на основе графа знаний (например, Рубашка-Джинсы, Рубашка-Обувь, Джинсы-Обувь, Часы-Рубашка и т.д.).
Инициализация признаков:
- Извлечение визуальных признаков: Цвет (белый, синий, коричневый, серебряный), текстура (лён, деним, кожа, металл), показатель формальности.
- Извлечение текстовых признаков: Ключевые слова из описаний ("повседневный", "формальный", "летний", "аксессуар").
Обработка NGNN:
- Узел "Рубашка" получает сообщения от узлов "Джинсы", "Обувь" и "Часы". Параметры $\mathbf{W}_{\text{Рубашка,Джинсы}}$ изучают соответствие повседневному стилю, в то время как $\mathbf{W}_{\text{Рубашка,Часы}}$ могут изучать правила координации с аксессуарами.
- После нескольких слоёв каждый узел имеет контекстно-зависимое представление, отражающее его роль в этом конкретном комплекте.
Оценка совместимости:
- Финальное представление на уровне графа подаётся на слой внимания/оценки.
- Результат: Высокая оценка совместимости (например, 0.87), указывающая на целостный, стильный комплект.

Этот фреймворк выходит за рамки проверки того, сочетается ли рубашка с джинсами изолированно, и переходит к оценке целостной гармонии всех четырёх предметов как системы.

6. Будущие применения и направления

Персонализированная совместимость: Интеграция профилей пользователей, истории покупок и антропометрических данных в граф (например, добавление узла "Пользователь") для перехода от общих к персонализированным рекомендациям комплектов. Исследования в области коллаборативной фильтрации через GNN (He et al., 2020, LightGCN) предоставляют чёткий путь.
Объяснимый ИИ для моды: Использование техник объяснимости GNN (например, GNNExplainer) для выделения того, какие именно взаимодействия пар предметов снижают оценку комплекта, предоставляя пользователям конкретные стилевые рекомендации.
Кросс-доменная мода и метавселенные: Применение фреймворка к виртуальным примеркам, цифровой моде в играх/метавселенных и кросс-доменному стилингу (например, подбор мебели к одежде для создания целостной "эстетики"). Графовая структура может легко включать узлы из разных доменов.
Устойчивая мода и капсульные гардеробы: Использование модели для выявления максимально универсальных "базовых" предметов, которые образуют совместимые комплекты со многими другими, помогая в создании устойчивых капсульных гардеробов и сокращении чрезмерного потребления.
Динамические и временные графы: Моделирование модных трендов во времени путём построения временных модных графов, позволяя системе рекомендовать комплекты, которые одновременно совместимы и соответствуют текущему сезону.

7. Список литературы

Cui, Z., Li, Z., Wu, S., Zhang, X., & Wang, L. (2019). Dressing as a Whole: Outfit Compatibility Learning Based on Node-wise Graph Neural Networks. Proceedings of the 2019 World Wide Web Conference (WWW '19).
Battaglia, P. W., et al. (2018). Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261.
Vinyals, O., Bengio, S., & Kudlur, M. (2015). Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391.
He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., & Wang, M. (2020). LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning visual clothing style with heterogeneous dyadic co-occurrences. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
McAuley, J., Targett, C., Shi, Q., & van den Hengel, A. (2015). Image-based recommendations on styles and substitutes. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.