Набор данных Fashion-Diffusion: миллион высококачественных изображений для ИИ-дизайна в моде

Содержание

1.04M

Высококачественных изображений моды

768x1152

Разрешение изображений

8,037

Размеченных атрибутов

1.59M

Текстовых описаний

1. Введение

Слияние искусственного интеллекта (ИИ) и дизайна одежды представляет собой трансформационный рубеж в компьютерном зрении и креативных индустриях. Хотя модели синтеза «текст-изображение» (T2I), такие как DALL-E, Stable Diffusion и Imagen, продемонстрировали впечатляющие возможности, их применение в специализированных областях, таких как дизайн одежды, сдерживалось критическим узким местом: отсутствием масштабных, высококачественных и предметно-ориентированных наборов данных.

Существующие наборы данных по моде, такие как DeepFashion, CM-Fashion и Prada, страдают от ограничений по масштабу (часто <100 тыс. изображений), разрешению (например, 256x256), полноте (отсутствие изображений человека в полный рост или детальных текстовых описаний) или детализации аннотаций. В данной работе представлен набор данных Fashion-Diffusion — результат многолетних усилий по устранению этого пробела. Он включает более миллиона изображений моды высокого разрешения (768x1152), каждое из которых сопряжено с детальным текстовым описанием, охватывающим как атрибуты одежды, так и человека, и собранных из разнообразных мировых трендов моды.

2. Набор данных Fashion-Diffusion

2.1 Создание и сбор набора данных

Работа над созданием набора данных, начатая в 2018 году, включала тщательный сбор и кураторство из обширного репозитория высококачественных изображений одежды. Ключевым отличием является фокус на глобальном разнообразии: изображения собирались из различных географических и культурных контекстов, чтобы охватить мировые тренды моды, а не только западные стили.

Конвейер сочетал автоматизированные и ручные процессы. После первоначального сбора следовала строгая фильтрация по качеству и релевантности. Использовалась гибридная стратегия аннотирования, сочетающая автоматическое обнаружение/классификацию объектов и ручную проверку экспертами в области дизайна одежды для обеспечения точности и детализации.

2.2 Аннотирование данных и атрибуты

В сотрудничестве с экспертами в области моды команда определила всеобъемлющую онтологию атрибутов, связанных с одеждой. Итоговый набор данных включает 8 037 размеченных атрибутов, что позволяет осуществлять детальный контроль над процессом генерации T2I. Атрибуты охватывают:

Детали одежды: Категория (платье, рубашка, брюки), стиль (бохо, минимализм), ткань (шелк, деним), цвет, узор, вырез горловины, длина рукава.
Контекст человека: Поза, тип телосложения, пол, возрастная группа, взаимодействие с одеждой.
Сцена и контекст: Повод (повседневный, формальный), обстановка.

Каждое изображение сопряжено с одним или несколькими высококачественными текстовыми описаниями, в результате чего получено 1,59 млн пар «текст-изображение», что значительно обогащает семантическое соответствие, критически важное для обучения моделей T2I.

2.3 Статистика и характеристики набора данных

Масштаб: 1 044 491 изображение.
Разрешение: Высокое разрешение 768x1152, подходящее для детальной визуализации дизайна.
Пары «текст-изображение»: 1 593 808 описаний.
Разнообразие: Географически и культурно разнообразные источники.
Глубина аннотаций: 8 037 детализированных атрибутов.
Человеко-ориентированность: Фокус на изображениях человека в полный рост в одежде, а не на изолированных предметах одежды.

3. Экспериментальный бенчмарк и результаты

3.1 Метрики оценки

Предлагаемый бенчмарк оценивает модели T2I по нескольким осям с использованием стандартных метрик:

Дистанция Фреше по инцепции (FID): Измеряет сходство между распределениями сгенерированных и реальных изображений. Чем меньше, тем лучше.
Инцептион-скор (IS): Оценивает качество и разнообразие сгенерированных изображений. Чем выше, тем лучше.
CLIPScore: Оценивает семантическое соответствие между сгенерированными изображениями и входными текстовыми промптами. Чем выше, тем лучше.

3.2 Сравнительный анализ

Модели, обученные на Fashion-Diffusion, сравнивались с моделями, обученными на других известных наборах данных по моде (например, DeepFashion-MM). Сравнение подчеркивает влияние качества и масштаба набора данных на производительность модели.

3.3 Результаты и производительность

Экспериментальные результаты демонстрируют превосходство моделей, обученных на наборе данных Fashion-Diffusion:

FID: 8.33 (Fashion-Diffusion) против 15.32 (Базовый). Улучшение примерно на 46%, что указывает на значительно более фотореалистичные и соответствующие реальным данным сгенерированные изображения.
IS: 6.95 против 4.7. Улучшение примерно на 48%, отражающее лучшее воспринимаемое качество и разнообразие изображений.
CLIPScore: 0.83 против 0.70. Улучшение примерно на 19%, показывающее превосходное семантическое соответствие «текст-изображение».

Описание диаграммы (представлено мысленно): Столбчатая диаграмма с заголовком «Сравнение производительности моделей T2I» показала бы три пары столбцов для FID, IS и CLIPScore. Столбцы «Fashion-Diffusion» были бы значительно выше (для IS, CLIPScore) или ниже (для FID), чем столбцы «Базовый набор данных», визуально подтверждая количественное превосходство, описанное в тексте.

4. Техническая архитектура и методология

4.1 Конвейер синтеза «текст-изображение»

Исследование использует диффузионные модели, которые в настоящее время являются передовыми для генерации T2I. Конвейер обычно включает:

Текстовое кодирование: Входные текстовые промпты кодируются в латентное представление с помощью модели, такой как CLIP или T5.
Диффузионный процесс: Архитектура U-Net итеративно удаляет шум из случайного гауссовского шума, направляемая текстовыми эмбеддингами, для генерации связного изображения. Процесс определяется прямой (зашумляющей) и обратной (удаляющей шум) цепями Маркова.
Детальный контроль: Детализированные метки атрибутов в Fashion-Diffusion позволяют обусловливать диффузионный процесс конкретными признаками, обеспечивая точный контроль над генерируемыми предметами одежды.

4.2 Математические основы

Основой диффузионных моделей является обучение обращению прямого процесса зашумления. Для данной точки данных $x_0$ (реального изображения) прямой процесс создает последовательность все более зашумленных латентных переменных $x_1, x_2, ..., x_T$ за $T$ шагов:

$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$

где $\beta_t$ — расписание дисперсии. Обратный процесс, параметризованный нейронной сетью $\theta$, учится удалять шум:

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$

Обучение включает оптимизацию вариационной нижней границы. Для условной генерации (например, с текстом $y$) модель учится $p_\theta(x_{t-1} | x_t, y)$. Высококачественные, хорошо согласованные пары в Fashion-Diffusion обеспечивают надежный обучающий сигнал для изучения этого условного распределения $p_\theta$ в области моды.

5. Ключевые выводы и аналитическая перспектива

Ключевой вывод:

Fashion-Diffusion — это не просто еще один набор данных; это стратегическая инфраструктурная инициатива, которая напрямую атакует основное узкое место — нехватку и низкое качество данных, — сдерживающее промышленный ИИ-дизайн в моде. В то время как академическое сообщество было одержимо архитектурой моделей (например, усовершенствованием U-Net в диффузионных моделях), эта работа правильно определяет, что для такой нюансированной, эстетически-ориентированной области, как мода, фундамент данных является реальным дифференциатором. Она смещает конкурентное преимущество с алгоритмов на курируемые, проприетарные активы данных.

Логическая последовательность:

Логика статьи убедительна: 1) Определить проблему (отсутствие хороших данных T2I для моды). 2) Построить решение (масштабный, высокоразрешающий, хорошо аннотированный набор данных). 3) Доказать его ценность (бенчмарк, показывающий результаты уровня SOTA). Это классическая стратегия «постройте, и они придут» для исследовательского сообщества. Однако эта последовательность предполагает, что масштаб и качество аннотаций автоматически приводят к лучшим моделям. Она несколько упускает из виду потенциальные смещения, внесенные в процессе их глобального курирования — то, что определяет «высокое качество» или «разнообразие», по своей сути субъективно и может внедрить культурные предубеждения в будущих ИИ-дизайнеров, что является критической проблемой, подчеркнутой в исследованиях алгоритмической справедливости, таких как работы Института AI Now.

Сильные стороны и недостатки:

Сильные стороны: Беспрецедентный масштаб и разрешение для моды. Включение контекста человека в полный рост — блестящий ход — это выходит за рамки генерации оторванной от тела одежды к созданию носимой моды в контексте, что и является реальной коммерческой потребностью. Сотрудничество с предметными экспертами для определения атрибутов добавляет решающую достоверность, в отличие от чисто веб-скрапленных наборов данных.

Недостатки: В статье мало конкретики о «гибридном» процессе аннотирования. Сколько было автоматизировано, а сколько размечено вручную? Какова была стоимость? Эта непрозрачность затрудняет оценку воспроизводимости. Кроме того, хотя бенчмарки показывают улучшение, они не демонстрируют креативной полезности — может ли он генерировать по-настоящему новые, задающие тренды дизайны, или он лишь интерполирует существующие стили? По сравнению с основополагающими работами по креативному ИИ, такими как CycleGAN (Zhu et al., 2017), которая представила непарный перевод «изображение-изображение», Fashion-Diffusion превосходит в контролируемых данных, но может не обладать таким же потенциалом для радикального стилистического открытия, который возникает при непарном, менее ограниченном обучении.

Практические выводы:

1. Для исследователей: Этот набор данных — новый базовый уровень. Любая новая модель T2I для моды должна быть обучена и оценена на нем, чтобы к ней относились серьезно. Теперь фокус должен сместиться на использование детализированных атрибутов для контролируемого, объяснимого дизайна, а не только на улучшение общих показателей FID.
2. Для индустрии (модные бренды): Реальная ценность заключается в построении на этой открытой основе с использованием ваших собственных проприетарных данных — эскизов, мудбордов, прошлых коллекций — для тонкой настройки моделей, которые захватывают уникальную ДНК вашего бренда. Эра ИИ-ассистированного дизайна наступила; победителями станут те, кто рассматривает обучающие данные ИИ как ключевой стратегический актив.
3. Для инвесторов: Поддерживайте компании и инструменты, которые облегчают создание, управление и разметку высококачественных предметно-ориентированных наборов данных. Слой моделей становится товарным; именно на уровне данных создается защищаемая ценность, что подтверждается скачками производительности, показанными здесь.

6. Фреймворк применения и кейс-стади

Фреймворк для ИИ-ассистированного дизайна одежды:

Ввод: Дизайнер предоставляет краткое описание на естественном языке (например, «летящее платье миди из лавандового шифона с буфами на рукавах, для садовой вечеринки») или выбирает конкретные атрибуты из онтологии.
Генерация: Диффузионная модель (например, дообученный Stable Diffusion), обученная на Fashion-Diffusion, генерирует несколько высокоразрешающих визуальных концепций.
Доработка: Дизайнер выбирает и итерирует, потенциально используя техники инпейнтинга или img2img для модификации конкретных областей (например, изменение выреза горловины, корректировка длины).
Вывод: Финальная визуализация дизайна для прототипирования или создания цифровых активов.

Кейс-стади без кода: Прогнозирование трендов и быстрое прототипирование
Ритейлер быстрой моды хочет использовать возникающий тренд на эстетику «cottagecore», выявленный с помощью анализа социальных сетей. Используя систему T2I на основе Fashion-Diffusion, их команда дизайнеров вводит промпты типа «платье-сарафан в стиле cottagecore из льна, присборенный лиф, эстетика прерий» и генерирует сотни уникальных вариантов дизайна за несколько часов. Они быстро просматриваются, выбираются 10 лучших для цифрового сэмплирования, а сроки от выявления тренда до прототипа сокращаются с недель до дней, что резко повышает реакцию на рынок.

7. Будущие применения и направления

Гиперперсонализированная мода: Интеграция специфических для пользователя параметров тела и стилевых предпочтений для генерации индивидуально подогнанных, персонализированных дизайнов одежды.
Виртуальная примерка и мода для метавселенных: Использование в качестве фундаментального набора данных для генерации реалистичной цифровой одежды для аватаров в виртуальных мирах и социальных платформах.
Устойчивый дизайн: Оптимизация материалов и генерация безотходных выкроек на основе ИИ, информированная детализированными атрибутами одежды.
Интерактивные инструменты совместного дизайна: Диалоговые ИИ-ассистенты для дизайна в реальном времени, где дизайнеры могут итеративно уточнять концепции через диалог.
Кросс-модальный поиск в моде: Включение поиска предметов одежды с использованием эскизов, описательного языка или даже загруженных фотографий желаемых стилей, основанное на совместном пространстве эмбеддингов «текст-изображение», изученном из набора данных.
Этика и смягчение смещений: Будущая работа должна быть сосредоточена на аудите и устранении смещений в наборе данных для обеспечения равного представления различных типов телосложения, этнических групп и культур, предотвращая закрепление стереотипов индустрии моды.

8. Ссылки

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
AI Now Institute. (2019). Disability, Bias, and AI. Retrieved from https://ainowinstitute.org
Ge, Y., Zhang, R., Wang, X., Tang, X., & Luo, P. (2021). DeepFashion-MM: A Text-to-Image Synthesis Dataset for Fashion. ACM Multimedia.
Yu, J., Zhang, L., Chen, Z., et al. (2024). Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design. arXiv:2311.12067v3.