1. Введение
Генеративный ИИ (GenAI) революционизирует сложные промышленные рабочие процессы. В швейной индустрии традиционный конвейер — от потребностей клиента к дизайнеру, конструктору, портному и конечной доставке — дополняется большими мультимодальными моделями (LMM). Хотя современные LMM отлично справляются с анализом предпочтений клиентов для рекомендации товаров, существует значительный пробел в обеспечении детализированной, управляемой пользователем кастомизации. Пользователи всё чаще хотят выступать в роли собственных дизайнеров, создавая и итерируя дизайны до полного удовлетворения. Однако чисто текстовые промпты (например, «белый блейзер») страдают от неоднозначности, им не хватает профессиональной детализации (например, конкретного стиля воротника), которую дизайнер мог бы предположить. В данной статье представлен рабочий процесс Better Understanding Generation (BUG), который использует LMM для интерпретации входных данных image-into-prompt наряду с текстом, обеспечивая точные, итеративные правки дизайна одежды, которые устраняют разрыв между намерением пользователя-любителя и профессиональным результатом.
2. Методология
2.1 Рабочий процесс BUG
Рабочий процесс BUG имитирует реальную консультацию по дизайну. Он начинается с фазы инициализации, на которой базовое изображение одежды генерируется из текстового описания пользователя (например, «хлопковый блейзер с узором ткани»). Впоследствии пользователь может запрашивать правки через итеративный цикл. Каждая итерация включает текст-как-промпт (например, «изменить воротник») и, что критически важно, image-into-prompt — референсное изображение, иллюстрирующее желаемый стилевой элемент (например, фотографию пикового лацкана). LMM обрабатывает этот мультимодальный ввод для создания отредактированного дизайна, который пользователь может принять или использовать как основу для следующего уточнения.
2.2 Механизм Image-into-Prompt
Это ключевое нововведение. Вместо того чтобы полагаться исключительно на текстовые описания визуальных концепций, система принимает референсное изображение. Визуальный энкодер LMM извлекает визуальные признаки из этого референса, которые затем объединяются с закодированным текстовым промптом. Это слияние создаёт более богатый и менее неоднозначный управляющий сигнал для модели генерации/редактирования изображений, напрямую решая проблему «текстовой неопределённости», обозначенную во введении.
2.3 Архитектура LMM
Предлагаемая система использует конфигурацию с двумя LMM, на которую намекает Рисунок 2 как eLMM и mLMM. eLMM (Editor LMM) отвечает за понимание мультимодального запроса на правку и планирование модификации. mLMM (Modifier LMM) выполняет фактическое редактирование изображения, вероятно, построенное на диффузионной архитектуре, такой как Stable Diffusion 3, с условием на объединённое текстово-изобразительное представление. Такое разделение позволяет специализировать рассуждение и исполнение.
3. Датасет FashionEdit
3.1 Создание датасета
Для валидации рабочего процесса BUG авторы представляют датасет FashionEdit. Этот датасет разработан для имитации реальных рабочих процессов дизайна одежды. Он содержит триплеты: (1) базовое изображение одежды, (2) текстовая инструкция для правки (например, «изменить на стиль пикового лацкана») и (3) референсное изображение стиля, изображающее целевой атрибут. Датасет охватывает детализированные правки, такие как изменение стиля воротника (пиковый лацкан), модификации застёжки (двубортный на 4 пуговицы) и добавление аксессуаров (добавление бутоньерки).
3.2 Метрики оценки
Предлагаемая оценка трёхсторонняя:
- Сходство генерации: Измеряет, насколько близко отредактированный результат соответствует целевому атрибуту из референсного изображения, с использованием метрик, таких как LPIPS (Learned Perceptual Image Patch Similarity) и CLIP score.
- Удовлетворённость пользователя: Оценивается посредством экспертной оценки или опросов для определения практической полезности и соответствия намерению пользователя.
- Качество: Оценивает общую визуальную достоверность и связность сгенерированного изображения, отсутствие артефактов.
4. Эксперименты и результаты
4.1 Экспериментальная установка
Фреймворк BUG сравнивается с базовыми методами редактирования только по тексту (с использованием моделей, таких как Stable Diffusion 3 и DALL-E 2 с инпейнтингом) на датасете FashionEdit. Эксперименты проверяют способность системы выполнять точные, специфичные для атрибута правки, направляемые референсными изображениями.
4.2 Количественные результаты
В статье сообщается о превосходной производительности рабочего процесса BUG над базовыми методами только по тексту по всем трём метрикам оценки. Ключевые выводы включают:
- Более высокие оценки LPIPS/CLIP: Отредактированные изображения демонстрируют большее перцептивное сходство с целевыми атрибутами, заданными референсным изображением.
- Повышенные показатели удовлетворённости пользователей: В экспертной оценке результаты метода image-into-prompt последовательно оцениваются как более точно выполняющие запрос на правку.
- Сохранённое качество изображения: Рабочий процесс BUG сохраняет общее качество и связность базовой одежды при выполнении целевой правки.
4.3 Качественный анализ и кейс-стади
Рисунки 1 и 2 из PDF предоставляют убедительные качественные доказательства. Рисунок 1 иллюстрирует реальный сценарий: пользователь предоставляет изображение человека в белом блейзере и референсную картинку конкретного воротника, запрашивая модификацию. Текстового описания «белый блейзер» недостаточно. Рисунок 2 визуально противопоставляет итеративный процесс BUG (использующий и текст, и изображения) конвейеру редактирования только по тексту, показывая, как первый приводит к корректным дизайнам, в то время как второй часто даёт неверные или неоднозначные результаты для детализированных задач, таких как добавление бутоньерки или изменение на двубортный стиль на 4 пуговицы.
5. Технический анализ и фреймворк
5.1 Математическая формулировка
Основной процесс генерации можно представить как условный диффузионный процесс. Пусть $I_0$ — исходное базовое изображение. Запрос на правку — это пара $(T_{edit}, I_{ref})$, где $T_{edit}$ — текстовая инструкция, а $I_{ref}$ — референсное изображение. LMM кодирует это в объединённый вектор условий $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$, где $\mathcal{F}$ — сеть слияния (например, кросс-аттеншн). Отредактированное изображение $I_{edit}$ затем сэмплируется из обратного диффузионного процесса с условием $c$: $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ где $\theta$ — параметры mLMM. Ключевое отличие от стандартной диффузии текст-в-изображение — это обогащённое условие $c$, полученное из мультимодального слияния.
5.2 Пример аналитического фреймворка
Кейс: Редактирование лацкана блейзера
- Ввод: Базовое изображение ($I_0$): Изображение женщины в блейзере с лацканом типа «notch». Запрос на правку: $(T_{edit}="изменить на стиль пикового лацкана", I_{ref}=[изображение пикового лацкана])$.
- Обработка LMM: eLMM анализирует $T_{edit}$, чтобы определить целевую область («лацкан») и действие («изменить стиль»). Визуальный энкодер извлекает признаки из $I_{ref}$, визуально определяющие «пиковый лацкан».
- Слияние условий: Признаки для «лацкана» из $I_0$, текстовая концепция «пиковый» и визуальный шаблон из $I_{ref}$ выравниваются и сливаются в единую пространственно-осознанную карту условий для mLMM.
- Исполнение: mLMM (диффузионная модель) выполняет инпейнтинг/редактирование на области лацкана $I_0$, направляемая слитым условием, преобразуя лацкан типа «notch» в пиковый, сохраняя при этом остальную часть блейзера и позу модели.
- Вывод: $I_{edit}$: То же базовое изображение, но с точно модифицированным пиковым лацканом.
6. Будущие применения и направления
Рабочий процесс BUG имеет значение за пределами моды:
- Дизайн интерьеров и продуктов: Пользователи могли бы показывать референсное изображение ножки мебели или текстуры ткани для модификации 3D-модели или визуализации комнаты.
- Создание игровых ассетов: Быстрое прототипирование доспехов персонажей, оружия или окружения путём комбинирования базовых моделей со стилевыми референсами.
- Архитектурная визуализация: Модификация фасадов зданий или внутренней отделки на основе примеров изображений.
- Будущие исследования: Расширение на редактирование видео (изменение костюма актёра между кадрами), редактирование 3D-форм и улучшение композиционности правок (обработка нескольких, потенциально конфликтующих референсных изображений). Основное направление — улучшение способности LMM рассуждать о пространственных отношениях и физике, чтобы гарантировать, что правки не только визуально корректны, но и правдоподобны (например, бутоньерка правильно прикреплена к лацкану).
7. Ссылки
- Stable Diffusion 3: Research Paper, Stability AI.
- Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
- Isola, P., et al. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN — это связанный неконтролируемый подход).
- Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
- Brooks, T., et al. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- Li, H., et al. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.
8. Оригинальный анализ и экспертный комментарий
Ключевая идея: Эта статья — не просто очередное постепенное улучшение в редактировании изображений; это стратегический поворот в сторону мультимодального разрешения неоднозначности намерений. Авторы верно определяют, что следующий рубеж для генеративного ИИ в творческих областях — не сырая мощность, а точность коммуникации. Реальное узкое место — не способность модели сгенерировать «блейзер», а её способность понять, какой именно блейзер имеет в виду пользователь. Формализуя парадигму «изображение-как-референс» в бенчмарк «image-into-prompt» (BUG), они решают фундаментальную проблему неоднозначности, которая преследует совместное творчество человека и ИИ. Это выходит за рамки проторённого пути моделей вроде CycleGAN (которая изучает несопряжённый перенос стиля) или InstructPix2Pix (которая полагается только на текст), явно требуя от ИИ сопоставления визуальных образцов — когнитивного шага, более близкого к тому, как работают дизайнеры-люди.
Логический поток: Аргументация убедительна и хорошо структурирована. Она начинается с чёткой отраслевой проблемы (разрыв между любительскими текстовыми промптами и профессиональным дизайнерским результатом), предлагает когнитивно правдоподобное решение (имитация использования дизайнером референсных изображений), а затем подкрепляет его конкретным техническим рабочим процессом (BUG) и специализированным оценочным датасетом (FashionEdit). Использование архитектуры с двумя LMM (eLMM/mLMM) логически разделяет высокоуровневое планирование и низкоуровневое исполнение — шаблон проектирования, набирающий популярность в агентских системах ИИ, как видно в исследованиях таких институтов, как Google DeepMind, об использовании инструментов и планировании.
Сильные стороны и недостатки: Главная сила — это постановка проблемы и создание бенчмарка. Датасет FashionEdit, если станет общедоступным, может стать стандартом для оценки детализированного редактирования, подобно MS-COCO для детекции объектов. Интеграция удовлетворённости пользователя как метрики также заслуживает похвалы, признавая, что одних технических оценок недостаточно. Однако в статье, как представлено в отрывке, есть заметные пробелы. Технические детали механизма слияния LMM скудны. Как именно визуальные признаки из $I_{ref}$ выравниваются с пространственной областью в $I_0$? Посредством кросс-аттеншна, специального модуля пространственного выравнивания или чего-то ещё? Более того, оценка, хотя и многообещающая, требует более строгих абляционных исследований. Какая часть улучшения обусловлена референсным изображением, а какая — просто лучше настроенной базовой моделью? Сравнения с сильными базовыми методами, такими как InstructPix2Pix или основанное на точках редактирование в стиле DragGAN, предоставили бы более убедительные доказательства.
Практические выводы: Для отраслевых специалистов это исследование указывает чёткое направление: инвестируйте в мультимодальные уровни взаимодействия для ваших продуктов на основе генеративного ИИ. Простого текстового поля уже недостаточно. Пользовательский интерфейс должен позволять пользователям перетаскивать, сбрасывать или обводить референсные изображения. Для исследователей бенчмарк BUG открывает несколько направлений: 1) Тестирование на устойчивость — как модель работает с низкокачественными или семантически далёкими референсными изображениями? 2) Композиционность — может ли она обработать «сделать воротник из изображения A, а рукава из изображения B»? 3) Обобщение — можно ли применить принципы к немодным областям, таким как графический дизайн или промышленное CAD? Конечным испытанием будет способность этого подхода перейти от контролируемых датасетов к хаотичному, открытому творчеству реальных пользователей — задача, которая часто отделяет академические прототипы от коммерческих прорывов, как показала история с более ранними креативными инструментами на основе GAN.