1. 서론
생성형 인공지능(GenAI)은 복잡한 산업 워크플로우에 혁신을 가져오고 있습니다. 의류 산업에서 고객 요구부터 디자이너, 패턴 제작사, 재단사, 최종 납품에 이르는 전통적인 파이프라인은 대규모 멀티모달 모델(LMM)에 의해 보강되고 있습니다. 현재의 LMM은 상품 추천을 위한 고객 선호도 분석에 뛰어나지만, 세밀하고 사용자 주도적인 맞춤화를 가능하게 하는 데는 상당한 격차가 존재합니다. 사용자들은 점점 더 스스로 디자이너가 되어 만족할 때까지 디자인을 생성하고 반복하고자 합니다. 그러나 순수 텍스트 기반 프롬프트(예: "화이트 블레이저")는 모호함을 지니며, 디자이너가 추론할 수 있는 전문적인 세부 사항(예: 특정 칼라 스타일)이 부족합니다. 본 논문은 Better Understanding Generation (BUG) 워크플로우를 소개합니다. 이 워크플로우는 LMM을 활용하여 텍스트와 함께 이미지-투-프롬프트 입력을 해석하여, 아마추어 사용자의 의도와 전문가 수준의 결과물 사이의 간극을 메우는 정밀하고 반복적인 패션 디자인 편집을 가능하게 합니다.
2. 방법론
2.1 BUG 워크플로우
BUG 워크플로우는 실제 디자인 상담을 시뮬레이션합니다. 사용자의 텍스트 설명(예: "패브릭 패턴이 있는 코튼 블레이저")으로부터 기본 의류 이미지를 생성하는 초기화 단계로 시작합니다. 이후 사용자는 반복적인 루프를 통해 편집을 요청할 수 있습니다. 각 반복은 텍스트-프롬프트(예: "칼라를 수정해줘")와, 결정적으로 이미지-투-프롬프트—원하는 스타일 요소를 보여주는 참조 이미지(예: 피크드 라펠 사진)—를 포함합니다. LMM은 이 멀티모달 입력을 처리하여 편집된 디자인을 생성하며, 사용자는 이를 수락하거나 다음 개선을 위한 기반으로 사용할 수 있습니다.
2.2 이미지-투-프롬프트 메커니즘
이것이 핵심 혁신입니다. 시스템은 시각적 개념에 대한 텍스트 설명에만 의존하는 대신 참조 이미지를 수용합니다. LMM의 비전 인코더는 이 참조 이미지로부터 시각적 특징을 추출한 후, 인코딩된 텍스트 프롬프트와 융합합니다. 이 융합은 이미지 생성/편집 모델을 위한 더 풍부하고 모호하지 않은 조건화 신호를 생성하여, 서론에서 강조된 "텍스트 불확실성" 문제를 직접 해결합니다.
2.3 LMM 아키텍처
제안된 시스템은 그림 2에서 eLMM과 mLMM으로 암시된 듀얼-LMM 구성을 활용합니다. eLMM (편집자 LMM)은 멀티모달 편집 요청을 이해하고 수정 계획을 세우는 역할을 합니다. mLMM (수정자 LMM)은 실제 이미지 편집을 실행하며, 융합된 텍스트-이미지 표현에 조건화된 Stable Diffusion 3와 같은 확산 기반 아키텍처 위에 구축된 것으로 보입니다. 이러한 분리는 특화된 추론과 실행을 가능하게 합니다.
3. FashionEdit 데이터셋
3.1 데이터셋 구축
BUG 워크플로우를 검증하기 위해 저자들은 FashionEdit 데이터셋을 소개합니다. 이 데이터셋은 실제 의류 디자인 워크플로우를 시뮬레이션하도록 설계되었습니다. 이 데이터셋은 삼중항을 포함합니다: (1) 기본 의류 이미지, (2) 텍스트 편집 지시사항(예: "피크드 라펠 스타일로 변경"), 그리고 (3) 목표 속성을 묘사하는 참조 스타일 이미지. 데이터셋은 칼라 스타일 변경(피크드 라펠), 여밈 방식 수정(4단 더블브레스트), 액세서리 추가(부토니에르 추가)와 같은 세밀한 편집을 다룹니다.
3.2 평가 지표
제안된 평가는 세 가지 측면으로 이루어집니다:
- 생성 유사도: LPIPS(Learned Perceptual Image Patch Similarity) 및 CLIP 점수와 같은 지표를 사용하여 편집된 출력이 참조 이미지의 의도된 속성과 얼마나 밀접하게 일치하는지 측정합니다.
- 사용자 만족도: 실제 유용성과 사용자 의도와의 일치도를 평가하기 위해 인간 평가 또는 설문 조사를 통해 평가합니다.
- 품질: 생성된 이미지의 전반적인 시각적 충실도와 일관성, 아티팩트 없음을 평가합니다.
4. 실험 및 결과
4.1 실험 설정
BUG 프레임워크는 FashionEdit 데이터셋에서 텍스트 전용 편집 방법(Stable Diffusion 3 및 DALL-E 2와 인페인팅을 사용한 모델 등)을 기준으로 벤치마킹되었습니다. 실험은 참조 이미지에 의해 안내되는 정밀하고 속성별 편집을 수행하는 시스템의 능력을 테스트합니다.
4.2 정량적 결과
본 논문은 BUG 워크플로우가 세 가지 평가 지표 모두에서 텍스트 전용 기준선보다 우수한 성능을 보인다고 보고합니다. 주요 결과는 다음과 같습니다:
- 더 높은 LPIPS/CLIP 점수: 편집된 이미지는 참조 이미지가 지정한 목표 속성과 더 큰 지각적 유사성을 보입니다.
- 증가한 사용자 만족도: 인간 평가에서 이미지-투-프롬프트 방법의 출력물이 편집 요청을 더 정확하게 이행하는 것으로 일관되게 평가되었습니다.
- 유지된 이미지 품질: BUG 워크플로우는 목표 편집을 수행하면서 기본 의류의 전반적인 품질과 일관성을 유지합니다.
4.3 정성적 분석 및 사례 연구
PDF의 그림 1과 2는 설득력 있는 정성적 증거를 제공합니다. 그림 1은 실제 시나리오를 보여줍니다: 사용자가 화이트 블레이저를 입은 사람의 이미지와 특정 칼라의 참조 사진을 제공하여 수정을 요청합니다. "화이트 블레이저"라는 텍스트 전용 설명은 불충분합니다. 그림 2는 반복적인 BUG 프로세스(텍스트와 이미지 프롬프트 모두 사용)와 텍스트 전용 편집 파이프라인을 시각적으로 대조하며, 전자가 부토니에르 추가나 4단 더블브레스트 스타일로 변경과 같은 세밀한 작업에 대해 올바른 디자인으로 이어지는 반면 후자는 종종 잘못되거나 모호한 결과를 생성하는 방식을 보여줍니다.
5. 기술 분석 및 프레임워크
5.1 수학적 공식화
핵심 생성 과정은 조건부 확산 과정으로 구성될 수 있습니다. $I_0$를 초기 기본 이미지라고 합시다. 편집 요청은 $(T_{edit}, I_{ref})$ 쌍이며, 여기서 $T_{edit}$는 텍스트 지시사항이고 $I_{ref}$는 참조 이미지입니다. LMM은 이를 결합된 조건화 벡터 $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$로 인코딩합니다. 여기서 $\mathcal{F}$는 융합 네트워크(예: 크로스 어텐션)입니다. 편집된 이미지 $I_{edit}$는 $c$에 조건화된 역확산 과정에서 샘플링됩니다: $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ 여기서 $\theta$는 mLMM의 매개변수입니다. 표준 텍스트-투-이미지 확산과의 주요 차별점은 멀티모달 융합에서 파생된 풍부한 조건화 $c$에 있습니다.
5.2 분석 프레임워크 예시
사례: 블레이저 라펠 편집
- 입력: 기본 이미지 ($I_0$): 노치 라펠 블레이저를 입은 여성 이미지. 편집 요청: $(T_{edit}="피크드 라펠 스타일로 변경", I_{ref}=[피크드 라펠 이미지])$.
- LMM 처리: eLMM은 $T_{edit}$를 구문 분석하여 목표 영역("라펠")과 동작("스타일 변경")을 식별합니다. 비전 인코더는 $I_{ref}$로부터 "피크드 라펠"을 시각적으로 정의하는 특징을 추출합니다.
- 조건화 융합: $I_0$의 "라펠"에 대한 특징, 텍스트 개념 "피크드", 그리고 $I_{ref}$의 시각적 템플릿이 정렬되어 mLMM을 위한 통합된 공간 인식 조건화 맵으로 융합됩니다.
- 실행: mLMM(확산 모델)은 융합된 조건화의 안내를 받아 $I_0$의 라펠 영역에서 인페인팅/편집을 수행하여, 블레이저의 나머지 부분과 모델의 포즈를 보존하면서 노치 라펠을 피크드 라펠로 변환합니다.
- 출력: $I_{edit}$: 동일한 기본 이미지이지만 정확하게 수정된 피크드 라펠이 있습니다.
6. 향후 응용 및 방향
BUG 워크플로우는 패션을 넘어서는 함의를 지닙니다:
- 인테리어 및 제품 디자인: 사용자는 가구 다리나 패브릭 질감의 참조 이미지를 보여주어 3D 모델이나 방 렌더링을 수정할 수 있습니다.
- 게임 에셋 제작: 기본 모델과 스타일 참조를 결합하여 캐릭터 갑옷, 무기 또는 환경의 신속한 프로토타이핑이 가능합니다.
- 건축 시각화: 예시 이미지를 기반으로 건물 외관이나 인테리어 마감재를 수정합니다.
- 향후 연구: 비디오 편집(프레임 전체에서 배우의 의상 변경), 3D 형상 편집, 그리고 편집의 구성성 향상(여러 개의 잠재적으로 상충되는 참조 이미지 처리)으로 확장하는 것입니다. 주요 방향은 편집이 시각적으로만 올바를 뿐 아니라 타당하도록(예: 부토니에르가 라펠에 올바르게 부착됨) LMM의 공간 관계 및 물리학에 대한 추론을 강화하는 것입니다.
7. 참고문헌
- Stable Diffusion 3: Research Paper, Stability AI.
- Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
- Isola, P., et al. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN은 관련된 비지도 접근법입니다).
- Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
- Brooks, T., et al. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- Li, H., et al. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.
8. 원문 분석 및 전문가 논평
핵심 통찰: 이 논문은 단순히 이미지 편집의 점진적 개선이 아닌, 멀티모달 의도 명확화를 향한 전략적 전환입니다. 저자들은 창의적 영역에서 생성형 AI의 다음 개척지가 원시적인 힘이 아니라 정밀한 커뮤니케이션이라는 점을 올바르게 지적합니다. 진정한 병목은 모델이 "블레이저"를 생성하는 능력이 아니라 사용자가 마음속에 품고 있는 어떤 특정 블레이저를 이해하는 능력입니다. "참조로서의 이미지" 패러다임을 "이미지-투-프롬프트" 벤치마크(BUG)로 공식화함으로써, 그들은 인간-AI 공동 창작을 괴롭히는 근본적인 모호성 문제에 도전하고 있습니다. 이는 CycleGAN(비짝 스타일 변환을 학습)이나 InstructPix2Pix(텍스트에만 의존)와 같은 잘 닦인 길을 넘어서, AI가 시각적 예시를 상호 참조하도록 명시적으로 요구함으로써 인간 디자이너가 작업하는 방식에 더 가까운 인지적 단계로 나아갑니다.
논리적 흐름: 논증은 설득력 있고 잘 구조화되어 있습니다. 명확한 산업적 문제점(아마추어 텍스트 프롬프트와 전문 디자인 결과물 사이의 격차)으로 시작하여, 인지적으로 타당한 해결책(디자이너의 참조 이미지 사용 모방)을 제안한 다음, 구체적인 기술 워크플로우(BUG)와 맞춤형 평가 데이터셋(FashionEdit)으로 뒷받침합니다. 듀얼-LMM 아키텍처(eLMM/mLMM)의 사용은 고수준 계획과 저수준 실행을 논리적으로 분리하며, 이는 Google DeepMind와 같은 기관의 도구 사용 및 계획에 관한 연구에서 볼 수 있듯이 에이전트 기반 AI 시스템에서 주목받는 디자인 패턴입니다.
강점과 결점: 주요 강점은 문제 설정과 벤치마크 생성입니다. FashionEdit 데이터셋이 공개된다면, 객체 탐지의 MS-COCO와 마찬가지로 세밀한 편집 평가를 위한 표준이 될 수 있습니다. 사용자 만족도를 지표로 통합한 것도 칭찬할 만하며, 기술 점수만으로는 부족하다는 점을 인정합니다. 그러나 발췌문에 제시된 대로 이 논문에는 주목할 만한 공백이 있습니다. LMM 융합 메커니즘의 기술적 세부 사항이 부족합니다. $I_{ref}$의 시각적 특징이 $I_0$의 공간 영역과 어떻게 정확히 정렬됩니까? 크로스 어텐션, 전용 공간 정렬 모듈, 아니면 다른 무엇을 통해서입니까? 더욱이, 평가는 유망하지만 더 엄격한 제거 연구가 필요합니다. 개선의 얼마나 많은 부분이 참조 이미지에서 비롯되고, 단순히 더 잘 조정된 기본 모델에서 비롯됩니까? InstructPix2Pix나 DragGAN 스타일의 포인트 기반 편집과 같은 강력한 기준선과의 비교는 더 강력한 증거를 제공할 것입니다.
실행 가능한 통찰: 산업 실무자들에게 이 연구는 명확한 지침을 보냅니다: 생성형 AI 제품을 위한 멀티모달 상호작용 계층에 투자하라. 단순한 텍스트 상자로는 더 이상 충분하지 않습니다. UI는 사용자가 참조 이미지를 끌어다 놓거나 동그라미칠 수 있도록 허용해야 합니다. 연구자들에게 BUG 벤치마크는 여러 가지 길을 열어줍니다: 1) 견고성 테스트—저품질이거나 의미론적으로 먼 참조 이미지에서 모델은 어떻게 수행됩니까? 2) 구성성—"이미지 A의 칼라와 이미지 B의 소매로 만들어라"를 처리할 수 있습니까? 3) 일반화—원칙을 그래픽 디자인이나 산업 CAD와 같은 비패션 영역에 적용할 수 있습니까? 궁극적인 시험은 이 접근법이 통제된 데이터셋에서 실제 사용자의 지저분하고 개방된 창의성으로 이동할 수 있는지 여부일 것입니다. 이는 이전 GAN 기반 창의적 도구의 역사가 보여주듯이, 학계 프로토타입과 상업적 돌파구를 구분하는 도전입니다.